Professional Documents
Culture Documents
ARCHIVOS DE ECONOMA
Documento 362
24 de noviembre de 2009.
Resumen
1 Ver http://www.sisben.gov.co/
2
ingresos de encuestas en las que se presume existe informacin de mejor
calidad para esta variable como lo son la Gran Encuesta Integrada de Hogares
(GEIH) y la Encuesta de Calidad de Vida (ECV) para el ao 2008. La principal
contribucin de este documento es proponer y probar un nuevo mtodo de
imputacin ms flexible y que proporciona mejores resultados respecto a los
mtodos convencionales.
2. Datos
2 A diferencia de las encuestas que se utilizan para estimar el modelo de ingresos, que son un corte
transversal para el ao 2008, la base Sisbn contiene el acumulado desde el inicio la encuesta de todos los
encuestados en diferentes momentos del tiempo pero no es posible diferenciar el momento en que fueron
encuestados. La seleccin de la poblacin objetivo se defini con base en los criterios establecidos para
analizar la tendencia de ahorro de la poblacin ms pobre y que actualmente no aporta a seguridad social,
de acuerdo con lo requerido por un estudio que se encuentra en curso en la Direccin de Estudios
Econmicos.
3
de trabajar, en la cual no se especifica el tipo de ingresos que recibe la persona
sino que simplemente se preguntan los ingresos recibidos en el ltimo mes.
Debido a esta imprecisin, se asume que los ingresos reportados corresponden
fundamentalmente a los ingresos de carcter monetario ya que es poco probable
que las personas reporten otro tipo de ingresos distintos a estos3.
Adicionalmente, como se mencion en la introduccin, existen razones
importantes para pensar que la variable de ingresos en esta encuesta se
encuentra fuertemente subestimada. Adems de presentar el sesgo habitual de
los ingresos causado porque las personas tienden a reportar un monto inferior a
lo que realmente reciben, la encuesta Sisbn puede tener un sesgo an mayor
debido a que est dirigida a focalizar un programa de subsidios a la poblacin
ms necesitada. De esta manera, los entrevistados tienen an ms incentivos a
reportar ingresos bajos (o iguales a cero) porque pueden pensar que de esta
manera es ms factible que sean incluidos en el programa de beneficios4.
Por otra parte, dado que los ingresos no son determinantes para calcular el
puntaje Sisbn, esta variable tambin puede presentar un problema de error de
medicin. Esto se evidencia, entre otras cosas, en que en esta encuesta no es
posible diferenciar entre los individuos que no reportan ingresos y los que
reportan ingresos iguales a cero teniendo en cuenta que en cualquiera de los
dos casos la variable registra valores de cero. Esto puede deberse a que la
recoleccin de la informacin de esta variable no se realiza de manera tan
rigurosa precisamente porque no es crucial clasificar la poblacin de acuerdo a
sus ingresos.
3 Los ingresos monetarios se definen como los ingresos laborales ms los ingresos por segunda actividad
en el caso de los ocupados, y los ingresos por trabajo ms arriendo mas pensiones, en el caso de los
desocupados e inactivos.
4 Sin embargo, a pesar de que el subregistro de ingresos parece ser muy elevado, existe una gran
consistencia en las tres encuestas que se analizan en este documento. Por ejemplo, la proporcin de
ingresos iguales a cero en las poblaciones seleccionadas de las tres encuestas es muy similar, como se
mostrar ms adelante.
4
los ingresos de las personas. Con este propsito, este documento utiliza dos
encuestas que contienen informacin similar a la que aparece en la base Sisbn
en trminos de caractersticas de las personas pero que adicionalmente cuentan
con preguntas de ingresos con menor error que la del Sisbn. Una de las fuentes
de informacin es la ECV 2008, de la cual es posible calcular el nivel Sisbn
igual que con la encuesta del Sisbn destinada para este fin, por lo que la
poblacin objetivo con la que se realizan las estimaciones se selecciona de la
misma forma que se explic anteriormente.
Por otra parte, la otra encuesta que se utiliza es la GEIH a nivel nacional para el
ao 2008. Debido a que las preguntas de esta encuesta no permiten calcular el
nivel Sisbn como en la ECV 2008, fue necesario definir ciertos criterios para
encontrar un conjunto de personas con caractersticas lo ms cercanas posibles a
las de las seleccionadas con la base Sisbn. De esta forma, se depur la base
para escoger los individuos:
i) No afiliados a seguridad social en salud (en condicin de cotizantes o
beneficiarios) o quienes en esta pregunta responden no saben / no
informan.
ii) Si estn afiliados, estn en el rgimen subsidiado o no saben / no
informan.
iii) Son beneficiarios (no pagan por seguridad social).
iv) Se encuentran en los estratos 1 y 2.
v) Son mayores de 16 aos.
vi) Tienen ingreso monetario inferior a dos salarios mnimos de 2008 ($
923.000)5.
vii) Si son pensionados, el valor de su pensin es inferior a un salario
mnimo de 2008 ($461.500).
5Los ingresos superiores a dos salarios mnimos fueron acotados para sobrepasar este mximo, siempre y
cuando cumplieran con las dems caractersticas especificadas en los puntos i) a vii).
5
de la poblacin que se encuentra en niveles Sisbn 1 y 2, ms del 80 por ciento
se encuentra en estratos 1 y 2 (41,8 por ciento pertenece al estrato 1 y 41,3 por
ciento a estrato 2).
6
en el grupo de personas que reportan ingreso positivo, donde la diferencia es
cercana al doble de los promedios observados en el Sisbn.
Analizando los ingresos por nivel educativo en la base Sisbn se encuentra que
el 60 por ciento de los individuos sin educacin, el 50 por ciento de los
individuos con primaria, el 62 por ciento de la poblacin con secundaria y el 69
por ciento de la poblacin con educacin universitaria tienen ingresos iguales a
cero. Para las encuestas de hogares y de calidad de vida estas proporciones se
mantienen. Cabe resaltar que, contrario a lo esperado, las proporciones de
poblacin sin ingresos son las ms altas en los grupos de individuos con mayor
educacin. Nuevamente se observan promedios de ingreso mayores en la GEIH
y la ECV respecto a la base Sisbn para esta clasificacin.
7
ingreso posiblemente por la forma en que se construy esta variable en la GEIH
dada la carencia de informacin para esta regin. En la ECV, adems de Bogot
y San Andrs, la regin Orinoquia y Amazonia pasa a ser una de las regiones
con mayor ingreso promedio, mientras que la regin Atlntica entra al grupo de
las regiones con menores ingresos promedio.
6 Para una descripcin detallada de las variables incluidas en el modelo ver anexo 2.
8
La seleccin de las variables incluidas en el modelo obedece a la necesidad de
contar con variables iguales en las tres bases debido a que para cada parmetro
estimado en el modelo le debe corresponder una caracterstica (variable
explicativa) en la base Sisbn con el fin de estimar x 'i .
Ahora bien, para calcular los niveles de los ingresos en pesos, es necesario
realizar una correccin basada en la varianza de los errores. La necesidad de
esta correccin surge porque obtener la exponencial de los x 'i va a subestimar
Donde 0 es el valor esperado del error el cual se puede obtener del coeficiente
9
Donde yi* es un modelo de variable latente que cumple con los supuestos
V { i } = 2 h( z i' )
decir, los errores tienen varianza constante. En trminos operativos se corre una
regresin de un vector de unos frente a las K+1+J variables iG xi' , iG ( 2) y
7 G y G ( 2)
i i
son los residuos generalizados de primer y segundo orden, respectivamente. Donde los
residuos generalizados se definen por (Verbeek, 2004, p. 225):
i ( y i xi' )
iG = = si y *i = y i
( xi / )
'
iG = si y *i 0, y i = 0
1 ( xi' / )
10
Lagrange (LM) la cual consiste en multiplicar el nmero de observaciones y el
R2 no centrado (N*R2) y contrastar el resultado contra un estadstico Chi-
cuadrado con J grados de libertad.
i4
-3 si y i > 0
4
G ( 4)
i
=
3 iG ( 2 ) + ( xi' / ) 3 iG en otro caso
9 Verbeek (2004) no menciona ningn tipo de correccin por tamao de muestra, lo que lleva a que en este
ejercicio las diferentes pruebas se rechacen a cualquier nivel de significancia debido al elevado nmero de
observaciones.
11
Dadas las falencias encontradas en el modelo Tobit que se mencionan en el
apartado anterior, no es posible encontrar estimadores consistentes derivando y
maximizando la funcin de verosimilitud. En esta seccin se propone un
enfoque alternativo ms flexible con el que se pretende superar las dificultades
impuestas por las fallas en la validacin de los supuestos sobre los errores y
encontrar estimadores consistentes para los parmetros de la ecuacin de
ingresos.
[
g ( y ) = max g ( yi* ), g (0) ]
g ( yi* ) = h( x, ) +
12
que la forma funcional del modelo (la funcin de regresin) es especificada
paramtricamente con base en supuestos plausibles. El estimador es
semiparamtrico debido a que la media no censurada xi' es parametrizada
pero la distribucin del error no lo es. Por consiguiente, bajo este enfoque se
obtienen estimadores consistentes incluso cuando la distribucin del error es no
normal o heteroscedstica10.
10 Chay y Honor (1998) encuentran que la prdida en eficiencia asociada al uso del estimador
semiparamtrico puede ser muy baja comparada con el sesgo que se genera en el estimador de mxima
verosimilitud cuando existe no normalidad y heteroscedasticidad de los errores (p.13).
11 Los modelos semiparmetricos a los que se refiere literalmente este procedimiento se conocen en la
Powell (2001).
13
cuadrados ordinarios para obtener los coeficientes a partir de la distribucin
recensurada (Chay y Powell, 2001, p. 32).
13 Las estimaciones no se realizan con el estimador SCLS debido a que empricamente se ha encontrado
que el estimador CLAD da estimadores ms precisos que el SCLS. Ver Chay y Powell, 2001 y Wilhelm
(2008).
14
comparacin de los resultados obtenidos con distintos percentiles y en el
requisito de tener densidad positiva en el percentil donde se estima el modelo.
Adicionalmente, se tuvo en cuenta que entre ms alto el percentil, mayor es el
nmero de observaciones que se eliminan en el paso de recensuramiento y por
lo tanto, menor el nmero de observaciones utilizadas en el proceso de
estimacin14.
14 Para una aplicacin de la metodologa quantile censored regression ver Jalan y Ravallion (1998)
15
de comparacin se usa para medir el impacto del tratamiento en esos grupos
bajo diferentes supuestos de identificacin15.
16
aproximarse a la distribucin de ingresos original de la encuesta de hogares
adems de capturar nicamente la media de los ingresos como en el caso de los
modelos Tobit y Quantile Censored Regression. Como desventaja se tiene que
los grupos que se conforman para hacer el matching pueden llegar a ser muy
pequeos, pudiendo as afectar los resultados de la imputacin.
17 Dado que en la base Sisbn el nmero de observaciones es considerablemente mayor que en la GEIH, el
muestreo de cada grupo debe hacerse con reemplazo de manera que se trasladen valores de ingreso de la
GEIH a la base Sisbn tantas veces como individuos haya en cada celda. Ver un ejemplo de este
procedimiento en el anexo 4.
17
Jefe de hogar
5. Resultados
Esta seccin discute los resultados obtenidos para las tres metodologas de
imputacin descritas en el apartado anterior18. Para el caso del modelo Tobit, la
tabla 119 muestra los resultados de la estimacin por mxima verosimilitud, bajo
el supuesto que los errores cumplen con normalidad y homoscedasticidad. En
la primera columna se presentan los resultados obtenidos con la GEIH, donde
se destaca que todas las variables excepto educacin y San Andrs, presentan el
signo esperado. En el caso de la educacin se presenta efecto negativo y no
significativo, que no es consistente con la teora, pues es de esperarse que a
mayores aos de escolaridad el individuo perciba un mayor ingreso. Por su
18 Los modelos Tobit y semiparamtrico se estimaron con el programa Stata 10 y el matching se realiz en
SAS 9.2.
19 Se realizaron estimaciones midiendo la variable educacin en trminos de aos de educacin y dummies
de nivel educativo, encontrndose que las diferencias entre las estimaciones no son significativas. Para
efectos de este documento se presentan los resultados empleando la variable educacin en trminos de
aos de educacin.
18
parte, la dummy para San Andrs presenta un efecto positivo que es
significativo, el cual puede deberse a la forma en que se construy esta variable.
En la segunda columna se presentan los resultados arrojados por el modelo
estimado con la ECV. Se destaca que todas las variables incluidas presentan el
signo esperado; sin embargo, el coeficiente de San Andrs no es significativo.
20 Los resultados de las pruebas para la GEIH rechazan las hiptesis nulas a cualquier nivel de
19
Tabla 1: Estimaciones modelo Tobit
(0.0801) (0.302)
oriamazonia -0.119 -0.511
(0.0933) (0.323)
pacfica -0.704*** -0.719**
(0.0825) (0.289)
san andrs 0.0842** -0.577
(0.0381) (0.422)
valle -1.127*** -0.892***
(0.102) (0.304)
constante 7.231*** 8.148***
(0.128) (0.482)
20
imputacin con cada una de las bases. Tanto para la GEIH, como para la ECV
esta metodologa no presenta una variacin significativa en el nmero de ceros
imputados respecto a los ceros originales. Sin embargo, con el modelo Tobit
estos se incrementan de 55.6 en los datos originales del Sisbn a 60.1 por ciento
con la imputacin en las dos bases.
0.600 0.600
0.500 0.500
Frecuencia relativa
Frecuencia relativa
0.400 0.400
0.300 0.300
0.200
0.200
0.100
0.100
0.000
0.000
0-1
1-10
10-10.5
10.5-11
11-11.5
11.5-12
12-12.5
12.5-13
13-13.5
13.5-15
0-1
1-10
10-10.5
10.5-11
11-11.5
11.5-12
12-12.5
12.5-13
13-13.5
13.5-15
Log (ingreso monetario)
Log (ingreso monetario)
SISBN GEIH Tobit GEIH SISBN ECV Tobit ECV
21
imputacin se hace sobre los datos de la GEIH y de la ECV21. Teniendo en
cuenta lo anterior, es necesario realizar la imputacin de la variable ingreso
empleando otras metodologas que nos proporcione estimadores consistentes y
una mejor distribucin de los datos imputados respecto a los datos originales de
las bases fuente.
21 Estos resultados no se reportan en el documento pero puede ser solicitados a las autoras.
22
Tabla 2: Estimaciones modelo semiparamtrico
(0.00788) (0.0403)
oriamazonia -0.0529*** -0.00160
(0.00977) (0.0440)
pacfica -0.345*** -0.470***
(0.00829) (0.0392)
san andrs -0.120*** -0.0144
(0.00478) (0.0572)
valle -0.179*** -0.184***
(0.00948) (0.0407)
constante 11.47*** 11.64***
(0.0132) (0.0667)
23
a un nivel de confianza de 99% y presenta rdenes de magnitud razonables. La
edad en la que se maximiza el ingreso monetario es consistente en ambas
estimaciones (43 aos). Las dummies para hombre, jefe de hogar, y zona urbana
indican que, todo lo dems constante, las personas con estas caractersticas
tienen ingresos mayores que las del grupo base (mujer, miembros del hogar
diferente al jefe y personas que habitan en el rea rural, respectivamente).
24
proporcin de ceros con la imputacin se incrementa levemente respecto a la
proporcin de la base original del Sisbn. Adicionalmente, los datos tienden a
acumularse alrededor del nivel 12.5 13, que corresponde a valores cercanos al
salario mnimo y donde muestra una distribucin casi normal, que no
corresponde a la distribucin encontrada en la base de la GEIH. Los resultados
son invariables si se usa la base de datos de la encuesta de calidad de vida,
como se muestra en la parte derecha del grfico 3.
0.6 0.6
0.4 0.4
0.3 0.3
0.2 0.2
0.1 0.1
0 0
0-1
1-10
10-10.5
10.5-11
11-11.5
11.5-12
12-12.5
12.5-13
13-13.5
13.5-15
0-1
1-10
10-10.5
10.5-11
11-11.5
11.5-12
12-12.5
12.5-13
13-13.5
13.5-15
25
diferencias de alrededor de $80,000 con respecto a los datos originales. El
modelo semiparamtrico arroja un promedio de ingreso imputado de $139,619
con la GEIH y de $136,586 con la ECV, presentando una diferencia cercana a
$8,000 con la primera y de menos de $1,000 con la segunda. En general, esta
tendencia se mantiene para todos los subgrupos considerados en este
documento.
22 Debe notarse que el 0.91 por ciento de la poblacin a la que no le correspondi ninguna celda en la base
Sisbn muy probablemente quedara catalogada con ingresos iguales a cero debido a sus caractersticas
(personas entre 16 a 20 aos y sin educacin). De esta manera, si se suma este porcentaje al porcentaje de
ceros obtenido a travs del matching, las diferencias entre la proporcin de ceros original y la imputada es
prcticamente imperceptible.
26
cada punto de la distribucin de la GEIH y de la base Sisbn con imputacin no
difieran significativamente.
0.600
0.500
Frecuencia relativa
0.400
0.300
0.200
0.100
0.000
0-1
1-10
10-10.5
10.5-11
11-11.5
11.5-12
12-12.5
12.5-13
13-13.5
13.5-15
Log (ingreso monetario)
6. Conclusiones
27
de las encuestas de hogares y de calidad de vida utilizando variables que
tambin fuera posible encontrar en la base Sisbn. Con los parmetros
obtenidos de estos modelos y las caractersticas observadas en la poblacin del
Sisbn se calcularon los ingresos para cada uno de los individuos contenidos en
esta base. El modelo no paramtrico se bas en un procedimiento matching que,
sin tener que estimar ninguna ecuacin, selecciona aleatoriamente a un
individuo de la base fuente (GEIH), observa su ingreso y traslada el valor
observado a un individuo con iguales caractersticas en la base Sisbn.
28
coeficientes. Ahora bien, teniendo en cuenta que la utilidad del modelo
radicaba en la imputacin de ingresos en la base del Sisbn, los modelos no
presentaron los resultados esperados. A pesar del buen ajuste los modelos
estimados con las bases fuente, la imputacin no replic la distribucin de los
ingresos en esas bases ni en la base Sisbn. Sin embargo, debido a que estos
mtodos pretenden modelar la media y no la distribucin, el modelo
semiparamtrico present un buen resultado en este sentido dado que los
clculos de promedios de ingreso en varias desagregaciones arrojaron
resultados muy similares a los de las encuestas de hogares y de calidad de vida.
En resumen, las metodologas tradicionales para ajuste de ecuaciones de Mincer
no son muy efectivas a la hora de realizar imputaciones ni de modelar la
distribucin de la variable de inters.
El tercer enfoque result ser mucho ms apropiado para los propsitos de este
trabajo. La imputacin por matching es muy transparente en tanto no es
necesario estimar ningn modelo economtrico y permite acercar la
distribucin de los datos de inters a la distribucin de los datos fuente. Por
estas razones, la metodologa no paramtrica fue la escogida para realizar la
imputacin de ingresos definitiva teniendo en cuenta que con la misma
informacin arroja un mejor resultado.
29
Referencias
Buchinsky, Moshe (1994). Changes in the U.S. Wage Structure 1963-1987:
Application of Quantile Regression, Econometrica, Vol. 62, No. 2, pp. 405-
458.
30
Medina H., Fernando y Marco Galvn (2007). Imputacin de Datos: Teora y
Prctica, Serie Estudios Estadsticos y Prospectivos, No. 54, CEPAL.
Pagan, Adrian y Frank Vella (1989). Diagnostic Tests for Models Based on
Individual Data: A Survey, Journal of Applied Econometrics, Vol. 4, S29-S59.
31
Tan, Andrew y Teofilo Ozuna (1994). Testing for Misspecification in a
Censored-Demand Model, Review of Agricultural Economics, No. 16, pp-
293-299.
Verbeek, Marno (2004). A Guide to Modern Econometrics, 3ra ed., John Wiley and
Sons.
32
ANEXO 1. ESTADSTICAS DESCRIPTIVAS BASES ORIGINALES
Tabla A1-1.
Estrato
Nivel Sisbn 0 1 2 3 4 5 6 Total
33
Tabla A1-2. Ingresos por Gnero, Zona y Educacin. Sisbn, GEIH, ECV.
SISBN GEIH ECV
Con Ingreso Con Ingreso Con Ingreso
Sin ingreso Total Sin ingreso Total Sin ingreso Total
ingreso promedio * ingreso promedio * ingreso promedio *
Gnero
6,607,560 2,229,965 8,837,525 43,232 7,299,189 3,618,808 10,917,997 81,576 6,183,344 2,356,393 8,539,737 67,425
Mujer
75% 25% 100% 171,332 67% 33% 100% 246,117 72% 28% 100% 244,354
2,758,047 5,261,044 8,019,091 121,782 2,981,521 5,705,812 8,687,333 230,053 2,479,240 4,739,970 7,219,210 216,725
Hombre
34% 66% 100% 185,625 34% 66% 100% 350,265 34% 66% 100% 330,083
Zona
6,331,220 4,996,965 11,328,185 90,885 7,350,428 6,492,383 13,842,811 155,782 7,027,501 5,473,733 12,501,234 140,553
Urbano
56% 44% 100% 206,038 53% 47% 100% 332,152 56% 44% 100% 321,004
3,034,387 2,494,044 5,528,431 59,526 2,930,282 2,832,237 5,762,519 127,155 1,635,083 1,622,630 3,257,713 117,654
Rural
55% 45% 100% 131,947 51% 49% 100% 258,712 50% 50% 100% 236,211
Educacin
1,145,783 779,650 1,925,433 52,173 1,041,666 747,769 1,789,435 97,360 1,031,344 753,001 1,784,345 89,753
Sin educacin
60% 40% 100% 128,848 58% 42% 100% 232,985 58% 42% 100% 212,682
4,227,711 4,269,816 8,497,527 81,988 3,472,910 4,101,302 7,574,212 155,421 3,282,220 3,359,819 6,642,039 138,374
Primaria
50% 50% 100% 163,167 46% 54% 100% 287,030 49% 51% 100% 273,552
3,784,084 2,349,033 6,133,117 86,502 4,785,292 3,895,128 8,680,420 150,008 3,856,248 2,620,456 6,476,704 139,853
Secundaria
62% 38% 100% 225,849 55% 45% 100% 334,299 60% 40% 100% 345,659
208,029 92,510 300,539 103,050 975,619 577,289 1,552,908 151,220 492,772 363,087 855,859 181,519
Universitaria
69% 31% 100% 334,780 63% 37% 100% 406,782 58% 42% 100% 427,873
9,365,607 7,491,009 16,856,616 80,600 10,280,710 9,324,620 19,605,330 147,368 8,662,584 7,096,363 15,758,947 135,820
Total
56% 44% 100% 181,370 52% 48% 100% 309,846 55% 45% 100% 301,616
* La columna de ingreso promedio corresponde a los ingresos promedio de toda la poblacin en la primera fila y a los ingresos promedio de la poblacin con ingreso distinto de cero en la segunda.
Fuente: Clculos de las autoras con base en las encuestas Sisbn corte noviembre de 2008, GEIH 2008, ECV 2008.
34
Tabla A1-3. Ingresos por Regin. Sisbn, GEIH, ECV.
1,175,894 832,289 2,008,183 78,272 1,333,558 1,023,774 2,357,332 132,607 1,070,108 728,084 1,798,192 122,647
Antioquia
59% 41% 100% 188,858 57% 43% 100% 305,341 60% 40% 100% 302,908
2,526,993 1,756,258 4,283,251 73,625 2,672,932 2,139,295 4,812,227 131,626 2,461,118 1,991,460 4,452,578 121,941
Atlntica
59% 41% 100% 179,560 56% 44% 100% 296,086 55% 45% 100% 272,639
694,965 798,054 1,493,019 131,728 1,238,668 1,182,627 2,421,295 188,787 796,386 647,850 1,444,236 176,675
Bogot
47% 53% 100% 246,440 51% 49% 100% 386,520 55% 45% 100% 393,858
1,177,215 936,411 2,113,626 66,207 1,252,871 1,236,851 2,489,722 144,278 901,909 792,540 1,694,449 142,360
Central
56% 44% 100% 149,440 50% 50% 100% 290,424 53% 47% 100% 304,366
1,769,738 1,498,570 3,268,308 78,249 1,758,719 1,833,403 3,592,122 161,419 1,470,794 1,338,865 2,809,659 152,010
Oriental
54% 46% 100% 170,657 49% 51% 100% 316,263 52% 48% 100% 318,998
Orinoquia y 355,063 360,719 715,782 96,570 145,813 133,158 278,971 179,933 245,811 221,101 466,912 185,365
Amazonia 50% 50% 100% 191,625 52% 48% 100% 376,966 53% 47% 100% 391,447
817,672 623,760 1,441,432 51,265 957,490 927,344 1,884,834 122,227 835,765 796,948 1,632,713 111,838
Pacfica
57% 43% 100% 118,466 51% 49% 100% 248,426 51% 49% 100% 229,124
9,091 8,898 17,989 148,816 1,955,362 1,618,180 3,573,542 125,436 8,501 8,095 16,596 210,740
San Andrs
51% 49% 100% 300,859 55% 45% 100% 277,010 51% 49% 100% 432,049
838,976 676,050 1,515,026 97,730 920,659 848,168 1,768,827 150,637 872,192 571,420 1,443,612 125,212
Valle
55% 45% 100% 219,013 52% 48% 100% 314,149 60% 40% 100% 316,330
9,365,607 7,491,009 16,856,616 80,600 10,280,710 9,324,620 19,605,330 147,368 8,662,584 7,096,363 15,758,947 135,820
Total
56% 44% 100% 181,370 52% 48% 100% 309,846 55% 45% 100% 301,616
* La columna de ingreso promedio corresponde a los ingresos promedio de toda la poblacin en la primera fila y a los ingresos promedio de la poblacin con ingreso distinto de cero en la segunda.
Fuente: Clculos de las autoras con base en las encuestas Sisbn corte noviembre de 2008, GEIH 2008, ECV 2008.
35
ANEXO 2. DESCRIPCIN DE VARIABLES
VARIABLES DESCRIPCIN
Dependiente
Lograritmo natural del ingreso monetario para el ao 2008, definido como los ingresos
laborales ms los ingresos por segunda actividad en el caso de los ocupados, y los
ling
ingresos por trabajo ms arriendo ms pensiones, en el caso de los desocupados e
inactivos.
Independientes
Caracteristicas Demogrficas
educacin Aos de educacin completados por el individuo
edad Edad reportada por el individuo en aos
edad^2 Edad al cuadrado
hombre Variable dummy, 1=El individuo es hombre
jefe Variable dummy, 1=El individuo es jefe de hogar
hayconyuge Variable dummy, 1=Hay conyuge en el hogar en el que el individuo vive
Zona
urbano Variable dummy, 1=El individuo vive en el rea urbana
Actividad en el ltimo Mes
Conjunto de variables que describen la actividad principal que el individuo realiz durante el ltimo mes, teniendo como
referencia estar ocupado.
desocupado Variable dummy, 1= El individuo estuvo desocupado
estudiante Variable dummy, 1= El individuo estudi
hogar Variable dummy, 1= El individuo se dedic a oficios del hogar
invlido Variable dummy, 1= El individuo es incapacitado permanente para trabajar
Variable dummy, 1= El individuo realiz una actividad diferente a las descritas
otra
anteriormente
Regin
Conjunto de variables que describen la regin en la que reside el individuo, teniendo como referencia la regin Bogot.
antioquia Variable dummy, 1= El individuo reside en el departamento de Antioquia
Variable dummy, 1= El individuo reside en alguno de los siguientes departamentos:
atlntica
Atlntico, Bolivar, Cesar, Crdoba, La Guajira, Magdalena, Sucre
Variable dummy, 1= El individuo reside en alguno de los siguientes departamentos:
central
Caldas, Huila, Quindio, Risaralda, Tolima
Variable dummy, 1= El individuo reside en alguno de los sigueintes departamentos:
oriental
Boyacs, Cundinamarca, Meta, Norte de Santander, Santander
Variable dummy, 1= El individuo reside en alguno de los siguientes departamentos:
oriamazonia Amazonas, Caquet, Arauca, Casanare, Guaina, Guaviare, Putumayo, Vaups,
Vichada. En la GEIH solamente se encuesta Caquet.
Variable dummy, 1= El individuo reside en aguno de los siguientes departamentos:
pacfica
Cauca, Choc, Nario
Variable dummy, 1 = El individuo reside en San Andrs y Providencia. En la GEIH esta
san andrs regin no est definida, por lo tanto se crea la dummy con los datos de la regin
Atlntica excluyendo a Barranquilla, Santa Marta y Cartagena.
valle Variable dummy, 1= El individuo reside en el departamento del Valle del Cauca
36
ANEXO 3. ESTADSTICAS DESCRIPTIVAS DATOS IMPUTADOS
Tabla A3-1. Promedios de Ingresos Originales e Imputados con la GEIH por Gnero, Zona y Educacin.
Gnero
Mujer 43,232 171,332 81,576 246,117 19,984 100,134 51,979 244,998 73,595 238,105
Hombre 121,782 185,625 230,053 350,265 130,675 209,028 236,203 362,631 233,286 353,845
Zona
Urbano 90,885 206,038 155,782 332,152 92,475 232,779 147,431 349,867 163,575 338,507
Rural 59,526 131,947 127,155 258,712 32,004 77,717 123,611 293,963 120,035 261,207
Educacin
Sin educacin 52,173 128,848 97,360 232,985 59,004 171,698 97,736 278,440 98,887 248,242
Primaria 81,988 163,167 155,421 287,030 86,823 190,383 153,478 328,281 160,737 303,305
Secundaria 86,502 225,849 150,008 334,299 58,680 166,562 134,768 351,467 150,097 348,569
Universitaria 103,050 334,780 151,220 406,782 43,999 166,824 115,076 353,038 140,089 409,160
Total 80,600 181,370 147,368 309,846 72,642 180,688 139,619 331,559 149,513 314,384
Fuente: Clculos de las autoras con base en las encuestas Sisbn corte noviembre de 2008, GEIH 2008, ECV 2008.
37
Tabla A3-2. Promedios de Ingresos Originales e Imputados con la GEIH por Regin.
Regin
Antioquia 78,272 188,858 132,607 305,341 58,811 161,190 113,823 306,541 136,876 305,076
Atlntica 73,625 179,560 131,626 296,086 31,132 84,159 116,788 311,533 127,374 300,885
Bogot 131,728 246,440 188,787 386,520 154,802 318,124 187,304 365,700 221,981 390,324
Central 66,207 149,440 144,278 290,424 67,534 169,058 118,714 295,314 147,150 297,320
Oriental 78,249 170,657 161,419 316,263 71,510 171,862 136,595 320,569 162,440 321,580
Orinoquia y
96,570 191,625 179,933 376,966 345,953 704,803 446,559 580,047 189,905 375,343
Amazonia
Pacfica 51,265 118,466 122,227 248,426 40,017 103,288 93,126 240,133 105,115 233,708
San Andrs 148,816 300,859 125,436 277,010 128,561 296,839 149,891 341,316 n.d. n.d.
Valle 97,730 219,013 150,637 314,149 38,185 94,625 126,148 307,284 156,803 321,505
Total 80,600 181,370 147,368 309,846 72,642 180,688 139,619 331,559 149,513 314,384
Fuente: Clculos de las autoras con base en las encuestas Sisbn corte noviembre de 2008, GEIH 2008, ECV 2008.
38
Tabla A3-3. Promedios de Ingresos Originales e Imputados con la ECV por Gnero, Zona y Educacin.
Gnero
Zona
Educacin
Sin educacin 52,173 128,848 89,753 212,682 34,595 101,584 88,757 245,048
39
Tabla A3-4. Promedios de Ingresos Originales e Imputados con la ECV por Regin.
Regin
San Andrs 148,816 300,859 210,740 432,049 57,166 132,811 180,899 394,830
40
ANEXO 4. EJEMPLO METODOLOGA MATCHING CON VALORES HIPOTTICOS
Ingreso Ingreso
Individuo Caractersticas Celda Individuo Caractersticas Celda
Observado Observado
Edad Educacin Zona Edad Educacin Zona
3 26-30 secundaria urbana 1 0 1 26-30 secundaria urbana 1 0
6 26-30 secundaria urbana 1 0 2 26-30 secundaria urbana 1 80,000
7 26-30 secundaria urbana 1 729,984 5 26-30 secundaria urbana 1 0
11 26-30 secundaria urbana 1 80,000 6 26-30 secundaria urbana 1 300,000
14 26-30 secundaria urbana 1 300,000 8 26-30 secundaria urbana 1 729,984
17 26-30 secundaria urbana 1 80,000 9 41-45 primaria urbana 2 0
20 26-30 secundaria urbana 1 0 10 41-45 primaria urbana 2 20,000
24 26-30 secundaria urbana 1 0 11 41-45 primaria urbana 2 320,000
1 41-45 primaria urbana 2 449,984 13 41-45 primaria urbana 2 0
2 41-45 primaria urbana 2 20,000 14 41-45 primaria urbana 2 449,984
4 41-45 primaria urbana 2 0 17 31-35 sin educacin rural 3 0
5 41-45 primaria urbana 2 0 18 31-35 sin educacin rural 3 100,000
8 41-45 primaria urbana 2 0 19 31-35 sin educacin rural 3 0
9 41-45 primaria urbana 2 320,000 20 31-35 sin educacin rural 3 30,000
10 31-35 sin educacin rural 3 30,000 21 31-35 sin educacin rural 3 0
12 31-35 sin educacin rural 3 0 22 31-35 sin educacin rural 3 149,984
13 31-35 sin educacin rural 3 0 23 31-35 sin educacin rural 3 0
15 31-35 sin educacin rural 3 149,984 25 31-35 sin educacin rural 3 0
16 31-35 sin educacin rural 3 0
18 31-35 sin educacin rural 3 0
19 31-35 sin educacin rural 3 30,000
21 31-35 sin educacin rural 3 0
22 31-35 sin educacin rural 3 0
23 31-35 sin educacin rural 3 0
25 31-35 sin educacin rural 3 100,000
26 31-35 sin educacin rural 3 0
41