You are on page 1of 42

Repblica de Colombia

Departamento Nacional de Planeacin


Direccin de Estudios Econmicos

ARCHIVOS DE ECONOMA

Ingresos en el Sistema de Identificacin de Potenciales


Beneficiarios de Programas Sociales (Sisbn):
Tres Metodologas de Imputacin

Nancy Aireth DAZA BAEZ


Catalina FRANCO BUITRAGO

Documento 362
24 de noviembre de 2009.

La serie ARCHIVOS DE ECONOMIA es un medio de divulgacin de la Direccin de Estudios Econmicos, no


es un rgano oficial del Departamento Nacional de Planeacin. Sus documentos son de carcter provisional, de
responsabilidad exclusiva de sus autores y sus contenidos no comprometen a la institucin.

Consultar otros Archivos de economa en:


http://www.dnp.gov.co/PortalWeb/EstudiosEconomicos/ArchivosdeEconoma/tabid/106/Default.aspx
http://www.dotec-colombia.org/index.php?option=com_content&task=view&id=4943
Ingresos en el Sistema de Identificacin de
Potenciales Beneficiarios de Programas Sociales
(Sisbn):
Tres Metodologas de Imputacin

Nancy Aireth DAZA BAEZ


Catalina FRANCO BUITRAGO

Resumen

La base de datos del Sisbn presenta problemas de subreporte y


error de medicin en su variable de ingresos lo que impide
realizar anlisis con esta variable. Este documento propone tres
metodologas de imputacin a partir de informacin obtenida
de la encuesta de hogares y de la encuesta de calidad de vida
para el ao 2008. Dos de los enfoques, el paramtrico y
semiparamtrico, estiman ecuaciones de Mincer a partir de las
encuestas y utilizan los parmetros estimados junto con las
caractersticas observadas en los individuos del Sisbn para
predecir el valor de los ingresos en la base Sisbn. El enfoque no
paramtrico selecciona aleatoriamente el ingreso de un
individuo en la encuesta y lo empareja a un individuo con
iguales caractersticas en la base Sisbn. El estudio encuentra
que el enfoque no paramtrico arroja mejores resultados en
cuanto a la obtencin de promedios y distribucin de los
ingresos similares a los datos originales de las encuestas.

Cdigos JEL: C13, C14, C24, C81

Palabras clave: Sisbn; imputacin de ingresos; mtodos


paramtricos, semiparamtricos y no paramtricos.

Consultoras, Direccin de Estudios Econmicos, Departamento Nacional de Planeacin;


ndaza@dnp.gov.co, cfranco@dnp.gov.co. Agradecemos a Gabriel Piraquive, Manuel Ramrez, Jess Otero
y los dems participantes del seminario interno de la DEE por su orientacin y comentarios, a Hugo opo,
Guillermo Rivas y Leonardo Garzn por su colaboracin en algunos aspectos tcnicos de esta
investigacin.
1. Introduccin

El Sisbn es el Sistema de Identificacin de Potenciales beneficiarios de Programas


Sociales. Esta es una herramienta de identificacin, que organiza a los individuos de
acuerdo con su estndar de vida y permite la seleccin tcnica, objetiva, uniforme y
equitativa de beneficiarios de los programas sociales que maneja el Estado, de acuerdo
con su condicin socioeconmica particular.1La clasificacin de estos individuos se
da a travs del ndice Sisbn, el cual ordena la poblacin en seis niveles con base
en sus condiciones de vida. Los individuos catalogados como potenciales
beneficiarios son los que se encuentran en los tres primeros niveles y tendrn
acceso a subsidios totales o parciales que otorga el Estado de acuerdo con la
reglamentacin de cada programa.

Teniendo en cuenta el propsito de la encuesta Sisbn, es muy posible encontrar


subreporte en cierta informacin, especialmente en la variable ingreso, en la
cual se genera concentracin en valores cercanos a cero. Asimismo, dicha
variable puede presentar problemas de error de medicin debido a la falta de
controles sobre esta, al no ser una variable relevante para el clculo del ndice
Sisbn.

Debido a los problemas encontrados en los ingresos de la base Sisbn, resulta


pertinente realizar una correccin de esta variable con el fin de lograr una
aproximacin ms cercana a los ingresos de las personas, de manera que sea
posible desarrollar estudios econmicos ms amplios a partir de la informacin
contenida en esta encuesta. En este sentido el propsito de este trabajo consiste
en implementar diferentes metodologas de imputacin para corregir la
variable ingresos en la encuesta Sisbn. La imputacin se realiza para todos los
individuos de la base que se encuentren en niveles 1 y 2 del Sisbn y que estn
en edad de cotizar al sistema de seguridad social.

El fundamento de las tres metodologas propuestas (paramtrica,


semiparamtrica y no paramtrica) consiste en utilizar la informacin de

1 Ver http://www.sisben.gov.co/

2
ingresos de encuestas en las que se presume existe informacin de mejor
calidad para esta variable como lo son la Gran Encuesta Integrada de Hogares
(GEIH) y la Encuesta de Calidad de Vida (ECV) para el ao 2008. La principal
contribucin de este documento es proponer y probar un nuevo mtodo de
imputacin ms flexible y que proporciona mejores resultados respecto a los
mtodos convencionales.

Este documento se divide en seis secciones, siendo la primera esta introduccin.


En la segunda seccin se hace una descripcin de los datos de la Encuesta de
Calidad de Vida y de la Gran Encuesta Integrada de Hogares a utilizar en el
estudio. En la tercera se realiza un anlisis del comportamiento de las
principales variables. En la cuarta se describen las diferentes metodologas de
imputacin de datos empleadas en el estudio: estimacin paramtrica (modelo
Tobit), estimacin semiparamtrica, (estimador CLAD) y la estimacin no
paramtrica (matching). En la quinta se muestran los resultados de las
diferentes estimaciones y de las imputaciones realizadas. Finalmente, en la
sexta seccin se concluye.

2. Datos

La seleccin de la poblacin objetivo en la base del Sisbn con corte a


noviembre de 20082 se realiz con base en los siguientes criterios:
i) Personas mayores de 16 aos (en edad de cotizar a pensiones)
ii) Clasificadas en niveles 1 y 2 de Sisbn
iii) Personas que no pertenezcan a regmenes especiales o al rgimen
contributivo como cotizantes.

En trminos de la variable que se pretende modelar, la encuesta Sisbn cuenta


con una pregunta sobre ingresos a nivel individual para las personas en edad

2 A diferencia de las encuestas que se utilizan para estimar el modelo de ingresos, que son un corte
transversal para el ao 2008, la base Sisbn contiene el acumulado desde el inicio la encuesta de todos los
encuestados en diferentes momentos del tiempo pero no es posible diferenciar el momento en que fueron
encuestados. La seleccin de la poblacin objetivo se defini con base en los criterios establecidos para
analizar la tendencia de ahorro de la poblacin ms pobre y que actualmente no aporta a seguridad social,
de acuerdo con lo requerido por un estudio que se encuentra en curso en la Direccin de Estudios
Econmicos.

3
de trabajar, en la cual no se especifica el tipo de ingresos que recibe la persona
sino que simplemente se preguntan los ingresos recibidos en el ltimo mes.
Debido a esta imprecisin, se asume que los ingresos reportados corresponden
fundamentalmente a los ingresos de carcter monetario ya que es poco probable
que las personas reporten otro tipo de ingresos distintos a estos3.
Adicionalmente, como se mencion en la introduccin, existen razones
importantes para pensar que la variable de ingresos en esta encuesta se
encuentra fuertemente subestimada. Adems de presentar el sesgo habitual de
los ingresos causado porque las personas tienden a reportar un monto inferior a
lo que realmente reciben, la encuesta Sisbn puede tener un sesgo an mayor
debido a que est dirigida a focalizar un programa de subsidios a la poblacin
ms necesitada. De esta manera, los entrevistados tienen an ms incentivos a
reportar ingresos bajos (o iguales a cero) porque pueden pensar que de esta
manera es ms factible que sean incluidos en el programa de beneficios4.

Por otra parte, dado que los ingresos no son determinantes para calcular el
puntaje Sisbn, esta variable tambin puede presentar un problema de error de
medicin. Esto se evidencia, entre otras cosas, en que en esta encuesta no es
posible diferenciar entre los individuos que no reportan ingresos y los que
reportan ingresos iguales a cero teniendo en cuenta que en cualquiera de los
dos casos la variable registra valores de cero. Esto puede deberse a que la
recoleccin de la informacin de esta variable no se realiza de manera tan
rigurosa precisamente porque no es crucial clasificar la poblacin de acuerdo a
sus ingresos.

Por lo anterior, cualquier investigacin que haga uso de la informacin de


ingresos del Sisbn necesariamente debe considerar corregir esta variable a
travs de alguna metodologa que permita tener una aproximacin ms real a

3 Los ingresos monetarios se definen como los ingresos laborales ms los ingresos por segunda actividad
en el caso de los ocupados, y los ingresos por trabajo ms arriendo mas pensiones, en el caso de los
desocupados e inactivos.
4 Sin embargo, a pesar de que el subregistro de ingresos parece ser muy elevado, existe una gran

consistencia en las tres encuestas que se analizan en este documento. Por ejemplo, la proporcin de
ingresos iguales a cero en las poblaciones seleccionadas de las tres encuestas es muy similar, como se
mostrar ms adelante.

4
los ingresos de las personas. Con este propsito, este documento utiliza dos
encuestas que contienen informacin similar a la que aparece en la base Sisbn
en trminos de caractersticas de las personas pero que adicionalmente cuentan
con preguntas de ingresos con menor error que la del Sisbn. Una de las fuentes
de informacin es la ECV 2008, de la cual es posible calcular el nivel Sisbn
igual que con la encuesta del Sisbn destinada para este fin, por lo que la
poblacin objetivo con la que se realizan las estimaciones se selecciona de la
misma forma que se explic anteriormente.

Por otra parte, la otra encuesta que se utiliza es la GEIH a nivel nacional para el
ao 2008. Debido a que las preguntas de esta encuesta no permiten calcular el
nivel Sisbn como en la ECV 2008, fue necesario definir ciertos criterios para
encontrar un conjunto de personas con caractersticas lo ms cercanas posibles a
las de las seleccionadas con la base Sisbn. De esta forma, se depur la base
para escoger los individuos:
i) No afiliados a seguridad social en salud (en condicin de cotizantes o
beneficiarios) o quienes en esta pregunta responden no saben / no
informan.
ii) Si estn afiliados, estn en el rgimen subsidiado o no saben / no
informan.
iii) Son beneficiarios (no pagan por seguridad social).
iv) Se encuentran en los estratos 1 y 2.
v) Son mayores de 16 aos.
vi) Tienen ingreso monetario inferior a dos salarios mnimos de 2008 ($
923.000)5.
vii) Si son pensionados, el valor de su pensin es inferior a un salario
mnimo de 2008 ($461.500).

La justificacin del criterio iv) se basa en la alta correlacin existente entre el


nivel Sisbn y el estrato socioeconmico (ver tabla A1-1), donde se destaca que

5Los ingresos superiores a dos salarios mnimos fueron acotados para sobrepasar este mximo, siempre y
cuando cumplieran con las dems caractersticas especificadas en los puntos i) a vii).

5
de la poblacin que se encuentra en niveles Sisbn 1 y 2, ms del 80 por ciento
se encuentra en estratos 1 y 2 (41,8 por ciento pertenece al estrato 1 y 41,3 por
ciento a estrato 2).

Con la poblacin seleccionada de esta manera, los tamaos de la poblacin


objetivo son de 20,478 en la ECV 2008 y 374,775 en la GEIH 2008.

3. Comportamiento de las Variables

Con el objetivo de determinar si la depuracin de las bases es la correcta y por


ende corroborar si las muestras son comparables de acuerdo a las caractersticas
de los individuos, se realiza un anlisis de las principales variables.

En el anlisis de la variable ingreso en el Sisbn, se encuentra que el 56 por


ciento reporta ingresos monetarios iguales a cero. Las cifras correspondientes
para la GEIH y la ECV son 52 y 55 por ciento, respectivamente, las cuales no
difieren sustancialmente de las observadas en la base Sisbn. En este sentido, se
corrobora que las personas que reportan ingresos iguales a cero son consistentes
en todas las encuestas. En trminos generales, los ingresos promedio de la
poblacin tanto total como con ingresos positivos son mayores en la GEIH y en
la ECV en 70 por ciento aproximadamente respecto a los de la base Sisbn.

La tabla A1-2 del anexo reporta los ingresos promedio y la participacin de la


poblacin con y sin ingreso dentro de cada una de las encuestas para diferentes
subgrupos de la poblacin. Clasificando por gnero, se encuentra que del total
de mujeres en la base Sisbn, el 75 por ciento no recibe ingreso y los ingresos
promedio son de $43,232 incluyendo todas las mujeres y de $171,332 si slo se
tienen en cuenta aquellas que tienen un ingreso positivo. En cuanto a los
hombres, el 34 por ciento no recibe ingresos y el promedio es de $121,782 para
todos los hombre y $185,625 para los hombres con ingresos positivos. En la
GEIH y la ECV las proporciones de hombres y mujeres con y sin ingreso se
mantienen pero los promedios son significativamente mayores, especialmente

6
en el grupo de personas que reportan ingreso positivo, donde la diferencia es
cercana al doble de los promedios observados en el Sisbn.

En trminos de zona (urbano, rural) se encuentra que en promedio el 73 por


ciento de la poblacin se encuentra en zonas urbanas y el 27 por ciento restante
en zonas rurales. Tanto en la zona urbana como en la rural cerca del 56 por
ciento de los individuos no reporta ingresos y los que lo hacen tienen un
ingreso promedio de $206,038 en el rea urbana y $131,947 en el rea rural para
la encuesta Sisbn. Para las otras encuestas este comportamiento se mantiene,
sin embargo, los ingresos promedios para cada una de las zonas se incrementa
en un poco ms de $100,000.

Analizando los ingresos por nivel educativo en la base Sisbn se encuentra que
el 60 por ciento de los individuos sin educacin, el 50 por ciento de los
individuos con primaria, el 62 por ciento de la poblacin con secundaria y el 69
por ciento de la poblacin con educacin universitaria tienen ingresos iguales a
cero. Para las encuestas de hogares y de calidad de vida estas proporciones se
mantienen. Cabe resaltar que, contrario a lo esperado, las proporciones de
poblacin sin ingresos son las ms altas en los grupos de individuos con mayor
educacin. Nuevamente se observan promedios de ingreso mayores en la GEIH
y la ECV respecto a la base Sisbn para esta clasificacin.

Realizando un anlisis de acuerdo a regin geogrfica (tabla A1-3) se encuentra


que la proporcin de individuos con y sin ingreso para las tres encuestas no
presenta diferencias significativas en todas las regiones. En la encuesta Sisbn
las regiones que presentan un ingreso promedio mayor entre la poblacin que
reporta ingresos positivos son San Andrs con $300,859 y Bogot con $246,440,
mientras que las de menores promedios de ingreso son la Pacfica con $118,466
y la Central con $149,440. En las dems encuestas se mantienen las posiciones
de Bogot y la regin Pacfica, pero en la GEIH la regin Orinoquia y Amazonia
presenta el segundo ingreso ms alto, lo cual puede atribuirse a que esta
encuesta solo reporta informacin de Caquet dentro de esta regin. San
Andrs, por su parte, pasa a estar en las regiones con menores promedios de

7
ingreso posiblemente por la forma en que se construy esta variable en la GEIH
dada la carencia de informacin para esta regin. En la ECV, adems de Bogot
y San Andrs, la regin Orinoquia y Amazonia pasa a ser una de las regiones
con mayor ingreso promedio, mientras que la regin Atlntica entra al grupo de
las regiones con menores ingresos promedio.

4. Metodologas para Imputacin de Datos

Dentro de las diferentes metodologas de imputacin, una de las ms


destacadas y eficientes es la imputacin mltiple la cual requiere una
proporcin baja de datos faltantes. Debido a que no es posible diferenciar datos
faltantes de ceros en la encuesta Sisbn y a que si se asume que todos los ceros
son missing se pierde eficiencia en el proceso de imputacin, no es adecuado
utilizar este procedimiento para la base Sisbn.

Una alternativa a la imputacin mltiple consiste en estimar modelos de


variable dependiente censurada con datos provenientes de encuestas en las
cuales la calidad de la variable ingresos sea mejor. Con estos modelos se
obtienen parmetros que, junto con las caractersticas de la poblacin de la base
Sisbn, determinan un nuevo nivel de ingreso para todos los individuos dentro
del marco del anlisis de regresin tradicional.

Con las metodologas paramtrica y semiparamtrica se estima el modelo


censurado con los datos de la GEIH y la ECV, en el cual la variable dependiente
es el logaritmo natural de los ingresos monetarios, de acuerdo con la siguiente
ecuacin6:

lingi = 0 + 1 * hombre + 2 * edad + 3 * urbano+ 4 * edu +


5 * jefe + 6 * hayconyuge+ 7 * desocupado+ 8 * estudia+ 9 * hogar +
8
10 * invalido+ 11 * otra + 12 * edadsq+ 13 * edusq + j * region+ i
j =1

6 Para una descripcin detallada de las variables incluidas en el modelo ver anexo 2.

8
La seleccin de las variables incluidas en el modelo obedece a la necesidad de
contar con variables iguales en las tres bases debido a que para cada parmetro
estimado en el modelo le debe corresponder una caracterstica (variable
explicativa) en la base Sisbn con el fin de estimar x 'i .

Ahora bien, para calcular los niveles de los ingresos en pesos, es necesario
realizar una correccin basada en la varianza de los errores. La necesidad de
esta correccin surge porque obtener la exponencial de los x 'i va a subestimar

sistemticamente el valor esperado de y (Wooldridge, p. 202). De esta manera,


el valor esperado de y condicional en x est dado por la exponencial del
estimador insesgado de la varianza dividida por 2 por la exponencial de x 'i .

No obstante, esta transformacin tambin se sustenta en el supuesto de


normalidad de los errores. Con el fin de tener una prediccin que no dependa
del supuesto de normalidad, Wooldridge (2000) propone multiplicar la
exponencial de los valores predichos por el valor esperado del error de la
siguiente forma:
y = 0 exp(log y )

Donde 0 es el valor esperado del error el cual se puede obtener del coeficiente

asociado a la nica variable independiente (no se incluye intercepto) de la


regresin entre la variable dependiente original y exp(log y ) .

4.1 Modelo Paramtrico (Tobit)

El primer enfoque para realizar el ejercicio de imputacin requiere la estimacin


por mxima verosimilitud de un modelo Tobit, el cual relaciona una variable
aleatoria y con un vector de variables independientes X de tamao K, donde la
variable dependiente es continua en valores estrictamente mayores a cero y
exactamente igual a cero para una fraccin no trivial de la poblacin. La
especificacin del modelo est dada por:

y i* = xi' + u i , u i | xi ~ Normal (0, 2 )


y i = max(0, y i* )

9
Donde yi* es un modelo de variable latente que cumple con los supuestos

tradicionales de un modelo lineal, es decir, es normal y homoscedstico y no


presenta censuramiento. La variable dependiente observada puede tomar
diferentes valores de acuerdo con la especificacin de yi* , tal que y i es igual a

yi* cuando y i* 0 y y i = 0 cuando y i* < 0 .

Como se ha discutido ampliamente en la literatura, los estimadores de mxima


verosimilitud obtenidos del modelo Tobit son sensibles a los supuestos de
homoscedasticidad y normalidad, lo que lleva a que bajo incumplimiento de
estos supuestos, los parmetros obtenidos sean inconsistentes. En este contexto,
es necesario evaluar la especificacin del modelo de variable latente a travs de
las pruebas basadas en momentos muestrales condicionados propuestas por
Chesher y Irish (1987) y Pagan y Vella (1989).

Verbeek (2004) con base en el trabajo de Pagan y Vella (1989), desarrolla la


derivacin estadstica y computacional de estas pruebas. La especificacin de la
prueba de homoscedasticidad se basa en la funcin:

V { i } = 2 h( z i' )

Donde h() es una funcin diferenciable y estrictamente positiva, y z i es un

vector J-dimensional de variables explicativas omitidas sin incluir intercepto. La


hiptesis a contrastar est dada por H 0 : = 0 , lo que implica que V { i } = 2 ; es

decir, los errores tienen varianza constante. En trminos operativos se corre una
regresin de un vector de unos frente a las K+1+J variables iG xi' , iG ( 2) y

G ( 2) z i' 7. La prueba de homoscedasticidad es una prueba de multiplicador de


i

7 G y G ( 2)
i i
son los residuos generalizados de primer y segundo orden, respectivamente. Donde los
residuos generalizados se definen por (Verbeek, 2004, p. 225):
i ( y i xi' )
iG = = si y *i = y i

( xi / )
'
iG = si y *i 0, y i = 0
1 ( xi' / )

10
Lagrange (LM) la cual consiste en multiplicar el nmero de observaciones y el
R2 no centrado (N*R2) y contrastar el resultado contra un estadstico Chi-
cuadrado con J grados de libertad.

Finalmente, la prueba de no-normalidad desarrollada por Verbeek (2004)

emplea los momentos de simetra ( E{ i3 ) 3 | xi } = 0 ) y curtosis

( E{ i4 ) 4 3 | xi } = 0 ) que estn implcitos bajo el concepto de normalidad. Para

este test, la hiptesis de normalidad implica que


E{ iG ( 3) | xi } = 0 y E{ iG ( 4 ) | xi } = 0 8; lo que en trminos operacionales se traduce

en una regresin de un vector de unos frente a las K+3 variables iG xi' , iG ( 2) ,

G (3) y G ( 4 ) . La prueba LM se especifica igual que en el caso de


i i

homoscedasticidad pero el contraste se realiza contra una Chi-cuadrado con 2


grados de libertad.

Como se ver en la seccin de resultados, se encuentra que el modelo Tobit


presenta problemas de especificacin de acuerdo con los resultados de las
pruebas de heteroscedasticidad y no-normalidad9. Por lo anterior es necesario
revisar otros modelos que ayuden a solucionar estos problemas y de esta
manera obtener estimadores consistentes.

4.2 Modelo Semiparamtrico

8 Los residuos generalizados de tercer y cuarto momento se definen por:


i3
si yi > 0
3
G ( 3)
i
=

[2 + ( xi' / ) 2 ] iG en otro caso

i4
-3 si y i > 0

4
G ( 4)
i
=

3 iG ( 2 ) + ( xi' / ) 3 iG en otro caso

9 Verbeek (2004) no menciona ningn tipo de correccin por tamao de muestra, lo que lleva a que en este

ejercicio las diferentes pruebas se rechacen a cualquier nivel de significancia debido al elevado nmero de
observaciones.

11
Dadas las falencias encontradas en el modelo Tobit que se mencionan en el
apartado anterior, no es posible encontrar estimadores consistentes derivando y
maximizando la funcin de verosimilitud. En esta seccin se propone un
enfoque alternativo ms flexible con el que se pretende superar las dificultades
impuestas por las fallas en la validacin de los supuestos sobre los errores y
encontrar estimadores consistentes para los parmetros de la ecuacin de
ingresos.

Partiendo de que el modelo Tobit es muy sensible a la no normalidad y


heteroscedasticidad de los errores, el supuesto i ~ Normal (0, 2 ) se puede

relajar de dos maneras: la primera consiste en incorporar la heteroscedasticidad


explcitamente mediante un modelo del tipo i2 = exp( z i' ) , donde es necesario

estimar , es decir, conocer la forma de la heteroscedasticidad. La segunda hace

uso de distribuciones ms flexibles para los errores en lugar de usar la


distribucin normal. Debido a que el modelo Tobit presenta tanto
heteroscedasticidad como no normalidad, como se muestra en la seccin de
resultados, y la heteroscedasticidad es de forma no conocida, resulta
conveniente implementar el enfoque semiparamtrico en el cual ambos
problemas pueden abordarse.

En este sentido, puesto que el modelo presenta censuramiento, la forma


funcional que se debe considerar, al igual que en el modelo Tobit, es el mximo
entre cero y el valor que adopte la funcin de la variable latente:

[
g ( y ) = max g ( yi* ), g (0) ]
g ( yi* ) = h( x, ) +

Donde las funciones g(y) y h( x, ) se comportan de acuerdo con los modelos

tradicionales pero el trmino de error no adopta ninguna distribucin conocida.


Esto quiere decir que a diferencia de la estimacin paramtrica, en la cual se
asume que los errores se distribuyen de forma normal, la semiparamtrica no
hace ningn supuesto en trminos de la distribucin de los errores, a pesar de

12
que la forma funcional del modelo (la funcin de regresin) es especificada
paramtricamente con base en supuestos plausibles. El estimador es
semiparamtrico debido a que la media no censurada xi' es parametrizada

pero la distribucin del error no lo es. Por consiguiente, bajo este enfoque se
obtienen estimadores consistentes incluso cuando la distribucin del error es no
normal o heteroscedstica10.

Si bien varios estimadores semiparamtricos para modelos de regresin con


censura se han propuesto en la literatura, en este trabajo se realizan los
ejercicios economtricos utilizando un estimador similar al de desviacin
mnima absoluta. El procedimiento general de los modelos censurados consiste
en recensurar la variable dependiente de forma que su distribucin quede
simtrica (ver grfico 2) y luego estimar el modelo por mnimos cuadrados para
obtener los coeficientes de los datos recensurados11.

En el grfico 1, la variable dependiente y* se encuentra distribuida


simtricamente alrededor del punto x ' ; sin embargo, debido al censuramiento

localizado en el punto b (en el caso del modelo de ingresos en el Sisbn b


corresponde a cero), la distribucin de la variable dependiente observada y es
asimtrica: la cola izquierda de la distribucin se encuentra apilada en el punto
de censuramiento. La simetra puede ser recuperada censurando
simtricamente la distribucin de la variable dependiente y desde arriba en el
punto 2 x ' b (ver grfico 2)12. El estimador se construye repitiendo el proceso

de censurar simtricamente la variable dependiente usando las estimaciones


del modelo en cada iteracin (que elimina las observaciones con valores
predichos por la funcin de regresin menores a cero) y aplicando mnimos

10 Chay y Honor (1998) encuentran que la prdida en eficiencia asociada al uso del estimador
semiparamtrico puede ser muy baja comparada con el sesgo que se genera en el estimador de mxima
verosimilitud cuando existe no normalidad y heteroscedasticidad de los errores (p.13).
11 Los modelos semiparmetricos a los que se refiere literalmente este procedimiento se conocen en la

literatura como symetrically censored least squares (SCLS).


12 Detalles sobre el procedimiento y la implementacin del mismo pueden ser consultados en Chay y

Powell (2001).

13
cuadrados ordinarios para obtener los coeficientes a partir de la distribucin
recensurada (Chay y Powell, 2001, p. 32).

Grfico 1: Densidad de y y densidad censurada simtricamente.

Dentro de este conjunto de estimadores, en este trabajo se utiliza el estimador


para modelos censurados conocido como Censored Least Absolute Deviations
(CLAD)13. Este estimador propuesto por Powell (1984) se basa en la idea que la
mediana de la variable dependiente no se ve afectada por el censuramiento si la
funcin de regresin xi' se encuentra en la regin no censurada. Sin embargo,

si la funcin de regresin est por debajo de cero (el punto de censuramiento)


entonces ms del 50 por ciento de la distribucin se apila en ese punto. En ese
caso, la mediana de y es justamente ese punto, el cual no depende de xi' . De

esta forma, el primer paso de la estimacin por CLAD, el recensuramiento,


elimina las observaciones para las que la estimacin de la funcin de regresin
cae por fuera de la regin no censurada. En segundo lugar, este procedimiento
estima los coeficientes de la regresin a partir de desviacin mnima absoluta
para las observaciones restantes (Chay y Powell, 2001, pp. 31-32).

Debido al alto grado de observaciones censuradas (alrededor del 55 por ciento


de la muestra), no se utiliza un estimador CLAD en la mediana sino una versin
ms general del mismo; esto es, un mtodo de quantile regression estimado en el
percentil 70 de la distribucin. La seleccin del percentil se bas en la

13 Las estimaciones no se realizan con el estimador SCLS debido a que empricamente se ha encontrado

que el estimador CLAD da estimadores ms precisos que el SCLS. Ver Chay y Powell, 2001 y Wilhelm
(2008).

14
comparacin de los resultados obtenidos con distintos percentiles y en el
requisito de tener densidad positiva en el percentil donde se estima el modelo.
Adicionalmente, se tuvo en cuenta que entre ms alto el percentil, mayor es el
nmero de observaciones que se eliminan en el paso de recensuramiento y por
lo tanto, menor el nmero de observaciones utilizadas en el proceso de
estimacin14.

4.3 Metodologa No Paramtrica (Matching)

En la siguiente seccin se revisan e implementan los enfoques paramtrico y


semiparamtrico para ajustar ecuaciones de ingresos y realizar la imputacin de
ingresos a partir de los parmetros obtenidos de estas ecuaciones con los datos
de la GEIH y ECV y de las caractersticas de los individuos del Sisbn. Como se
ver, el resultado ms importante es que a pesar del buen ajuste economtrico
de los modelos, las imputaciones de ingresos no resultan satisfactorias ni
cuando se hace para los mismos individuos con los que se estimaron los
modelos en las bases originales ni en la base del Sisbn. Por esta razn, una
metodologa no paramtrica podra ser til teniendo en cuenta que no es
necesario ajustar un modelo economtrico y por lo tanto no se requiere realizar
la verificacin de supuestos.

La metodologa no parmetrica presentada en esta seccin para solucionar el


problema de ajuste se basa en una adaptacin del trabajo de opo (2008) en el
cual se utiliza la metodologa matching para descomponer las brechas salariales
de gnero. Fundamentalmente, la propuesta de opo consiste en realizar una
descomposicin al estilo Blinder-Oaxaca, la cual, a diferencia de esta, tiene en
cuenta las diferencias de gnero en los soportes de la distribucin. Ms
precisamente, la metodologa considera la variable de gnero como tratamiento
y mediante el matching selecciona sub-muestras de hombres y mujeres tales
que no haya diferencias observables de caractersticas entre los grupos
emparejados. Habiendo controlado por las caractersticas observables, la tcnica

14 Para una aplicacin de la metodologa quantile censored regression ver Jalan y Ravallion (1998)

15
de comparacin se usa para medir el impacto del tratamiento en esos grupos
bajo diferentes supuestos de identificacin15.

En lo referente a la descomposicin salarial, la metodologa propuesta por


opo presenta ventajas importantes frente a la descomposicin tradicional.
Bsicamente, esta metodologa soluciona el problema de las diferencias en los
soportes de la distribucin, no requiere estimacin de ecuaciones de salarios y
por lo tanto no es necesario realizar pruebas para validacin de supuestos.
Adicionalmente, provee informacin acerca de la distribucin de las diferencias
en salarios que quedan inexplicadas por las caractersticas de los individuos
despus de hacer la descomposicin (y no slo en el promedio como lo hace
Blinder-Oaxaca).

Si bien el trabajo de opo no est diseado originalmente para realizar


imputaciones de ingresos, la metodologa que este trabajo desarrolla puede ser
fcilmente adaptada al contexto de imputacin de ingresos16. Al igual que las
ventajas del uso del matching para realizar descomposiciones de salarios, la
implementacin de esta metodologa para la imputacin de ingresos tambin
presenta mejoras frente a los enfoques tradicionales. En primer lugar, es un
enfoque muy transparente puesto que al no necesitarse estimar ecuaciones de
Mincer se evita caer en errores de especificacin del modelo y realizar el
proceso de convertir los valores de ingreso del logaritmo (como se modelan en
el modelo original) a lineales. Adicionalmente, con esta metodologa no es
necesario predecir los ingresos con base en los parmetros del modelo,
simplemente se utilizan los valores originales de la encuesta fuente (GEIH).
Segundo, el hecho de que los datos presenten censuramiento no tiene ninguna
implicacin en la implementacin de esta metodologa. Esto cobraba
importancia en los modelos tradicionales cuando era necesario ajustar modelos
apropiados para este tipo de datos en lugar de ajustar la regresin tradicional
por mnimos cuadrados ordinarios. Finalmente, esta metodologa permite

15 Ver opo (2008) para ms detalles.

16 Agradecemos las orientaciones de opo para hacer la adaptacin de su metodologa.

16
aproximarse a la distribucin de ingresos original de la encuesta de hogares
adems de capturar nicamente la media de los ingresos como en el caso de los
modelos Tobit y Quantile Censored Regression. Como desventaja se tiene que
los grupos que se conforman para hacer el matching pueden llegar a ser muy
pequeos, pudiendo as afectar los resultados de la imputacin.

El algoritmo utilizado para obtener los ingresos de la GEIH e imputarlos a los


individuos de la base Sisbn consiste en conformar grupos de individuos (en las
dos bases) que compartan ciertas caractersticas previamente definidas.
Seguidamente, a partir de la base de la cual se quieren obtener los ingresos, se
sacan aleatoriamente individuos (con reemplazo), se observa su ingreso y se
traslada a los individuos con iguales caractersticas en la base Sisbn.
Finalmente, se realiza este proceso hasta completar el nmero de individuos de
cada grupo correspondiente en la base a imputar de manera que individuos del
Sisbn con iguales caractersticas de los individuos de la GEIH tendrn valores
de ingreso iguales a estos ltimos17. A continuacin se presenta la construccin
del algoritmo paso a paso:

Paso 1: Con base en la GEIH 2008 se conforman celdas (grupos) de individuos


con caractersticas iguales a partir de las variables:
Edad (rangos de 5 aos para individuos de 16 aos en adelante)
Educacin (rangos: sin educacin, primaria incompleta, primaria
completa, secundaria incompleta, secundaria completa y
universitaria o ms)
Regin (9 regiones originales de la base Sisbn excluyendo a San
Andrs)
Actividad (ocupados, dems actividades sin distincin)
Sexo
Zona (urbana, rural)

17 Dado que en la base Sisbn el nmero de observaciones es considerablemente mayor que en la GEIH, el

muestreo de cada grupo debe hacerse con reemplazo de manera que se trasladen valores de ingreso de la
GEIH a la base Sisbn tantas veces como individuos haya en cada celda. Ver un ejemplo de este
procedimiento en el anexo 4.

17
Jefe de hogar

Se conformaron 7,830 celdas con mnimo un individuo y mximo 427


individuos de un total de 374,775 registros contenidos en la GEIH 2008.

Paso 2: Se verifica si es posible conformar igual nmero de celdas en la base


Sisbn.

En la base a imputar se conformaron 7,817 celdas y qued sin celda el


0.91 por ciento de la poblacin.

Paso 3: Se seleccionan muestras aleatorias de individuos (con reemplazo) dentro


de cada celda en la GEIH hasta obtener observaciones de ingreso para todos los
individuos de la celda correspondiente en el Sisbn; esto es, hasta obtener un
vector con 16,702,544 observaciones.

Paso 4: Se realiza un merge entre el vector obtenido en el paso y la base original


del Sisbn.

5. Resultados

Esta seccin discute los resultados obtenidos para las tres metodologas de
imputacin descritas en el apartado anterior18. Para el caso del modelo Tobit, la
tabla 119 muestra los resultados de la estimacin por mxima verosimilitud, bajo
el supuesto que los errores cumplen con normalidad y homoscedasticidad. En
la primera columna se presentan los resultados obtenidos con la GEIH, donde
se destaca que todas las variables excepto educacin y San Andrs, presentan el
signo esperado. En el caso de la educacin se presenta efecto negativo y no
significativo, que no es consistente con la teora, pues es de esperarse que a
mayores aos de escolaridad el individuo perciba un mayor ingreso. Por su

18 Los modelos Tobit y semiparamtrico se estimaron con el programa Stata 10 y el matching se realiz en
SAS 9.2.
19 Se realizaron estimaciones midiendo la variable educacin en trminos de aos de educacin y dummies

de nivel educativo, encontrndose que las diferencias entre las estimaciones no son significativas. Para
efectos de este documento se presentan los resultados empleando la variable educacin en trminos de
aos de educacin.

18
parte, la dummy para San Andrs presenta un efecto positivo que es
significativo, el cual puede deberse a la forma en que se construy esta variable.
En la segunda columna se presentan los resultados arrojados por el modelo
estimado con la ECV. Se destaca que todas las variables incluidas presentan el
signo esperado; sin embargo, el coeficiente de San Andrs no es significativo.

La edad en la que se maximiza el ingreso es de 52 aos en la GEIH y de 49 aos


en la ECV. Es importante destacar que de acuerdo con los resultados de las
estimaciones un hombre, jefe de hogar, o habitante de la zona urbana percibe
ingresos sustancialmente ms altos que una persona sin ninguna de estas
caractersticas, manteniendo todo lo dems constante. De igual forma, un
individuo que no est ocupado tiene ingresos extremadamente menores que los
individuos que cuentan con un empleo.

Debido a la sensibilidad de los estimadores Tobit a los supuestos de los errores,


se realizan las pruebas de heteroscedasticidad y no-normalidad, bajo la
metodologa propuesta por Verbeek (2004). Estas pruebas sugieren que el
modelo viola los dos supuestos. Tanto en la prueba de homoscedasticidad como
en la de normalidad se rechaza la hiptesis nula a cualquier nivel de
significancia20 tanto para la GEIH como para la ECV.

20 Los resultados de las pruebas para la GEIH rechazan las hiptesis nulas a cualquier nivel de

significancia. Los parmetros considerados para computar estas pruebas son:


R2 = 0.7158, N = 370.603 y J = 100
Test de Homoscedasticidad:
Se hall un valor critico 932 = 116.511 y una prueba LM = 265.277,63.
Test de Normalidad:
Se hall un valor critico 22 = 5.99 y una prueba LM = 265.625,62.
Las conclusiones de estas pruebas no difieren de las encontradas para la ECV.

19
Tabla 1: Estimaciones modelo Tobit

VARIABLES GEIH ECV


educacin -0.00157 0.0496***

Actividad en el ltimo mes Zona Caractersticas Demogrficas


(0.00346) (0.0148)
edad 0.0976*** 0.0790***
(0.00457) (0.0177)
edad^2 -0.000933*** -0.000803***
(5.21e-05) (0.000199)
hombre 1.213*** 1.110***
(0.0260) (0.117)
jefe 1.851*** 1.731***
(0.0273) (0.111)
hayconyuge -0.709*** -0.731***
(0.0250) (0.104)
urbano 1.362*** 1.026***
(0.0354) (0.107)
desocupado -13.55*** -13.43***
(0.0530) (0.319)
estudiante -20.96*** -19.63***
(0.107) (0.440)
hogar -17.30*** -16.52***
(0.0435) (0.146)
invlido -18.67*** -17.12***
(0.156) (0.501)
otra -15.92*** -13.85***
(0.101) (0.385)
antioquia -0.435*** -0.640**
(0.0930) (0.306)
atlntica -1.180*** -0.833***
(0.0803) (0.286)
central -0.477*** -0.502
(0.0795) (0.306)
oriental -0.405*** -0.795***
Regin

(0.0801) (0.302)
oriamazonia -0.119 -0.511
(0.0933) (0.323)
pacfica -0.704*** -0.719**
(0.0825) (0.289)
san andrs 0.0842** -0.577
(0.0381) (0.422)
valle -1.127*** -0.892***
(0.102) (0.304)
constante 7.231*** 8.148***
(0.128) (0.482)

Observaciones 374,775 20,478


Errores estndar robustos entre parntesis
*** p<0.01, ** p<0.05, * p<0.1
Fuente: Clculos de las autoras con base en las encuestas GEIH 2008 y ECV 2008.

En cuanto al resultado de la imputacin el grfico 1 muestra la distribucin de


los ingresos reportados por los individuos en las bases Sisbn, GEIH y ECV as
como la distribucin de los ingresos imputados con la metodologa de

20
imputacin con cada una de las bases. Tanto para la GEIH, como para la ECV
esta metodologa no presenta una variacin significativa en el nmero de ceros
imputados respecto a los ceros originales. Sin embargo, con el modelo Tobit
estos se incrementan de 55.6 en los datos originales del Sisbn a 60.1 por ciento
con la imputacin en las dos bases.

Grfico 2: Distribuciones del log(ingreso) original e imputado modelo paramtrico. GEIH y


ECV.

0.600 0.600

0.500 0.500
Frecuencia relativa

Frecuencia relativa
0.400 0.400

0.300 0.300

0.200
0.200

0.100
0.100

0.000
0.000
0-1

1-10

10-10.5

10.5-11

11-11.5

11.5-12

12-12.5

12.5-13

13-13.5

13.5-15

0-1

1-10

10-10.5

10.5-11

11-11.5

11.5-12

12-12.5

12.5-13

13-13.5

13.5-15
Log (ingreso monetario)
Log (ingreso monetario)
SISBN GEIH Tobit GEIH SISBN ECV Tobit ECV

Fuente: Clculos de las autoras.

La imputacin realizada mediante la estimacin del modelo Tobit genera un


suavizamiento de la distribucin de los datos llevando, en primer lugar, a que
en los extremos de la distribucin se encuentren ms datos respecto a los de la
distribucin original de la base Sisbn y, en segundo lugar, a que no exista una
acumulacin en el salario mnimo y en valores extremos tanto en la imputacin
con la GEIH como con la de la ECV.

En resumen y como conclusin preliminar de esta parte, el mtodo de


imputacin con base en el modelo Tobit presenta dos problemas: i) Los errores
del modelo no cumplen con los supuestos de normalidad y homoscedasticidad,
lo que lleva a que los estimadores no sean consistentes y por ende se presenten
problemas al generar la nueva variable ingresos para la base Sisbn, ii) La
distribucin de los datos imputados no refleja la distribucin de los ingresos
con los cuales se ajustaron los modelos ni para la base Sisbn ni cuando la

21
imputacin se hace sobre los datos de la GEIH y de la ECV21. Teniendo en
cuenta lo anterior, es necesario realizar la imputacin de la variable ingreso
empleando otras metodologas que nos proporcione estimadores consistentes y
una mejor distribucin de los datos imputados respecto a los datos originales de
las bases fuente.

Los modelos estimados a partir del enfoque semiparamtrico incluyen las


mismas variables que se utilizaron en el modelo Tobit. Sin embargo, en este
caso se garantiza la consistencia de los estimadores debido a que los supuestos
sobre los errores son menos restrictivos. La tabla 2 presenta los resultados de la
estimacin semiparamtrica del logaritmo del ingreso monetario para los datos
de la GEIH y de la ECV en las columnas 1 y 2, respectivamente.

En general, tanto la significancia como la magnitud de los parmetros


estimados con este mtodo en las dos bases de datos son similares. Es de notar
que el proceso de recensuramiento elimina un nmero importante de
observaciones en las dos bases; en la encuesta de hogares se pasa de 374,775
individuos a 171,956, mientras que en la ECV se reduce de 20,478 a 9,804. En
cuanto a la significancia individual de los parmetros, las nicas variables que
no resultaron estadsticamente distintas de cero fueron la dummy que identifica
si el cnyuge del jefe de hogar vive en el hogar en ambas muestras y las
dummies para las regiones Orinoquia Amazonia y San Andrs en la base de la
ECV.

21 Estos resultados no se reportan en el documento pero puede ser solicitados a las autoras.

22
Tabla 2: Estimaciones modelo semiparamtrico

VARIABLES GEIH ECV


educacin 0.0307*** 0.0442***

Actividad en el ltimo mes Zona Caractersticas Demogrficas


(0.000299) (0.00212)
edad 0.0395*** 0.0313***
(0.000490) (0.00248)
edad^2 -0.000461*** -0.000365***
(5.63e-06) (2.75e-05)
hombre 0.455*** 0.400***
(0.00289) (0.0165)
jefe 0.184*** 0.200***
(0.00304) (0.0164)
hayconyuge 0.000581 0.0202
(0.00282) (0.0156)
urbano 0.257*** 0.191***
(0.00408) (0.0166)
desocupado -13.16*** -13.26***
(0.00881) (0.0821)
estudiante -13.37*** -13.34***
(0.0485) (0.227)
hogar -13.58*** -13.15***
(0.0806) (0.0876)
invlido -12.86*** -12.48***
(0.0144) (0.0392)
otra -13.28*** -13.03***
(0.0368) (0.0675)
antioquia -0.134*** -0.127***
(0.00943) (0.0408)
atlntica -0.192*** -0.357***
(0.00822) (0.0389)
central -0.193*** -0.226***
(0.00784) (0.0405)
oriental -0.0809*** -0.233***
Regin

(0.00788) (0.0403)
oriamazonia -0.0529*** -0.00160
(0.00977) (0.0440)
pacfica -0.345*** -0.470***
(0.00829) (0.0392)
san andrs -0.120*** -0.0144
(0.00478) (0.0572)
valle -0.179*** -0.184***
(0.00948) (0.0407)
constante 11.47*** 11.64***
(0.0132) (0.0667)

Observaciones 181,956 9,804


Errores estndar calculados por bootstrapping entre parntesis (comando qcenreg)
*** p<0.01, ** p<0.05, * p<0.1
Fuente: Clculos de las autoras con base en las encuestas GEIH 2008 y ECV 2008.

A diferencia de lo encontrado con el modelo paramtrico, el coeficiente de la


variable educacin en ambas encuestas tiene el signo esperado, es significativo

23
a un nivel de confianza de 99% y presenta rdenes de magnitud razonables. La
edad en la que se maximiza el ingreso monetario es consistente en ambas
estimaciones (43 aos). Las dummies para hombre, jefe de hogar, y zona urbana
indican que, todo lo dems constante, las personas con estas caractersticas
tienen ingresos mayores que las del grupo base (mujer, miembros del hogar
diferente al jefe y personas que habitan en el rea rural, respectivamente).

Es importante destacar que los efectos de las actividades realizadas en el ltimo


mes distintas a estar ocupado son negativos, de gran magnitud y similares entre
actividades. Esto es, el hecho que un individuo sea desocupado, estudiante, est
dedicado al hogar, invlido o con otra actividad distinta a ser ocupado, predice
que tendr un ingreso extremadamente ms bajo que un ocupado, manteniendo
todo lo dems constante. Como era de esperarse, respecto a la dummy base de
regin (Bogot), las dems regiones presentan coeficientes negativos los cuales
indican que los ingresos en estas regiones son en promedio menores que los de
Bogot, dejando todo lo dems constante.

El estimador semiparamtrico es el estimador de referencia debido a que es


consistente bajo el supuesto de normalidad que justifica el estimador de
mxima verosimilitud. Si se comparan las tablas 1 y 2 puede observarse que los
coeficientes obtenidos con el modelo Tobit se encuentran enormemente
sesgados, lo que en este caso se refleja en que los coeficientes se encuentran
sobreestimados (tanto los coeficientes con signo positivo como los de signo
negativo son ms grandes en el Tobit).

Sin embargo, a pesar de obtener consistencia en los parmetros con el modelo


semiparamtrico, los resultados de la imputacin no resultan ser satisfactorios.
Al igual que en el caso de la imputacin con el modelo Tobit, el logaritmo de los
ingresos imputados con el modelo semiparamtrico no se asemeja a la
distribucin original de los ingresos obtenidos de la GEIH 2008 (ver grfico 3).
Con este modelo prcticamente se eliminan las personas con ingresos muy
bajos (en los que el logaritmo del ingreso est entre 1 y 10) y los redistribuye en
ingresos nulos o en los ingresos mayores a 100 mil pesos. De hecho, la

24
proporcin de ceros con la imputacin se incrementa levemente respecto a la
proporcin de la base original del Sisbn. Adicionalmente, los datos tienden a
acumularse alrededor del nivel 12.5 13, que corresponde a valores cercanos al
salario mnimo y donde muestra una distribucin casi normal, que no
corresponde a la distribucin encontrada en la base de la GEIH. Los resultados
son invariables si se usa la base de datos de la encuesta de calidad de vida,
como se muestra en la parte derecha del grfico 3.

Grfico 3: Distribuciones del log(ingreso) original e imputado modelo semiparamtrico.


GEIH y ECV.

0.6 0.6

0.5 Frecuencia relativa 0.5


Frecuencia relativa

0.4 0.4

0.3 0.3

0.2 0.2
0.1 0.1

0 0
0-1

1-10

10-10.5

10.5-11

11-11.5

11.5-12

12-12.5

12.5-13

13-13.5

13.5-15
0-1

1-10

10-10.5

10.5-11

11-11.5

11.5-12

12-12.5

12.5-13

13-13.5

13.5-15

Log (ingreso monetario) Lo g ( ingre s o m o ne t a rio )

SISB N GEIH Qcenreg GEIH SISB N GEIH Qcenreg ECV

Fuente: Clculos de las autoras.

Hasta el momento el ejercicio realizado nicamente predice el logaritmo de los


ingresos con base en los parmetros presentados en las tablas 1 y 2 y en las
caractersticas de los individuos del Sisbn. Para convertir los valores de
logaritmo a valores en pesos se sigui el procedimiento descrito en la seccin 4
y se obtuvieron los valores de los ingresos imputados como se muestra en las
tablas del anexo 3. El resultado ms destacado es que al sacar promedios, el
modelo semiparamtrico se comporta mucho mejor que el Tobit en trminos de
acercar los valores imputados a los valores observados en las encuestas
originales. Por ejemplo, el promedio de ingresos para toda la poblacin es de
$147,368 en la base original de la GEIH y de $135,820 en la base de la ECV. Con
la metodologa Tobit, el promedio del ingreso imputado fue de $72,642 en el
primer caso y de $55,383 en el segundo; es decir, las imputaciones presentan

25
diferencias de alrededor de $80,000 con respecto a los datos originales. El
modelo semiparamtrico arroja un promedio de ingreso imputado de $139,619
con la GEIH y de $136,586 con la ECV, presentando una diferencia cercana a
$8,000 con la primera y de menos de $1,000 con la segunda. En general, esta
tendencia se mantiene para todos los subgrupos considerados en este
documento.

Finalmente, a pesar del buen ajuste los modelos paramtrico y semiparamtrico,


las imputaciones realizadas con estos mtodos no fueron satisfactorias. Por esta
razn, fue necesario implementar una metodologa que presentara mejores
resultados, lo cual fue posible mediante la adaptacin de la metodologa
matching propuesta por opo (2008), como se explic en la seccin 4.3. Es
importante aclarar que, debido a la desventaja que presenta esta metodologa
cuando hay un nmero reducido de datos, nicamente se desarroll con la
GEIH 2008.

El grfico 4 muestra la distribucin de los ingresos reportados por los


individuos en las bases Sisbn y GEIH, as como la distribucin de los ingresos
imputados con la metodologa matching. Al igual que los resultados obtenidos
con las dems metodologas de imputacin, el nmero de ceros imputados no
difiere considerablemente de los ceros originales. Sin embargo, con el matching
estos se reducen de 55.6 en los datos originales del Sisbn a 52.0 por ciento con
la imputacin22.

Las mejoras sustanciales derivadas del matching estn relacionadas con el


ajuste tanto de la media como de la distribucin de los datos. A diferencia de las
imputaciones de tipo paramtrico y semiparamtrico, el matching permite no
slo hacer una buena aproximacin de la media de los datos (ver cuadros del
anexo 3), sino que adems garantiza que la frecuencia relativa observada en

22 Debe notarse que el 0.91 por ciento de la poblacin a la que no le correspondi ninguna celda en la base

Sisbn muy probablemente quedara catalogada con ingresos iguales a cero debido a sus caractersticas
(personas entre 16 a 20 aos y sin educacin). De esta manera, si se suma este porcentaje al porcentaje de
ceros obtenido a travs del matching, las diferencias entre la proporcin de ceros original y la imputada es
prcticamente imperceptible.

26
cada punto de la distribucin de la GEIH y de la base Sisbn con imputacin no
difieran significativamente.

Grfico 4: Distribuciones del log (ingreso) original e imputado

0.600

0.500
Frecuencia relativa

0.400

0.300

0.200

0.100

0.000
0-1

1-10

10-10.5

10.5-11

11-11.5

11.5-12

12-12.5

12.5-13

13-13.5

13.5-15
Log (ingreso monetario)

SISBN GEIH Matching

Fuente: Clculos de las autoras.

6. Conclusiones

La variable ingresos en la base del Sisbn presenta problemas como el alto


grado de subreporte y errores de medicin, los cuales impiden realizar
ejercicios con esta variable para la poblacin registrada en esta encuesta. Una de
las posibles soluciones a este problema, que permitira usar la variable ingresos
en distintos escenarios, es realizar una imputacin de los mismos. Dadas las
caractersticas de esta variable en la base Sisbn, se realiz la imputacin para
toda la poblacin y no slo para un grupo especfico dentro de la poblacin
seleccionada.

En este documento se plantearon tres metodologas alternativas para variables


con censuramiento con el fin de obtener una variable ingresos que fuera
consistente con la que personas con similares caractersticas reportan en otras
encuestas como la Gran Encuesta Integrada de Hogares 2008 y la Encuesta de
Calidad de Vida 2008. El procedimiento que se sigui para los modelos
paramtrico y semiparamtrico fue estimar ecuaciones de Mincer con los datos

27
de las encuestas de hogares y de calidad de vida utilizando variables que
tambin fuera posible encontrar en la base Sisbn. Con los parmetros
obtenidos de estos modelos y las caractersticas observadas en la poblacin del
Sisbn se calcularon los ingresos para cada uno de los individuos contenidos en
esta base. El modelo no paramtrico se bas en un procedimiento matching que,
sin tener que estimar ninguna ecuacin, selecciona aleatoriamente a un
individuo de la base fuente (GEIH), observa su ingreso y traslada el valor
observado a un individuo con iguales caractersticas en la base Sisbn.

Un hallazgo importante de este documento es que la elevada proporcin de


ingresos iguales a cero encontrada en las poblaciones con niveles 1 y 2 del
Sisbn no surge porque los encuestados respondan inadecuadamente. La
consistencia encontrada entre la proporcin de ceros para la poblacin
seleccionada en las encuestas de hogares y de calidad de vida indica que ms
del 50 por ciento de las personas en niveles 1 y 2 del Sisbn realmente no recibe
ingresos monetarios mensualmente. Donde s parece haber un buen nmero de
respuestas inadecuadas es en los valores de ingresos positivos. Un anlisis de
poblaciones equivalentes del Sisbn y de las dos encuestas utilizadas muestra
que la distribucin de los ingresos es muy similar entre las encuestas de hogares
y de calidad de vida, mientras que la masa de la distribucin del Sisbn est
concentrada en valores considerablemente inferiores a los de las encuestas. Esto
quiere decir que en los ingresos mayores que cero existe un grave problema de
subreporte.

En trminos de los resultados de los modelos utilizados para realizar la


imputacin de ingresos, el modelo paramtrico present inconsistencia en los
estimadores debido a la violacin de los supuestos de normalidad y
homoscedasticidad de los errores, de los cuales este modelo depende
fuertemente. El modelo paramtrico supera estos inconvenientes al no precisar
una distribucin especfica de los errores del modelo arrojando, de esta manera,
estimadores consistentes. Ambos modelos, sin embargo, se ajustaron muy bien
a los datos, presentando los signos esperados y significancia estadstica en los

28
coeficientes. Ahora bien, teniendo en cuenta que la utilidad del modelo
radicaba en la imputacin de ingresos en la base del Sisbn, los modelos no
presentaron los resultados esperados. A pesar del buen ajuste los modelos
estimados con las bases fuente, la imputacin no replic la distribucin de los
ingresos en esas bases ni en la base Sisbn. Sin embargo, debido a que estos
mtodos pretenden modelar la media y no la distribucin, el modelo
semiparamtrico present un buen resultado en este sentido dado que los
clculos de promedios de ingreso en varias desagregaciones arrojaron
resultados muy similares a los de las encuestas de hogares y de calidad de vida.
En resumen, las metodologas tradicionales para ajuste de ecuaciones de Mincer
no son muy efectivas a la hora de realizar imputaciones ni de modelar la
distribucin de la variable de inters.

El tercer enfoque result ser mucho ms apropiado para los propsitos de este
trabajo. La imputacin por matching es muy transparente en tanto no es
necesario estimar ningn modelo economtrico y permite acercar la
distribucin de los datos de inters a la distribucin de los datos fuente. Por
estas razones, la metodologa no paramtrica fue la escogida para realizar la
imputacin de ingresos definitiva teniendo en cuenta que con la misma
informacin arroja un mejor resultado.

29
Referencias
Buchinsky, Moshe (1994). Changes in the U.S. Wage Structure 1963-1987:
Application of Quantile Regression, Econometrica, Vol. 62, No. 2, pp. 405-
458.

Chay, Kenneth Y. y Bo E. Honore (1998). Estimation of Semiparametric


Censored Regression Models: An Application to Changes in Black-white
Earnings Inequality during the 1960s, The Journal of Human Resources, Vol.
33, No. 1, pp. 4-38.

Chay, Kenneth Y. y James L. Powell (2001). Semiparametric Censored


Regression Models, Journal of Economic Perspectives, Vol. 15, No. 4, pp. 29-
42.

Chesher, Andrew y Margaret Irish (1987). Residual Analysis in the Grouped


and Censored Normal Linear Model, Journal of Econometrics, No. 34, pp.
33-61.

Horowitz, Joel L. y George R. Neumann (1989). Specification Testing in


Censored Regression Models: Parametric and Semiparametric Methods,
Journal of Applied Econometrics, Vol. 4, S61-S86.

Jalan, Jyotsna y Martin Ravallion (1998). "Determinants of transient and chronic


poverty: evidence from rural China," Policy Research Working Paper Series
1936, The World Bank.

Koenker, Roger y Kevin F. Hallock (2001). Journal of Economic Perspectives, Vol.


15, No. 4, pp. 143-156.

30
Medina H., Fernando y Marco Galvn (2007). Imputacin de Datos: Teora y
Prctica, Serie Estudios Estadsticos y Prospectivos, No. 54, CEPAL.

Melenberg, Bertrand y Arthur van Soest (1996). Parametric and


Semiparametric Modelling of vacation Expenditures, Journal of Applied
Econometrics, Vol. 11, pp. 59-76.

Newey, Whitney K. (1987). Specification Tests for Distributional Assumptions


in the Tobit Model, Journal of Econometrics, No. 34, pp. 125-145.

opo, Hugo (2008). Matching as a Tool to Decompose Wage Gaps, The


Review of Economics and Statistics, 90(2): 290-299.

Pagan, Adrian y Frank Vella (1989). Diagnostic Tests for Models Based on
Individual Data: A Survey, Journal of Applied Econometrics, Vol. 4, S29-S59.

Powell, James L. (1984). Least Absolute Deviations Estimation for the


Censored Regression Model, Journal of Econometrics, No. 25, pp. 303-325.

Powell, James L. (1986). Censored Regression Quantiles, Journal of


Econometrics, No. 32, pp. 143-155.

Powell, James L. (1994). Estimation of Semiparametric Models, Handbook of


Econometrics, Vol. IV. Ed. R.F. Engle y D.L. Mc Fadden.

Reynolds A. y J.S. Shonkwiler (1991). Testing and Correcting for Distributional


Misspecifications in the Tobit Model: An Application of the Information
Matrix Test, Empirical Economics, 16, pp. 313-323.

31
Tan, Andrew y Teofilo Ozuna (1994). Testing for Misspecification in a
Censored-Demand Model, Review of Agricultural Economics, No. 16, pp-
293-299.

Verbeek, Marno (2004). A Guide to Modern Econometrics, 3ra ed., John Wiley and
Sons.

Wilhelm, Mark Ottoni (2008). "Practical Considerations for Choosing Between


Tobit and SCLS or CLAD Estimators for Censored Regression Models with
an Application to Charitable Giving", Oxford Bulletin of Economics and
Statistics, Department of Economics, University of Oxford, Vol. 70(4), pp
559-582.

32
ANEXO 1. ESTADSTICAS DESCRIPTIVAS BASES ORIGINALES

Tabla A1-1.

Sisbn 1 y 2 por Estrato de Energa Elctrica

Estrato
Nivel Sisbn 0 1 2 3 4 5 6 Total

1 2,569,533 6,430,257 1,364,236 11,548 104 15 0 10,375,693


% fila 24.76 61.97 13.15 0.11 0 0 0 100
% col 92.21 91.27 19.58 20.87 7.54 10.14 0 61.55

2 217,063 615,296 5,603,287 43,778 1,276 133 90 6,480,923


% fila 3.35 9.49 86.46 0.68 0.02 0 0 100
% col 7.79 8.73 80.42 79.13 92.46 89.86 100 38.45

Total 2,786,596 7,045,553 6,967,523 55,326 1,380 148 90 16,856,616


% fila 16.53 41.8 41.33 0.33 0.01 0 0 100
% col 100 100 100 100 100 100 100 100

33
Tabla A1-2. Ingresos por Gnero, Zona y Educacin. Sisbn, GEIH, ECV.
SISBN GEIH ECV
Con Ingreso Con Ingreso Con Ingreso
Sin ingreso Total Sin ingreso Total Sin ingreso Total
ingreso promedio * ingreso promedio * ingreso promedio *
Gnero

6,607,560 2,229,965 8,837,525 43,232 7,299,189 3,618,808 10,917,997 81,576 6,183,344 2,356,393 8,539,737 67,425
Mujer
75% 25% 100% 171,332 67% 33% 100% 246,117 72% 28% 100% 244,354
2,758,047 5,261,044 8,019,091 121,782 2,981,521 5,705,812 8,687,333 230,053 2,479,240 4,739,970 7,219,210 216,725
Hombre
34% 66% 100% 185,625 34% 66% 100% 350,265 34% 66% 100% 330,083
Zona

6,331,220 4,996,965 11,328,185 90,885 7,350,428 6,492,383 13,842,811 155,782 7,027,501 5,473,733 12,501,234 140,553
Urbano
56% 44% 100% 206,038 53% 47% 100% 332,152 56% 44% 100% 321,004
3,034,387 2,494,044 5,528,431 59,526 2,930,282 2,832,237 5,762,519 127,155 1,635,083 1,622,630 3,257,713 117,654
Rural
55% 45% 100% 131,947 51% 49% 100% 258,712 50% 50% 100% 236,211
Educacin

1,145,783 779,650 1,925,433 52,173 1,041,666 747,769 1,789,435 97,360 1,031,344 753,001 1,784,345 89,753
Sin educacin
60% 40% 100% 128,848 58% 42% 100% 232,985 58% 42% 100% 212,682
4,227,711 4,269,816 8,497,527 81,988 3,472,910 4,101,302 7,574,212 155,421 3,282,220 3,359,819 6,642,039 138,374
Primaria
50% 50% 100% 163,167 46% 54% 100% 287,030 49% 51% 100% 273,552
3,784,084 2,349,033 6,133,117 86,502 4,785,292 3,895,128 8,680,420 150,008 3,856,248 2,620,456 6,476,704 139,853
Secundaria
62% 38% 100% 225,849 55% 45% 100% 334,299 60% 40% 100% 345,659
208,029 92,510 300,539 103,050 975,619 577,289 1,552,908 151,220 492,772 363,087 855,859 181,519
Universitaria
69% 31% 100% 334,780 63% 37% 100% 406,782 58% 42% 100% 427,873
9,365,607 7,491,009 16,856,616 80,600 10,280,710 9,324,620 19,605,330 147,368 8,662,584 7,096,363 15,758,947 135,820
Total
56% 44% 100% 181,370 52% 48% 100% 309,846 55% 45% 100% 301,616

* La columna de ingreso promedio corresponde a los ingresos promedio de toda la poblacin en la primera fila y a los ingresos promedio de la poblacin con ingreso distinto de cero en la segunda.
Fuente: Clculos de las autoras con base en las encuestas Sisbn corte noviembre de 2008, GEIH 2008, ECV 2008.

34
Tabla A1-3. Ingresos por Regin. Sisbn, GEIH, ECV.

SISBN GEIH ECV


Con Ingreso Con Ingreso Con Ingreso
Sin ingreso Total Sin ingreso Total Sin ingreso Total
ingreso promedio ingreso promedio ingreso promedio
Regin

1,175,894 832,289 2,008,183 78,272 1,333,558 1,023,774 2,357,332 132,607 1,070,108 728,084 1,798,192 122,647
Antioquia
59% 41% 100% 188,858 57% 43% 100% 305,341 60% 40% 100% 302,908
2,526,993 1,756,258 4,283,251 73,625 2,672,932 2,139,295 4,812,227 131,626 2,461,118 1,991,460 4,452,578 121,941
Atlntica
59% 41% 100% 179,560 56% 44% 100% 296,086 55% 45% 100% 272,639
694,965 798,054 1,493,019 131,728 1,238,668 1,182,627 2,421,295 188,787 796,386 647,850 1,444,236 176,675
Bogot
47% 53% 100% 246,440 51% 49% 100% 386,520 55% 45% 100% 393,858
1,177,215 936,411 2,113,626 66,207 1,252,871 1,236,851 2,489,722 144,278 901,909 792,540 1,694,449 142,360
Central
56% 44% 100% 149,440 50% 50% 100% 290,424 53% 47% 100% 304,366
1,769,738 1,498,570 3,268,308 78,249 1,758,719 1,833,403 3,592,122 161,419 1,470,794 1,338,865 2,809,659 152,010
Oriental
54% 46% 100% 170,657 49% 51% 100% 316,263 52% 48% 100% 318,998
Orinoquia y 355,063 360,719 715,782 96,570 145,813 133,158 278,971 179,933 245,811 221,101 466,912 185,365
Amazonia 50% 50% 100% 191,625 52% 48% 100% 376,966 53% 47% 100% 391,447
817,672 623,760 1,441,432 51,265 957,490 927,344 1,884,834 122,227 835,765 796,948 1,632,713 111,838
Pacfica
57% 43% 100% 118,466 51% 49% 100% 248,426 51% 49% 100% 229,124
9,091 8,898 17,989 148,816 1,955,362 1,618,180 3,573,542 125,436 8,501 8,095 16,596 210,740
San Andrs
51% 49% 100% 300,859 55% 45% 100% 277,010 51% 49% 100% 432,049
838,976 676,050 1,515,026 97,730 920,659 848,168 1,768,827 150,637 872,192 571,420 1,443,612 125,212
Valle
55% 45% 100% 219,013 52% 48% 100% 314,149 60% 40% 100% 316,330
9,365,607 7,491,009 16,856,616 80,600 10,280,710 9,324,620 19,605,330 147,368 8,662,584 7,096,363 15,758,947 135,820
Total
56% 44% 100% 181,370 52% 48% 100% 309,846 55% 45% 100% 301,616

* La columna de ingreso promedio corresponde a los ingresos promedio de toda la poblacin en la primera fila y a los ingresos promedio de la poblacin con ingreso distinto de cero en la segunda.
Fuente: Clculos de las autoras con base en las encuestas Sisbn corte noviembre de 2008, GEIH 2008, ECV 2008.

35
ANEXO 2. DESCRIPCIN DE VARIABLES

VARIABLES DESCRIPCIN
Dependiente

Lograritmo natural del ingreso monetario para el ao 2008, definido como los ingresos
laborales ms los ingresos por segunda actividad en el caso de los ocupados, y los
ling
ingresos por trabajo ms arriendo ms pensiones, en el caso de los desocupados e
inactivos.

Independientes

Caracteristicas Demogrficas
educacin Aos de educacin completados por el individuo
edad Edad reportada por el individuo en aos
edad^2 Edad al cuadrado
hombre Variable dummy, 1=El individuo es hombre
jefe Variable dummy, 1=El individuo es jefe de hogar
hayconyuge Variable dummy, 1=Hay conyuge en el hogar en el que el individuo vive
Zona
urbano Variable dummy, 1=El individuo vive en el rea urbana
Actividad en el ltimo Mes
Conjunto de variables que describen la actividad principal que el individuo realiz durante el ltimo mes, teniendo como
referencia estar ocupado.
desocupado Variable dummy, 1= El individuo estuvo desocupado
estudiante Variable dummy, 1= El individuo estudi
hogar Variable dummy, 1= El individuo se dedic a oficios del hogar
invlido Variable dummy, 1= El individuo es incapacitado permanente para trabajar
Variable dummy, 1= El individuo realiz una actividad diferente a las descritas
otra
anteriormente
Regin
Conjunto de variables que describen la regin en la que reside el individuo, teniendo como referencia la regin Bogot.
antioquia Variable dummy, 1= El individuo reside en el departamento de Antioquia
Variable dummy, 1= El individuo reside en alguno de los siguientes departamentos:
atlntica
Atlntico, Bolivar, Cesar, Crdoba, La Guajira, Magdalena, Sucre
Variable dummy, 1= El individuo reside en alguno de los siguientes departamentos:
central
Caldas, Huila, Quindio, Risaralda, Tolima
Variable dummy, 1= El individuo reside en alguno de los sigueintes departamentos:
oriental
Boyacs, Cundinamarca, Meta, Norte de Santander, Santander
Variable dummy, 1= El individuo reside en alguno de los siguientes departamentos:
oriamazonia Amazonas, Caquet, Arauca, Casanare, Guaina, Guaviare, Putumayo, Vaups,
Vichada. En la GEIH solamente se encuesta Caquet.
Variable dummy, 1= El individuo reside en aguno de los siguientes departamentos:
pacfica
Cauca, Choc, Nario
Variable dummy, 1 = El individuo reside en San Andrs y Providencia. En la GEIH esta
san andrs regin no est definida, por lo tanto se crea la dummy con los datos de la regin
Atlntica excluyendo a Barranquilla, Santa Marta y Cartagena.
valle Variable dummy, 1= El individuo reside en el departamento del Valle del Cauca

36
ANEXO 3. ESTADSTICAS DESCRIPTIVAS DATOS IMPUTADOS

Tabla A3-1. Promedios de Ingresos Originales e Imputados con la GEIH por Gnero, Zona y Educacin.

SISBN GEIH TOBIT QCENREG MATCHING


Ingreso Ingreso promedio Ingreso Ingreso promedio Ingreso Ingreso promedio Ingreso Ingreso promedio Ingreso Ingreso promedio
promedio poblacin con promedio poblacin con promedio poblacin con promedio poblacin con promedio poblacin con
poblacin total ingreso poblacin total ingreso poblacin total ingreso poblacin total ingreso poblacin total ingreso

Gnero

Mujer 43,232 171,332 81,576 246,117 19,984 100,134 51,979 244,998 73,595 238,105

Hombre 121,782 185,625 230,053 350,265 130,675 209,028 236,203 362,631 233,286 353,845

Zona

Urbano 90,885 206,038 155,782 332,152 92,475 232,779 147,431 349,867 163,575 338,507

Rural 59,526 131,947 127,155 258,712 32,004 77,717 123,611 293,963 120,035 261,207

Educacin

Sin educacin 52,173 128,848 97,360 232,985 59,004 171,698 97,736 278,440 98,887 248,242

Primaria 81,988 163,167 155,421 287,030 86,823 190,383 153,478 328,281 160,737 303,305

Secundaria 86,502 225,849 150,008 334,299 58,680 166,562 134,768 351,467 150,097 348,569

Universitaria 103,050 334,780 151,220 406,782 43,999 166,824 115,076 353,038 140,089 409,160

Total 80,600 181,370 147,368 309,846 72,642 180,688 139,619 331,559 149,513 314,384
Fuente: Clculos de las autoras con base en las encuestas Sisbn corte noviembre de 2008, GEIH 2008, ECV 2008.

37
Tabla A3-2. Promedios de Ingresos Originales e Imputados con la GEIH por Regin.

SISBN GEIH TOBIT QCENREG MATCHING


Ingreso Ingreso promedio Ingreso Ingreso promedio Ingreso Ingreso promedio Ingreso Ingreso promedio Ingreso Ingreso promedio
promedio poblacin con promedio poblacin con promedio poblacin con promedio poblacin con promedio poblacin con
poblacin total ingreso poblacin total ingreso poblacin total ingreso poblacin total ingreso poblacin total ingreso

Regin

Antioquia 78,272 188,858 132,607 305,341 58,811 161,190 113,823 306,541 136,876 305,076

Atlntica 73,625 179,560 131,626 296,086 31,132 84,159 116,788 311,533 127,374 300,885

Bogot 131,728 246,440 188,787 386,520 154,802 318,124 187,304 365,700 221,981 390,324

Central 66,207 149,440 144,278 290,424 67,534 169,058 118,714 295,314 147,150 297,320

Oriental 78,249 170,657 161,419 316,263 71,510 171,862 136,595 320,569 162,440 321,580
Orinoquia y
96,570 191,625 179,933 376,966 345,953 704,803 446,559 580,047 189,905 375,343
Amazonia
Pacfica 51,265 118,466 122,227 248,426 40,017 103,288 93,126 240,133 105,115 233,708

San Andrs 148,816 300,859 125,436 277,010 128,561 296,839 149,891 341,316 n.d. n.d.

Valle 97,730 219,013 150,637 314,149 38,185 94,625 126,148 307,284 156,803 321,505

Total 80,600 181,370 147,368 309,846 72,642 180,688 139,619 331,559 149,513 314,384
Fuente: Clculos de las autoras con base en las encuestas Sisbn corte noviembre de 2008, GEIH 2008, ECV 2008.

38
Tabla A3-3. Promedios de Ingresos Originales e Imputados con la ECV por Gnero, Zona y Educacin.

SISBN ECV TOBIT QCENREG


Ingreso Ingreso promedio Ingreso Ingreso promedio Ingreso Ingreso promedio Ingreso Ingreso promedio
promedio poblacin con promedio poblacin con promedio poblacin con promedio poblacin con
poblacin total ingreso poblacin total ingreso poblacin total ingreso poblacin total ingreso

Gnero

Mujer 43,232 171,332 67,425 244,354 16,760 84,042 53,204 231,576

Hombre 121,782 185,625 216,725 330,083 97,948 157,410 228,477 352,759

Zona

Urbano 90,885 206,038 140,553 321,004 68,801 174,122 143,475 338,915

Rural 59,526 131,947 117,654 236,211 27,888 67,736 122,470 278,783

Educacin

Sin educacin 52,173 128,848 89,753 212,682 34,595 101,584 88,757 245,048

Primaria 81,988 163,167 138,374 273,552 59,798 131,692 147,122 307,114

Secundaria 86,502 225,849 139,853 345,659 55,776 158,485 137,576 358,516

Universitaria 103,050 334,780 181,519 427,873 55,723 210,278 124,900 365,648

Total 80,600 181,370 135,820 301,616 55,383 138,260 136,586 318,700


Fuente: Clculos de las autoras con base en las encuestas Sisbn corte noviembre de 2008, GEIH 2008, ECV 2008.

39
Tabla A3-4. Promedios de Ingresos Originales e Imputados con la ECV por Regin.

SISBN ECV TOBIT QCENREG


Ingreso Ingreso promedio Ingreso Ingreso promedio Ingreso Ingreso promedio Ingreso Ingreso promedio
promedio poblacin con promedio poblacin con promedio poblacin con promedio poblacin con
poblacin total ingreso poblacin total ingreso poblacin total ingreso poblacin total ingreso

Regin

Antioquia 78,272 188,858 122,647 302,908 36,605 100,915 119,592 321,818

Atlntica 73,625 179,560 121,941 272,639 34,399 92,990 104,159 280,329

Bogot 131,728 246,440 176,675 393,858 122,207 251,784 197,281 379,880

Central 66,207 149,440 142,360 304,366 50,321 126,864 120,147 298,539

Oriental 78,249 170,657 152,010 318,998 37,841 91,602 123,304 294,788


Orinoquia y
96,570 191,625 185,365 391,447 274,222 563,110 469,205 479,286
Amazonia
Pacfica 51,265 118,466 111,838 229,124 31,688 81,784 86,923 223,878

San Andrs 148,816 300,859 210,740 432,049 57,166 132,811 180,899 394,830

Valle 97,730 219,013 125,212 316,330 37,780 93,621 132,135 320,390

Total 80,600 181,370 135,820 301,616 55,383 138,260 136,586 318,700


Fuente: Clculos de las autoras con base en las encuestas Sisbn corte noviembre de 2008, GEIH 2008, ECV 2008.

40
ANEXO 4. EJEMPLO METODOLOGA MATCHING CON VALORES HIPOTTICOS

Base Sisbn GEIH 2008

Ingreso Ingreso
Individuo Caractersticas Celda Individuo Caractersticas Celda
Observado Observado
Edad Educacin Zona Edad Educacin Zona
3 26-30 secundaria urbana 1 0 1 26-30 secundaria urbana 1 0
6 26-30 secundaria urbana 1 0 2 26-30 secundaria urbana 1 80,000
7 26-30 secundaria urbana 1 729,984 5 26-30 secundaria urbana 1 0
11 26-30 secundaria urbana 1 80,000 6 26-30 secundaria urbana 1 300,000
14 26-30 secundaria urbana 1 300,000 8 26-30 secundaria urbana 1 729,984
17 26-30 secundaria urbana 1 80,000 9 41-45 primaria urbana 2 0
20 26-30 secundaria urbana 1 0 10 41-45 primaria urbana 2 20,000
24 26-30 secundaria urbana 1 0 11 41-45 primaria urbana 2 320,000
1 41-45 primaria urbana 2 449,984 13 41-45 primaria urbana 2 0
2 41-45 primaria urbana 2 20,000 14 41-45 primaria urbana 2 449,984
4 41-45 primaria urbana 2 0 17 31-35 sin educacin rural 3 0
5 41-45 primaria urbana 2 0 18 31-35 sin educacin rural 3 100,000
8 41-45 primaria urbana 2 0 19 31-35 sin educacin rural 3 0
9 41-45 primaria urbana 2 320,000 20 31-35 sin educacin rural 3 30,000
10 31-35 sin educacin rural 3 30,000 21 31-35 sin educacin rural 3 0
12 31-35 sin educacin rural 3 0 22 31-35 sin educacin rural 3 149,984
13 31-35 sin educacin rural 3 0 23 31-35 sin educacin rural 3 0
15 31-35 sin educacin rural 3 149,984 25 31-35 sin educacin rural 3 0
16 31-35 sin educacin rural 3 0
18 31-35 sin educacin rural 3 0
19 31-35 sin educacin rural 3 30,000
21 31-35 sin educacin rural 3 0
22 31-35 sin educacin rural 3 0
23 31-35 sin educacin rural 3 0
25 31-35 sin educacin rural 3 100,000
26 31-35 sin educacin rural 3 0

41

You might also like