2-Empleo de Bases de Datos Relacionadas

Guía para la elaboración
de propuestas de
investigación cuantitativa
Elaborado por: Alejandro Granda Sandoval
4. Empleo de bases de datos relacionadas a desarrollo social y
productivo
Si bien las ciencias sociales emplean tanto variables de naturaleza cuantitativa

como cualitativa, algunas ramas como la economía, plantean problemas de
investigación que incluyen datos agregados (macroeconomía) o datos
desagregados a nivel de individuos, hogares, centros poblados, etc
(microeconomía).
Recientemente algunos enfoques vienen empleando mixturas de ambas

dimensiones, esto es, se incluyen fundamentos microeconómicos en problemas
de investigaciones macroeconómicas, o variables contextuales o
georeferencias en modelos microeconómicos. En gran medida, la disponibilidad
y calidad de la información han sido determinantes para el desarrollo de
trabajos empíricos en estos campos.
Pese a ello, no pocas veces las bases de datos ofrecen algunas limitaciones
que, si bien corresponden al ámbito técnico u operativo, pueden llegar a
repercutir en los resultados incluidos en una investigación. De acuerdo a ello,
se presentan a continuación algunas recomendaciones al emplear bases de
datos considerando tanto las características muestrales, la posibilidad de
emparejar fuentes de información, etc.
4.1 Empleo adecuado del diseño muestral
En muchos casos los investigadores pueden tener claridad en lo buscan y

cuentan a su vez con estrategias de investigación bastante coherentes con el
problema planteado y la formulación de una hipótesis. Pese a ello, no siempre
sus estrategias son coherentes con la disponibilidad y la calidad de datos. Esto
sucede con mayor frecuencia en los casos en que el investigador se plantea
1
emplear información de una nueva encuesta o una base de datos aún no
consistenciada.
Es importante tomar en cuenta que, debido a que en el caso latinoamericano

muchas de las bases de datos disponibles corresponden a levantamientos de
información novedosa, las muestras iniciales por lo general presentan sesgos.
Por ejemplo, puede que un investigador se encuentre interesado en estudiar

los factores que limitan a algunas empresas a invertir en innovación. Para este
emprendimiento, el investigador se plantea trabajar con la encuesta económica
aplicada a empresas de todos los sectores económicos.
Es muy común en Latinoamérica que, debido a la limitación de recursos, las

encuestas dirigidas a empresas por lo general busquen replicar bien algunos
indicadores importantes, como es el caso del nivel de ventas.
En ese sentido, es importante considerar que todas las encuestas que levantan
un indicador, no necesariamente tienen inferencia sobre el mismo. Puede que
la encuesta económica citada en el párrafo anterior, incluya un levantamiento
de información de empresas localizadas en las regiones que acumulan la
mayor proporción de ventas en el país. Es claro que el muestreo
potencialmente omite la información de empresas expuestas a escenarios
menos competitivos, incluso, podrían ser efectivamente empresas con menores
ventas1, menores utilidades y por ende, menores posibilidades de invertir en
innovación.
1
Para demostrar el argumento de insesgamiento, deberíamos demostrar que las empresas
omitidas del marco poblacional cuentan con promedios de ventas similares a las empresas
localizadas en las regiones que acumulan la mayor proporción de ventas.
2
Debido a lo anterior, la muestra seleccionada se encontraría sesgada en
relación a la variable de inversión en innovación. El investigador que piense
estimar el número de empresas no innovadoras puede subestimar su resultado
dado que buena parte de las mismas se encuentran localizadas en regiones
que no fueron parte del marco población del que se extrajo la muestra
seleccionada.
El problema de sesgo e inconsistencia en los resultados surgirá en la medida

en que la omisión de información no sea aleatoria, esto es, si la población no
incluida presenta valores promedio2 (de la variable de interés) diferentes a los
que muestra el grupo incluido en la muestra (extraído de un marco poblacional
truncado). Justamente este es el supuesto que emplean algunos diseños para
el truncamiento de la información3, sin embargo, son pocas las veces en que se
demuestra la insesgadez de indicadores como los de inversión de pequeñas y
micro empresas.
Paralelamente, existen casos en los que el mismo diseño del levantamiento de

información genera este truncamiento de la muestra. Este es el caso común de
las encuestas de condiciones de vida para la medición de características
demográficas o las encuestas de Hogares. Dichas encuestas entrevistan
solamente a personas con hogar, esto es, truncan la información de indigentes
que no cuentan con una vivienda.
2
Es cierto que se genera un sesgo en varianza, el cual repercutirá en la estimación de
intervalos de confianza y en la consistencia de los test de hipótesis. Pese a ello, en esta
sección se prioriza el problema de sesgo en momentos centrales (media y mediana). Los
sesgos de varianza son discutidos en la sección de ajuste de varianza de acuerdo al diseño
muestral.
3
Pese a ello, debido a que los técnicos cuentan con la información del marco poblacional, es
posible realizar un ejercicio sencillo de simulaciones de muestreo para evaluar este supuesto.
3
En estos casos, es imprescindible que el investigador sea consciente de las
limitaciones del muestreo realizado, en particular esto implica estar al corriente
del marco poblacional empleado y la definición de unidad muestral. Ambos
datos por lo general son reportados en la ficha técnica que acompaña la
encuesta.
Por su parte, es importante recordar que en algunas encuestas la tasa de

rechazo podría generar suspicacias sobre la consistencia de los resultados.
Ello debido a que la tasa de no respuesta podría concentrarse en una parte
específica de la población encuestada (las personas con mayores recursos)4.
Por lo general, este tipo de limitaciones pueden ser superadas delimitando el

problema de investigación a las unidades que efectivamente forman parte del
marco poblacional. Al igual que en otros casos, es importante indicar las
limitaciones del diseño muestral, esto da cuenta de la rigurosidad del trabajo
realizado por el investigador, indicando que es consciente del potencial sesgo
en los resultados.
Este problema será mayor en la medida en que el investigador se plantee un

análisis intertemporal, dado que las variaciones entre períodos podrían
explicarse por cambios en el diseño muestral en lugar de cambios en la
variable de interés a nivel poblacional. Por ejemplo, una mejora en el diseño
muestral de las encuestas de innovación en períodos recientes podrían mostrar
niveles de inversión en innovación mucho mayores a los reportados en la
primera encuesta truncada.
4
Las encuestas prevén estos problemas a través de la micro o macro edición. Por lo general,
antes del levantamiento de información se determina un umbral de tasa de no respuesta
razonable, de tal manera que si la información faltante supera el mismo, se evalúa si las
omisiones sigue un patrón aleatorio o son fuentes potenciales de sesgo.
4
En estos casos, una alternativa es contar con ponderaciones que permitan la
comparación entre ambos períodos5, sin embargo, para ser estrictos este
método no permite recuperar la información truncada por lo que el empleo de
un corte transversal puede ser mucho más consistente y eficiente6.
4.2 Empleo de ponderadores y ajuste de varianza de acuerdo al diseño

muestral
Como se mencionó en la sección anterior, las buenas propiedades de una

muestra dependerán de la aleatoriedad en la elección de las unidades a ser
muestreadas. Si la información capturada por una encuesta no fue tomada al
azar, entonces las estimaciones resultantes se encontrarán potencialmente
sesgadas, desconociéndose además la dirección del sesgo.
En términos sencillos, un indicador sería representativo a nivel nacional si

proviene de un diseño muestral aleatorio simple, esto garantiza que todos los
habitantes del país tenga la misma probabilidad de ser elegido para la
entrevista. Pese a ello, en la práctica este tipo de diseños son complejos de
poner en práctica en el caso de muestras grandes.
Muy a menudo resulta rentable generar deliberadamente sobremuestreos de

algunos grupos poblacionales pequeños (por ejemplo, centros poblados con
poca población y de difícil acceso) y al mismo tiempo submuestreos de grupos
5
Es importante aclarar que, en la práctica, la muestra que considera un marco poblacional
sesgado realiza un sobremuestreo de las empresas con mayor propensión a innovar. En ese
sentido, los ponderadores podrían reducir los pesos de las empresas que forman parte del
espacio sobremuestreado (empresas con mayor propensión a innovar), facilitando la
comparación de bases de datos.
6
Si en el problema de estudio las determinantes del modelo no muestran una variabilidad
importante en el tiempo, es muy probable que el empleo de un corte transversal sea la
alternativa más eficiente.
5
poblacionales grandes y homogéneos (centros poblados de mayor densidad
poblacional). Ciertamente, a diferencia del muestreo aleatorio simple, los
hogares de dos subgrupos distintos tendrán una probabilidad diferente de ser
elegidos7, sin embargo, dichas probabilidades son conocidas.
Estos cambios en el diseño muestral deben ser considerados por el

investigador debido a los potenciales sesgos que se generan al incluir en la
muestra una proporción mayor de un determinado subgrupo (sobremuestreo).
Por ejemplo, en el caso de las encuestas de condiciones de vida, el
sobremuestreo podría concentrarse en la población más alejada que a su vez
es la más vulnerable. Debido a ello, un promedio simple de la variable de
ingresos del hogar que no haga diferencias entre el grupo sobremuestreado y
el resto de la muestra, será un indicador sesgado debido a que reportará
niveles de ingreso por debajo del que se observaría en un muestreo aleatorio
simple. Efectivamente, el promedio simple de ingresos del hogar en un diseño
que incluye sobremuestreos, no es un indicador representativo de la población.
De acuerdo con lo anterior, todas las estimaciones o análisis descriptivos que

empleen la muestra antes descrita, deberán incorporar los pesos asignados,
llamados también ponderadores. Caso contrario, no se puede asegurar que la
muestra infiera adecuadamente sobre la población de estudio (marco
población). En ese sentido, un hogar extraído del sub grupo submuestreado,
tendrá un ponderador mayor al mostrado por un hogar del subgrupo
sobremuestreado.
Es importante tomar en cuenta que, los ponderadores representan los pesos de

la unidad muestreada, esto es, un ponderador de 170 indicará que un
determinado hogar representa esa cuantía de hogares. Ahora, en el caso en
que el investigador tenga el interés de mostrar estadísticas descriptivas a nivel
7
A su vez, es importante anotar que dentro de cada subgrupo todo hogar tiene la misma probabilidad
de ser elegido.
6
de individuos a partir de una base de datos con información a nivel de hogares,
bastará con multiplicar el ponderador del hogar por el número de miembros del
hogar.
Dado que el diseño muestral no responde a una selección aleatoria simple, las
varianzas estimadas tampoco pueden inferir directamente sobre la población a
menos que realicemos un ajuste de las mismas. Este punto es de vital
importancia dado que todos los indicadores extraídos de una muestra incluyen
errores muestrales, por lo que deben ser reportados en intervalos de
confianza8.
Para conocer qué tipo de ajustes se deben realizar al estimar el error muestral,
debemos considerar si el diseño muestral fue estratificado y realizado en más
de una etapa. Por ejemplo, en el caso peruano, las dos encuestas con mayor
cobertura a nivel nacional (ENAHO y ENDES) son resultado de un diseño
muestral estratificado que implica en una primera etapa elegir aleatoriamente
algunos conglomerados para seleccionar dentro de los mismos las viviendas a
ser encuestadas. En este caso, si bien la elección es realizada al azar la
probabilidad de selección se encuentra en proporción al tamaño poblacional del
conglomerado.
La razón para hacer el muestreo por conglomerados, en lugar de un muestreo

aleatorio simple, se debe a que es mucho más barato realizar entrevistas a
varias viviendas en un área pequeña, que buscar viviendas diseminadas en un
área potencialmente grande. Pese a ello, el uso de muestreo por
conglomerados, si bien no genera promedios sesgados en los indicadores
8
Si bien es muy poco usual que los resultados de un indicador se reporten en intervalos fuera
de los ámbitos académicos, dentro de ellos es un tema crucial. Aunque es una práctica habitual
que decir que, por ejemplo, "la tasa de pobreza es del 22,7 por ciento," sería más exacto decir
que al 95 por ciento de confianza la tasa de pobreza se encuentra entre 21,0 por ciento y 24,4
por ciento.
7
(ingreso per cápita, nivel de escolaridad, nivel de desigualdad en ingresos, etc),
trae consigo una menor confiabilidad de los resultados. Ello se debe a que al
seleccionar las viviendas es posible que se incluyan dos hogares pobres y dos
hogares ricos, por lo cual los errores estándar terminan siendo mayores.
Diferentes programas estadísticos permiten realizar este ajuste por diseño

muestral conjuntamente al ajuste de sobre y submuestreo. Este proceso es
conocido en la jerga estadística como “setear” la base de datos e idealmente se
realiza al inicio. Luego de este procedimiento, podremos generar resultados en
intervalos de confianza que infieren sobre la población total.
4.3 Emparejamiento de bases de datos a través del tiempo
Es muy común que los investigadores comparen bases de datos con el objetivo
de añadir información de períodos anteriores. En casos en que los sujetos de
estudio (individuos, hogares, distritos, regiones, empresas, sectores, etc) son
los mismos9, la nueva base de datos agregada es considerada un panel de
datos. En el caso en que los datos agregados no correspondan a los mismos
sujetos (individuos, empresas u hogares diferentes a lo largo del tiempo), la
base obtenido será una base de datos agregada o pooled.
Si bien en esta sección no realizaremos un análisis de la consistencia de las

regresiones empleadas en ambos métodos, es importante aclarar que en
ambos casos es posible alcanzar versiones consistentes y eficientes bajo
ciertos supuestos. Dichos supuestos se basan en presunciones sobre
9
Por lo normal, las encuestas que emplean datos de panel mantienen protocolos bastante
claros para casos en los que el hogar cambio de residencia o la empresa cambio de rubro.
8
componentes no observables (habilidades blandas de empresarios,
características culturales de los distritos, habilidades no cognitivas de los
trabajadores, etc)10.
Sin embargo, incluso en el caso en que todos los factores no observables

relevantes se encuentren debidamente controlados, un problema usual que
enfrenta el investigador es el cambio en los diseños de muestreo en el tiempo
y/o cambios en el cuestionario aplicado.
En el primer caso, asumamos dos períodos disponibles de una encuesta a

empresas que no ha sido diseñada como un panel de datos. Supongamos que
dicha encuesta cuenta con inferencia a nivel de rubros de los diferentes
sectores económicos. De acuerdo a ello, el investigador agrega la información
a nivel de rubros empresariales y puede generar de esa manera un panel de
datos de los mismos. Sin embargo, puede que entre ambos años los diseños
muestrales hayan variado, esto es, puede que el error muestral sea diferente
en ambas encuestas con lo cual en estricto este panel no cuenta con un
margen de error conocido. Debido a ello, el investigador no puede brindar
buenas estimaciones de los intervalos de confianza, aunque los momentos
centrales podrán ser estimados de manera consistente. Es decir, podemos
estimar los parámetros de las determinantes de la productividad empresarial,
sin embargo, no será posible realizar adecuadamente alguna inferencia sobre
los mismos, dado que los errores muestrales del panel de datos son
desconocidos.
En el segundo caso, es usual que los cuestionarios vayan cambiando en el

tiempo y a consecuencia de ello, cambie también la manera en que los datos
son reportados. Por un lado, puede que una misma pregunta se incluya ahora
10
Debido a las ventajas de los modelos de panel para el tratamiento de los no observables
invariantes en el tiempo, muchos investigadores muestran interés en emparejar bases de datos
en lugar de solamente agregar información pasada.
9
con mayores detalles consultados. Por ejemplo, no sólo se consulta a la
empresa si invirtió en I+D, sino que se consulta sobre el monto invertido de
manera colaborativa, el monto invertido en terceros y el monto invertido a nivel
interno en la empresa. La información monetaria reportada en detalle tiende a
ser mayor a la que es reportada a nivel agregado, esto es, a mayor detalle de
consulta los montos reportados tienden a ser mayores. Algo similar sucede al
cambiar la frecuencia de reporte de gastos, esto es, los gastos anualizados
reportados semanalmente son mayores a los gastos reportados de manera
anual.
Por otro lado, en algunos casos la inclusión de una consulta adicional puede
cambiar conceptualmente un indicador. Por ejemplo, agregar un concepto
adicional como el consumo de calzado en el cálculo del gasto de los hogares
puede cambiar las cifras de pobreza y desigualdad, haciendo no comparables
algunos indicadores de condiciones de vida a través del tiempo. En este caso,
es posible generar una comparabilidad artificial al estimar un gasto potencial
por hogar en el año en el que no se capturó dicha información.
Por último, es importante recordar que tanto en el caso del pooled como en el
caso de emplear datos de panel, la distancia entre los períodos reportados no
puede ser demasiado amplia debido a que dichas distancias pueden esconder
importantes variaciones de factores no observables. Por ejemplo, en el caso de
la evaluación de impacto de un programa de subsidios sociales en la
productividad agrícola, si bien los censos permiten identificar a todos los
beneficiarios, la distancia entre ambos censos es crucial. Si el segundo censo
disponible fue tomado luego de 20 años, es casi imposible atribuir los
resultados en productividad agrícola al programa. Esto último se debe a que
paralelamente al subsidio, otros factores no observables determinantes de
productividad pudieron variar.
4.4 Emparejamiento de bases de datos transversales
10
Usualmente, el emparejamiento de datos se realiza entre módulos de una
misma encuesta. Es decir, dos bases de datos con similares errores
muestrales, similar diseño e idénticas guías de entrevista 11 en las que se
reportan dos tipos diferentes de información (por ejemplo, educación y salud),
tan sólo requieren de un identificar para unirse. En algunas bases de datos
dicho indicador se encuentra bastante identificado, mientras que en otros
casos, debe ser construido a partir de la información conocida a partir del tipo
de muestreo. En ese sentido, dado que la fila de información corresponde a
una determinada persona, que habita en un determinado hogar, de una
determinada vivienda localizada en un determinado conglomerado, bastará con
generar un indicador de identificación que acumule el código del conglomerado,
la vivienda, el hogar y el código de persona.
El proceso de emparejamiento es relativamente sencillo en el caso de contar

con identificadores exclusivos para cada unidad de análisis, sin embargo, no
todas las encuestas cuentan con una variable que permita identificar de
manera transversal a los individuos, hogares, distritos o empresas de manera
directa. Esto pasa con mayor frecuencia al intentar emparejar bases de datos
provenientes de diferentes encuestas.
En el caso de no contar con un indicador que permita identificar a la unidad de

análisis, algunos investigadores emplean un puntaje de emparejamiento de
acuerdo a las características más relevantes de la unidad. En ese sentido, si
bien ambas bases de datos han colectado información de diferentes empresas,
el especialista buscará generar una “submuestra” que incluya empresas que
sean similares en ciertas características relevantes.
En este punto convienen señalar cuatro importantes limitaciones del proceso.

En primer lugar, si bien existen diferentes maneras de realizar el
11
Lo cual asegura la estandarización de protocolos al relevar la información.
11
emparejamiento, el algoritmo que se emplea (y que determina qué empresas
son similares a otras) depende de las características incluidas en la ecuación
de emparejamiento. De acuerdo a ello, ambas bases de datos deben incluir las
características consideradas en la ecuación de emparejamiento (por ejemplo,
en el caso de empresas, el número de trabajadores, rubro, capital físico, etc).
En segundo lugar, el emparejamiento por puntaje requiere que las variables

requeridas en la ecuación sean observables. Por ejemplo, en el caso de dos
bases de datos de microempresas, el investigador podrá emparejar empresas
en función de características observables como el número de trabajadores, sin
embargo, no le será posible indicar si otras características efectivamente fueron
emparejadas, tales como las habilidades blandas de microempresarios.
En tercer lugar, dado que el emparejamiento reúne unidades similares de

acuerdo a un puntaje, el mismo proceso excluye a las unidades que no
pudieron ser emparejadas. Esta exclusión puede afectar de manera importante
la representatividad de la encuesta a nivel agregado e incluso la inferencia de
la misma. Debido a ello, se recomienda la revisión de diferencias en media y
varianza antes y después del proceso de emparejamiento.
En cuarto lugar, dado que ambas bases de datos no son parte de un esfuerzo
integrado, es probable que los diseños muestrales de ambas difieran. Debido a
ello, las varianzas estimadas no necesariamente comparten los mismos niveles
de confianza. Esta limitación debe ser estudiada y reportada en la investigación
debido a sus implicancias en la inferencia de los resultados.
Otra alternativa usual para el caso en que se trabaja con bases de datos que
no cuenten con códigos de emparejamiento, pasa por emplear un nivel más
agregado de información. Esto es, si bien no es posible emparejar directamente
a los individuos, el emparejamiento se puede realizar a nivel de distritos.
12
Efectivamente este proceso será válido en el caso en que ambas encuestas
cuenten con representatividad a nivel distrital. En caso contrario, el especialista
podría emparejar distritos con información que efectivamente no refleja las
reales condiciones de vida. En particular, dado que los datos no son
representativos a nivel de distrito, cualquier levantamiento de información
paralela con las misma características de diseño muestral, hubiese dado
resultados potencialmente diferentes a los observados inicialmente.
Del mismo modo, si la encuesta no cuenta con inferencia a nivel distrital, es

muy probable que algunos distritos se encuentren faltantes en alguna de las
bases de datos, lo cual afectará potencialmente la representatividad de toda
encuesta. Pese a ello, algunos autores emplean este tipo de emparejamiento
bajo el supuesto que, dado el diseño muestral de la encuesta, los errores de
inferencia podrían ser aleatorios, algo que efectivamente no se demuestra.
13

2-Empleo de Bases de Datos Relacionadas

Uploaded by

Document Information

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

2-Empleo de Bases de Datos Relacionadas

Uploaded by

Copyright:

Available Formats

Guía para la elaboración

Si bien las ciencias sociales emplean tanto variables de naturaleza cuantitativa

Recientemente algunos enfoques vienen empleando mixturas de ambas

4.1 Empleo adecuado del diseño muestral

En muchos casos los investigadores pueden tener claridad en lo buscan y

Es importante tomar en cuenta que, debido a que en el caso latinoamericano

Por ejemplo, puede que un investigador se encuentre interesado en estudiar

Es muy común en Latinoamérica que, debido a la limitación de recursos, las

El problema de sesgo e inconsistencia en los resultados surgirá en la medida

Paralelamente, existen casos en los que el mismo diseño del levantamiento de

Por su parte, es importante recordar que en algunas encuestas la tasa de

Por lo general, este tipo de limitaciones pueden ser superadas delimitando el

Este problema será mayor en la medida en que el investigador se plantee un

4.2 Empleo de ponderadores y ajuste de varianza de acuerdo al diseño

Como se mencionó en la sección anterior, las buenas propiedades de una

En términos sencillos, un indicador sería representativo a nivel nacional si

Muy a menudo resulta rentable generar deliberadamente sobremuestreos de

Estos cambios en el diseño muestral deben ser considerados por el

De acuerdo con lo anterior, todas las estimaciones o análisis descriptivos que

Es importante tomar en cuenta que, los ponderadores representan los pesos de

La razón para hacer el muestreo por conglomerados, en lugar de un muestreo

Diferentes programas estadísticos permiten realizar este ajuste por diseño

4.3 Emparejamiento de bases de datos a través del tiempo

Si bien en esta sección no realizaremos un análisis de la consistencia de las

Sin embargo, incluso en el caso en que todos los factores no observables

En el primer caso, asumamos dos períodos disponibles de una encuesta a

En el segundo caso, es usual que los cuestionarios vayan cambiando en el

4.4 Emparejamiento de bases de datos transversales

El proceso de emparejamiento es relativamente sencillo en el caso de contar

En el caso de no contar con un indicador que permita identificar a la unidad de

En este punto convienen señalar cuatro importantes limitaciones del proceso.

En segundo lugar, el emparejamiento por puntaje requiere que las variables

En tercer lugar, dado que el emparejamiento reúne unidades similares de

Del mismo modo, si la encuesta no cuenta con inferencia a nivel distrital, es

You might also like