Professional Documents
Culture Documents
de propuestas de
investigación cuantitativa
Elaborado por: Alejandro Granda Sandoval
4. Empleo de bases de datos relacionadas a desarrollo social y
productivo
Pese a ello, no pocas veces las bases de datos ofrecen algunas limitaciones
que, si bien corresponden al ámbito técnico u operativo, pueden llegar a
repercutir en los resultados incluidos en una investigación. De acuerdo a ello,
se presentan a continuación algunas recomendaciones al emplear bases de
datos considerando tanto las características muestrales, la posibilidad de
emparejar fuentes de información, etc.
1
emplear información de una nueva encuesta o una base de datos aún no
consistenciada.
En ese sentido, es importante considerar que todas las encuestas que levantan
un indicador, no necesariamente tienen inferencia sobre el mismo. Puede que
la encuesta económica citada en el párrafo anterior, incluya un levantamiento
de información de empresas localizadas en las regiones que acumulan la
mayor proporción de ventas en el país. Es claro que el muestreo
potencialmente omite la información de empresas expuestas a escenarios
menos competitivos, incluso, podrían ser efectivamente empresas con menores
ventas1, menores utilidades y por ende, menores posibilidades de invertir en
innovación.
1
Para demostrar el argumento de insesgamiento, deberíamos demostrar que las empresas
omitidas del marco poblacional cuentan con promedios de ventas similares a las empresas
localizadas en las regiones que acumulan la mayor proporción de ventas.
2
Debido a lo anterior, la muestra seleccionada se encontraría sesgada en
relación a la variable de inversión en innovación. El investigador que piense
estimar el número de empresas no innovadoras puede subestimar su resultado
dado que buena parte de las mismas se encuentran localizadas en regiones
que no fueron parte del marco población del que se extrajo la muestra
seleccionada.
2
Es cierto que se genera un sesgo en varianza, el cual repercutirá en la estimación de
intervalos de confianza y en la consistencia de los test de hipótesis. Pese a ello, en esta
sección se prioriza el problema de sesgo en momentos centrales (media y mediana). Los
sesgos de varianza son discutidos en la sección de ajuste de varianza de acuerdo al diseño
muestral.
3
Pese a ello, debido a que los técnicos cuentan con la información del marco poblacional, es
posible realizar un ejercicio sencillo de simulaciones de muestreo para evaluar este supuesto.
3
En estos casos, es imprescindible que el investigador sea consciente de las
limitaciones del muestreo realizado, en particular esto implica estar al corriente
del marco poblacional empleado y la definición de unidad muestral. Ambos
datos por lo general son reportados en la ficha técnica que acompaña la
encuesta.
4
Las encuestas prevén estos problemas a través de la micro o macro edición. Por lo general,
antes del levantamiento de información se determina un umbral de tasa de no respuesta
razonable, de tal manera que si la información faltante supera el mismo, se evalúa si las
omisiones sigue un patrón aleatorio o son fuentes potenciales de sesgo.
4
En estos casos, una alternativa es contar con ponderaciones que permitan la
comparación entre ambos períodos5, sin embargo, para ser estrictos este
método no permite recuperar la información truncada por lo que el empleo de
un corte transversal puede ser mucho más consistente y eficiente6.
5
Es importante aclarar que, en la práctica, la muestra que considera un marco poblacional
sesgado realiza un sobremuestreo de las empresas con mayor propensión a innovar. En ese
sentido, los ponderadores podrían reducir los pesos de las empresas que forman parte del
espacio sobremuestreado (empresas con mayor propensión a innovar), facilitando la
comparación de bases de datos.
6
Si en el problema de estudio las determinantes del modelo no muestran una variabilidad
importante en el tiempo, es muy probable que el empleo de un corte transversal sea la
alternativa más eficiente.
5
poblacionales grandes y homogéneos (centros poblados de mayor densidad
poblacional). Ciertamente, a diferencia del muestreo aleatorio simple, los
hogares de dos subgrupos distintos tendrán una probabilidad diferente de ser
elegidos7, sin embargo, dichas probabilidades son conocidas.
6
de individuos a partir de una base de datos con información a nivel de hogares,
bastará con multiplicar el ponderador del hogar por el número de miembros del
hogar.
Dado que el diseño muestral no responde a una selección aleatoria simple, las
varianzas estimadas tampoco pueden inferir directamente sobre la población a
menos que realicemos un ajuste de las mismas. Este punto es de vital
importancia dado que todos los indicadores extraídos de una muestra incluyen
errores muestrales, por lo que deben ser reportados en intervalos de
confianza8.
Para conocer qué tipo de ajustes se deben realizar al estimar el error muestral,
debemos considerar si el diseño muestral fue estratificado y realizado en más
de una etapa. Por ejemplo, en el caso peruano, las dos encuestas con mayor
cobertura a nivel nacional (ENAHO y ENDES) son resultado de un diseño
muestral estratificado que implica en una primera etapa elegir aleatoriamente
algunos conglomerados para seleccionar dentro de los mismos las viviendas a
ser encuestadas. En este caso, si bien la elección es realizada al azar la
probabilidad de selección se encuentra en proporción al tamaño poblacional del
conglomerado.
8
Si bien es muy poco usual que los resultados de un indicador se reporten en intervalos fuera
de los ámbitos académicos, dentro de ellos es un tema crucial. Aunque es una práctica habitual
que decir que, por ejemplo, "la tasa de pobreza es del 22,7 por ciento," sería más exacto decir
que al 95 por ciento de confianza la tasa de pobreza se encuentra entre 21,0 por ciento y 24,4
por ciento.
7
(ingreso per cápita, nivel de escolaridad, nivel de desigualdad en ingresos, etc),
trae consigo una menor confiabilidad de los resultados. Ello se debe a que al
seleccionar las viviendas es posible que se incluyan dos hogares pobres y dos
hogares ricos, por lo cual los errores estándar terminan siendo mayores.
Es muy común que los investigadores comparen bases de datos con el objetivo
de añadir información de períodos anteriores. En casos en que los sujetos de
estudio (individuos, hogares, distritos, regiones, empresas, sectores, etc) son
los mismos9, la nueva base de datos agregada es considerada un panel de
datos. En el caso en que los datos agregados no correspondan a los mismos
sujetos (individuos, empresas u hogares diferentes a lo largo del tiempo), la
base obtenido será una base de datos agregada o pooled.
9
Por lo normal, las encuestas que emplean datos de panel mantienen protocolos bastante
claros para casos en los que el hogar cambio de residencia o la empresa cambio de rubro.
8
componentes no observables (habilidades blandas de empresarios,
características culturales de los distritos, habilidades no cognitivas de los
trabajadores, etc)10.
10
Debido a las ventajas de los modelos de panel para el tratamiento de los no observables
invariantes en el tiempo, muchos investigadores muestran interés en emparejar bases de datos
en lugar de solamente agregar información pasada.
9
con mayores detalles consultados. Por ejemplo, no sólo se consulta a la
empresa si invirtió en I+D, sino que se consulta sobre el monto invertido de
manera colaborativa, el monto invertido en terceros y el monto invertido a nivel
interno en la empresa. La información monetaria reportada en detalle tiende a
ser mayor a la que es reportada a nivel agregado, esto es, a mayor detalle de
consulta los montos reportados tienden a ser mayores. Algo similar sucede al
cambiar la frecuencia de reporte de gastos, esto es, los gastos anualizados
reportados semanalmente son mayores a los gastos reportados de manera
anual.
Por otro lado, en algunos casos la inclusión de una consulta adicional puede
cambiar conceptualmente un indicador. Por ejemplo, agregar un concepto
adicional como el consumo de calzado en el cálculo del gasto de los hogares
puede cambiar las cifras de pobreza y desigualdad, haciendo no comparables
algunos indicadores de condiciones de vida a través del tiempo. En este caso,
es posible generar una comparabilidad artificial al estimar un gasto potencial
por hogar en el año en el que no se capturó dicha información.
Por último, es importante recordar que tanto en el caso del pooled como en el
caso de emplear datos de panel, la distancia entre los períodos reportados no
puede ser demasiado amplia debido a que dichas distancias pueden esconder
importantes variaciones de factores no observables. Por ejemplo, en el caso de
la evaluación de impacto de un programa de subsidios sociales en la
productividad agrícola, si bien los censos permiten identificar a todos los
beneficiarios, la distancia entre ambos censos es crucial. Si el segundo censo
disponible fue tomado luego de 20 años, es casi imposible atribuir los
resultados en productividad agrícola al programa. Esto último se debe a que
paralelamente al subsidio, otros factores no observables determinantes de
productividad pudieron variar.
10
Usualmente, el emparejamiento de datos se realiza entre módulos de una
misma encuesta. Es decir, dos bases de datos con similares errores
muestrales, similar diseño e idénticas guías de entrevista 11 en las que se
reportan dos tipos diferentes de información (por ejemplo, educación y salud),
tan sólo requieren de un identificar para unirse. En algunas bases de datos
dicho indicador se encuentra bastante identificado, mientras que en otros
casos, debe ser construido a partir de la información conocida a partir del tipo
de muestreo. En ese sentido, dado que la fila de información corresponde a
una determinada persona, que habita en un determinado hogar, de una
determinada vivienda localizada en un determinado conglomerado, bastará con
generar un indicador de identificación que acumule el código del conglomerado,
la vivienda, el hogar y el código de persona.
11
Lo cual asegura la estandarización de protocolos al relevar la información.
11
emparejamiento, el algoritmo que se emplea (y que determina qué empresas
son similares a otras) depende de las características incluidas en la ecuación
de emparejamiento. De acuerdo a ello, ambas bases de datos deben incluir las
características consideradas en la ecuación de emparejamiento (por ejemplo,
en el caso de empresas, el número de trabajadores, rubro, capital físico, etc).
En cuarto lugar, dado que ambas bases de datos no son parte de un esfuerzo
integrado, es probable que los diseños muestrales de ambas difieran. Debido a
ello, las varianzas estimadas no necesariamente comparten los mismos niveles
de confianza. Esta limitación debe ser estudiada y reportada en la investigación
debido a sus implicancias en la inferencia de los resultados.
Otra alternativa usual para el caso en que se trabaja con bases de datos que
no cuenten con códigos de emparejamiento, pasa por emplear un nivel más
agregado de información. Esto es, si bien no es posible emparejar directamente
a los individuos, el emparejamiento se puede realizar a nivel de distritos.
12
Efectivamente este proceso será válido en el caso en que ambas encuestas
cuenten con representatividad a nivel distrital. En caso contrario, el especialista
podría emparejar distritos con información que efectivamente no refleja las
reales condiciones de vida. En particular, dado que los datos no son
representativos a nivel de distrito, cualquier levantamiento de información
paralela con las misma características de diseño muestral, hubiese dado
resultados potencialmente diferentes a los observados inicialmente.
13