Professional Documents
Culture Documents
de propuestas de
investigación cuantitativa
Elaborado por: Alejandro Granda Sandoval
5. Problemas y recomendaciones al momento de estimar resultados
1
Al respecto, Intriligator, Bodkin y Hsiao (1996) indican que alrededor del 80% del material de
libros de textos en econometría concentran su atención en técnicas, mientras sólo el 20% son
aportes aplicados a modelación.
1
lugar de marcos conceptuales teóricos, se ha evitado emplear
representaciones algebraicas2.
Incluso, este indicador puede diferir por aula dependiendo del maestro que
determina la aprobación del estudiante. Efectivamente, al emplear el indicador
de aprobación de curso enfrentamos un problema de error de medida en
relación a la variable desempeño escolar.
2
Para un mayor detalle cuantitativo sobre los problemas con regresiones, puede consultarse:
Kennedy (2008), Verbeek (2004) y Franses (2002).
2
inconsistente3. Por ejemplo, supongamos que se intenta estimar el impacto de
los ingresos familiares en el desempeño de los estudiantes. Dado que el error
de medida en el indicador empleado (aprobación de grado) se encuentra
potencialmente correlacionado con el nivel socioeconómico de las escuelas, es
muy probable que el error de medida se relacione con el ingreso de las familias
(variable dependiente), con lo cual, MCO deja de ser un método consistente.
3
Incluso empleando muestras grandes el resultado seguirá siendo el mismo. Para mayor
detalle ver, Johnston y Dinardo (1997)
4
Es importante señalar que si el error de medida se encuentra relacionado a alguna otra
variable independiente o explicativa, el método no permitirá identificar el real impacto de la
misma. En cualquiera de los casos, el parámetro constante no puede ser estimado de manera
consistente salvo en el caso en que el error de medida tenga como promedio cero.
5
En particular, al sobredimensionar los intervalos de confianza, es probable que los mismos no
excluyan al valor cero, con lo cual, la hipótesis de impacto nulo no podría ser rechazada.
3
En el caso en que el error de medida se encuentre en la variable independiente
o explicativa, el impacto en la variable dependiente no podrá ser realmente
estimado a través de MCO, incluso en el caso en que el error sea
independiente de la variable de interés. Pese a ello, en este caso el
investigador podrá estar consciente de la direccionalidad del sesgo generado,
en particular se encontrará frente a un sesgo de atenuación. Esto es, los
parámetros de las variables explicativas con errores de medida muestran
siempre valores por debajo de los que realmente deberían ser reportados6.
6
Esta atenuación será proporcional a la variabilidad del error de medida.
7
Para efectos prácticos se obvia el caso en que el investigador haya pasado por alto alguna
variable relevante. En este caso, la clara solución es la incorporación en el modelo de dicha
variable, claro está, siempre que la misma se encuentre disponible.
4
En este punto es importante recordar que la investigación formula una hipótesis
en relación una las variables explicativas8, el resto de variables son
consideradas variables control. En ese sentido, el problema de variable omitida
que debe motivar la atención del investigador es el problema generado por la
omisión de un control que se encuentre relacionado a la variable de interés del
estudio.
8
En general, como se indicó en el apartado de delimitación del problema de investigación, la
formulación del problema de investigación debe decantar en la formulación de una o más
hipótesis siempre que las mismas guarden bastante relación y se apoyen una a otra. Esto es,
el investigar evitar evaluar múltiples hipótesis inconexas, las cuales difícilmente podrá cubrir
debidamente con un marco teórico y conceptual.
5
información9. Incluso, de existir un problema de variable omitida relevante, el
marco teórico y conceptual podría intuir la dirección del sesgo generado.
5.3 Simultaniedad
9
Si bien en estricto no existen test de variables omitidas, es común el empleo del test de wald
evaluando la hipótesis de no significancia de variables que efectivamente no deberían ser
incluidas por lógica en el modelo. El rechazar dicha hipótesis daría la idea que alguna de las
variables explicativas efectivamente se encuentra omitida.
6
dirección del impacto también ocurre en sentido inverso, esto es, los hogares
con niños en peores estados de salud tienen a gastar en alimentos nutritivos
mucho más que el resto de hogares.
10
Es importante señalar que, debe existir un filtro anterior que asegure que los datos siguen
siendo representativos, esto es, los resultados siguen permitiendo inferencias sobre la
población.
7
mayores habilidades para capacitar trabajadores, mejores proyectos de
capacitación o mejores oficinas de recursos humanos.
Del mismo modo, un investigador que plantee estimar el impacto de los años
adicionales de escolaridad en los salarios reales11 enfrenta un problema de
sesgo de selección debido a que solamente observa la información de los
individuos con mayores habilidades y mayores niveles de educación dado que
excluye a aquellos que no trabajan. Esto quiere decir que, los salarios reales
observados no son una muestra aleatoria de la población.
5.5 Multicolinealidad
11
Para mayor detalle del ejemplo, puede consultarse Behrman y Oliver (2000).
12
Es importante diferencias el problema de variable truncada, en el que no existe información
que permita inferir el comportamiento del resto de la muestra, y el caso de variable censurada,
en el que la información existe pero la variable dependiente se reporta en un intervalo cerrado
(por ejemplo, test sicológico de ansiedad con variable continua de 1 a 4). En este último caso, a
todos los individuos que muestren niveles de ansiedad bastante superiores al límite superior (4)
se les asigna dicho puntaje debido al intervalo de censura.
8
Por ejemplo, un problema de investigación intenta estimar las determinantes
más importantes de la escolaridad de las mujeres en zonas rurales. El trabajo
considera como determinantes el acceso a servicios básicos, así como los
años de educación del padre y el de la madre. Dado que existe cierta evidencia
sobre la fuerte correlación entre los niveles de escolaridad en las parejas
(emparejamiento selectivo), potencialmente las variables de escolaridad del
padre y la madre se encuentren correlacionadas. Del mismo modo, ambas
variables pueden estar correlacionadas con el acceso a servicios básicos del
hogar, con lo cual las tres variables son potencialmente multicolineales.
Una tercera forma de detectar este problema pasa por analizar el factor de
inflación o factor de incremento de varianza de cada variable 13. Una última
manera de detección y probablemente la más efectiva, es el empleo de
autovalores, la multicolinealidad será alta en la medida en que los autovalores
sean más pequeño14.
13
Para mayor detalle puede consultarse Belsley (1991).
14
En la práctica se genera un rato entre el máximo autovalor y el mínimo autovalor de la matriz
de datos de variables explicativas. Luego de ello se aplica una raíz cuadrada para estimar el
número de la condición. Si este resultado es mayor a 30 se considera que existe una alta
multicolinealidad.
9
plano es el retiro de una de las variables multicolineales debido a que
podríamos generar un problema de variable omitida que haría totalmente
inconsistente a MCO.
5.6 Heterocedasticidad
De acuerdo a los supuestos de MCO, la varianza del error debe ser constante,
esto es, la variancia del componente no observado debería es independiente
de las variables que se consideran en el análisis. Pese ello, la varianza del
error estimado puede seguir un patrón de dependencia con alguna variable del
modelo provocando la ineficiencia en los estimadores.
15
Propuesto al mismo tiempo por Breusch y Pagan (1979), Godfrey (1978) y Cook y Weisberg
(1983).
16
Una de las debilidades de dicho test en el caso de modelos que emplean gran número de
variables, es la potencial pérdida de grados de libertad, la cual reduce la eficiencia del test. Una
alternativa al test de White es el aplicar la modificación propuesta por Baum, Cox y Wiggins
(200), la cual emplea proyecciones.
10
5.7 Valores atípicos
11
En el caso de problemas de error de medida teóricamente si el investigador
tuviera conocimiento de la varianza de la variable no observada, los parámetros
podrían ser estimados de manera consistente y eficiente a través del método
de momentos generalizados empleando factores de escala. Sin embargo, este
camino es probablemente el menos factible. De acuerdo a ello, lo
recomendable es el empleo del método de variables instrumentales18. Una
tercera opción sería el empleo de datos de panel, estimando los parámetros a
través de efectos fijos19.
Por su parte, el problema de variable omitida puede ser resuelto a través del
empleo del método de variables instrumentales o de estimación de efectos fijos
con datos de panel. Paralelamente, los problemas de ecuaciones simultáneas
pueden ser resueltos con el empleo del método de mínimo cuadrado en dos
etapas, el cual en la práctica es una generalización del método de variables
instrumentales.
18
Para mayor detalle del método de variables instrumentales y del método de mínimo cuadro
en dos etapas, puede consultarse Wooldridge (2010). En el mismo texto se pueden consultar
los diferentes test de evaluación de ganancia al emplear una o más de una variable
instrumental.
19
Para mayor detalle sobre el empleo de estimaciones de efectos fijos con datos de panel,
puede consultarse Baltagi (2011).
12
En el caso del problema de multicolinealidad existen tres potenciales salidas:
(a) el investigador puede generar una nueva especificación del modelo para
reducir la dependencia lineal, en la práctica se pueden emplear cocientes de
variables o componentes principales. Sin embargo, la nueva especificación del
modelo puede generar problemas adicionales de heterocedasticidad, ello sin
contar el hecho que el empleo de componentes principales trae consigo un
problema de interpretación de resultados20, (b) el investigador puede incorporar
datos adicionales o una base mucho más amplia, ello debido a que la relación
lineal entre variables en muchos casos es el resultado del empleo de bases de
datos con poca información, (c) debido a los potenciales riesgos al manipular
las variables explicativas, un camino válido es no hacer nada considerando el
potencial problema de retirar una variable que sea relevante.
Por último, no existe una regla general para el trabajo de bases de datos con
valores atípicos, sin embargo, si se cuenta con una base de datos grande,
excluir observaciones que resulten influyentes podría ser conveniente. Es
importante tomar en cuenta que casi siempre, al retirar valores atípicos, una
nueva evaluación da cuenta de nuevos valores atípicos. Una solución que si
bien no es totalmente aceptada es la imputación de valores siempre que los
mismos no cambien el promedio estimado de la muestra sin incluir valores
atípicos.
20
Para mayo detalle se puede consultar, Hill y Adkins (2003).
21
Para mayor detalle puede consultarse Greene (2011).
13
14