You are on page 1of 5

Tema 2 Anlisis de regresin lineal 2.1. Los problemas de la causalidad en Ciencias sociales 2.2.

El modelo de la regresin lineal mltiple 2.3 Supuestos del modelo de regresin 2.4 SPSS (regresin mltiple) Anlisis de regresin lineal 2.1. Los problemas de la causalidad en Ciencias sociales Por el momento no existe tcnica que sea capaz de probar los enunciados causales empricamente. Lo que se puede hacer es comprobar si las inferencias causales que formula un investigador son consistentes con los datos disponibles. Definiremos modelo como conjunto de relaciones que se usan para representar de forma sencilla una porcin de la realidad emprica. Cuando un investigador elabora un modelo y posteriormente se comprueba que el modelo no se ajusta a los datos, se pueden tomar dos decisiones: modificar el modelo o abandonarlo. Pero si el modelo es consistente con los datos, esto nunca prueba los efectos causales. La consistencia entre los datos y el modelo no implica la consistencia entre el modelo y la realidad. Lo nico que se puede afirmar es que los supuestos del investigador no son contradictorios y por lo tanto pueden ser vlidos. Pero el "ser vlidos", no quiere decir que sean la nica explicacin del fenmeno objeto de estudio, ya que es posible que otros modelos tambin se adapten a los mismos datos. Asociacin no implica causalidad: Que exista una fuerte asociacin entre dos variables no es suficiente para sacar conclusiones sobre las relaciones causa - efecto. Ejemplo: existe fuerte correlacin entre el nmero de bomberos que actan en un incendio y la importancia del dao ocasionado por el mismo. 2.2. El modelo de la regresin lineal mltiple El objetivo del anlisis de la regresin lineal es analizar un modelo que pretende explicar el comportamiento de una variable (Variable endgena, explicada o dependiente), que denotaremos por Y, utilizando la informacin proporcionada por los valores tomados por un conjunto de variables (explicativas, exgenas o independientes), que denotaremos por X1 , X2 , ....., X n Las variables del modelo de regresin deben ser cuantitativas. Pero dada la robustez1 de la regresin es frecuente encontrar incluidas en el modelo como variables independientes a variables ordinales e incluso nominales transformadas en variables ficticias. Pero la variable dependiente debe ser cuantitativa. Para una variable dependiente binaria de emplea la regresin logstica. El modelo lineal viene dado por la ecuacin lineal: Y = b0 + b1 X1 + b2 X2 + ... b k X k + u Los coeficientes (parmetros) b1 , b2 , ... , b k denotan la magnitud del efecto de las variables explicativas (exgenas o independientes), esto es, representan los pesos de la regresin o de la combinacin lineal de las predictoras X1 , X2 , ... X k sobre la variable explicada (endgena o dependiente) Y. El coeficiente b0 se denomina trmino constante (o independiente) del modelo. Y al trmino u se le llama trmino de error del modelo o componente de Y no explicada por las variables predictoras. Si disponemos de T observaciones para cada variable, el modelo de expresa as: Y t = b0 + b1 X1 t + b2 X2 t + ... b k X k t + u t
1

t = 1, 2 , 3 ,.... T

Un estadstico se dice que es robusto cuando sigue siendo vlido a pesar de que uno o mas de sus supuestos no se cumplan.

El problema fundamental que se aborda es el siguiente: suponiendo que la relacin entre la variable Y y el conjunto de variables X1 , X2 , ... X k es como se ha descrito en el modelo, y que se dispone de un conjunto de T observaciones para cada una de las variables cmo pueden asignarse valores numricos a los parmetros b0 , b1 , b2 , ... b k basndonos en la informacin muestral?. Estos valores son la estimacin de los parmetros llamados coeficientes de regresin. Representan las unidades de cambio en la variable dependiente por unidad de cambio en la variable independiente correspondiente. En el caso de que slo haya una variable dependiente se llega a la ecuacin de una recta donde b0 es la ordenada en el origen y b1 la pendiente de la recta. Una vez encontradas las estimaciones de los parmetros del modelo, podremos hacer predicciones sobre el comportamiento de la variable Y en la poblacin. El anlisis de regresin sirve tanto para EXPLORAR datos como para CONFIRMAR teoras. Si el anlisis de regresin se realiza con variables tipificadas los coeficientes b, pasan a denominarse (coeficientes de regresin estandarizados) i = b i ( Desv. Tpica Xi /Desv. Tpica Y ) Al coeficiente de correlacin R elevado al cuadrado se le llama coeficiente de determinacin y es una medida de la bondad del ajuste del modelo ya que da la proporcin de variacin de Y explicada por el modelo. Se suele emplear R2 ajustado, que es una correccin de R2 para ajustar mejor el modelo a la poblacin objeto de estudio. 2.3 Supuestos del modelo de regresin El modelo lineal se formula bajo los siguientes supuestos: Tamao adecuado de la muestra: se recomienda n= 20 x n de variables predictoras. Las variables X1 , X2 , ... X vienen de la muestra tomada.
k

son deterministas (no son variables aleatorias) ya que sus valores

Se supone que todas las variables X relevantes para la explicacin de Y estn incluidas en la definicin del modelo lineal. Las variables X1 , X2 , ... X k son linealmente independientes (no se puede poner a una de ellas como combinacin lineal de las otras). Esta es la hiptesis de independencia y cuando no se cumple se dice que el modelo presenta multicolinealidad. O sea: Ninguna v. Independiente da un R 2 = 1 con las otras v.i. Linealidad de las relaciones: la v. Independiente presenta relacin lineal con cada una de las dependientes. Se comprueba con los grficos de regresin parcial. Su incumplimiento se arregla mediante transformaciones de los datos Los residuos siguen una distribucin Normal N(0, 2) , no estn correlacionados con ninguna de la variables independientes, ni estn autocorrelacionados. Hay homocedasticidad : la varianza del error es constante para los distintos valores de las variables independientes. El primer objetivo es el de obtener estimaciones, es decir, valores numricos de los coeficientes b0 , b1 , b2 , ... b k (coeficientes de regresin parcial) en funcin de la informacin muestral. Las estimaciones de los parmetros se suelen hacer por el mtodo de los mnimos cuadrados que consiste en minimizar la suma de los cuadrados de los residuos, tambin llamada suma residual Anlisis de la varianza: Introduciremos los siguientes conceptos Suma total (ST) es la varianza muestral de la variable dependiente y es por lo tanto una medida del tamao de las fluctuaciones experimentadas por dicha variable alrededor de su valor medio. Suma explicada (SE) es la fluctuacin de estimador de la variable Y ( t ) alrededor de la media de Y . Por tanto, la suma explicada es el nivel de fluctuacin de la variable Yt que el modelo es capaz de explicar. Suma residual (SR) es un indicador del nivel de error del modelo.

Suma total = Suma explicada + Suma residual Tambin se define el coeficiente de determinacin R2 como una medida descriptiva del ajuste global del modelo cuyo valor es el cociente entre la suma explicada y la suma total. (da la proporcin de varianza explicada por el modelo) R2 = V. Explicada / V. Total Se define el coeficiente de correlacin mltiple R como la raz cuadrada del coeficiente de determinacin y mide la correlacin entre la variable dependiente y las independientes. El Coeficiente de correlacin parcial entre X i e Y mide la correlacin entre estas variables cuando se han eliminado los efectos lineales de las otras variables en X i e Y. Coeficiente de correlacin semiparcial entre X i e Y es la correlacin entre estas variables cuando se han eliminado los efectos lineales de las otras variables en Y. La variable u (trmino de error o residuo) es una variable aleatoria con media nula y matriz de covarianzas constante y diagonal. O sea para todo t , la variable u t tiene una media igual a cero y una varianza no dependiente de t ( hiptesis de homocedasticidad) y adems Cov ( ui , uj )= 0, pata todo i distinto de j (hiptesis de no autocorrelacin) y tampoco estn correlacionados con las variables independientes. 2.4 SPSS (regresin mltiple) Lo fundamental de la regresin consiste en encontrar una funcin lineal de las variables independientes que permita predecir la variable dependiente Y = b0 + b1 X1 + b2 X2 + ... b k X k + u Con el fichero de datos del CIS que estamos usando, ya en sesiones anteriores hemos definido un conjunto de variables relacionadas con el problema de la INMIGRACIN. Y de ese conjunto usaremos las variables que cumplan los supuestos de la regresin (solo variables cuantitativas y si son cualitativas definir las variables ficticias correspondientes (dummy)). Siguiendo la idea del Libro de M Angeles Cea (Anlisis multivariable. Ed. Sntesis) vamos a tomar como variable dependiente "simpata hacia los norteafricanos (p401)" y trataremos de ajustar un modelo de regresin con variables independientes como: "simpata latinoamericano(p410)" "casar con marroqu (p506)", "vecino marroqu (p706)" "sexo , p32" "p33 edad" P29 izquierda-derecha, etc. etc. Para las primeras pruebas se recomienda no usar muchas variables, para que los ficheros de resultados no resulten demasiado grandes. Analizar -> Regresin -> lineal Llevar al rectngulo correspondiente la variable dependiente y las independientes del modelo. En Mtodo: Hay cuatro posibles: introducir, pasos sucesivos, eliminar, hacia atrs, hacia delante (leer la explicacin en la ayuda del SPSS). Si estamos en fase exploratoria y no tenemos una idea del modelo justificada por alguna teora que queramos comprobar, se recomienda usar el mtodo de hacia delante. Con l, el SPSS introducir como primera v. Independiente la que satisfaga los criterios de entrada y que presente mayor correlacin con la v. dependiente, luego introducir en el modelo otra v. Independiente que ser la siguiente en cuanto a mayor magnitud de la correlacin con la v. Independiente y as sucesivamente. En opciones elegir el tratamiento que queramos dar a los casos perdidos (Se recomienda encarecidamente repasar lo explicado en clases tericas as como leer las ayudas del SPSS, que se obtienen llevando el cursor al elemento que no entendemos y pulsando el botn derecho del ratn)

En estadsticos sealar aquellos que queramos conocer. Guardar permite archivar como nuevas variables los resultados de los clculos que se han ido haciendo en el proceso de la regresin. En los resultados de la matriz de correlaciones obtenemos para cada pareja de variables el coeficiente de correlacin de Pearson, su significacin y el tamao de la muestra con el que se ha calculado ese coeficiente. Son tres tablas que aparecen una a continuacin de la otra. Los nmeros de la segunda tabla son los p-valores asociados al estadstico R. Para poder contrastar si el estadstico coeficiente de correlacin es estadsticamente significativo. La Hiptesis nula es que R=0, Si se obtiene un valor inferior a una significacin prefijada (por ejemplo 0,05) indica que hay que rechazar la Hiptesis nula de inexistencia de correlacin y concluir que el R obtenido es estadsticamente significativo. Notar que la matriz de correlaciones es simtrica Luego aparece una tabla con las variables que han ido entrando en el modelo. Y a continuacin otra tabla con informacin de los coeficientes R y R2 para cada modelo. Otra tabla con los cambios en R2 y en F por la que podemos saber la proporcin de varianza que explica cada uno de los modelos. Tambin aparece en esta tabla el estadstico de Durbin Watson que ya se mencion. Si es prximo a dos los residuos no estn autocorrelacionados. Tambin obtenemos un anlisis de la varianza en el que vemos los valores de la suma de cuadrados total, explicado por la regresin y residual (repasar la teora) La tabla COEFICIENTES nos da la informacin para escribir las ecuaciones lineales de los modelos de regresin, (con una v. Independiente, con dos, con tres, etc.). A continuacin tenemos una tabla con los coeficientes de correlacin de orden cero, parcial y semiparcial as como los estadsticos de colinealidad. Por ltimo aparece un estudio de las variables que se han excluido del modelo. Tambin da una tabla de diagnsticos por caso que nos informa de los casos que el modelo predice peor (residuo tipificado mayor que 3) y que tal vez habra que estudiar en la matriz de datos. Aparece una tabla de los estadsticos sobre los residuos. Tolerancia Estadstico utilizado para determinar la cuanta en que estn relacionadas las variables independientes unas con otras (para ver si son multicolineales). La tolerancia de una variable es la proporcin de su varianza no explicada por las otras variables independientes de la ecuacin. Una variable con una tolerancia muy baja contribuye con poca informacin a un modelo (es colineal), y puede causar problemas de clculo. Se calcula como 1 menos la R cuadrado para una variable independiente cuando es pronosticada por las otras variables independientes ya incluidas en el anlisis. Grficos incluidos en el procedimiento de la regresin. Los grficos pueden ayudar a validar los supuestos de normalidad, linealidad e igualdad de las varianzas. Tambin son tiles para detectar valores atpicos, observaciones poco usuales y casos de influencia. Tras guardarlos como nuevas variables, dispondr en el Editor de datos de los valores pronosticados, los residuos y otros valores diagnsticos, con los cuales podr poder crear grficos respecto a las variables independientes. Se encuentran disponibles los siguientes grficos: Diagramas de dispersin. Puede representar cualquier combinacin por parejas de la lista siguiente: la variable dependiente, los valores pronosticados tipificados, los residuos tipificados, los residuos eliminados, los valores pronosticados corregidos, los residuos estudentizados o los residuos

eliminados estudentizados. Represente los residuos tipificados frente a los valores pronosticados tipificados para contrastar la linealidad y la igualdad de las varianzas. Generar todos los grficos parciales. Muestra los diagramas de dispersin de los residuos de cada variable independiente y los residuos de la variable dependiente cuando se regresan ambas variables por separado sobre las restantes variables independientes. En la ecuacin debe haber al menos dos variables independientes para que se generen los grficos parciales. Grficos de residuos tipificados. Puede obtener histogramas de los residuos tipificados y grficos de probabilidad normal que comparen la distribucin de los residuos tipificados con una distribucin normal. Si se solicita cualquier grfico, se muestran los estadsticos de resumen para los valores pronosticados tipificados y los residuos tipificados (*ZPRED y *ZRESID). Tambin se recomienda revisar los grficos del procedimiento grficos as como comparar los resultados en hombres y mujeres de las variables que intervienen en el modelo, e incluso aplicar la regresin slo a los hombres o solo a las mujeres, pera ello en datos seleccionar de la muestra antes de hacer la regresin las submuestras correspondientes. Estos apuntes se completan con el captulo 18 del libro SPSS 11, que figura en la Bibliografa.

You might also like