You are on page 1of 12

ndice

Introduccin Aplicacin de la regresin mltiple Requisitos y limitaciones Interpretacin de resultados El modelo de regresin lineal mltiple Aplicaciones de regresin mltiple El coeficiente de determinacin mltiple Conclusin Regresin lineal (spss) Mtodo (spss) Estadsticos (spss) Grficos (spss) Bibliografa

Regresin mltiple
Introduccin Es evidente que lo ms econmico y rpido para modelar el comportamiento de una variable Y es usar un solo variable pre editor y usar un modelo lineal. Pero algunas veces es bastante obvio de que el comportamiento de Y es imposible que sea explicada en gran medida por solo una variable. Por ejemplo, es imposible tratar de explicar el rendimiento de un estudiante en un examen, teniendo en cuenta solamente el nmero de horas que se prepar para ella. Claramente, el promedio acadmico del estudiante, la carga acadmica que lleva, el ao de estudios, son tres de las muchas otras variables que pueden explicar su rendimiento. Tratar de explicar el comportamiento de Y con ms de una variable pre editora usando una funcional lineal es el objetivo de regresin lineal mltiple. Frecuentemente, uno no es muy familiar con las variables que estn en juego y basa sus conclusiones solamente en clculos obtenidos con los datos tomados. Es decir, si ocurre que el coeficiente de determinacin R 2 sale bajo (digamos menor de un 30%), considerando adems que su valor no se ha visto afectado por datos anormales, entonces el modelo es pobre y para mejorarlo hay tres alternativas que frecuentemente se usan: a) Transformar la variable preeditora, o la variable de respuesta Y, o ambas y usar luego un modelo lineal. b) Usar regresin polinmica con una variable preeditora. c) Conseguir ms variables preeditoras y usar una regresin lineal mltiple. En el primer caso, se puede perder el tiempo tratando de encontrar la transformacin ms adecuada y se podra caer en overfitting, es decir, encontrar un modelo demasiado optimista, que satisface demasiado la tendencia de los datos tomados pero que es pobre para hacer predicciones debido a que tiene una varianza grande. En el segundo caso el ajuste es ms rpido, pero es bien fcil caer en overfitting y, adems se pueden crear muchos problemas de clculo ya que pueden surgir problemas de colinealidad, es decir relacin lineal entre los trminos del modelo polinomio. El tercer caso es tal vez la alternativa ms usada y conveniente. Tiene bastante analoga con el caso simple, pero requiere el uso de vectores y matrices. En el siguiente ejemplo se mostrar el uso interactivo de las tres alternativas a travs de seis modelos de regresin y servir como un ejemplo de motivacin para Introducirnos en regresin lineal mltiple.

Utilizamos regresin mltiple cuando estudiamos la posible relacin entre varias variables independientes y otra variable dependiente. Aplicacin de la regresin mltiple Es cierto que la regresin mltiple se utiliza para la prediccin de las respuestas a partir de variables explicativas. Pero no es esta realmente la aplicacin que se le suele dar en investigacin. Los usos que con mayor frecuencia encontramos en las publicaciones son las siguientes: Identificacin de variables explicativas: nos ayuda a crear un modelo donde se seleccionan las variables que pueden influir en la respuesta, descartando aquellas que no aportan informacin. Deteccin de interacciones: entre variables independientes que afecta a la variable respuesta. Un ejemplo de interaccin clsico es estudiar respuesta de un paciente al alcohol y a un barbitrico, y observar que cuando se ingieren ambos, el efecto es mucho mayor del esperado como suma de los dos. Identificacin de variables confusas: es un problema difcil el de su deteccin, pero de inters en investigacin no experimental, ya que el investigar no tiene frecuentemente el control sobre las variables independientes.

Requisitos y limitaciones Hay ciertos requerimientos necesarios para poder utilizar la tcnica de regresin mltiple. Linealidad: se supone que la variable respuesta depende linealmente de la variable explicativa. Si la respuesta no aparenta ser lineal, debemos introducir en el modelo componentes no lineales. Otro tipo de respuesta no lineal es la interaccin. Para ello se ha de incluir en el modelo trminos de interaccin, que equivalen a introducir nuevas variables explicativas que en realidad no es ms que el producto de dos o ms de las independientes. Normalidad y equidistribucin de los residuos: se llaman residuos las diferencias entre valores calculados por el modelo y los realmente observados en la variable dependiente. Para tener un buen modelo de regresin no es suficiente con que los residuos sean pequeos. La valides del modelo requiere de los mismos se distribuyan de forma normal y con la misma dispersin para cada combinacin de los valores de las variables independientes. Numero de variables independientes: si utilizamos muchas variables corremos el riesgo de cometer el error tipo I. la inclusin de una nueva

observacin puede cambiar completamente el valor de los coeficientes del modelo. Colinealidad: si dos variables independientes estn estrechamente relacionadas y ambas son incluidas en un modelo, muy posiblemente ninguna de las dos sea considerada significativa, aunque si hubisemos incluido solo una de ellas, si. Algunas tcnicas para detectar colinealidad son: examinar los coeficientes del modelo para ver si se vuelven inestables al introducir una nueva variable. Si es as posiblemente hay colinealidad entre la nueva variable y la anterior. Observaciones anmalas: est muy relacionada con la cuestin de los residuos. Debemos poner especial cuidado en identificarlas, pues tiene gran influencia en el resultado.

Interpretacin de resultados Hay muchos trminos que son necesarios conocer para contrastar una hiptesis. La significacin del modelo de regresin: la hiptesis nula es que la variable no est influenciada por las variables independientes. Las variables observadas en las respuestas son causadas por el azar, sin influencia de las variables independientes. Los coeficientes: los programas estadsticos ofrecen una estimacin de los mismos, junto a un error tipo de la estimacin, un valor de la significacin, o mejor an, un intervalo de confianza. La bondad del ajuste: hay un trmino denominado R cuadrado, que se interpreta de la siguiente manera. La variable respuesta representa cierta variabilidad, pero cuando se conoce el valor de las variables independientes, dicha incertidumbre disminuye. El termino R cuadrado es una cantidad que puede interpretarse como un factor de reduccin de la incertidumbre cuando son conocidas las variables independientes. Matriz de correlaciones: nos ayuda a identificar correlaciones lineales entre pares de variables. Encontrar correlaciones lineales entre la variable dependiente y cualquiera de las independientes es de gran inters. Pero es una mala seal la correlacin entre variables independientes. La matriz de correlacin est formada por todos los coeficientes de correlacin lineal de Pearson para cada variable.

El modelo de regresin lineal mltiple El modelo de regresin lineal mltiple con p variables predictoras y basado en n observaciones tomadas es de la forma:

para i = 1,2,.n. Escribiendo el modelo para cada una de las observaciones, ste puede ser considerado como un sistema de ecuaciones lineales de la forma

que puede ser escrita en forma matricial como

APLICACION DE REGRESION MULTIPLE Mediante el siguiente problema podremos ilustrar la aplicacin de Regresin Multiple: En la Facultad de Ingeniera de Sistemas y Computo de la Universidad Inca Garcilaso de la Vega se quiere entender los factores de aprendizaje de los alumnos que cursan la asignatura de PHP, para lo cual se escoge al azar una muestra de 15 alumnos y ellos registran notas promedios en las asignaturas de Algoritmos, Base de Datos y Programacin como se muestran en el siguiente cuadro.

Lo que buscamos es construir un modelo para determinar la dependencia que exista de aprendizaje reflejada en las notas de la asignatura de PHP, conociendo las notas de las asignaturas Algoritmos, Base de Datos y Programacin. Se presentara la siguiente ecuacin a resolver:

Utilizando las formulas de las ecuaciones normales a los datos obtendremos los coeficientes de regresin o utilizando Regresin de Anlisis de datos, en la Hoja de Calculo de Excel podemos calcular tambin los coeficientes de regresin:

Por lo tanto podemos construir la ecuacin de regresin que buscamos:

El Error Estndar de Regresin Mltiple Mediante esta medida de dispersin se hace ms preciso el grado de dispersin alrededor del plano de regresin, se hace ms pequeo. Para calcularla se utiliza la formula siguiente:

En los resultados de Excel se llama error tpico y para explicar la relacin del aprendizaje de PHP que se viene desarrollando es de 0.861 El coeficiente de determinacin mltiple (r2) Utilizaremos para determinar la tasa porcentual de Y para ser explicados las variables mltiples, utilizando la si siguiente formula:

Conclusin El 69.70% del aprendizaje del Curso de PHP puede ser explicado mediante las notas obtenidas por las asignaturas de Algoritmos, Base de Datos y Programacin. Regresin lineal En el cuadro de dilogo Regresin Lineal, seleccione una nica variable dependiente que sea cuantitativa. A continuacin tiene que seleccionar una o ms variables numricas independientes. Es posible utilizar variables cualitativas en la regresin, pero siempre como paso previo hemos de codificarlas como cuantitativas (variables dummy) y a partir de ese momento pensar en ellas como si fueran mtricas. Por ejemplo, variables categricas, como el sexo o el lugar de residencia, han de recodificarse como variables dicotmicas (una por cada categora menos la ltima).

Tenemos la posibilidad de: Agrupar variables independientes en bloques y especificar distintos mtodos de entrada para diferentes subconjuntos de variables. Elegir una variable de seleccin para limitar el anlisis a un subconjunto de casos que tengan valores particulares para esta variable.

Seleccionar una variable de identificacin de casos para identificar los puntos en los diagramas. Pulsar en MCP para obtener un anlisis de mnimos cuadrados ponderados y desplazar una variable numrica de ponderacin al cuadro ponderacin MCP.

Mtodo El programa permite realizar el anlisis de regresin en etapas (bloques) y en cada caso es posible utilizar distintos mtodos en la comparacin de estas etapas.

Mtodos de seleccin de variables en el anlisis de regresin lineal: La seleccin del mtodo permite especificar cmo se trabaja con las variables independientes en el anlisis. Para introducir las variables del bloque en un solo paso seleccione Introducir. Para eliminar las variables del bloque en un solo paso, seleccione Eliminar. Este mtodo no puede ser usado como primera opcin, ya que necesita de una opcin anterior donde estn incluidas todas las que se eliminarn en un nico paso.

La seleccin de variables Hacia adelante introduce las variables del bloque una a una basndose en los criterios de entrada. La eliminacin de variables Hacia atrs introduce todas las variables del bloque en un nico paso y despus las elimina una a una basndose en los criterios de salida. La entrada y salida de variables mediante Pasos sucesivos examina las variables del bloque en cada paso para introducirlas o excluirlas. Se trata de un procedimiento hacia adelante por pasos.

Todas las variables independientes seleccionadas se aaden a un mismo modelo de regresin. Sin embargo, puede especificar distintos mtodos de introduccin para diferentes subconjuntos de variables. Por ejemplo, puede introducir en el modelo de regresin un bloque de variables que utilice la seleccin por pasos sucesivos, y un segundo bloque que emplee la seleccin hacia adelante. Estadsticos Se encuentran disponibles los siguientes estadsticos: Coeficientes de regresin. La opcin Estimaciones muestra el coeficiente de regresin , su error tpico, el coeficiente beta obtenido si previamente a la regresin tipificamos las variables, el valor de t para y el nivel de significacin bilateral (de dos colas) de t; Intervalos de confianza presenta intervalos de confianza al 95% para cada coeficiente de regresin o una matriz de covarianza. Matriz de covarianza muestra una matriz de varianza-covarianza de los coeficientes de regresin, con las covarianzas fuera de la diagonal y las varianzas en la diagonal. Tambin se muestra una matriz de correlaciones. Ajuste del modelo. Presenta una lista de las variables introducidas y eliminadas del modelo y muestra los siguientes estadsticos de bondad de ajuste: coeficiente de correlacin mltiple, coeficiente de determinacin y coeficiente de determinacin ajustado, error tpico de la estimacin y tabla de Anlisis de la Varianza. Cambio en R cuadrado. Muestra los cambios en el coeficiente de determinacin, valora este cambio y su significacin. Descriptivos. Proporciona el nmero de casos vlidos, la media y la desviacin tpica para cada variable en el anlisis. Tambin muestra una matriz de correlaciones con el nivel de significacin unilateral y el nmero de casos para cada correlacin. Correlaciones parcial y semiparcial. Presenta correlaciones de orden cero, parciales y semiparciales.

Diagnsticos de colinealidad. Muestra los autovalores de la matriz de productos cruzados no centrada y escalada, los ndices de condicin y las proporciones de la descomposicin de la varianza junto con los factores de inflacin de la varianza (FIV) y las tolerancias para las variables individuales. Residuos. Presenta la prueba de Durbin-Watson sobre la correlacin serial de los residuos. Tambin muestra los diagnsticos para los casos que cumplan el criterio de seleccin (los valores atpicos por encima de n desviaciones tpicas).

Grficos Los grficos pueden ayudar a validar los supuestos de normalidad, linealidad e igualdad de las varianzas. Tambin son tiles para detectar valores atpicos, observaciones poco usuales y casos de influencia. Como indicaremos luego, podemos guardar distintos clculos como nuevas variables y se dispondr en el Editor de datos de los valores pronosticados, los residuos y otros valores diagnsticos, con los cuales podr poder crear grficos respecto a las variables independientes. Se encuentran disponibles los siguientes grficos: Diagramas de dispersin. Puede representar cualquier combinacin por parejas de la lista siguiente: la variable dependiente, los valores pronosticados tipificados, los residuos tipificados, los residuos eliminados, los valores pronosticados corregidos, los residuos estudentizados o los residuos eliminados estudentizados. Represente los residuos tipificados frente a los valores pronosticados tipificados para contrastar la linealidad y la homocedasticidad (la igualdad de las varianzas). Variables de origen: Variable dependiente (DEPENDNT)

Variables pronosticadas y residuales: Valores pronosticados tipificados (*ZPRED) Residuos tipificados (*ZRESID) Residuos eliminados (*DRESID) Valores pronosticados corregidos (*ADJPRED) Residuos estudentizados (*SRESID) Residuos estudentizados eliminados (*SDRESID).

Generar todos los grficos parciales. Muestra los diagramas de dispersin de los residuos de cada variable independiente y los residuos de la variable dependiente cuando se regresan ambas variables por separado sobre las restantes variables independientes. En la ecuacin debe haber al menos dos variables independientes para que se generen los grficos parciales. Grficos de residuos tipificados. Puede obtener histogramas de los residuos tipificados y grficos de probabilidad normal que comparen la distribucin de los residuos tipificados con una distribucin normal.

Bibliografa http://www.bioestadistica.uma.es/baron/apuntes/ficheros/cap06.pdf http://www.slideshare.net/harveymilquez/regresion-multiple http://biplot.usal.es/DOCTORADO/3CICLO/BIENIO-0608/PRACT_REGRESION_MULT.pdf

You might also like