You are on page 1of 7

Mara Teresa Sanz Garca

Estadstica. Grado de Fisioterapia

Taller 7: Regresin Lineal

Objetivos:
En esta prctica utilizaremos el paquete R-Commander para estudiar la regresin lineal simple, entre dos variables, obteniendo la estimacin de los parmetros del modelo y realizando los procedimientos estadsticos oportunos para verificar la validez del mismo.

ndice:
1. Regresin simple. Recta de regresin y coeficiente de correlacin. 1.1 PrepaRacin del anlisis 1.2 Interpretacin de los resultados 1.3 ANOVA y Test de independencia lineal 1.4 Obtencin de la recta regresin (Grfica) 1.5 Residuos de la recta de regresin 2. Ejercicios

Al igual que en la prctica 6, para realizar una recta regresin debemos asegurarnos previamente que nuestros datos son normales y que existe homocedasticidad (igualdad de varianzas). Para la realizacin de la prctica supondremos que ambas condiciones se cumplen.

1. Regresin simple. Recta de regresin y coeficiente de correlacin


En la regresin simple se ajusta una recta de regresin de la forma Y= a + bX

Mara Teresa Sanz Garca

Estadstica. Grado de Fisioterapia

para, en el caso de que el modelo lineal sea el adecuado, estimar valores de la variable dependiente, Y, para ciertos valores de la variable independiente, X. Ejemplo 1: La Tabla siguiente muestra las prdidas de peso medias, observadas en 9 grupos de 25 escarabajos Tribolium, despus de 6 das de ser sometidos a distintos grados de humedades relativas. Se trata de estudiar la relacin lineal entre ambas variables y predecir la prdida de peso media de los escarabajos en funcin de la humedad.

Prdida de peso (mg) % Humedad Relativa

8,98 0

8,14 12

6,67 29,5

6,08 43

5,90 53

5,83 62,5

4,68 75,5

4,20 85

3,72 93

1.1 Preparacin del anlisis


En primer lugar podemos realizar un grfico de dispersin Grficas / Diagrama de dispersin... para ver cmo vara el peso medio en funcin de la humedad.

Observamos que cuanto mayor es la humedad, menor es la prdida de peso, adems los puntos del grfico se ajustan bastante bien a una recta. Por lo que podemos pensar en el modelo lineal Y= a +bX, la variable dependiente Y representar la prdida de peso y la variable independiente X la humedad relativa, notemos que en este caso no hay otra alternativa. Para realizar el estudio de la relacin lineal entre ambas variables seleccionamos, en el men principal Estadsticos / Ajuste de modelos / Regresin Lineal.... En primer lugar debemos poner en la ventana la variable explicada y la explicativa.

Mara Teresa Sanz Garca

Estadstica. Grado de Fisioterapia

1.2 Interpretacin de los resultados


En el resultado del anlisis de la regresin del Ejemplo 1, se presenta la siguiente informacin:

Lo primero que nos muestra el programa es una breve descripcin de los residuos de la regresin (Residuals), los cuales deben seguir una distribucin Normal, centrada en 0. Coeficientes Para cada uno de los parmetros de la recta de regresin poblacional se presenta su estimacin, el error estndar y el resultado del contraste de hiptesis en el que la hiptesis nula es que el correspondiente parmetro vale cero. La ecuacin de la recta de regresin ajustada ser en este ejemplo Y = -0.053X+8.704 La pendiente de la recta de regresin ajustada b indica que, en promedio, por 1% de aumento de la humedad relativa existe una disminucin de 0.053 mg de peso. Resumen del modelo R cuadrado (Multiple R-squared): Medida de la bondad de ajuste de un modelo lineal. Recibe el nombre de coeficiente de determinacin. Es la proporcin de la variacin de la variable dependiente explicada por el modelo de regresin. Sus valores van de 0 a 1. Los valores pequeos indican que el modelo no se ajusta bien a los datos. En este caso su valor es bastante alto.
3

Mara Teresa Sanz Garca

Estadstica. Grado de Fisioterapia

R cuadrado corregido (Adjusted R-squared): Es una correccin a la baja de R cuadrado basada en el nmero de casos n y de variables independientes p. Si hay pocos casos o el nmero de variables es relativamente grande, R cuadrado tiende a estimar de manera demasiado optimista el ajuste del modelo en la poblacin. En nuestro ejemplo 1, prcticamente no hay diferencia entre R cuadrado y R cuadrado corregida. Error tpico de la estimacin: Nos da la desviacin tpica residual.

1.3 ANOVA y Test de independencia lineal


El anlisis de varianza del modelo de regresin lineal Modelos / Test de hiptesis / Tabla ANOVA.... Nos dice si existe relacin significativa entre las variables. Ms concretamente, realiza el contraste: H0: b = 0 (H0:= 0) HA: b 0 (HA: 0)

En este caso, dado que el P-valor es menor que 0,001 rechazamos la hiptesis nula y concluimos que la pendiente poblacional en el modelo de regresin lineal Y = bX + a es negativa (ver tabla de coeficientes ms arriba). Test de independecia lineal y correlacin lineal En R-Commander podemos realizar el test de independencia lineal (Estadsticos / Resumenes / Test de correlacin), le pedimos el Tipo de correlacin correlacin de Pearson y Hiptesis alterativa bilateral.

1.4 Obtencin de la recta de regresin (Grfica)

Mara Teresa Sanz Garca

Estadstica. Grado de Fisioterapia

Se puede obtener grficamente en el men Grficos / Diagrama de dispersin... y en este marcamos las variables que queremos representar y seleccionamos slo Lnea de mnimos cadrados.

1.5 Residuos de la recta de regresin


Adems de poder representar la recta regresin, el R-Commander dispone de una serie de grficos que permiten obtener informacin, entre otras cosas, sobre el grado de cumplimiento de las hiptesis del modelo lineal de homocedasticidad y normalidad de los residuos. Un histograma de residuos tipificados Para elo debemos decirle al programa que queremos guardar los residuos como variable (Modelos / Aadir las estadsticas de las observaciones a los datos...) y seleccionamos slo Residuos y Residuos studentizados, para despus representar el histograma como ya vimos en prcticas anteriores.

Mara Teresa Sanz Garca

Estadstica. Grado de Fisioterapia

Grfico de probabilidad normal de los residuos. Para ver si los residuos siguen una distribucin normal realizamos un qq-plot (Grficas / Grfica de comparacin de cuantiles...), la variable que seleccionamos es la variable que a aadido R-Commander a nuestros datos, la variable Residuos studentizados.

2. Ejercicios
Ejercicio 1 Se han obtenido importantes ventajas de ensear a los diabticos a medir su propia glucosa en sangre. Se investiga una nueva tcnica menos costosa que el procedimiento habitual. La tcnica utiliza una varilla. La varilla desarrolla dos colores simultneamente y estos colores son comparados a ojo con una tarjeta que da el nivel de glucosa. Si se puede probar que el procedimiento es preciso, se generalizar su uso. Se obtuvieron los datos de X, nivel de glucosa en sangre medido por un paciente utilizando la varilla e Y, nivel de glucosa en sangre del paciente medido en el laboratorio (medidos en milimoles/litro). Datos: diabetes.sav a) Dibuja la nube de puntos. Basndose en ella, crees que hay una fuerte correlacin positiva entre el nivel de glucosa en sangre establecido por el paciente y el que se ha medido en el laboratorio? b) Halla el coeficiente de correlacin y el de determinacin. Realiza un contraste o test de independencia lineal. c) Halla estimaciones puntuales para la pendiente y la ordenada en el origen de la recta de regresin, as como intervalos de confianza de estas al 95%. d) Hallar una estimacin del nivel de glucosa establecido en el laboratorio de un paciente que lo sita en 4.0 mmol/litro. Hallar un intervalo de confianza al 90% para este valor. A la vista de todos estos clculos. qu puedes concluir sobre la relacin lineal o no de las dos variables del problema? Explica los resultados obtenidos. Ejercicio 2 En el fichero silicio.sav estn los datos del contenido de silicio en muestras de agua de

Mara Teresa Sanz Garca

Estadstica. Grado de Fisioterapia

mar recogida a ciertas distancias prefijadas de la costa. Se trata de estudiar la relacin lineal entre ambas variables, y predecir el contenido de silicio en el agua en funcin de la distancia a la costa. a) Representa el diagrama de dispersin. b) Ajusta a los datos una recta de regresin. c)Qu variacin se obtiene en el contenido de silicio por cada Km de alejamiento de la costa? d)Qu porcentaje de variacin en el contenido de silicio es explicado por la regresin? e) Obtn un valor pronosticado para el contenido de silicio a 12 y a 40 Km de la costa. A la vista de todos estos clculos. qu puedes concluir sobre la relacin lineal o no de las dos variables del problema? Explica los resultados obtenidos.

You might also like