Professional Documents
Culture Documents
Objetivos:
En esta prctica utilizaremos el paquete R-Commander para estudiar la regresin lineal simple, entre dos variables, obteniendo la estimacin de los parmetros del modelo y realizando los procedimientos estadsticos oportunos para verificar la validez del mismo.
ndice:
1. Regresin simple. Recta de regresin y coeficiente de correlacin. 1.1 PrepaRacin del anlisis 1.2 Interpretacin de los resultados 1.3 ANOVA y Test de independencia lineal 1.4 Obtencin de la recta regresin (Grfica) 1.5 Residuos de la recta de regresin 2. Ejercicios
Al igual que en la prctica 6, para realizar una recta regresin debemos asegurarnos previamente que nuestros datos son normales y que existe homocedasticidad (igualdad de varianzas). Para la realizacin de la prctica supondremos que ambas condiciones se cumplen.
para, en el caso de que el modelo lineal sea el adecuado, estimar valores de la variable dependiente, Y, para ciertos valores de la variable independiente, X. Ejemplo 1: La Tabla siguiente muestra las prdidas de peso medias, observadas en 9 grupos de 25 escarabajos Tribolium, despus de 6 das de ser sometidos a distintos grados de humedades relativas. Se trata de estudiar la relacin lineal entre ambas variables y predecir la prdida de peso media de los escarabajos en funcin de la humedad.
8,98 0
8,14 12
6,67 29,5
6,08 43
5,90 53
5,83 62,5
4,68 75,5
4,20 85
3,72 93
Observamos que cuanto mayor es la humedad, menor es la prdida de peso, adems los puntos del grfico se ajustan bastante bien a una recta. Por lo que podemos pensar en el modelo lineal Y= a +bX, la variable dependiente Y representar la prdida de peso y la variable independiente X la humedad relativa, notemos que en este caso no hay otra alternativa. Para realizar el estudio de la relacin lineal entre ambas variables seleccionamos, en el men principal Estadsticos / Ajuste de modelos / Regresin Lineal.... En primer lugar debemos poner en la ventana la variable explicada y la explicativa.
Lo primero que nos muestra el programa es una breve descripcin de los residuos de la regresin (Residuals), los cuales deben seguir una distribucin Normal, centrada en 0. Coeficientes Para cada uno de los parmetros de la recta de regresin poblacional se presenta su estimacin, el error estndar y el resultado del contraste de hiptesis en el que la hiptesis nula es que el correspondiente parmetro vale cero. La ecuacin de la recta de regresin ajustada ser en este ejemplo Y = -0.053X+8.704 La pendiente de la recta de regresin ajustada b indica que, en promedio, por 1% de aumento de la humedad relativa existe una disminucin de 0.053 mg de peso. Resumen del modelo R cuadrado (Multiple R-squared): Medida de la bondad de ajuste de un modelo lineal. Recibe el nombre de coeficiente de determinacin. Es la proporcin de la variacin de la variable dependiente explicada por el modelo de regresin. Sus valores van de 0 a 1. Los valores pequeos indican que el modelo no se ajusta bien a los datos. En este caso su valor es bastante alto.
3
R cuadrado corregido (Adjusted R-squared): Es una correccin a la baja de R cuadrado basada en el nmero de casos n y de variables independientes p. Si hay pocos casos o el nmero de variables es relativamente grande, R cuadrado tiende a estimar de manera demasiado optimista el ajuste del modelo en la poblacin. En nuestro ejemplo 1, prcticamente no hay diferencia entre R cuadrado y R cuadrado corregida. Error tpico de la estimacin: Nos da la desviacin tpica residual.
En este caso, dado que el P-valor es menor que 0,001 rechazamos la hiptesis nula y concluimos que la pendiente poblacional en el modelo de regresin lineal Y = bX + a es negativa (ver tabla de coeficientes ms arriba). Test de independecia lineal y correlacin lineal En R-Commander podemos realizar el test de independencia lineal (Estadsticos / Resumenes / Test de correlacin), le pedimos el Tipo de correlacin correlacin de Pearson y Hiptesis alterativa bilateral.
Se puede obtener grficamente en el men Grficos / Diagrama de dispersin... y en este marcamos las variables que queremos representar y seleccionamos slo Lnea de mnimos cadrados.
Grfico de probabilidad normal de los residuos. Para ver si los residuos siguen una distribucin normal realizamos un qq-plot (Grficas / Grfica de comparacin de cuantiles...), la variable que seleccionamos es la variable que a aadido R-Commander a nuestros datos, la variable Residuos studentizados.
2. Ejercicios
Ejercicio 1 Se han obtenido importantes ventajas de ensear a los diabticos a medir su propia glucosa en sangre. Se investiga una nueva tcnica menos costosa que el procedimiento habitual. La tcnica utiliza una varilla. La varilla desarrolla dos colores simultneamente y estos colores son comparados a ojo con una tarjeta que da el nivel de glucosa. Si se puede probar que el procedimiento es preciso, se generalizar su uso. Se obtuvieron los datos de X, nivel de glucosa en sangre medido por un paciente utilizando la varilla e Y, nivel de glucosa en sangre del paciente medido en el laboratorio (medidos en milimoles/litro). Datos: diabetes.sav a) Dibuja la nube de puntos. Basndose en ella, crees que hay una fuerte correlacin positiva entre el nivel de glucosa en sangre establecido por el paciente y el que se ha medido en el laboratorio? b) Halla el coeficiente de correlacin y el de determinacin. Realiza un contraste o test de independencia lineal. c) Halla estimaciones puntuales para la pendiente y la ordenada en el origen de la recta de regresin, as como intervalos de confianza de estas al 95%. d) Hallar una estimacin del nivel de glucosa establecido en el laboratorio de un paciente que lo sita en 4.0 mmol/litro. Hallar un intervalo de confianza al 90% para este valor. A la vista de todos estos clculos. qu puedes concluir sobre la relacin lineal o no de las dos variables del problema? Explica los resultados obtenidos. Ejercicio 2 En el fichero silicio.sav estn los datos del contenido de silicio en muestras de agua de
mar recogida a ciertas distancias prefijadas de la costa. Se trata de estudiar la relacin lineal entre ambas variables, y predecir el contenido de silicio en el agua en funcin de la distancia a la costa. a) Representa el diagrama de dispersin. b) Ajusta a los datos una recta de regresin. c)Qu variacin se obtiene en el contenido de silicio por cada Km de alejamiento de la costa? d)Qu porcentaje de variacin en el contenido de silicio es explicado por la regresin? e) Obtn un valor pronosticado para el contenido de silicio a 12 y a 40 Km de la costa. A la vista de todos estos clculos. qu puedes concluir sobre la relacin lineal o no de las dos variables del problema? Explica los resultados obtenidos.