Professional Documents
Culture Documents
Comparacin de medias
Modelos de regresin con variable categrica Anlisis de la varianza (ANOVA)
Correlacin
Regresin
Anlisis de la relacin entre variables cuantitativas Se pretende estudiar en qu medida una de las variables puede ser explicada por otra Cmo cambia una variable cuando otra cambia Se plantea un modelo estadstico: Y = f(X,) + e
Regresin lineal
El modelo de regresin lineal supone que la relacin puede explicarse por una recta: Y = + X + e Y: respuesta o variable dependiente X: covariable o variable independiente , : parmetros del modelo que cuantifican la relacin entre las dos variables
Correlacin
Slo evala si existe relacin (lineal) entre dos variables cuantitativas No supone direccin en la relacin (las dos variables son aleatorias) No existe un modelo Se cuantifica mediante un coeficiente, pero no hay parmetros
Hemoglobina - Hematocrito
20 hemoglobina 5 10 15
20
30
40 hematocrito
50
60
hemoglobina
10
15
20
lowess 5
20
30
40 hematocrito
50
60
lowess 10 5
20
30
40 hematocrito
50
60
Ejercicio
Leer los datos del fichero riscar.sav Estudiaremos las variables tensin arterial sistlica y diastlica (sisto y diasto). Queremos saber si se puede predecir la sistlica a partir de la diastlica Hacer la grfica de dispersin de las variables Pedir que dibuje la lnea del modelo lineal Es razonable el modelo lineal?
Modelo lineal
La media (valor esperado) de la respuesta sigue una lnea recta en funcin de la covariable: E(Y) = + X Para cada valor de X la Y tendr una dispersin (variabilidad o error de medida)
0.6
0.8
1.0
0.2
0.4 X
0.6
0.8
1.0
20
40 edad
60
80
peso 0 0 20 40
60
80
20
40 edad
60
80
Parmetros
20 hb 5 10 15 25
hb = 0.50 + 0.33*hto
0 0
10
20
30 hto
40
50
60
70
Utilidad de un modelo
Explicar relaciones entre variables
Interpretando los coeficientes:
Fuerza y direccin de la asociacin
Hacer predicciones
Calcular el valor de Y para un valor de X
Interpolaciones Extrapolaciones
Ejercicio
Supongamos el modelo: peso = + *edad para los datos del estudio riscar. Dibujar la nube de puntos, aadir la recta de regresion y predecir visualmente el valor medio para una edad de 80 aos Sirve este modelo para hacer predicciones individuales?
Prediccin
Cuando se conoce el modelo se puede calcular el valor esperado de Y para un valor de X sustituyendo en la frmula Supongamos correcto el modelo E(talla) = 100 + 0.9*peso Los individuos que pesan 100 kg en promedio miden 190 cm
Asumciones estadsticas
Los valores individuales de las predicciones difieren de su media en el error e Y = + X + e e = Y-E(Y) Los errores deben
Seguir una distribucin normal con
Media 0 Varianza e2 E(ei) = 0 Var(ei) = e2
Ser independientes
Errores en la prediccin
0.8 0.6 1.0
0.0 0.0
0.2
0.4
0.2
0.4 X
0.6
0.8
1.0
= y x n ( xy ) ( x )( y ) n ( x
2
) ( x )
Ejercicio
Con los datos del estudio riscar estimar los coeficientes para los modelos:
hemoglobina / hematocrito peso / edad TA sistlica / TA diastlica
e =
e2 e
n 2
SSE = n 2
es una varianza. Su raiz cuadrada: se llama error tipico de la estimacion y se interpreta como la dispersion de los errores alrededor de la recta
(y y ) =
La varianza de Y que explica X es la varianza total - la varianza que resta por explicar:
2 l SSY-SSE = (y y ) (y y ) 2 2 l = (y y )
n 1
SSY = n 1
0.8
1.0
l y
0.4
ssy = (y y )
l )2 sse = (y y
0.6
y
l = + x y
0.2
0.0
x
0.0 0.2 0.4 X 0.6 0.8 1.0
Coeficiente de determinacin
R2 : proporcin de la varianza de Y que explica X
SSY-SSE R = SSY
2
Es un valor entre 0 y 1
40
60
80
100
120
10
15
20
sisto
100
120
80
diasto
40
60
20
sigma= 20.15
15
hb
10
100
150
200
20
30
40
50
60
20
30
r^2= 0.0008
r^2= 0.014
40
sd = 20.15
sd = 12.36
hto
50
sigma= 20.14
sigma= 12.27
60
100
150
200
Ejercicio
Con los datos del estudio riscar cual es el error tpico de la estimacin y el coeficiente de determinacin para los modelos:
hemoglobina / hematocrito peso / edad TA sistlica / TA diastlica
H1 :
Contraste de hiptesis
Se pueden emplear las varianzas derivadas a partir de SSE y SSY para contrastar hiptesis sobre El cociente de 2 varianzas sigue una distribucin F (Fisher-Snedecor) varianza explicada varianza no explicada
Distribucin F (Fisher-Snedecor)
Resulta del cociente de dos variables aleatorias con distribucin 2 Tiene grados de libertad en numerador y denominador Si el numerador tiene 1 grado de libertad corresponde con una t-Student al cuadrado
1.0
1.2
densidad F
0.0 0
0.2
0.4
0.6
0.8
3 f
1.0
1.2
densidad F
0.0 0
0.2
0.4
0.6
0.8
3 f
ANOVA de regresion
Fuente de Grados de Sumas de variacin libertad cuadrados Regresin 1 SSY-SSE (explicada) Residual n-2 SSE (no explicada) Media cuadratica SSY-SSE SSE/(n-2) Razn de varianzas (F)
f =
F 1 : F>>1 :
la recta no explica nada (la pendiente es cero) la recta explica parte de la variabilidad de Y (la pendiente no es cero)
Ejercicio
Con los datos del estudio riscar valorar los test de hiptesis para los modelos:
hemoglobina / hematocrito peso / edad TA sistlica / TA diastlica
IC : { tn 2 }
Si el intervalo de confianza no incluye el valor 0, la pendiente es diferente de 0 (con el nivel de confianza establecido)
IC : { tn 2 }
y l|x = e i
(xi - x ) + 2 n (n 1 ) x 1
2
Para un individuo
y l|x = e i i
(xi - x )2 1+ + 2 n (n 1 ) x 1
Ejercicio
Con los datos del estudio riscar calcular los intervalos de confianza para los coeficientes de los modelos:
hemoglobina / hematocrito peso / edad TA sistlica / TA diastlica
Bandas de confianza
Como el error estndar de la prediccin depende de xi, se pueden construir unas bandas de confianza para los distintos valores de x La amplitud de estas bandas es mayor si se desean para una prediccin individual que para la prediccin de la media
hb 5 10
15
20
20
30
40 hto
50
60
hb
10 20
15
20
30
40 hto
50
60
hb
10 20
15
20
30
40 hto
50
60
Ejercicio
Con los datos del estudio riscar aadir las bandas de confianza para las predicciones en los modelos:
hemoglobina / hematocrito peso / edad TA sistlica / TA diastlica