You are on page 1of 47

Regresin lineal

Vctor Moreno 2002

Programa del curso


Relacin entre variables cuantitativas
Regresin lineal simple Regresin lineal mltiple

Comparacin de medias
Modelos de regresin con variable categrica Anlisis de la varianza (ANOVA)

Correlacin

Regresin
Anlisis de la relacin entre variables cuantitativas Se pretende estudiar en qu medida una de las variables puede ser explicada por otra Cmo cambia una variable cuando otra cambia Se plantea un modelo estadstico: Y = f(X,) + e

Regresin lineal
El modelo de regresin lineal supone que la relacin puede explicarse por una recta: Y = + X + e Y: respuesta o variable dependiente X: covariable o variable independiente , : parmetros del modelo que cuantifican la relacin entre las dos variables

Correlacin
Slo evala si existe relacin (lineal) entre dos variables cuantitativas No supone direccin en la relacin (las dos variables son aleatorias) No existe un modelo Se cuantifica mediante un coeficiente, pero no hay parmetros

Hemoglobina - Hematocrito
20 hemoglobina 5 10 15

20

30

40 hematocrito

50

60

hemoglobina

10

15

20

lowess 5

20

30

40 hematocrito

50

60

hb = 0.50 + 0.33*hto 20 hemoglobina 15

lowess 10 5

20

30

40 hematocrito

50

60

Ejercicio
Leer los datos del fichero riscar.sav Estudiaremos las variables tensin arterial sistlica y diastlica (sisto y diasto). Queremos saber si se puede predecir la sistlica a partir de la diastlica Hacer la grfica de dispersin de las variables Pedir que dibuje la lnea del modelo lineal Es razonable el modelo lineal?

Modelo lineal
La media (valor esperado) de la respuesta sigue una lnea recta en funcin de la covariable: E(Y) = + X Para cada valor de X la Y tendr una dispersin (variabilidad o error de medida)

Y 0.0 0.0 0.2 0.4

0.6

0.8

1.0

0.2

0.4 X

0.6

0.8

1.0

No siempre sirve la recta


80 peso 0 20 40 60

20

40 edad

60

80

peso 0 0 20 40

60

80

20

40 edad

60

80

Interpretacin del modelo


Parmetros del modelo E(Y) = + X : Ordenada en el origen. Altura en el eje de ordenadas donde corta la recta Pendiente. Cunto vara E(Y) cuando X vara en 1 unidad.

Parmetros
20 hb 5 10 15 25

hb = 0.50 + 0.33*hto
0 0

10

20

30 hto

40

50

60

70

Utilidad de un modelo
Explicar relaciones entre variables
Interpretando los coeficientes:
Fuerza y direccin de la asociacin

Hacer predicciones
Calcular el valor de Y para un valor de X
Interpolaciones Extrapolaciones

Ejercicio
Supongamos el modelo: peso = + *edad para los datos del estudio riscar. Dibujar la nube de puntos, aadir la recta de regresion y predecir visualmente el valor medio para una edad de 80 aos Sirve este modelo para hacer predicciones individuales?

Prediccin
Cuando se conoce el modelo se puede calcular el valor esperado de Y para un valor de X sustituyendo en la frmula Supongamos correcto el modelo E(talla) = 100 + 0.9*peso Los individuos que pesan 100 kg en promedio miden 190 cm

Asumciones estadsticas
Los valores individuales de las predicciones difieren de su media en el error e Y = + X + e e = Y-E(Y) Los errores deben
Seguir una distribucin normal con
Media 0 Varianza e2 E(ei) = 0 Var(ei) = e2

Ser independientes

Cov(ei,ej) = 0 Las medidas repetidas generan datos dependientes (correlacionados)

Errores en la prediccin
0.8 0.6 1.0

0.0 0.0

0.2

0.4

0.2

0.4 X

0.6

0.8

1.0

Estimacin de los parmetros


Metodo de mnimos cuadrados
Parametros que hacen minima la suma del cuadrado de los errores (la distancia entre cada punto y su prediccion)
2 l SSE = e = (y - y ) 2

Esta linea pasa por la media de X y la media de Y

Solucion de mnimos cuadrados


y = + x
(x x )(y y ) = (x x )
2

= y x n ( xy ) ( x )( y ) n ( x
2

) ( x )

Estimacin con SPSS


Analizar : Regresin : Lineal
Esta pensado para regresin lineal mltiple

Analizar : Modelo lineal general : Univariante


Esta pensado para el anlisis de covariables categricas

Ejercicio
Con los datos del estudio riscar estimar los coeficientes para los modelos:
hemoglobina / hematocrito peso / edad TA sistlica / TA diastlica

Interpretar los coeficientes

Calidad (ajuste) del modelo


Estimacin de e2
2 l (y y )

e =
e2 e

n 2

SSE = n 2

es una varianza. Su raiz cuadrada: se llama error tipico de la estimacion y se interpreta como la dispersion de los errores alrededor de la recta

Error tpico de la estimacin


Interpretacin:
Cuanto menor, mejor el ajuste. Los puntos estn poco dispersos alrededor del valor que predice el modelo Necesitamos una referencia para valorar el ajuste a partir de e2 Una referencia valida es la varianza total de la variable a explicar y2

Varianza explicada por la recta


Cul sera la varianza de Y si ignoramos la variable X (varianza total)?

(y y ) =

La varianza de Y que explica X es la varianza total - la varianza que resta por explicar:
2 l SSY-SSE = (y y ) (y y ) 2 2 l = (y y )

n 1

SSY = n 1

0.8

1.0

l y
0.4

ssy = (y y )

l )2 sse = (y y

0.6

y
l = + x y

0.2

0.0

x
0.0 0.2 0.4 X 0.6 0.8 1.0

Coeficiente de determinacin
R2 : proporcin de la varianza de Y que explica X

SSY-SSE R = SSY
2

Es un valor entre 0 y 1

40

60

80

100

120

10

15

20

sisto

100

120

sigma= 16.41 sd = 20.15 r^2= 0.34

80

diasto

40

60

20

sigma= 20.15
15

sigma= 12.29 sd = 12.36 r^2= 0.013

sigma= 1.88 sd = 5.40 r^2= 0.88

sd = 20.15 r^2= 0.00032

hb

10

100

150

200

20

30

40

50

60

20

30

r^2= 0.0008

r^2= 0.014

40

sd = 20.15

sd = 12.36

hto

50

sigma= 20.14

sigma= 12.27

60

100

150

200

Ejercicio
Con los datos del estudio riscar cual es el error tpico de la estimacin y el coeficiente de determinacin para los modelos:
hemoglobina / hematocrito peso / edad TA sistlica / TA diastlica

Identificar estos valores con la dispersin alrededor de la recta

Hiptesis sobre el modelo


Test de regresin (relacin lineal) H0 : No hay relacin lineal La pendiente es 0 =0 0

H1 :

Contraste de hiptesis
Se pueden emplear las varianzas derivadas a partir de SSE y SSY para contrastar hiptesis sobre El cociente de 2 varianzas sigue una distribucin F (Fisher-Snedecor) varianza explicada varianza no explicada

(SSY SSE ) f = SSE (n 2)

Distribucin F (Fisher-Snedecor)
Resulta del cociente de dos variables aleatorias con distribucin 2 Tiene grados de libertad en numerador y denominador Si el numerador tiene 1 grado de libertad corresponde con una t-Student al cuadrado

1.0

1.2

Distribucin F con 1;50 g.l.

densidad F

0.0 0

0.2

0.4

0.6

0.8

3 f

1.0

1.2

densidad F

Distribuciones F con 1-20;50 g.l.

0.0 0

0.2

0.4

0.6

0.8

3 f

ANOVA de regresion
Fuente de Grados de Sumas de variacin libertad cuadrados Regresin 1 SSY-SSE (explicada) Residual n-2 SSE (no explicada) Media cuadratica SSY-SSE SSE/(n-2) Razn de varianzas (F)

f =

(SSY SSE ) SSE (n 2)

F 1 : F>>1 :

la recta no explica nada (la pendiente es cero) la recta explica parte de la variabilidad de Y (la pendiente no es cero)

Ejercicio
Con los datos del estudio riscar valorar los test de hiptesis para los modelos:
hemoglobina / hematocrito peso / edad TA sistlica / TA diastlica

Que se concluye de cada test?

Intervalo de confianza para


Se puede calcular un intervalo de confianza para a partir de su error estndar e = x n 1

IC : { tn 2 }
Si el intervalo de confianza no incluye el valor 0, la pendiente es diferente de 0 (con el nivel de confianza establecido)

Intervalo de confianza para


Para la ordenada en el origen, el error estndar viene dado por la formula
= e x + 2 n (n 1 ) x
1
2

IC : { tn 2 }

Intervalo de confianza para las predicciones


Hay que diferenciar si queremos
Para la media de Y en xi:

y l|x = e i

(xi - x ) + 2 n (n 1 ) x 1
2

Para un individuo

y l|x = e i i

(xi - x )2 1+ + 2 n (n 1 ) x 1

Ejercicio
Con los datos del estudio riscar calcular los intervalos de confianza para los coeficientes de los modelos:
hemoglobina / hematocrito peso / edad TA sistlica / TA diastlica

Son coherentes estos intervalos con los tests de hiptesis previos?

Bandas de confianza
Como el error estndar de la prediccin depende de xi, se pueden construir unas bandas de confianza para los distintos valores de x La amplitud de estas bandas es mayor si se desean para una prediccin individual que para la prediccin de la media

hb 5 10

15

20

20

30

40 hto

50

60

hb

10 20

15

20

30

40 hto

50

60

hb

10 20

15

20

30

40 hto

50

60

Ejercicio
Con los datos del estudio riscar aadir las bandas de confianza para las predicciones en los modelos:
hemoglobina / hematocrito peso / edad TA sistlica / TA diastlica

Que modelo es util para hacer predicciones individuales?

You might also like