Professional Documents
Culture Documents
Anlisis de regresin
INTRODUCCIN
OBJETIVO DE LA REGRESIN
Determinar una funcin matemtica sencilla
que describa el comportamiento de una variable
dados los valores de otra u otras variables.
DIAGRAMA DE DISPERSIN
Figura1
Figura1: Diagrama de dispersin que relaciona la variable longitud (y) con una
variable altura (x) de la concha Patelloida Pygmatea
47
48 Anlisis de regresin
Investigador
1
=
Cov(x, y)
S
2
x
; b
0
=
b
0
= y b
1
x
RECTA DE REGRESIN ESTIMADA
b y
i
=
b
0
+
b
1
x
i
o b y
i
= y +
b
1
(x
i
x)
1
: la variacin que se produce en b y por cada unidad de incremento en x
COEFICIENTE DE CORRELACIN LINEAL
Es una medida de la asociacin lineal de las variables x e y
r =
Cov(x, y)
S
x
S
y
, 1 r 1
Si r = 1 relacin lineal negativa perfecta entre x e y
Si r = 1 asociacin lineal positiva perfecta entre x e y
Si r = 0 no existe ninguna relacin lineal entre x e y
50 Anlisis de regresin
ANLISIS DE LA VARIANZA
Si b y
i
son estimadores de y
i
y
i
y = (y
i
b y
i
) + (b y
i
y)
ECUACIN BSICA DEL NLISIS DE LA VARIANZA
X
(y
i
y)
2
=
X
(y
i
b y
i
)
2
+
X
(b y
i
y)
2
SCT = SCE +SCR
eg
SCT : Suma de cuadrados total
SCE : Suma de cuadrados residual
SCR
eg
: Suma de cuadrados de la regresin
Tabla ANOVA
Fuentes de Sumas de Cuadrados Grados de Cuadrados F
Variacin libertad medios
Regresin SCR
eg
=
P
(b y
i
y)
2
1 MCR
eg
MCR
eg
MCE
Error SCE =
P
(y
i
b y
i
)
2
n 2 MCE =
SCE
n 2
Total SCT =
P
(y
i
y)
2
n 1
SCT
n 1
Anlisis de regresin 51
COEFICIENTE DE DETERMINACIN
Estadstico que representa la proporcin de variacin
explicada por la regresin
Es una medida relativa del grado de asociacin lineal entre x e y
R
2
=
SCR
eg
SCT
= 1
SCE
SCT
; 0 R
2
1
Si R
2
= 0 SCR
eg
= 0 El modelo no explica nada de y a partir de x.
Si R
2
= 1 SCR
eg
= SCT Ajuste perfecto: y depende funcionalmente
de x .
F Un valor de R
2
cercano a 0 Baja capacidad explicativa de la recta.
F Un valor de R
2
prximo a 1 Alta capacidad explicativa de la recta.
EL CONTRASTE DE REGRESIN
H
0
:
1
= 0
H
1
:
1
6= 0
Fijado un nivel de signicacin , se rechaza H
0
si F
exp
> F
,1,n2
52 Anlisis de regresin
EJEMPLO
La Patelloida Pygmatea es una lapa pegada a las rocas y conchas a lo largo de
las costas protegidas en el rea Indo-Pacca. Se realiza un experimento para
estudiar la inuencia de la altura (x) de la Patelloida Pygmatea en su longitud
(y ) medidas ambas en milmetros. Se tienen los siguientes datos:
x y x y x y x y
0.9 3.1 1.9 5.0 2.1 5.6 2.3 5.8
1.5 3.6 1.9 5.3 2.1 5.7 2.3 6.2
1.6 4.3 1.9 5.7 2.1 5.8 2.3 6.3
1.7 4.7 2.0 4.4 2.2 5.2 2.3 6.4
1.7 5.5 2.0 5.2 2.2 5.3 2.4 6.4
1.8 5.7 2.0 5.3 2.2 5.6 2.4 6.3
1.8 5.2 2.1 5.4 2.2 5.8 2.7 6.3
SOLUCIN
Figura1
Figura1: Diagrama de dispersin que relaciona la variable longitud (y) con una
variable altura (x) de la concha Patelloida Pygmatea
Anlisis de regresin 53
Recta de regresin estimada
b y = 1.36 + 1.99 x
Coeciente de correlacin lineal
r = 0.8636
Coeciente de determinacin
r
2
= R
2
= 0.74
H
0
:
1
= 0
H
1
:
1
6= 0
A un nivel de signicacin del 5%,
F
exp
= 76.42 > F
,1,n2
= F
0.05;1.26
= 4.23
Ntese adems que el valor p < .
Rechazamos la hiptesis nula de no linealidad del modelo
54 Anlisis de regresin
REGRESIN LINEAL MLTIPLE
La v.a. y se relaciona con k variables explicativas x
1
, . . . , x
k
y =
0
+
1
x
1
+
2
x
2
+. . . +
k
x
k
+
Los parmetros
0
,
1
, . . . ,
k
son estimados por mnimos cuadrados.
Para n observaciones podemos escribir:
y
1
=
0
+
1
x
11
+
2
x
12
+. . . +
k
x
1k
+
1
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
y
n
=
0
+
1
x
n1
+
2
x
n2
+. . . +
k
x
nk
+
n
En notacin matricial
Y = X +
donde
X =
1 x
11
. . . x
1k
1 x
21
. . . x
2k
1
.
.
.
.
.
.
.
.
.
1 x
n1
.
.
. x
nk
; =
0
.
.
.
y
=
1
.
.
.
; Y =
y
1
.
.
.
y
n
Anlisis de regresin 55
El vector de coecientes es estimado por mnimos cuadrados por:
B = (X
t
X)
1
X
t
Y
La ecuacin ajustada de regresin resultante es:
b
Y = XB
ANLISIS DE LA VARIANZA
y
i
y = (y
i
b y
i
) + (b y
i
y)
ECUACIN BSICA DEL NLISIS DE LA VARIANZA
X
(y
i
y)
2
=
X
(y
i
b y
i
)
2
+
X
(b y
i
y)
2
SCT = SCE +SCR
eg
SCT : Suma de cuadrados total
SCE : Suma de cuadrados residual
SCR
eg
: Suma de cuadrados de la regresin
Tabla ANOVA
Fuentes de Sumas de Grados de Cuadrados F
exp
Variacin Cuadrados libertad Medios
Regresin B
t
X
t
Y
t
1
n
(
P
y
i
)
2
k CMR
eg
=
SCR
eg
k
CMR
eg
CME
Error Y
t
Y B
t
X
t
Y n k 1 CME =
SCE
n k 1
Total Y
t
Y
1
n
(
P
y
i
)
2
n 1
56 Anlisis de regresin
COEFICIENTE DE DETERMINACIN MLTIPLE
R
2
=
SCR
eg
SCT
= 1
SCE
SCT
; 0 R
2
1.
Representa la proporcin de variacin de y explicada por la regresin
Si R
2
= 0 SCR
eg
= 0 El modelo no explica nada de la variacin
de y a partir de su relacin lineal con x
1
, . . . , x
k
.
Si R
2
= 1 SCR
eg
= SCT Toda la variacin de y es explicada por
los trminos presentes en el modelo.
F Un valor de R
2
cercano a 1 Mayor cantidad de variacin total es expli-
cada por el modelo de regresin.
COEFICIENTE DE DETERMINACIN CORREGIDO
R
2
= 1
X
e
2
i
n k 1
X
(y
i
y)
2
n 1
e
i
= y
i
b y
i
Anlisis de regresin 57
EL CONTRASTE DE REGRESIN
H
0
:
1
=
2
= . . . =
k
= 0
H
1
:
j
6= 0 para algn j = 1, . . . , k
Fijado un nivel de signicacin , se rechaza H
0
si F
exp
> F
,k,nk1
Bibliografa utilizada:
F Canavos, George C. (1988). "Probabilidad y Estadstica. Aplicaciones y Mtodos".
Ed.: Mc Graw Hill.
F Lara Porras A.M. (2002). "Estadstica para Ciencias Biolgicas y Ciencias Ambien-
tales. Problemas y Exmenes Resueltos". Ed.: Proyecto Sur.
F Milton, Susan (2002). "Estadstica para Biologa y Ciencias de la Salud". Ed.: Mc
Graw-Hill.
F Pea, Daniel (2002). Regresin y diseo de experimentos". Ed.:Alianza Editorial.
Temporalizacin: Dos horas