You are on page 1of 60

MODELOS DE

REGRESIN

Prof. Susana Martn Fernndez


REGRESIN SIMPLE
Objetivo
Sean x1 x2 ...xn, n valores de la variable numrica X. Sea Y=(y1,
y2,..., yn) un vector aleatorio de n variables aleatorias
independientes, el modelo de regresin estudia la
dependencia lineal del vector Y, respecto a la variable X.
Cuando el conocimiento de una variable determina totalmente el
valor de otra habr una relacin funcional entre ambas
variables.
Si el conocimiento de una variable no aporta informacin sobre
el valor de otra, ambas variables son independientes.
En general el conocimiento de una variable predice en mayor o
menor grado el conocimiento de otra. Se dice que entre ellas hay
una relacin estocstica.
Metodologa
1.Representacin grfica de los datos.
2.Planteamiento del modelo.

3.Estimacin de los parmetros.

4.Contraste de simplificacin del modelo.

5.Comprobacin de las hiptesis bsicas por


anlisis de residuos.
6.Anlisis del Coeficiente de Correlacin

7.Validacin del modelo

8.Aplicacin del modelo


Representacin grfica de los datos.
Ej. En una planta de produccin de oxigeno, se cree que la
pureza del oxgeno producido con un proceso de
fraccionamiento est relacionada con el porcentaje de
hidrocarburos en el condensador principal de la unidad de
procesamiento.

%_Oxigeno

%_HCarburos
Planteamiento del modelo.
Y i = 0 + 1 xi + i i [1, n]

Las variables del vector =(1,2,...n) representan la


perturbacin aleatoria, y se asume que cumplen que:
Son independientes

Siguen un distribucin normal

Todas tienen la misma varianza homocedasticidad,


2.
E[ i ] = 0
Planteamiento del modelo.
De forma matricial el modelo quedara de la siguiente
forma :
Y = X '+
Donde: 1 x1

1 x2
= (0 1) X =
L L

1 xn

Planteamiento del modelo.
86.91 1 1.02 '
En el ejemplo, para
89.85



1 1.11

90.28 1 1.43
una muestra concreta
86.34 1 1.11
92.58 1 1.01
sera:
87.33 1 0.95

86.29 1 1.11
91.86 1 0.87

95.61 1 1.43

Y = X '+

89.86 1 1.02
= ( 0 , 1 ) + ( 1 , 2 ,... 20 )
96.73 1 1.46
99.42 1 1.55

98.66 1 1.55

96.07 1 1.55
93.65 1 1.4

87.31 1 1.15
95 1 1.01

96.85 1 0.99
85.2 1 0.95

90.56 1 0.98

Estimacin de los parmetros.
La funcin de verosimilitud para los parmetros 0,
1, 2 , es la siguiente:

f(Y, 0 , 1 , ) = 2 1
e
- 2
2
1
( y i - 0 - 1 xi )2

(2 )
n/2 n
i=1

Se calculan los valores de 0, 1, que hacen mxima


la funcin de verosimilitud:
n
n
0 =
yi
- i x = y - i x
(x - x)( y - y)
i i Cov(Y, X)
i=1 n 1 = i =1
n
=
(xi - x) 2 2
x
i =1
Estimacin de los parmetros.
El valor de 2 que hace mxima la funcin de
verosimilitud es:
n
1 1 2
= ( yi - 0 - 1 x i ) = ei
2 2

n i =1 n
El estimador resultante de la varianza o varianza
residual es:
Los residuos tienen que cumplir dos
1 n 2 restricciones que proceden del clculo de
ei
2
SR = los estimadores de mxima verosimilitud:
n - 2 i =1
ei = 0 ei x i = 0
Estimacin de los parmetros

Estimacin 0 Estimacin 1

Estimacin
Estimacin de los parmetros
Grfico del Modelo Ajustado
100

97
%_Oxigeno

94

91

88

85
0.87 1.07 1.27 1.47 1.67
%_HCarburos

%_Oxigeno = 77.8633 + 11.801*%_HCarburos


Simplificacin del Modelo

Los contrastes de simplificacin del modelo


son los siguientes:
1. El modelo no es lineal: H0: 1=0

2. El trmino independiente es cero: H0:


0=0
Simplificacin del Modelo
El modelo no es lineal: H0: 1=0
Bajo la hiptesis nula, los estimadores de los
parmetros son: n
1
= ( yi - y)
2 2
0 0 = y 10 = 0 0
n i =1
( ( ) )
F=
(Y 0 X')(Y 0 X')' (Y X')(Y X')'
) )
(Y X')(Y X')'
n n n

( yi - y )
2
- ( y - y +
i 1
2
x - 1 xi ) 1
2
( x i - x )
2

F= i=1
n
i=1
= n
i=1

( yi - y + 1 x - 1 xi ) ( yi - y + 1 x - 1 xi )
2 2

i=1 i=1

El estadstico (n-2)/1 F sigue una distribucin F-snedecor con (1, n-2) grados de libertad
Simplificacin del Modelo
El trmino independiente es 0: H0: 0=0

n n

0 n ( xi - x )
2 2
/ x i
2

i=1
F= n
i=1

( y - y +
2
i 1 x - 1 xi )
i=1

El estadstico (n-2)/1 F sigue una distribucin F-snedecor con (1, n-2) grados de
libertad
Simplificacin del Modelo

Test 0=0 Test 1=0


Comprobacin Hiptesis Bsicas de
los Residuos
Estadstico de Durbin-Watson = 1.91084 (P=0.3683)
Autocorrelacin residual en Lag 1 = 0.0226275

Este grfico es muestra la


Grfico de Residuos heteroscedasticidad de los
Residuo estudentizado

2.6 residuos. Su variabilidad


cambia
1.6 al aumentar los valores de
0.6
la variable dependiente.

-0.4

-1.4

-2.4
88 90 92 94 96 98
%_Oxigeno predicho
Comprobacin Hiptesis Bsicas de
los Residuos

Grfico de Probabilidad Normal


99.9
99
95
porcentaje

80
50
20
5
1
0.1
-5 -2 1 4 7 10
RESIDUALS
Comprobacin Hiptesis Bsicas de
los Residuos
Tests de Bondad de Ajuste para RESIDUALS
Contraste Chi-cuadrado
------------------------------------------------------------------
Lmite Lmite Frecuencia Frecuencia
Inferior Superior Observada Esperada Ch
------------------------------------------------------------------
menor o igual -3.3866 5 3.33
-3.3866 -1.50783 2 3.33
-1.50783 -4.4E-7 4 3.33
-4.4E-7 1.50783 2 3.33
1.50783 3.3866 4 3.33
mayor 3.3866 3 3.33
------------------------------------------------------------------
Chi-cuadrado = 2.20003 con 3 g.l. P-Valor = 0.531938
Estadstico DMAS de Kolmogorov = 0.115795
Estadstico DMENOS de Kolmogorov = 0.0909808 Se acepta
Estadstico DN global de Kolmogorov = 0.115795
P-Valor aproximado = 0.951365 normalidad
Anlisis del Coeficiente de Correlacin
El coeficiente de correlacin mide la relacin
lineal existente entre dos variables.
cov(Y, X)
=
SySX
Su valor vara entre -1 y 1.
Si =0, no existe relacin lineal. Si las variables
son normales, adems son independientes.
La dependencia entre las variables es
completa cuando =1
Anlisis del Coeficiente de Correlacin
Contrastes de hiptesis sobre el coeficiente de
correlacin:
1. H0: =0 frente a H1: 0

Estadstico: r tn-2
t = n2
1 r 2

2. H0: =0 0 frente a H1: 0


1 1 + 0 0
E (z ) = ln +
2 1 0 2(n 1)
1 1+ r
Estadstico: z = ln Normal var( z ) =
1
2 1 r n3
Anlisis del Coeficiente de Correlacin
Ej.
Correlaciones

%_HCarburos %_Oxigeno
------------------------------------------------------------
%_HCarburos 0.6238
( 20)
0.0033

%_Oxigeno 0.6238
( 20)
0.0033
------------------------------------------------------------
Validacin del modelo

Anlisis de la Varianza
Test de Falta de Ajuste
Deteccin de Residuos Atpicos
Determinacin de Puntos Influyentes
Validacin del modelo- Anlisis de la
Varianza

La hiptesis nula es que el modelo no es vlido.


La descomposicin de la variabilidad es la siguiente:

n n n

(y y ) = ( yi y i ) + ( y i y )
2 2 2
i
i =1 i =1 i =1
Validacin del modelo- Test de Falta
de Ajuste
Este test comprueba el ajuste de los datos al modelo de
regresin lineal.
H0: La regresin es lineal
Requisitos:
-Normalidad
-Independencia
-Varianza constante.
Observaciones reales duplicadas.
Ej. %_HCarb =102 aparece 2 veces.
Validacin del modelo- Test de Falta
de Ajuste

.El error residual los separa en 2 grupos:


ni m ni ni

( ) ( ) + ( y y )
m error puro 2 m
2 2
yij y i = yij y i i i
error debido a la falta de ajuste
i =1 j =1 i =1 j =1 i =1 j =1

yi Valor medio de las ni observaciones en xi


Validacin del modelo- Deteccin de
Residuos Atpicos

Valor atpico es una observacin extrema.


No son representativos del resto de datos.
Mtodo de Stefansky (1971) para detectarlos:

ei
2
e 2
i
Validacin del modelo- Deteccin de
Residuos Atpicos
Los residuos atpicos se pueden deber a:
1. Medicin incorrecta
2. Anlisis incorrecto Se eliminan

3. Registro incorrecto de datos

Permanecen.
Puede controlar
4. Observacin extraordinaria factible propiedades
clave del modelo
Validacin del modelo- Deteccin de
Residuos Atpicos

Grfico del Modelo Ajustado


100

97
%_Oxigeno

94

91

88

85
0.87 1.07 1.27 1.47 1.67
%_HCarburos
Validacin del modelo - Puntos
Influyentes
El punto influyente (Outlier) es aqul que tiene influencia
sobre los coeficientes de regresin y/o las propiedades del
modelo como R2, y los errores estndar de los coeficientes de
regresin...

Pto. de balanceo Pto. influyente


Validacin del modelo - Puntos
Influyentes
Balanceo o Leverage (Apalancamiento)
Mide la influencia de cada observacin en la
determinacin de los coeficientes de regresin.

1
Se detectan a partir de: y = X = X(X' X) X' y = Hy
La diagonal de H es una medida de la distancia de la i-sima
observacin al centro del espacio X. Hay apalancamiento si
este valor es mayor que n
2 h ii / n
i =1
Validacin del modelo - Puntos
Influyentes
DFFITS
Este mtodo estudia la influencia de la eliminacin de
la i-sima observacin sobre la prediccin.
y i y (i)
DFFITS i = 2
i = 1....n
S (i) h ii
y (i) es el valor ajustado de y sin utilizar la i-sima observacin.
i

Un punto se analiza si: DFFITSi > 2 h ii n


Validacin del modelo - Puntos
Influyentes
DISTANCIA DE MAHALANOBIS
Distancia no eucldea que considera la correlacin
entre variables.

D2 (y) = (y X)S-1 (y X)`

D es la distancia al cuadrado desde cada punto y al


conjunto de variables X
S representa la matriz de covarianzas de X.
X es el vector que contiene los valores medios de las
variables independientes.
Transformacin de una variable aleatoria
Los modelos de regresin suponen:
1. Los errores tienen media 0, varianza
constante y no estn correlacionados.
2. Los errores tienen distribucin normal.
3. La forma del modelo es correcta.
Si no se cumple alguna de estas suposiciones
se pueden TRANSFORMAR LOS DATOS. La
transformacin se realiza de forma emprica.
Transformacin de una variable
aleatoria. Estabilizacin de la varianza.
Relacin entre 2 y E[y] Transformacin
2 ~ Constante y=y
2 ~ E[y] y= y1/2 (Raz cuadrada,
datos de Poisson)
2 ~ E[y] [1-E[y]] y=1/sen(y1/2),(proporciones
binomiales)
2 ~ E[y]2 Y=ln(y) (logartmica)
2 ~ E[y]3 Y= y-1/2 (raz cuadrdada
recproca)
2 ~ E[y]4 Y= y-1 (recproca)
Transformacin de una variable
aleatoria. Linealizacin del Modelo
La no linealidad del modelo se detecta:
1.Con el test de falta de ajuste
2.Con el grfico de dispersin
3.De forma emprica
Transformacin de una variable
aleatoria. Mtodo Box-Cox.
9 Se transforma la variable y para corregir la
no normalidad y/o la varianza no
constante.
9 Es una transformacin de potencia y
9 Se determinan los parmetros de la recta
0, 1y por el mtodo de mxima
verosimilitud.
Transformacin de una variable
aleatoria. Mtodo Box-Cox.
Problema cuando =0.
Solucin realizando el siguiente cambio:
y 1
1
, 0
ln 1 (1/n) lny
n


y ( ) =


i =1
i


ln 1 (1/n) lny lny, = 0
n



i =1
i

Se ajusta el modelo y()=X+


Transformacin de una variable
aleatoria. Mtodo Box-Cox.
Aplicacin del Modelo

Prediccin de nuevas observaciones

y 0 = 0 + 1x 0

Intervalos de confianza:
De la respuesta media E(y)
De nuevas predicciones
Aplicacin del Modelo
Intervalos de confianza de la respuesta
media, E(y).
Se fija un valor de inters x0, y se trata de
encontrar int. de confianza de E(y/x0).
Estimador de E(y/x0): E(y/x ) = + x
0 0 1 0
Su varianza es:
var(E(y/x 0 )) = var( 0 + 1x 0 ) = var(y + 1 (x 0 x)) =
2 (x 0 x )
2 2

= +
n Sxx
Aplicacin del Modelo
Intervalos de confianza de la respuesta
media, E(y), para un nivel de confianza 1-
es:
S
2
E(y/x 0 ) y|x 0 t /2, n 2 res +Sres 0
2 (x x )2

n Sxx

Intervalos de Confianza
Grfico del Modelo Ajustado
100

97
%_Oxigeno

94

91

88

85
0.87 1.07 1.27 1.47 1.67
%_HCarburos

%_Oxigeno = 77.8633 + 11.801*%_HCarburos


Aplicacin del Modelo
Intervalos de confianza de nuevas
predicciones
Si el valor de inters de la variable
independiente es x0 entonces , y 0 = 0 + 1 x 0
es el valor estimado de y0.

2 (x 0 x )
2 2

var(y0 - y 0 ) = + +
2

n Sxx
Aplicacin del Modelo
Intervalos de confianza de nuevas
predicciones
Y por tanto el intervalo de confianza, para un
nivel de confianza 1-, es

2 S
2
y 0 y 0 t /2, n 2 Sres + res + Sres
2 (x 0 x )2

n S
xx
Regresin
Mltiple
El objetivo de la regresin mltiple es
construir un modelo probabilstico que
relacione un variable dependiente Y con
dos o ms variables matemticas
independientes x1, x2, ... xk,. La
expresin de dicho modelo es la
siguiente:
Y = 0 + 1 x1 + 2 x2 + L + k xk +
Donde:
i, es el coeficiente que representa el efecto
sobre la variable dependiente al aumentar en
una unidad el valor de la variable
independiente xi.
, representa la perturbacin aleatoria.
, verifica las siguientes hiptesis:
Su media es 0.
Su varianza es constante, 2.
Las perturbaciones son independientes
entre s.
Siguen una distribucin Normal.
Estimacin de los parmetros.
Aplicando el mtodo de mnimos cuadrados,
(nmero de observaciones es n,) la funcin a
minimizar es:
M = (yi (0 + 1 x1i + 2 x2i + L + `k xki ))
2

Derivando respecto a 0, se verifica, si se llama


ei=yi-^yi, la siguiente ecuacin:

e i =0
Derivando respecto a i, se verifica:

e x
i ji =0 j =1,Lk
El sistema de ecuaciones definido por las
expresiones anteriores se puede escribir
de la siguiente manera:

y i = n 0 + 1 x1i + 2 x2i + L + k xki

y x = 0 x1i + 1 x1i + 2 x2i x1i + L + `k xki x1i
2
i 1i


M
yi xki = 0 xki + 1 x1i xki + 2 x2i xki + L + `k xki
2
Las ecuaciones anteriores se pueden
expresar de forma matricial:

1 L 1 y1 1 L 1 1 x11 L x k1
0
1 1
x x12 L x1n y 2 x11 x12 L x1n 1 x12 L x k 2
11 = 1
M M M M M M M M M M M M M M

x k1 xk 2 L x kn y n x k1 xk 2 L x kn 1 x1n L x kn
k

De la expresin anterior se puede despejar


el valor de los parmetros buscados:

= (X X ) 1
X Y

Si la matriz de covarianzas es la siguiente:

s yy s yx1 L s yx k
s s x1 x1 L s x1 xk
S = x1 y

M M M M

s xk y s xk x1 L s xk xk

La expresin de cada parmetro i con i


de 1 a k, es la siguiente:

S yx i
i =
S yy
Donde:
|Syxi|es el determinante del mnimo
complementario correspondiente a los
rdenes de las variables y y xi. En este
caso, estos rdenes sern 1 para la
variable y e i+1 para la variable xi.
El trmino independiente ser:


0 = y i xi
Lavarianza de la perturbacin aleatoria,
2. se estima a partir de la varianza
residual, estimador mximo-verosmil en la
hiptesis de normalidad. El nmero de
grados de libertad de los residuos es n-k-
1, por haber k+1 restricciones:

s =
2 e 2
i
R
n k 1
Descomposicin de la variabilidad
La variabilidad de la respuesta puede
descomponerse de la siguiente manera:
2 2
2



i y i
y y = y + yi yi


que expresa la variacin total VT como suma de la
variacin explicada por el modelo VE y la
residual o no explicada VNE.
El contraste de regresin comprobar que el
modelo es vlido. La hiptesis nula ser la ms
sencilla y es que el vector de parmetros de
regresin sea nulo.
La tabla ADEVA es la siguiente:
Fuente Suma de Grados Varianza Contrast
de cuadrado de e
variaci s libertad
n
2
VE k
y i y 2 F= S
2
/ SR
2
Se e

2


VNE i i n-k-1
y y
SR
2

2


VT i
y y n-1 S y
2
Correlacin en Regresin Mltiple
Coeficiente de determinacin o de
correlacin mltiple
Este coeficiente mide la correlacin entre la
variable dependiente y el conjunto de las
variables independientes:

VE
R =2

VT
Inconvenientes:
Al aumentar el nmero de variables que
intervienen en el modelo, su valor
aumenta, aunque el efecto de esta nueva
variable no sea significativo.
Es muy sensible a la eleccin de variable
dependiente. Dos modelos formalmente
iguales, pueden tener diferente valor del
coeficiente de determinacin.
Se utiliza el coeficiente de determinacin
corregido, S

Varianza residual R2 = 1
R = 1 2
2
y S yy
Varianza de y
Coeficiente
de correlacin parcial
Dado un conjunto de variables, x1, x2, ... xk, el
coeficiente de correlacin parcial entre dos
cualesquiera de ellas, es una medida de su
relacin lineal, cuando se elimina de ambas el
efecto debido al resto de las variables.
Por ejemplo si se quiere calcular el coeficiente de
correlacin parcial entre x1 y x2, se calcular
primero los hiperplanos de regresin de x1
respecto a x3 x4, ... xk y de x2, respecto a x3 x4, ...
xk, , si llamamos e1.345...k y e2.345...k los residuos de
los dos ajustes anteriores, el coeficiente de
regresin parcial ser:
E [e1.34 ... k e 2.34 .. k ] S x1 x2
r12 . 3Lk = =
v ( e1.34 .. k ) v ( e 2.34 .. k ) S x1 x1 S x2 x2
Supongamos que se estn estudiando solamente
3 variables x1, x2 y x3., se pueden relacionar los
coeficientes de correlacin simple y parcial a
travs de la siguiente expresin:
r 33 r12 r13 r23
r12 . 3 =
(1 r )(1 r )
2
13
2
23

Donde rij es el coeficiente de correlacin simple


entre las variables xi, xj.

You might also like