Mod Lineal 3 PDF

MODELOS DE
REGRESIN
Prof. Susana Martn Fernndez

REGRESIN SIMPLE
Objetivo
Sean x1 x2 ...xn, n valores de la variable numrica X. Sea Y=(y1,
y2,..., yn) un vector aleatorio de n variables aleatorias
independientes, el modelo de regresin estudia la
dependencia lineal del vector Y, respecto a la variable X.
Cuando el conocimiento de una variable determina totalmente el
valor de otra habr una relacin funcional entre ambas
variables.
Si el conocimiento de una variable no aporta informacin sobre
el valor de otra, ambas variables son independientes.
En general el conocimiento de una variable predice en mayor o
menor grado el conocimiento de otra. Se dice que entre ellas hay
una relacin estocstica.
Metodologa
1.Representacin grfica de los datos.
2.Planteamiento del modelo.
3.Estimacin de los parmetros.
4.Contraste de simplificacin del modelo.
5.Comprobacin de las hiptesis bsicas por

anlisis de residuos.
6.Anlisis del Coeficiente de Correlacin
7.Validacin del modelo
8.Aplicacin del modelo

Representacin grfica de los datos.
Ej. En una planta de produccin de oxigeno, se cree que la
pureza del oxgeno producido con un proceso de
fraccionamiento est relacionada con el porcentaje de
hidrocarburos en el condensador principal de la unidad de
procesamiento.
%_Oxigeno
%_HCarburos
Planteamiento del modelo.
Y i = 0 + 1 xi + i i [1, n]
Las variables del vector =(1,2,...n) representan la

perturbacin aleatoria, y se asume que cumplen que:
Son independientes
Siguen un distribucin normal
Todas tienen la misma varianza homocedasticidad,

2.
E[ i ] = 0
De forma matricial el modelo quedara de la siguiente
forma :
Y = X '+
Donde: 1 x1

1 x2
= (0 1) X =
L L

1 xn

86.91 1 1.02 '
En el ejemplo, para
89.85

1 1.11

90.28 1 1.43
una muestra concreta
86.34 1 1.11
92.58 1 1.01
sera:
87.33 1 0.95

86.29 1 1.11
91.86 1 0.87

95.61 1 1.43
Y = X '+

89.86 1 1.02
= ( 0 , 1 ) + ( 1 , 2 ,... 20 )
96.73 1 1.46
99.42 1 1.55

98.66 1 1.55

96.07 1 1.55
93.65 1 1.4

87.31 1 1.15
95 1 1.01

96.85 1 0.99
85.2 1 0.95

90.56 1 0.98

Estimacin de los parmetros.
La funcin de verosimilitud para los parmetros 0,
1, 2 , es la siguiente:
f(Y, 0 , 1 , ) = 2 1
e
- 2
2
1
( y i - 0 - 1 xi )2
(2 )
n/2 n
i=1
Se calculan los valores de 0, 1, que hacen mxima

la funcin de verosimilitud:
n
n
0 =
yi
- i x = y - i x
(x - x)( y - y)
i i Cov(Y, X)
i=1 n 1 = i =1
n
=
(xi - x) 2 2
x
i =1
El valor de 2 que hace mxima la funcin de
verosimilitud es:
n
1 1 2
= ( yi - 0 - 1 x i ) = ei
2 2
n i =1 n
El estimador resultante de la varianza o varianza
residual es:
Los residuos tienen que cumplir dos
1 n 2 restricciones que proceden del clculo de
ei
2
SR = los estimadores de mxima verosimilitud:
n - 2 i =1
ei = 0 ei x i = 0
Estimacin de los parmetros
Estimacin 0 Estimacin 1
Estimacin
Estimacin de los parmetros
Grfico del Modelo Ajustado
100
97
%_Oxigeno
94
91
88
85
0.87 1.07 1.27 1.47 1.67
%_HCarburos
%_Oxigeno = 77.8633 + 11.801*%_HCarburos

Simplificacin del Modelo
Los contrastes de simplificacin del modelo

son los siguientes:
1. El modelo no es lineal: H0: 1=0
2. El trmino independiente es cero: H0:

0=0
El modelo no es lineal: H0: 1=0
Bajo la hiptesis nula, los estimadores de los
parmetros son: n
1
= ( yi - y)
2 2
0 0 = y 10 = 0 0
n i =1
( ( ) )
F=
(Y 0 X')(Y 0 X')' (Y X')(Y X')'
) )
(Y X')(Y X')'
n n n
( yi - y )
2
- ( y - y +
i 1
2
x - 1 xi ) 1
2
( x i - x )
2
F= i=1
n
i=1
= n
i=1
( yi - y + 1 x - 1 xi ) ( yi - y + 1 x - 1 xi )
2 2
i=1 i=1
El estadstico (n-2)/1 F sigue una distribucin F-snedecor con (1, n-2) grados de libertad
El trmino independiente es 0: H0: 0=0
n n
0 n ( xi - x )
2 2
/ x i
2
i=1
F= n
i=1
( y - y +
2
i 1 x - 1 xi )
i=1
El estadstico (n-2)/1 F sigue una distribucin F-snedecor con (1, n-2) grados de
libertad
Test 0=0 Test 1=0

Comprobacin Hiptesis Bsicas de
los Residuos
Estadstico de Durbin-Watson = 1.91084 (P=0.3683)
Autocorrelacin residual en Lag 1 = 0.0226275
Este grfico es muestra la

Grfico de Residuos heteroscedasticidad de los
Residuo estudentizado
2.6 residuos. Su variabilidad

cambia
1.6 al aumentar los valores de
0.6
la variable dependiente.
-0.4
-1.4
-2.4
88 90 92 94 96 98
%_Oxigeno predicho
los Residuos
Grfico de Probabilidad Normal

99.9
99
95
porcentaje
80
50
20
5
1
0.1
-5 -2 1 4 7 10
RESIDUALS
los Residuos
Tests de Bondad de Ajuste para RESIDUALS
Contraste Chi-cuadrado
------------------------------------------------------------------
Lmite Lmite Frecuencia Frecuencia
Inferior Superior Observada Esperada Ch
------------------------------------------------------------------
menor o igual -3.3866 5 3.33
-3.3866 -1.50783 2 3.33
-1.50783 -4.4E-7 4 3.33
-4.4E-7 1.50783 2 3.33
1.50783 3.3866 4 3.33
mayor 3.3866 3 3.33
------------------------------------------------------------------
Chi-cuadrado = 2.20003 con 3 g.l. P-Valor = 0.531938
Estadstico DMAS de Kolmogorov = 0.115795
Estadstico DMENOS de Kolmogorov = 0.0909808 Se acepta
Estadstico DN global de Kolmogorov = 0.115795
P-Valor aproximado = 0.951365 normalidad
Anlisis del Coeficiente de Correlacin
El coeficiente de correlacin mide la relacin
lineal existente entre dos variables.
cov(Y, X)
=
SySX
Su valor vara entre -1 y 1.
Si =0, no existe relacin lineal. Si las variables
son normales, adems son independientes.
La dependencia entre las variables es
completa cuando =1
Contrastes de hiptesis sobre el coeficiente de
correlacin:
1. H0: =0 frente a H1: 0
Estadstico: r tn-2
t = n2
1 r 2
2. H0: =0 0 frente a H1: 0

1 1 + 0 0
E (z ) = ln +
2 1 0 2(n 1)
1 1+ r
Estadstico: z = ln Normal var( z ) =
1
2 1 r n3
Ej.
Correlaciones
%_HCarburos %_Oxigeno
------------------------------------------------------------
%_HCarburos 0.6238
( 20)
0.0033
%_Oxigeno 0.6238
( 20)
0.0033
------------------------------------------------------------
Validacin del modelo
Anlisis de la Varianza
Test de Falta de Ajuste
Deteccin de Residuos Atpicos
Determinacin de Puntos Influyentes
Validacin del modelo- Anlisis de la
Varianza
La hiptesis nula es que el modelo no es vlido.

La descomposicin de la variabilidad es la siguiente:
n n n
(y y ) = ( yi y i ) + ( y i y )
2 2 2
i
i =1 i =1 i =1
Validacin del modelo- Test de Falta
de Ajuste
Este test comprueba el ajuste de los datos al modelo de
regresin lineal.
H0: La regresin es lineal
Requisitos:
-Normalidad
-Independencia
-Varianza constante.
Observaciones reales duplicadas.
Ej. %_HCarb =102 aparece 2 veces.
Validacin del modelo- Test de Falta
de Ajuste
.El error residual los separa en 2 grupos:

ni m ni ni
( ) ( ) + ( y y )
m error puro 2 m
2 2
yij y i = yij y i i i
error debido a la falta de ajuste
i =1 j =1 i =1 j =1 i =1 j =1
yi Valor medio de las ni observaciones en xi

Validacin del modelo- Deteccin de
Residuos Atpicos
Valor atpico es una observacin extrema.

No son representativos del resto de datos.
Mtodo de Stefansky (1971) para detectarlos:
ei
2
e 2
i
Residuos Atpicos
Los residuos atpicos se pueden deber a:
1. Medicin incorrecta
2. Anlisis incorrecto Se eliminan
3. Registro incorrecto de datos
Permanecen.
Puede controlar
4. Observacin extraordinaria factible propiedades
clave del modelo
Residuos Atpicos

100
97
%_Oxigeno
94
91
88
85
0.87 1.07 1.27 1.47 1.67
%_HCarburos
Validacin del modelo - Puntos
Influyentes
El punto influyente (Outlier) es aqul que tiene influencia
sobre los coeficientes de regresin y/o las propiedades del
modelo como R2, y los errores estndar de los coeficientes de
regresin...
Pto. de balanceo Pto. influyente

Influyentes
Balanceo o Leverage (Apalancamiento)
Mide la influencia de cada observacin en la
determinacin de los coeficientes de regresin.
1
Se detectan a partir de: y = X = X(X' X) X' y = Hy
La diagonal de H es una medida de la distancia de la i-sima
observacin al centro del espacio X. Hay apalancamiento si
este valor es mayor que n
2 h ii / n
i =1
Influyentes
DFFITS
Este mtodo estudia la influencia de la eliminacin de
la i-sima observacin sobre la prediccin.
y i y (i)
DFFITS i = 2
i = 1....n
S (i) h ii
y (i) es el valor ajustado de y sin utilizar la i-sima observacin.
i
Un punto se analiza si: DFFITSi > 2 h ii n

Influyentes
DISTANCIA DE MAHALANOBIS
Distancia no eucldea que considera la correlacin
entre variables.
D2 (y) = (y X)S-1 (y X)`
D es la distancia al cuadrado desde cada punto y al

conjunto de variables X
S representa la matriz de covarianzas de X.
X es el vector que contiene los valores medios de las
variables independientes.
Transformacin de una variable aleatoria
Los modelos de regresin suponen:
1. Los errores tienen media 0, varianza
constante y no estn correlacionados.
2. Los errores tienen distribucin normal.
3. La forma del modelo es correcta.
Si no se cumple alguna de estas suposiciones
se pueden TRANSFORMAR LOS DATOS. La
transformacin se realiza de forma emprica.
Transformacin de una variable
aleatoria. Estabilizacin de la varianza.
Relacin entre 2 y E[y] Transformacin
2 ~ Constante y=y
2 ~ E[y] y= y1/2 (Raz cuadrada,
datos de Poisson)
2 ~ E[y] [1-E[y]] y=1/sen(y1/2),(proporciones
binomiales)
2 ~ E[y]2 Y=ln(y) (logartmica)
2 ~ E[y]3 Y= y-1/2 (raz cuadrdada
recproca)
2 ~ E[y]4 Y= y-1 (recproca)
aleatoria. Linealizacin del Modelo
La no linealidad del modelo se detecta:
1.Con el test de falta de ajuste
2.Con el grfico de dispersin
3.De forma emprica
aleatoria. Mtodo Box-Cox.
9 Se transforma la variable y para corregir la
no normalidad y/o la varianza no
constante.
9 Es una transformacin de potencia y
9 Se determinan los parmetros de la recta
0, 1y por el mtodo de mxima
verosimilitud.
Problema cuando =0.
Solucin realizando el siguiente cambio:
y 1
1
, 0
ln 1 (1/n) lny
n

y ( ) =

i =1
i

ln 1 (1/n) lny lny, = 0
n

i =1
i

Se ajusta el modelo y()=X+

Aplicacin del Modelo
Prediccin de nuevas observaciones
y 0 = 0 + 1x 0
Intervalos de confianza:
De la respuesta media E(y)
De nuevas predicciones
Intervalos de confianza de la respuesta
media, E(y).
Se fija un valor de inters x0, y se trata de
encontrar int. de confianza de E(y/x0).
Estimador de E(y/x0): E(y/x ) = + x
0 0 1 0
Su varianza es:
var(E(y/x 0 )) = var( 0 + 1x 0 ) = var(y + 1 (x 0 x)) =
2 (x 0 x )
2 2

= +
n Sxx
Intervalos de confianza de la respuesta
media, E(y), para un nivel de confianza 1-
es:
S
2
E(y/x 0 ) y|x 0 t /2, n 2 res +Sres 0
2 (x x )2

n Sxx

Intervalos de Confianza
100
97
%_Oxigeno
94
91
88
85
0.87 1.07 1.27 1.47 1.67
%_HCarburos
%_Oxigeno = 77.8633 + 11.801*%_HCarburos

Intervalos de confianza de nuevas
predicciones
Si el valor de inters de la variable
independiente es x0 entonces , y 0 = 0 + 1 x 0
es el valor estimado de y0.
2 (x 0 x )
2 2

var(y0 - y 0 ) = + +
2
n Sxx
Intervalos de confianza de nuevas
predicciones
Y por tanto el intervalo de confianza, para un
nivel de confianza 1-, es
2 S
2
y 0 y 0 t /2, n 2 Sres + res + Sres
2 (x 0 x )2

n S
xx
Regresin
Mltiple
El objetivo de la regresin mltiple es
construir un modelo probabilstico que
relacione un variable dependiente Y con
dos o ms variables matemticas
independientes x1, x2, ... xk,. La
expresin de dicho modelo es la
siguiente:
Y = 0 + 1 x1 + 2 x2 + L + k xk +
Donde:
i, es el coeficiente que representa el efecto
sobre la variable dependiente al aumentar en
una unidad el valor de la variable
independiente xi.
, representa la perturbacin aleatoria.
, verifica las siguientes hiptesis:
Su media es 0.
Su varianza es constante, 2.
Las perturbaciones son independientes
entre s.
Siguen una distribucin Normal.
Aplicando el mtodo de mnimos cuadrados,
(nmero de observaciones es n,) la funcin a
minimizar es:
M = (yi (0 + 1 x1i + 2 x2i + L + `k xki ))
2
Derivando respecto a 0, se verifica, si se llama

ei=yi-^yi, la siguiente ecuacin:
e i =0
Derivando respecto a i, se verifica:
e x
i ji =0 j =1,Lk
El sistema de ecuaciones definido por las
expresiones anteriores se puede escribir
de la siguiente manera:

y i = n 0 + 1 x1i + 2 x2i + L + k xki

y x = 0 x1i + 1 x1i + 2 x2i x1i + L + `k xki x1i
2
i 1i

M
yi xki = 0 xki + 1 x1i xki + 2 x2i xki + L + `k xki
2
Las ecuaciones anteriores se pueden
expresar de forma matricial:
1 L 1 y1 1 L 1 1 x11 L x k1
0
1 1
x x12 L x1n y 2 x11 x12 L x1n 1 x12 L x k 2
11 = 1
M M M M M M M M M M M M M M

x k1 xk 2 L x kn y n x k1 xk 2 L x kn 1 x1n L x kn
k
De la expresin anterior se puede despejar

el valor de los parmetros buscados:

= (X X ) 1
X Y

Si la matriz de covarianzas es la siguiente:
s yy s yx1 L s yx k
s s x1 x1 L s x1 xk
S = x1 y
M M M M

s xk y s xk x1 L s xk xk
La expresin de cada parmetro i con i

de 1 a k, es la siguiente:
S yx i
i =
S yy
Donde:
|Syxi|es el determinante del mnimo
complementario correspondiente a los
rdenes de las variables y y xi. En este
caso, estos rdenes sern 1 para la
variable y e i+1 para la variable xi.
El trmino independiente ser:

0 = y i xi
Lavarianza de la perturbacin aleatoria,
2. se estima a partir de la varianza
residual, estimador mximo-verosmil en la
hiptesis de normalidad. El nmero de
grados de libertad de los residuos es n-k-
1, por haber k+1 restricciones:
s =
2 e 2
i
R
n k 1
Descomposicin de la variabilidad
La variabilidad de la respuesta puede
descomponerse de la siguiente manera:
2 2
2

i y i
y y = y + yi yi

que expresa la variacin total VT como suma de la
variacin explicada por el modelo VE y la
residual o no explicada VNE.
El contraste de regresin comprobar que el
modelo es vlido. La hiptesis nula ser la ms
sencilla y es que el vector de parmetros de
regresin sea nulo.
La tabla ADEVA es la siguiente:
Fuente Suma de Grados Varianza Contrast
de cuadrado de e
variaci s libertad
n
2
VE k
y i y 2 F= S
2
/ SR
2
Se e
2

VNE i i n-k-1
y y
SR
2
2

VT i
y y n-1 S y
2
Correlacin en Regresin Mltiple
Coeficiente de determinacin o de
correlacin mltiple
Este coeficiente mide la correlacin entre la
variable dependiente y el conjunto de las
variables independientes:
VE
R =2
VT
Inconvenientes:
Al aumentar el nmero de variables que
intervienen en el modelo, su valor
aumenta, aunque el efecto de esta nueva
variable no sea significativo.
Es muy sensible a la eleccin de variable
dependiente. Dos modelos formalmente
iguales, pueden tener diferente valor del
coeficiente de determinacin.
Se utiliza el coeficiente de determinacin
corregido, S

Varianza residual R2 = 1
R = 1 2
2
y S yy
Varianza de y
Coeficiente
de correlacin parcial
Dado un conjunto de variables, x1, x2, ... xk, el
coeficiente de correlacin parcial entre dos
cualesquiera de ellas, es una medida de su
relacin lineal, cuando se elimina de ambas el
efecto debido al resto de las variables.
Por ejemplo si se quiere calcular el coeficiente de
correlacin parcial entre x1 y x2, se calcular
primero los hiperplanos de regresin de x1
respecto a x3 x4, ... xk y de x2, respecto a x3 x4, ...
xk, , si llamamos e1.345...k y e2.345...k los residuos de
los dos ajustes anteriores, el coeficiente de
regresin parcial ser:
E [e1.34 ... k e 2.34 .. k ] S x1 x2
r12 . 3Lk = =
v ( e1.34 .. k ) v ( e 2.34 .. k ) S x1 x1 S x2 x2
Supongamos que se estn estudiando solamente
3 variables x1, x2 y x3., se pueden relacionar los
coeficientes de correlacin simple y parcial a
travs de la siguiente expresin:
r 33 r12 r13 r23
r12 . 3 =
(1 r )(1 r )
2
13
2
23
Donde rij es el coeficiente de correlacin simple

entre las variables xi, xj.

Mod Lineal 3 PDF

Uploaded by

Document Information

Original Title

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

Mod Lineal 3 PDF

Uploaded by

Copyright:

Available Formats

MODELOS DE

Prof. Susana Martn Fernndez

3.Estimacin de los parmetros.

4.Contraste de simplificacin del modelo.

5.Comprobacin de las hiptesis bsicas por

7.Validacin del modelo

8.Aplicacin del modelo

Las variables del vector =(1,2,...n) representan la

Siguen un distribucin normal

Todas tienen la misma varianza homocedasticidad,

Se calculan los valores de 0, 1, que hacen mxima

%_Oxigeno = 77.8633 + 11.801*%_HCarburos

Los contrastes de simplificacin del modelo

2. El trmino independiente es cero: H0:

Test 0=0 Test 1=0

Este grfico es muestra la

2.6 residuos. Su variabilidad

Grfico de Probabilidad Normal

2. H0: =0 0 frente a H1: 0

La hiptesis nula es que el modelo no es vlido.

.El error residual los separa en 2 grupos:

yi Valor medio de las ni observaciones en xi

Valor atpico es una observacin extrema.

3. Registro incorrecto de datos

Grfico del Modelo Ajustado

Pto. de balanceo Pto. influyente

Un punto se analiza si: DFFITSi > 2 h ii n

D2 (y) = (y X)S-1 (y X)`

D es la distancia al cuadrado desde cada punto y al

Se ajusta el modelo y()=X+

Prediccin de nuevas observaciones

%_Oxigeno = 77.8633 + 11.801*%_HCarburos

Derivando respecto a 0, se verifica, si se llama

De la expresin anterior se puede despejar

La expresin de cada parmetro i con i

Donde rij es el coeficiente de correlacin simple

You might also like