Professional Documents
Culture Documents
REGRESIN
%_Oxigeno
%_HCarburos
Planteamiento del modelo.
Y i = 0 + 1 xi + i i [1, n]
Y = X '+
89.86 1 1.02
= ( 0 , 1 ) + ( 1 , 2 ,... 20 )
96.73 1 1.46
99.42 1 1.55
98.66 1 1.55
96.07 1 1.55
93.65 1 1.4
87.31 1 1.15
95 1 1.01
96.85 1 0.99
85.2 1 0.95
90.56 1 0.98
Estimacin de los parmetros.
La funcin de verosimilitud para los parmetros 0,
1, 2 , es la siguiente:
f(Y, 0 , 1 , ) = 2 1
e
- 2
2
1
( y i - 0 - 1 xi )2
(2 )
n/2 n
i=1
n i =1 n
El estimador resultante de la varianza o varianza
residual es:
Los residuos tienen que cumplir dos
1 n 2 restricciones que proceden del clculo de
ei
2
SR = los estimadores de mxima verosimilitud:
n - 2 i =1
ei = 0 ei x i = 0
Estimacin de los parmetros
Estimacin 0 Estimacin 1
Estimacin
Estimacin de los parmetros
Grfico del Modelo Ajustado
100
97
%_Oxigeno
94
91
88
85
0.87 1.07 1.27 1.47 1.67
%_HCarburos
( yi - y )
2
- ( y - y +
i 1
2
x - 1 xi ) 1
2
( x i - x )
2
F= i=1
n
i=1
= n
i=1
( yi - y + 1 x - 1 xi ) ( yi - y + 1 x - 1 xi )
2 2
i=1 i=1
El estadstico (n-2)/1 F sigue una distribucin F-snedecor con (1, n-2) grados de libertad
Simplificacin del Modelo
El trmino independiente es 0: H0: 0=0
n n
0 n ( xi - x )
2 2
/ x i
2
i=1
F= n
i=1
( y - y +
2
i 1 x - 1 xi )
i=1
El estadstico (n-2)/1 F sigue una distribucin F-snedecor con (1, n-2) grados de
libertad
Simplificacin del Modelo
-0.4
-1.4
-2.4
88 90 92 94 96 98
%_Oxigeno predicho
Comprobacin Hiptesis Bsicas de
los Residuos
80
50
20
5
1
0.1
-5 -2 1 4 7 10
RESIDUALS
Comprobacin Hiptesis Bsicas de
los Residuos
Tests de Bondad de Ajuste para RESIDUALS
Contraste Chi-cuadrado
------------------------------------------------------------------
Lmite Lmite Frecuencia Frecuencia
Inferior Superior Observada Esperada Ch
------------------------------------------------------------------
menor o igual -3.3866 5 3.33
-3.3866 -1.50783 2 3.33
-1.50783 -4.4E-7 4 3.33
-4.4E-7 1.50783 2 3.33
1.50783 3.3866 4 3.33
mayor 3.3866 3 3.33
------------------------------------------------------------------
Chi-cuadrado = 2.20003 con 3 g.l. P-Valor = 0.531938
Estadstico DMAS de Kolmogorov = 0.115795
Estadstico DMENOS de Kolmogorov = 0.0909808 Se acepta
Estadstico DN global de Kolmogorov = 0.115795
P-Valor aproximado = 0.951365 normalidad
Anlisis del Coeficiente de Correlacin
El coeficiente de correlacin mide la relacin
lineal existente entre dos variables.
cov(Y, X)
=
SySX
Su valor vara entre -1 y 1.
Si =0, no existe relacin lineal. Si las variables
son normales, adems son independientes.
La dependencia entre las variables es
completa cuando =1
Anlisis del Coeficiente de Correlacin
Contrastes de hiptesis sobre el coeficiente de
correlacin:
1. H0: =0 frente a H1: 0
Estadstico: r tn-2
t = n2
1 r 2
%_HCarburos %_Oxigeno
------------------------------------------------------------
%_HCarburos 0.6238
( 20)
0.0033
%_Oxigeno 0.6238
( 20)
0.0033
------------------------------------------------------------
Validacin del modelo
Anlisis de la Varianza
Test de Falta de Ajuste
Deteccin de Residuos Atpicos
Determinacin de Puntos Influyentes
Validacin del modelo- Anlisis de la
Varianza
n n n
(y y ) = ( yi y i ) + ( y i y )
2 2 2
i
i =1 i =1 i =1
Validacin del modelo- Test de Falta
de Ajuste
Este test comprueba el ajuste de los datos al modelo de
regresin lineal.
H0: La regresin es lineal
Requisitos:
-Normalidad
-Independencia
-Varianza constante.
Observaciones reales duplicadas.
Ej. %_HCarb =102 aparece 2 veces.
Validacin del modelo- Test de Falta
de Ajuste
( ) ( ) + ( y y )
m error puro 2 m
2 2
yij y i = yij y i i i
error debido a la falta de ajuste
i =1 j =1 i =1 j =1 i =1 j =1
ei
2
e 2
i
Validacin del modelo- Deteccin de
Residuos Atpicos
Los residuos atpicos se pueden deber a:
1. Medicin incorrecta
2. Anlisis incorrecto Se eliminan
Permanecen.
Puede controlar
4. Observacin extraordinaria factible propiedades
clave del modelo
Validacin del modelo- Deteccin de
Residuos Atpicos
97
%_Oxigeno
94
91
88
85
0.87 1.07 1.27 1.47 1.67
%_HCarburos
Validacin del modelo - Puntos
Influyentes
El punto influyente (Outlier) es aqul que tiene influencia
sobre los coeficientes de regresin y/o las propiedades del
modelo como R2, y los errores estndar de los coeficientes de
regresin...
1
Se detectan a partir de: y = X = X(X' X) X' y = Hy
La diagonal de H es una medida de la distancia de la i-sima
observacin al centro del espacio X. Hay apalancamiento si
este valor es mayor que n
2 h ii / n
i =1
Validacin del modelo - Puntos
Influyentes
DFFITS
Este mtodo estudia la influencia de la eliminacin de
la i-sima observacin sobre la prediccin.
y i y (i)
DFFITS i = 2
i = 1....n
S (i) h ii
y (i) es el valor ajustado de y sin utilizar la i-sima observacin.
i
y ( ) =
i =1
i
ln 1 (1/n) lny lny, = 0
n
i =1
i
y 0 = 0 + 1x 0
Intervalos de confianza:
De la respuesta media E(y)
De nuevas predicciones
Aplicacin del Modelo
Intervalos de confianza de la respuesta
media, E(y).
Se fija un valor de inters x0, y se trata de
encontrar int. de confianza de E(y/x0).
Estimador de E(y/x0): E(y/x ) = + x
0 0 1 0
Su varianza es:
var(E(y/x 0 )) = var( 0 + 1x 0 ) = var(y + 1 (x 0 x)) =
2 (x 0 x )
2 2
= +
n Sxx
Aplicacin del Modelo
Intervalos de confianza de la respuesta
media, E(y), para un nivel de confianza 1-
es:
S
2
E(y/x 0 ) y|x 0 t /2, n 2 res +Sres 0
2 (x x )2
n Sxx
Intervalos de Confianza
Grfico del Modelo Ajustado
100
97
%_Oxigeno
94
91
88
85
0.87 1.07 1.27 1.47 1.67
%_HCarburos
2 (x 0 x )
2 2
var(y0 - y 0 ) = + +
2
n Sxx
Aplicacin del Modelo
Intervalos de confianza de nuevas
predicciones
Y por tanto el intervalo de confianza, para un
nivel de confianza 1-, es
2 S
2
y 0 y 0 t /2, n 2 Sres + res + Sres
2 (x 0 x )2
n S
xx
Regresin
Mltiple
El objetivo de la regresin mltiple es
construir un modelo probabilstico que
relacione un variable dependiente Y con
dos o ms variables matemticas
independientes x1, x2, ... xk,. La
expresin de dicho modelo es la
siguiente:
Y = 0 + 1 x1 + 2 x2 + L + k xk +
Donde:
i, es el coeficiente que representa el efecto
sobre la variable dependiente al aumentar en
una unidad el valor de la variable
independiente xi.
, representa la perturbacin aleatoria.
, verifica las siguientes hiptesis:
Su media es 0.
Su varianza es constante, 2.
Las perturbaciones son independientes
entre s.
Siguen una distribucin Normal.
Estimacin de los parmetros.
Aplicando el mtodo de mnimos cuadrados,
(nmero de observaciones es n,) la funcin a
minimizar es:
M = (yi (0 + 1 x1i + 2 x2i + L + `k xki ))
2
e i =0
Derivando respecto a i, se verifica:
e x
i ji =0 j =1,Lk
El sistema de ecuaciones definido por las
expresiones anteriores se puede escribir
de la siguiente manera:
y i = n 0 + 1 x1i + 2 x2i + L + k xki
y x = 0 x1i + 1 x1i + 2 x2i x1i + L + `k xki x1i
2
i 1i
M
yi xki = 0 xki + 1 x1i xki + 2 x2i xki + L + `k xki
2
Las ecuaciones anteriores se pueden
expresar de forma matricial:
1 L 1 y1 1 L 1 1 x11 L x k1
0
1 1
x x12 L x1n y 2 x11 x12 L x1n 1 x12 L x k 2
11 = 1
M M M M M M M M M M M M M M
x k1 xk 2 L x kn y n x k1 xk 2 L x kn 1 x1n L x kn
k
s yy s yx1 L s yx k
s s x1 x1 L s x1 xk
S = x1 y
M M M M
s xk y s xk x1 L s xk xk
S yx i
i =
S yy
Donde:
|Syxi|es el determinante del mnimo
complementario correspondiente a los
rdenes de las variables y y xi. En este
caso, estos rdenes sern 1 para la
variable y e i+1 para la variable xi.
El trmino independiente ser:
0 = y i xi
Lavarianza de la perturbacin aleatoria,
2. se estima a partir de la varianza
residual, estimador mximo-verosmil en la
hiptesis de normalidad. El nmero de
grados de libertad de los residuos es n-k-
1, por haber k+1 restricciones:
s =
2 e 2
i
R
n k 1
Descomposicin de la variabilidad
La variabilidad de la respuesta puede
descomponerse de la siguiente manera:
2 2
2
i y i
y y = y + yi yi
que expresa la variacin total VT como suma de la
variacin explicada por el modelo VE y la
residual o no explicada VNE.
El contraste de regresin comprobar que el
modelo es vlido. La hiptesis nula ser la ms
sencilla y es que el vector de parmetros de
regresin sea nulo.
La tabla ADEVA es la siguiente:
Fuente Suma de Grados Varianza Contrast
de cuadrado de e
variaci s libertad
n
2
VE k
y i y 2 F= S
2
/ SR
2
Se e
2
VNE i i n-k-1
y y
SR
2
2
VT i
y y n-1 S y
2
Correlacin en Regresin Mltiple
Coeficiente de determinacin o de
correlacin mltiple
Este coeficiente mide la correlacin entre la
variable dependiente y el conjunto de las
variables independientes:
VE
R =2
VT
Inconvenientes:
Al aumentar el nmero de variables que
intervienen en el modelo, su valor
aumenta, aunque el efecto de esta nueva
variable no sea significativo.
Es muy sensible a la eleccin de variable
dependiente. Dos modelos formalmente
iguales, pueden tener diferente valor del
coeficiente de determinacin.
Se utiliza el coeficiente de determinacin
corregido, S
Varianza residual R2 = 1
R = 1 2
2
y S yy
Varianza de y
Coeficiente
de correlacin parcial
Dado un conjunto de variables, x1, x2, ... xk, el
coeficiente de correlacin parcial entre dos
cualesquiera de ellas, es una medida de su
relacin lineal, cuando se elimina de ambas el
efecto debido al resto de las variables.
Por ejemplo si se quiere calcular el coeficiente de
correlacin parcial entre x1 y x2, se calcular
primero los hiperplanos de regresin de x1
respecto a x3 x4, ... xk y de x2, respecto a x3 x4, ...
xk, , si llamamos e1.345...k y e2.345...k los residuos de
los dos ajustes anteriores, el coeficiente de
regresin parcial ser:
E [e1.34 ... k e 2.34 .. k ] S x1 x2
r12 . 3Lk = =
v ( e1.34 .. k ) v ( e 2.34 .. k ) S x1 x1 S x2 x2
Supongamos que se estn estudiando solamente
3 variables x1, x2 y x3., se pueden relacionar los
coeficientes de correlacin simple y parcial a
travs de la siguiente expresin:
r 33 r12 r13 r23
r12 . 3 =
(1 r )(1 r )
2
13
2
23