Professional Documents
Culture Documents
Actividad 4
Tema4
PROFESORES:
Y = X
Siendo:
y1
Y =
y
n
1 ( x11 x1 ) ( xk1 x k )
X =
1 ( x x ) ( x x )
1
k
1n
kn
'
0
= 1
k
'
=
n
yj
0
j =1
S
l =1
il
= Siy
i = 1,...k
Siendo:
n
Siy = y j ( xij xi )
j =1
Para verificar que son idnticas basta multiplicar por la traspuesta de X a ambos lados
de la ecuacin en forma matricial, desarrollar y hacer los productos hasta obtener una
igualdad de matrices de tamao (k+1)x1 donde encontramos las k+1 ecuaciones vistas
en la forma escalar:
- Multiplicamos por la traspuesta de X:
X 'Y = X ' X
1
( x11 x1 )
( xk1 x k )
y1
( x1n x1 ) ( x11 x1 )
=
yn
( xkn x k )
( xk1 x k )
'
0
1 ( x11 x1 ) ( xk1 x k )
( x1n x1 )
1
1 ( x x1 ) ( x x k )
1n
kn
( xkn x k )
k
yj
n
j =1
n
n
y j ( x1 j x1 ) ( x1 j x1 )
j =1
= j =1
n
n
y j ( xkj x k ) ( xkj x k )
j =1
j =1
n
Puesto que,
(x
j =1
ij
'
j =1
j =1
0
n
n
2
( x1 j x1 )
( x1 j x1 )( xkj x k )
1
j =1
j =1
n
n
k
2
(
x
x
)(
x
x
)
(
x
x
)
k
k
1
1j
kj
kj
j =1
j =1
( x1 j x1 )
(x
kj
xk )
'
yj n 0 0 0
j =1 0 S S
11
1k 1
S1 y =
S 0 S k1 S kk
k
ky
Es decir:
n
'
0
y
k
j
S
j =1
l 1l
S1 y = l =1
S
ky l Skl
l =1
'
=
n
yj
0
j =1
S
l =1
il
= Siy
i = 1,...k
= ( XX ') 1 X ' y
Haciendo operaciones en dicha expresin:
= + ( XX ')1 X ' E [ ] =
E
=
E
MATRIZ DE COVARIANZAS:
La matriz de covarianza se obtiene de la forma siguiente:
)(
'
= E
E
E
= E
Cov
) ( ) =
'
'
'
= E ( + ( XX ') 1 X ' )( + ( XX ') 1 X ' ) = E ( ( XX ') 1 X ' )( ( XX ') 1 X ' ) =
= 2 ( XX ')1
Cov
S yy = SS R + SS E
Haciendo operaciones en la frmula de SS E y teniendo en cuenta la igualdad anterior
podemos llegar a las expresiones buscadas:
S
SS E = SS R + SS E
iy
i =1
S
SS R =
iy
i =1
Luego:
k
S
SS E = S yy
iy
i =1
S
SS R =
iy
i =1
A2. TRABAJO
Elaborar un resumen sobre los contrastes de significacin en el modelo de
regresin lineal mltiple y sus posibles aplicaciones en el diseo de
experimentos.
Para el planteamiento de contrastes de hiptesis sobre los parmetros del modelo de
regresin mltiple se supondr adicionalmente que la variable respuesta se distribuye
segn una normal. Ms concretamente, las componentes aleatorias de error sern
variables independientes e idnticamente distribuidas, segn una normal con media
cero y varianza 2 . Por tanto, las variables yi para j = 1,..., n se distribuirn segn
una normal con media:
k
0 + i xij
i =1
H 0 : i = 0
Puesto que i mide el efecto parcial de xi sobre y, despus de controlar para todas
las otras variables independientes, H 0 significa que, una vez que x1 ,..., xi 1 , xi +1 ,..., xk
han sido tenidos en cuenta, xi no tiene efectos sobre y. Por tal, esta hiptesis nula
pertenece a los denominados contrastes de significatividad.
- El estadstico pivote para este contraste es:
k
t0 =
i
MS E Cii
donde: MS E =
S
S yy
i iy
i =1
n k 1
con
1 ( x11 x1 ) ( xk1 x k )
X =
1 ( x x ) ( x x )
1
k
1n
kn
Bajo la hiptesis nula, dicho estadstico sigue una distribucin t-Student con n-k-1
grados de libertad.
Con respecto a la hiptesis alternativa hay tres posibilidades:
Unilateral de una cola derecha:
H 0 : i = 0 (i 0)
H1 : i > 0
Es un contraste de significacin positiva, la regla de decisin es:
La hiptesis nula se rechaza cuando:
siendo
t , n k 1
t0 t ,n k 1
grados de libertad.
Otra forma ver si rechazamos o no la hiptesis nula es con el p-valor:
Rechazamos Ho si : p-valor <
Calculndose el p-valor en este caso de la forma siguiente:
6
p valor = P ( tn k 1 t0 )
Por lo tanto, rechazamos H0 en favor de H1 cuando
t0 t ,n k 1
como puede
H 0 : i = 0 (i 0)
H1 : i < 0
Es un contraste de significacin negativa, la regla de decisin es:
La hiptesis nula se rechaza cuando
t0 t , n k 1
p valor = P ( tn k 1 t0 )
t0 t , n k 1
como puede
H 0 : i = 0
H1 : i 0
Esta es la alternativa relevante cuando el signo i no est bien determinado
por la teora o el sentido comn. Cuando la alternativa es de dos colas,
estamos interesados en el valor absoluto del estadstico t. Este contraste es un
contraste de significacin., la regla de decisin es:
7
t0 t /2, n k 1
p valor = 2* Max { P ( tn k 1 t0 ) ,1 P ( tn k 1 t0 )}
t0 t /2, n k 1
como
H 0 : i = 0
- El estadstico pivote para este contraste es:
k
t0 =
i 0
MS E Cii
donde: MS E =
S
S yy
i iy
i =1
n k 1
distanciada
Al igual que antes, t0 mide la cantidad de desviaciones estndar est
i
de 0 , valor que toma el parmetro en la hiptesis nula, los contraste son los mismos
que antes para el nuevo valor 0 con las mismas regiones de rechazo.
2.- CONTRASTE DE RESTRICCIONES LINEALES MLTIPLES UTILIZANDO EL
ESTADSTICO F.
Hasta ahora, slo hemos considerado hiptesis que implican una sola restriccin. Con
frecuencia, deseamos contrastar hiptesis mltiples sobre los parmetros 1 ,..., k .
En las restricciones lineales mltiples podemos distinguir tres tipos: las restricciones
de exclusin, la significatividad del modelo y otras restricciones lineales.
Restricciones de exclusin
8
y = 1 x1 + + k xk +
Supongamos que hay q restricciones de exclusin a contrastar. Entonces, H0 postula
que q variables tienen coeficientes cero. Si se asume que son las ltimas q variables,
la H0 se expresa como:
H 0 : k q 1 = = k = 0
El modelo restringido se obtiene mediante la imposicin de q restricciones de la H0 en
el modelo no restringido:
y = 1 x1 + + k q xk q +
La H1 se expresa como:
H1 : H 0 no es cierta
- El estadstico pivote para este contraste es:
F0 =
( SSRR SSRNR ) / q
SSRNR / (n k 1)
donde:
SSRNR : suma de cuadrados de residuos en el modelo no restringido.
SSRR : suma de cuadrados de residuos en el modelo restringido.
Bajo la hiptesis nula, dicho estadstico sigue una distribucin F-snedecor de q y n-k-1
grados de libertad.
- La hiptesis nula se rechaza cuando:
F0 > F , q , n k 1
siendo
F , q ,n k 1
grados de libertad.
Otra forma ver si rechazamos o no la hiptesis nula es con el p-valor:
Rechazamos Ho si : p-valor <
Calculndose el p-valor en este caso de la forma siguiente:
p-valor =
P ( Fq , n k 1 > F0 )
F0 > F , q , n k 1
como
H 0 : 1 = = k = 0
La H1 se expresa como:
H1 : H 0 no es cierta
- El estadstico pivote para este contraste es:
F0 =
SS R / k
SS E / (n k 1)
donde:
k
S
SS E = S yy
i iy
i =1
S
SS R =
i iy
i =1
Bajo la hiptesis nula, dicho estadstico sigue una distribucin F-snedecor de k y n-k-1
grados de libertad.
- La hiptesis nula se rechaza cuando:
F0 > F , k , n k 1
siendo
F , k ,n k 1
grados de libertad.
Otra forma ver si rechazamos o no la hiptesis nula es con el p-valor:
Rechazamos Ho si : p-valor <
Calculndose el p-valor en este caso de la forma siguiente:
p-valor =
P ( Fk , n k 1 > F0 )
F1, n k 1 tn2 k 1
10
El grfico muestra una posible adecuacin del modelo lineal, no muy buena y la
tendencia creciente del mismo.
La recta de regresin mnima cuadrtica de NIVELTOX sobre ACTRENAL,
representada en la nube de puntos
Y = a0 + a1 X
La podemos estimar utilizando la opcin Analizar/Regresin/Lineales...
proporciona el SPSS, obtenemos los siguientes resultados:
que
En la tabla Resumen del modelo, se muestran los resultados del ajuste del modelo de
regresin. El valor del coeficiente de determinacin, R cuadrado, mide la bondad del
ajuste de la recta de regresin a la nube de puntos, valores pequeos de R
cuadrado indican que el modelo no se ajusta bien a los datos.
12
R cuadrado toma un valor de 0.719 que nos indica que el 71.9% de la variabilidad
de NIVELTOX, es explicada por la relacin lineal con ACTRENAL.
El valor R (0.848) representa el valor absoluto del Coeficiente de Correlacin, es decir
es un valor entre 0 y 1. Valores prximos a 1 indican una fuerte relacin entre las
variables. La ltima columna nos muestra el Error tpico de la estimacin (raz
cuadrada de la varianza residual) con un valor igual a 2,772.
En cuadro siguiente se tiene la tabla ANOVA:
H 0 : a1 = 0
H1 : a1 0
donde H0 se conoce, en general, como hiptesis de no linealidad entre X e Y.
La Tabla ANOVA muestra el valor del estadstico de contraste, F = 45.981, que se
define como el cociente entre el Cuadrado medio debido a la regresin (353.44) y el
Cuadrado medio residual (7.687), por tanto cuanto mayor sea su valor, mejor ser la
prediccin mediante el modelo lineal. El p-valor asociado a F, en la columna Sig, es
cero en su redondeo, menor que el nivel de significacin = 0.05, lo que conduce a
rechazar la hiptesis nula, es decir existe una relacin lineal significativa entre las
variables del problema.
"Esto indica que es vlido el modelo de regresin considerado, en
este caso el modelo lineal simple."
13
H 0 : a0 = 0
H1 : a0 0
H 0 : a1 = 0
H1 : a1 0
seleccionamos Analizar/Estadsticos
siguiente:
descriptivos/Grficos
Q-Q... ,
obtenemos
lo
Esta tabla muestra la mayor diferencia entre los resultados esperados en caso de que
los residuos surgieran de una distribucin normal y los valores observados. Se
distingue entre la mayor diferencia en valor absoluto, la mayor diferencia positiva y la
mayor diferencia negativa. Se muestra el valor del estadstico Z (0.647) y el valor del
15
SPSS proporciona el valor del estadstico de Durbin-Watson pero no muestra el pvalor asociado por lo que hay que utilizar las tablas correspondientes. El estadstico de
Durbin-Watson mide el grado de autocorrelacin entre el residuo correspondiente a
cada observacin y la anterior. Si su valor est prximo a 2, entonces los residuos
16
Z = a0 + a1 X + a2Y
Para ello utilizamos la opcin Analizar/Regresin/Lineales... que proporciona el SPSS,
obtenemos los siguientes resultados:
Podemos observar que en el estudio de Regresin en el SPSS se ha excluido la
variable ACTRENAL, considerando slo para el modelo la variable DOSIS como
variable independiente, tal y como muestran los cuadros siguientes:
17
18
Y = a0 + a1 X 1 + a2 X 2 + a3 X 3 + a4 X 4 + + a5 X 5
Para ello utilizamos la opcin Analizar/Regresin/Lineales... que proporciona el SPSS,
obtenemos los siguientes resultados:
En la tabla Resumen del modelo, se muestran los resultados del ajuste del modelo de
regresin. El valor del coeficiente de determinacin, R cuadrado, mide la bondad del
ajuste de la recta de regresin a la nube de puntos, valores pequeos de R
cuadrado indican que el modelo no se ajusta bien a los datos.
R cuadrado toma un valor de 0.832 que nos indica que las cinco variables
independientes incluidas en el anlisis explican un 83.2% de la varianza de la variable
dependiente. Adems, el error tpico de los residuos es 0.05674
El valor R (0.8912) representa el valor absoluto del Coeficiente de Correlacin, es
decir es un valor entre 0 y 1. Valores prximos a 1 indican una fuerte relacin entre las
variables.
En cuadro siguiente se tiene la tabla ANOVA:
En la tabla obtenida, se observa los p-valores que corresponden a cada variable y que
nos proporcionan informacin de la significatividad de cada variable independiente,
para p-valores mayores de 0.05 se consideraran variables no significativas para el
modelo, existe una variable a la que le sucede este caso, vamos a eliminarla para
quedarnos con un modelo con p-valores menores a 0.05:
a4 = 0.096 , a5 = 0.065 .
Por tanto, la ecuacin de la recta estimada o ajustada es:
20
21
22
SPSS proporciona el valor del estadstico de Durbin-Watson pero no muestra el pvalor asociado por lo que hay que utilizar las tablas correspondientes. El estadstico de
Durbin-Watson mide el grado de autocorrelacin entre el residuo correspondiente a
cada observacin y la anterior. Si su valor est prximo a 2, entonces los residuos
estn incorrelados, si se aproxima a 4, estarn negativamente autocorrelados y si su
valor est cercano a 0 estarn positivamente autocorrelados. En nuestro caso, toma el
valor 2.288 prximo a 2 lo que indica la incorrelacin de los residuos.
23
Y = a0 + a1 X 1 + a2 X 2 + a3 X 3 + a4 X 4 + a5 X 5 + a6 X 6 + a7 X 7
Una vez cargados los datos en el SPSS, para obtener el modelo lineal deseado,
utilizamos la opcin Analizar/Regresin/Lineales..., consiguiendo los siguientes
resultados:
En la tabla Resumen del modelo, se muestran los resultados del ajuste del modelo de
regresin. El valor del coeficiente de determinacin, R cuadrado, mide la bondad del
ajuste de la recta de regresin a la nube de puntos, valores pequeos de R
cuadrado indican que el modelo no se ajusta bien a los datos.
R cuadrado toma un valor de 0.775 que nos indica que las siete variables
independientes incluidas en el anlisis explican un 77.5% de la varianza de la variable
dependiente.
El valor R (0.88) representa el valor absoluto del Coeficiente de Correlacin, es decir
es un valor entre 0 y 1. Valores prximos a 1 indican una fuerte relacin entre las
variables.
En cuadro siguiente se tiene la tabla ANOVA:
En la tabla obtenida, se observa los p-valores que corresponden a cada variable y que
nos proporcionan informacin de la significatividad de cada variable independiente,
para p-valores mayores de 0.05 se consideraran variables no significativas para el
modelo, existen varias variables a las que les sucede este caso, vamos a ir eliminando
una a una (empezando por la de mayor p-valor) hasta quedarnos con un modelo con
p-valores menores a 0.05, obtenemos as un modelo en que las variables
independientes consideradas son X3, X5 y X6:
26
27
SPSS proporciona el valor del estadstico de Durbin-Watson pero no muestra el pvalor asociado por lo que hay que utilizar las tablas correspondientes. El estadstico de
Durbin-Watson mide el grado de autocorrelacin entre el residuo correspondiente a
cada observacin y la anterior. Si su valor est prximo a 2, entonces los residuos
estn incorrelados, si se aproxima a 4, estarn negativamente autocorrelados y si su
valor est cercano a 0 estarn positivamente autocorrelados. En nuestro caso, toma el
valor 1.897 prximo a 2 lo que indica la incorrelacin de los residuos.
28