Actividad4 Sanchez Campoy CM

DISEO ESTADSTICO EXPERIMENTAL Y CONTROL DE CALIDAD.
APLICACIONES EN BIOCIENCIAS E INGENIERA

- MASTER EN ESTADSTICA APLICADA AUTORA: CARMEN MARA SNCHEZ CAMPOY
Actividad 4
Tema4
TRABAJO REALIZADO POR: CARMEN M SNCHEZ CAMPOY
PROFESORES:
RAMN GUTIRREZ SNCHEZ

MARIA DOLORES RUIZ MEDINA
CURSO: DISEO ESTADSTICO EXPERIMENTAL Y CONTROL DE CALIDAD.

APLICACIONES EN BIOCIENCIAS E INGENIERA
- MASTER ESTADSTICA APLICADA 1
DISEO ESTADSTICO EXPERIMENTAL Y CONTROL DE CALIDAD. APLICACIONES EN BIOCIENCIAS E INGENIERA

A1. CUESTIONES TERICAS

Resolver tres actividades tericas.
1.- Verificar, en el modelo de regresin lineal mltiple, que la forma matricial de
las ecuaciones normales es idntica a la forma escalar.
Para el modelo de regresin lineal mltiple:
La forma matricial de las ecuaciones normales viene dada por:

Y = X
Siendo:
y1

Y =
y
n
1 ( x11 x1 ) ( xk1 x k )
X =
1 ( x x ) ( x x )
1
k
1n
kn
'
0

= 1

k
Y la forma escalar de las ecuaciones normales es:

n
'
=
n
yj
0
j =1
S
l =1
il
= Siy
i = 1,...k
Siendo:
n
Srs = ( xrj x r )( xsj x s )

j =1
Siy = y j ( xij xi )
j =1
Para verificar que son idnticas basta multiplicar por la traspuesta de X a ambos lados
de la ecuacin en forma matricial, desarrollar y hacer los productos hasta obtener una
igualdad de matrices de tamao (k+1)x1 donde encontramos las k+1 ecuaciones vistas
en la forma escalar:
- Multiplicamos por la traspuesta de X:

X 'Y = X ' X
1
( x11 x1 )
( xk1 x k )
y1
( x1n x1 ) ( x11 x1 )
=
yn
( xkn x k )
( xk1 x k )
'
0
1 ( x11 x1 ) ( xk1 x k )

( x1n x1 )

1
1 ( x x1 ) ( x x k )
1n
kn

( xkn x k )
k

- Realizamos los productos matriciales:

n

yj
n

j =1

n
n
y j ( x1 j x1 ) ( x1 j x1 )
j =1
= j =1
n
n

y j ( xkj x k ) ( xkj x k )
j =1
j =1
n
Puesto que,
(x
j =1
ij
'
j =1
j =1

0
n
n
2

( x1 j x1 )
( x1 j x1 )( xkj x k )
1
j =1
j =1

n
n
k
2
(
x
x
)(
x
x
)
(
x
x
)
k
k
1
1j
kj
kj
j =1
j =1
( x1 j x1 )
(x
kj
xk )
xi ) = 0 y las definiciones dadas de Srs y de Siy , la igualdad
anterior queda de la forma:
'
yj n 0 0 0
j =1 0 S S
11
1k 1
S1 y =

S 0 S k1 S kk
k
ky
Es decir:
n
'
0
y
k
j
S
j =1
l 1l
S1 y = l =1
S

ky l Skl
l =1
Por la propiedad de igualdad de dos matrices, se cumple la igualdad trmino a trmino,

con lo cual se tendra la forma escalar de las ecuaciones normales:
n
'
=
n
yj
0
j =1
S
l =1
il
= Siy
i = 1,...k

2.- Deducir, en el modelo de regresin lineal mltiple, a partir de la expresin

derivada del estimador mnimo-cuadrtico del vector de parmetros, el vector
media y matriz de covarianza de dicho estimador.
Sabemos que la expresin derivada del estimador mnimo-cuadrtico del vector de
parmetros es:
= ( XX ') 1 X ' y
Haciendo operaciones en dicha expresin:
= ( XX ')1 X ' [ X + ] = ( XX ')1 X ' X + ( XX ')1 X ' = + ( XX ')1 X '

El vector media y la matriz de covarianza de dicho estimador, se calculan como sigue:
VECTOR MEDIA:
. Tomando esperanza y teniendo en cuenta que E [ ] = 0 , se tiene que:
= + ( XX ')1 X ' E [ ] =
E

=
E

MATRIZ DE COVARIANZAS:
La matriz de covarianza se obtiene de la forma siguiente:
)(
'
= E
E

E
= E

Cov
) ( ) =
'
'
'
= E ( + ( XX ') 1 X ' )( + ( XX ') 1 X ' ) = E ( ( XX ') 1 X ' )( ( XX ') 1 X ' ) =
= E ( XX ')1 X ' ' X ( X ' X ) 1 = ( XX ')1 X ' E [ '] X ( X ' X )1 =
= ( XX ') 1 X ' 2 X ( X ' X )1 = 2 ( XX ') 1 X ' X ( X ' X )1 = 2 ( XX ')1

Luego:
= 2 ( XX ')1
Cov

3.- Derivar las identidades dadas sobre la suma de cuadrados de la regresin y

la suma de cuadrados del error para el clculo del estadstico F.
Sabemos que la suma total de los cuadrados S yy , se descompone en la suma de
cuadrados de regresin y la suma de cuadrados del error:
S yy = SS R + SS E
Haciendo operaciones en la frmula de SS E y teniendo en cuenta la igualdad anterior
podemos llegar a las expresiones buscadas:

Aplicando ahora la igualdad: S yy = SS R + SS E , se tiene que:

k
S
SS E = SS R + SS E
iy
i =1
S
SS R =
iy
i =1
Luego:
k
S
SS E = S yy
iy
i =1
S
SS R =
iy
i =1
A2. TRABAJO
Elaborar un resumen sobre los contrastes de significacin en el modelo de
regresin lineal mltiple y sus posibles aplicaciones en el diseo de
experimentos.
Para el planteamiento de contrastes de hiptesis sobre los parmetros del modelo de
regresin mltiple se supondr adicionalmente que la variable respuesta se distribuye
segn una normal. Ms concretamente, las componentes aleatorias de error sern
variables independientes e idnticamente distribuidas, segn una normal con media
cero y varianza 2 . Por tanto, las variables yi para j = 1,..., n se distribuirn segn
una normal con media:
k
0 + i xij
i =1

1.- CONTRASTE DE HIPTESIS UTILIZANDO EL ESTADSTICO t

CONTRASTES DE UN SOLO PARMETRO
El contraste individualmente de cada variable explicativa contribuye significativamente
al ajuste del modelo de regresin. Dentro de ste mbito se puede abordar tambin el
problema de inclusin de nuevas variables explicativas que, en caso de ser necesarias,
aumentarn la suma de cuadrados de la regresin y disminuirn las suma de
cuadrados del error.
Consideremos la hiptesis:
H 0 : i = 0
Puesto que i mide el efecto parcial de xi sobre y, despus de controlar para todas
las otras variables independientes, H 0 significa que, una vez que x1 ,..., xi 1 , xi +1 ,..., xk
han sido tenidos en cuenta, xi no tiene efectos sobre y. Por tal, esta hiptesis nula
pertenece a los denominados contrastes de significatividad.
- El estadstico pivote para este contraste es:
k
t0 =
i
MS E Cii
donde: MS E =
S
S yy
i iy
i =1
n k 1
siendo Cii el elemento i de la diagonal de la matriz ( X ' X )
con
1 ( x11 x1 ) ( xk1 x k )
X =
1 ( x x ) ( x x )
1
k
1n
kn
Bajo la hiptesis nula, dicho estadstico sigue una distribucin t-Student con n-k-1
grados de libertad.
Con respecto a la hiptesis alternativa hay tres posibilidades:
Unilateral de una cola derecha:
H 0 : i = 0 (i 0)
H1 : i > 0
Es un contraste de significacin positiva, la regla de decisin es:
La hiptesis nula se rechaza cuando:
siendo
t , n k 1
t0 t ,n k 1
el percentil 1 de la distribucin t-Student con n-k-1
grados de libertad.
Otra forma ver si rechazamos o no la hiptesis nula es con el p-valor:
Rechazamos Ho si : p-valor <
Calculndose el p-valor en este caso de la forma siguiente:
6

p valor = P ( tn k 1 t0 )
Por lo tanto, rechazamos H0 en favor de H1 cuando
t0 t ,n k 1
como puede
verse en la figura siguiente:
Unilateral de una cola izquierda:
H 0 : i = 0 (i 0)
H1 : i < 0
Es un contraste de significacin negativa, la regla de decisin es:
La hiptesis nula se rechaza cuando
t0 t , n k 1
siendo t ,n k 1 el percentil 1 de la distribucin t-Student con n-k-1 grados

de libertad.
p valor = P ( tn k 1 t0 )
t0 t , n k 1
como puede
verse en la figura siguiente:
Contraste bilateral dos colas:
H 0 : i = 0
H1 : i 0
Esta es la alternativa relevante cuando el signo i no est bien determinado
por la teora o el sentido comn. Cuando la alternativa es de dos colas,
estamos interesados en el valor absoluto del estadstico t. Este contraste es un
contraste de significacin., la regla de decisin es:
7

La hiptesis nula se rechaza cuando
t0 t /2, n k 1
siendo t / 2, n k 1 el percentil 1 / 2 de la distribucin t-Student con n-k-1

grados de libertad.
p valor = 2* Max { P ( tn k 1 t0 ) ,1 P ( tn k 1 t0 )}
t0 t /2, n k 1
como
puede verse en la figura siguiente:
Cuando no se especifica una hiptesis alternativa, por lo general, se considera que el

contraste de hiptesis es de dos colas. Si se rechaza la H0 a favor de H1 para un
dado, se suele decir que xi es estadsticamente significativa para el nivel .
Un caso general en el que el parmetro en la H0 toma un valor especfico cualquiera:
H 0 : i = 0
k
t0 =
i 0
MS E Cii
donde: MS E =
S
S yy
i iy
i =1
n k 1
siendo Cii el elemento i de la diagonal de la matriz ( X ' X )
distanciada
Al igual que antes, t0 mide la cantidad de desviaciones estndar est
i
de 0 , valor que toma el parmetro en la hiptesis nula, los contraste son los mismos
que antes para el nuevo valor 0 con las mismas regiones de rechazo.
2.- CONTRASTE DE RESTRICCIONES LINEALES MLTIPLES UTILIZANDO EL
ESTADSTICO F.
Hasta ahora, slo hemos considerado hiptesis que implican una sola restriccin. Con
frecuencia, deseamos contrastar hiptesis mltiples sobre los parmetros 1 ,..., k .
En las restricciones lineales mltiples podemos distinguir tres tipos: las restricciones
de exclusin, la significatividad del modelo y otras restricciones lineales.
Restricciones de exclusin
8

Para el modelo no restringido siguiente:
y = 1 x1 + + k xk +
Supongamos que hay q restricciones de exclusin a contrastar. Entonces, H0 postula
que q variables tienen coeficientes cero. Si se asume que son las ltimas q variables,
la H0 se expresa como:
H 0 : k q 1 = = k = 0
El modelo restringido se obtiene mediante la imposicin de q restricciones de la H0 en
el modelo no restringido:
y = 1 x1 + + k q xk q +
La H1 se expresa como:
H1 : H 0 no es cierta
F0 =
( SSRR SSRNR ) / q
SSRNR / (n k 1)
donde:
SSRNR : suma de cuadrados de residuos en el modelo no restringido.
SSRR : suma de cuadrados de residuos en el modelo restringido.
Bajo la hiptesis nula, dicho estadstico sigue una distribucin F-snedecor de q y n-k-1
grados de libertad.
- La hiptesis nula se rechaza cuando:
F0 > F , q , n k 1
siendo
F , q ,n k 1
el percentil 1- de la distribucin F-snedecor con q y n-k-1
grados de libertad.
p-valor =
P ( Fq , n k 1 > F0 )
F0 > F , q , n k 1
como
puede verse en la figura siguiente:

Significacin global del modelo

Contrastar la significacin del modelo, o significacin global del modelo, es un caso
particular de los contrastes de restricciones de exclusin. Se podra pensar que este
contraste la H0 debera ser la siguiente:
H 0 : 1 = = k = 0
La H1 se expresa como:
H1 : H 0 no es cierta
F0 =
SS R / k
SS E / (n k 1)
donde:
k
S
SS E = S yy
i iy
i =1
S
SS R =
i iy
i =1
Bajo la hiptesis nula, dicho estadstico sigue una distribucin F-snedecor de k y n-k-1
grados de libertad.
- La hiptesis nula se rechaza cuando:
F0 > F , k , n k 1
siendo
F , k ,n k 1
el percentil 1- de la distribucin F-snedecor con k y n-k-1
grados de libertad.
p-valor =
P ( Fk , n k 1 > F0 )
Significacin global del modelo

Podemos obtener el caso en el que un contraste con t y otro con F sean el mismo. El
estadstico F puede utilizarse para contrastar una sola restriccin, en este caso,
podemos elegir entre el estadstico F o el estadstico t para hacer un contraste de dos
colas. Las conclusiones sern exactamente las mismas.
La relacin entre una F con grados de libertad 1 y n-k-1 y una t es:
F1, n k 1 tn2 k 1
3.- APLICACIONES EN EL DISEO DE EXPERIMENTOS.
Los modelos de diseo de experimentos son modelos estadsticos clsicos cuyo

objetivo es averiguar si unos determinados factores influyen en una variable de inters
y, si existe influencia de algn factor, cuantificar dicha influencia.
Unos ejemplos donde habra que utilizar estos modelos son los siguientes:
10

En el rendimiento de un determinado tipo de mquina (unidades producidas

por da): se desea estudiar la influencia del trabajador que la maneja y la marca
de la mquina.
Se quiere estudiar la influencia de un tipo de pila elctrica y de la marca, en la
duracin de las pilas.
Una compaa de software est interesada en estudiar la variable porcentaje
en que se comprime un fichero, al utilizar un programa de compresin teniendo
en cuenta el tipo de programa utilizado y el tipo de fichero que se comprime.
Tomando como referencia esta definicin, podemos hacernos una idea del alcance
que para el diseo de experimentos tiene los contraste de hiptesis para estudiar la
significatividad o no del modelo o de una variable o variables en particular, sin esta
herramienta no podra afirmar que un modelo de regresin lineal sea vlido para la
variable dependiente elegida.
A3. ANLISIS DE DATOS

Para realizar los ejercicios voy a utilizar el software SPSS, los ejercicios 2 y 3
son los mismos que en la actividad 3 y se encuentran hechos en dicha actividad.
Llamamos a las variables DOSIS y ACTVRENAL (Variables Independientes) y

NIVELTOX (Variable Dependiente) que vienen recogidas en archivo ejercicio1.sav de
la carpeta de datos.
El contraste de la significacin de la dosis de paracetamol administrada en el nivel de
toxicidad heptica fue objeto de estudio en la actividad 3, como continuacin del
11

ejercicio anterior vamos a ampliar el estudio mediante el contraste de la influencia de

la actividad renal, as como un estudio de regresin mltiple con las dos variables
independientes definidas.
Presentamos el diagrama de dispersin entre las variables ACTVRENAL y NIVELTOX,
y la representacin de la recta de regresin aproximada.
Los diagramas de dispersin ofrecen una idea bastante aproximada sobre el tipo de
relacin existente entre dos variables, adems, tambin puede utilizarse como una
forma de cuantificar el grado de relacin lineal existente entre dos variables, basta con
observar el grado en el que la nube de puntos se ajusta a una lnea recta.
El grfico muestra una posible adecuacin del modelo lineal, no muy buena y la
tendencia creciente del mismo.
La recta de regresin mnima cuadrtica de NIVELTOX sobre ACTRENAL,
representada en la nube de puntos
Y = a0 + a1 X
La podemos estimar utilizando la opcin Analizar/Regresin/Lineales...
proporciona el SPSS, obtenemos los siguientes resultados:
que
En la tabla Resumen del modelo, se muestran los resultados del ajuste del modelo de
regresin. El valor del coeficiente de determinacin, R cuadrado, mide la bondad del
ajuste de la recta de regresin a la nube de puntos, valores pequeos de R
cuadrado indican que el modelo no se ajusta bien a los datos.
12

R cuadrado toma un valor de 0.719 que nos indica que el 71.9% de la variabilidad
de NIVELTOX, es explicada por la relacin lineal con ACTRENAL.
El valor R (0.848) representa el valor absoluto del Coeficiente de Correlacin, es decir
es un valor entre 0 y 1. Valores prximos a 1 indican una fuerte relacin entre las
variables. La ltima columna nos muestra el Error tpico de la estimacin (raz
cuadrada de la varianza residual) con un valor igual a 2,772.
En cuadro siguiente se tiene la tabla ANOVA:
En la Tabla ANOVA, se muestra la descomposicin de la Variabilidad Total (491,8) en

la Variabilidad debida a la Regresin (353,44) y la Variabilidad Residual (138,36), es
decir, en Variabilidad explicada por el modelo de regresin y la Variabilidad no
explicada. La Tabla de Anlisis de la Varianza (Tabla ANOVA) se construye a partir de
esta descomposicin y proporciona el valor del estadstico F que permite contrastar la
hiptesis nula de que la pendiente de la recta de regresin es igual a cero contra la
alternativa de que la pendiente es distinta de cero, es decir:
H 0 : a1 = 0
H1 : a1 0
donde H0 se conoce, en general, como hiptesis de no linealidad entre X e Y.
La Tabla ANOVA muestra el valor del estadstico de contraste, F = 45.981, que se
define como el cociente entre el Cuadrado medio debido a la regresin (353.44) y el
Cuadrado medio residual (7.687), por tanto cuanto mayor sea su valor, mejor ser la
prediccin mediante el modelo lineal. El p-valor asociado a F, en la columna Sig, es
cero en su redondeo, menor que el nivel de significacin = 0.05, lo que conduce a
rechazar la hiptesis nula, es decir existe una relacin lineal significativa entre las
variables del problema.
"Esto indica que es vlido el modelo de regresin considerado, en
este caso el modelo lineal simple."
La siguiente tabla muestra las estimaciones de los parmetros del modelo de

regresin lineal simple:
13

El modelo presenta los siguientes parmetros: como ordenada en el origen, a0 = 6.7 y

la pendiente a1 = 15.04 .
Por tanto, la ecuacin de la recta estimada o ajustada es: y = 6.7 + 15.04 x . As mismo,
en esta tabla se presentan los resultados de los dos contrastes individuales de la
significacin de cada uno de estos parmetros:
H 0 : a0 = 0
H1 : a0 0
H 0 : a1 = 0
H1 : a1 0
El primero de estos contrastes carece de inters en la mayora de los casos ya que

raramente el punto de corte de la recta de regresin con el eje de ordenadas
(ordenada en el origen) ser el punto (0,0). Adems dicho punto de corte carece de
significado casi siempre.
El segundo contraste, el contraste de la pendiente de la recta, es una alternativa
equivalente al contraste que acabamos de comentar en la Tabla ANOVA. El
estadstico de contraste que aparece en la columna t vale 6.781 tiene un p-valor
asociado, columna Sig, menor que 0.001, menor que el nivel de significacin = 0.05
que conduce al rechazo de la hiptesis nula y podemos afirmar que existe una relacin
lineal significativa entre Y y X.
En la ltima columna de la tabla se muestran los intervalos de confianza para a0 y a1 ,
al 95%. El intervalo para a0 es (3.51, 9.89), puesto que el cero no pertenece al
intervalo, se rechaza la hiptesis nula.
VALIDACIN Y DIAGNOSIS DEL MODELO
En este apartado vamos a comprobar que se verifican los supuestos del modelo de
regresin lineal (normalidad, homocedasticidad (igualdad de varianzas) y linealidad)
estos supuestos resultan necesarios para validar la inferencia respecto a los
parmetros. Utilizaremos el anlisis de los residuos para realizar los contrastes a
posteriori de dichas hiptesis del modelo.
Normalidad
Podemos comprobarla de forma grfica o analticamente, grficamente podemos
estudiar el grfico probabilstico normal, Para obtener dicho grfico
14

seleccionamos Analizar/Estadsticos
siguiente:
descriptivos/Grficos
Q-Q... ,
obtenemos
lo
El Grfico representa las funciones de distribucin terica y emprica de los residuos

tipificados. Desviaciones de los puntos del grfico respecto de la diagonal indican
alteraciones de la normalidad. Observamos la ubicacin de los puntos del grfico,
estos puntos se aproximan razonablemente bien a la diagonal lo que confirma la
hiptesis de normalidad. Lo conformamos de forma analstica mediante el contraste de
Kolmogorov-Smirnov:
Esta tabla muestra la mayor diferencia entre los resultados esperados en caso de que
los residuos surgieran de una distribucin normal y los valores observados. Se
distingue entre la mayor diferencia en valor absoluto, la mayor diferencia positiva y la
mayor diferencia negativa. Se muestra el valor del estadstico Z (0.647) y el valor del
15

p-valor asociado (0.797). Por lo tanto no se puede rechazar la hiptesis de normalidad

de los residuos.
Homocedasticidad
Comprobamos la hiptesis de homogeneidad de las varianzas grficamente
representando los residuos tipificados frente a los tiempos de incubacin estimados
tipificados. El anlisis de este grfico puede revelar una posible violacin de la
hiptesis de homocedasticidad, si observamos que el grfico muestra forma de
embudo... Si por el contario dicho grfico no muestra patrn alguno, entonces no
podemos rechazar la hiptesis de igualdad de varianzas.
No apreciamos tendencia clara en este grfico, los residuos no presentan estructura

definida respecto de los valores predichos por el modelo por lo que no debemos
rechazar la hiptesis de homocedasticidad.
Independencia de los residuos
La hiptesis de independencia de los residuos la realizaremos mediante el contraste
de Durbin-Watson. Para ello se selecciona Analizar/Regresin/Lineal...
SPSS proporciona el valor del estadstico de Durbin-Watson pero no muestra el pvalor asociado por lo que hay que utilizar las tablas correspondientes. El estadstico de
Durbin-Watson mide el grado de autocorrelacin entre el residuo correspondiente a
cada observacin y la anterior. Si su valor est prximo a 2, entonces los residuos
16

estn incorrelados, si se aproxima a 4, estarn negativamente autocorrelados y si su

valor est cercano a 0 estarn positivamente autocorrelados. En nuestro caso, toma el
valor 2.399 prximo a 2 lo que indica la incorrelacin de los residuos.
REGRESIN LINEAL MLTIPLE
El anlisis de regresin mltiple, la ecuacin de regresin ya no define una recta en el
plano, sino un hiperplano en un espacio multidimensional, si realizamos el diagrama
de dispersin se obtiene:
Para obtener el plano de regresin mnima cuadrtica de Z sobre X e Y, representada

en la nube de puntos,
Z = a0 + a1 X + a2Y
Para ello utilizamos la opcin Analizar/Regresin/Lineales... que proporciona el SPSS,
obtenemos los siguientes resultados:
Podemos observar que en el estudio de Regresin en el SPSS se ha excluido la
variable ACTRENAL, considerando slo para el modelo la variable DOSIS como
variable independiente, tal y como muestran los cuadros siguientes:
El cuadro de coeficientes queda de la forma:
17

18


En el anlisis de regresin mltiple, la ecuacin de regresin ya no define una recta en
el plano, sino un hiperplano en un espacio multidimensional.
Para obtener el plano de regresin mnima cuadrtica de Y (variable dependiente)
sobre X1, X2, X3, X4, X5 (variables independientes)
Y = a0 + a1 X 1 + a2 X 2 + a3 X 3 + a4 X 4 + + a5 X 5
Para ello utilizamos la opcin Analizar/Regresin/Lineales... que proporciona el SPSS,
obtenemos los siguientes resultados:
R cuadrado toma un valor de 0.832 que nos indica que las cinco variables
independientes incluidas en el anlisis explican un 83.2% de la varianza de la variable
dependiente. Adems, el error tpico de los residuos es 0.05674
El valor R (0.8912) representa el valor absoluto del Coeficiente de Correlacin, es
decir es un valor entre 0 y 1. Valores prximos a 1 indican una fuerte relacin entre las
variables.
En la Tabla ANOVA, se muestra la descomposicin de la Variabilidad Total (0.345) en

la Variabilidad debida a la Regresin (0.287) y la Variabilidad Residual (0.058), es
decir, en Variabilidad explicada por el modelo de regresin y la Variabilidad no
explicada.
El estadstico F contrasta la hiptesis nula de que el valor poblacional de R es cero y,
por tanto, nos permite decidir si existe relacin lineal significativa entre la variable dependiente y el conjunto de variables independientes tomadas juntas. El valor del nivel
crtico Sig. = 0,000 indica que s existe relacin lineal significativa. Podemos afirmar,
por tanto, que el hiperplano definido por la ecuacin de regresin ofrece un buen
ajuste a la nube de puntos.
19


este caso el modelo lineal mltiple."
regresin lineal mltiple:
En la tabla obtenida, se observa los p-valores que corresponden a cada variable y que
nos proporcionan informacin de la significatividad de cada variable independiente,
para p-valores mayores de 0.05 se consideraran variables no significativas para el
modelo, existe una variable a la que le sucede este caso, vamos a eliminarla para
quedarnos con un modelo con p-valores menores a 0.05:
El modelo presenta los siguientes parmetros: a0 = 0.498 , , a2 = 0.032 , a3 = 0.005 ,
a4 = 0.096 , a5 = 0.065 .
Por tanto, la ecuacin de la recta estimada o ajustada es:
y = 0.498 + 0.032 x2 0.005 x3 0.096 x4 0.065 x5

La interpretacin de estos coeficientes, por ejemplo, el correspondiente a la variable X2,
que vale 0.032, indica que, si el resto de variables se mantienen constantes, a un
aumento de una unidad en X2, le corresponde, en promedio, un aumento de 0.032 en
el valor de Y. Estos coeficientes reciben el nombre de coeficientes de regresin parcial
20

Los Coeficientes de regresin estandarizados (Beta) estn basados en las

puntuaciones tpicas y, por tanto, son directamente comparables entre s. Indican la
cantidad de cambio, en puntuaciones tpicas, que se producir en la variable
dependiente por cada cambio de una unidad en la correspondiente variable independiente (manteniendo constantes el resto de variables independientes).
Estos coeficientes proporcionan una pista muy til sobre la importancia relativa de
cada variable independiente en la ecuacin de regresin. En general, una variable
tiene tanto ms peso (importancia) en la ecuacin de regresin cuanto mayor (en valor
absoluto) es su coeficiente de regresin estandarizado.
Observando los coeficientes Beta vemos que la variable X2, es la ms importante,
seguida de X3. Las pruebas t y sus niveles crticos recogidos en el cuadro de
coeficientes, t y Sig., sirven para contrastar la hiptesis nula de que un coeficiente de
regresin vale cero en la poblacin. Niveles crticos (Sig.) muy pequeos
(generalmente menores que 0,05) indican que debemos rechazar esa hiptesis nula.
regresin lineal (normalidad, homocedasticidad (igualdad de varianzas), linealidad,
independencia y no co-linealidad) estos supuestos resultan necesarios para validar la
inferencia respecto a los parmetros. Utilizaremos el anlisis de los residuos para
realizar los contrastes a posteriori de dichas hiptesis del modelo.
Normalidad
estudiar el grfico probabilstico normal, Para obtener dicho grfico
seleccionamos Analizar/Estadsticos descriptivos/Grficos Q-Q... , obtenemos lo
siguiente:
21


hiptesis de normalidad. Lo confirmamos de forma analstica mediante el contraste de
Kolmogorov-Smirnov:
Al salir un p-valor 0.963, mayor de 0.05, podemos aceptar la hiptesis de normalidad

de los residuos.
Homocedasticidad
22



Los datos de este ejercicio vienen recogidos en el archivo ejercicio5.sav del fichero zip
enviado.
23

En el anlisis de regresin mltiple, la ecuacin de regresin define un hiperplano en

un espacio multidimensional.
Para obtener el plano de regresin mnima cuadrtica de Y (variable dependiente)
sobre X1, X2, X3, X4, X5, X6, X7 (variables independientes)
Y = a0 + a1 X 1 + a2 X 2 + a3 X 3 + a4 X 4 + a5 X 5 + a6 X 6 + a7 X 7
Una vez cargados los datos en el SPSS, para obtener el modelo lineal deseado,
utilizamos la opcin Analizar/Regresin/Lineales..., consiguiendo los siguientes
resultados:
R cuadrado toma un valor de 0.775 que nos indica que las siete variables
independientes incluidas en el anlisis explican un 77.5% de la varianza de la variable
dependiente.
El valor R (0.88) representa el valor absoluto del Coeficiente de Correlacin, es decir
es un valor entre 0 y 1. Valores prximos a 1 indican una fuerte relacin entre las
variables.
En la Tabla ANOVA, se muestra la descomposicin de la Variabilidad Total (7999) en

la Variabilidad debida a la Regresin (6198,766) y la Variabilidad Residual (1800.234),
es decir, en Variabilidad explicada por el modelo de regresin y la Variabilidad no
explicada.
El estadstico F contrasta la hiptesis nula de que el valor poblacional de R es cero y,
por tanto, nos permite decidir si existe relacin lineal significativa entre la variable dependiente y el conjunto de variables independientes tomadas juntas. El valor del nivel
crtico Sig. = 0,000 indica que s existe relacin lineal significativa. Podemos afirmar,
por tanto, que el hiperplano definido por la ecuacin de regresin ofrece un buen
ajuste a la nube de puntos.
24


este caso el modelo lineal mltiple."
regresin lineal mltiple:
En la tabla obtenida, se observa los p-valores que corresponden a cada variable y que
nos proporcionan informacin de la significatividad de cada variable independiente,
para p-valores mayores de 0.05 se consideraran variables no significativas para el
modelo, existen varias variables a las que les sucede este caso, vamos a ir eliminando
una a una (empezando por la de mayor p-valor) hasta quedarnos con un modelo con
p-valores menores a 0.05, obtenemos as un modelo en que las variables
independientes consideradas son X3, X5 y X6:
El modelo presenta los siguientes parmetros: a3 = 3.376 , a5 = 7.621 y a6 = 1.406 .

Por tanto, la ecuacin de la recta estimada o ajustada es:
y = 6.52 + 3.376 x3 + 7.621x5 + 1.406 x6

La interpretacin de estos coeficientes, por ejemplo, el correspondiente a la variable X3,
que vale 3.376, indica que, si el resto de variables se mantienen constantes, a un
aumento de una unidad en X3, le corresponde, en promedio, un aumento de 3.376 en
el valor de Y. Estos coeficientes reciben el nombre de coeficientes de regresin parcial.
Los Coeficientes de regresin estandarizados (Beta) estn basados en las
puntuaciones tpicas y, por tanto, son directamente comparables entre s. Indican la
25

cantidad de cambio, en puntuaciones tpicas, que se producir en la variable

dependiente por cada cambio de una unidad en la correspondiente variable independiente (manteniendo constantes el resto de variables independientes).
Estos coeficientes proporcionan una pista muy til sobre la importancia relativa de
cada variable independiente en la ecuacin de regresin. En general, una variable
tiene tanto ms peso (importancia) en la ecuacin de regresin cuanto mayor (en valor
absoluto) es su coeficiente de regresin estandarizado.
Observando los coeficientes Beta vemos que la variable X5, es la ms importante,
seguida de X3.
La tabla, tambin nos proporciona los intervalos de confianza al 95% de dichos
coeficientes, es decir, sus valores extremos con una probabilidad de 0,95.
regresin lineal (normalidad, homocedasticidad (igualdad de varianzas), linealidad,
independencia y no co-linealidad) estos supuestos resultan necesarios para validar la
inferencia respecto a los parmetros. Utilizaremos el anlisis de los residuos para
realizar los contrastes a posteriori de dichas hiptesis del modelo.
Normalidad
estudiar el grfico probabilstico normal, para obtener dicho grfico
seleccionamos Analizar/Estadsticos descriptivos/Grficos Q-Q... , obtenemos lo
siguiente:
26


hiptesis de normalidad. Lo confirmamos de forma analstica mediante el contraste de
Kolmogorov-Smirnov:
Al salir un p-valor 0.56, mayor de 0.05, podemos aceptar la hiptesis de normalidad de

los residuos.
Homocedasticidad
27


28

Actividad4 Sanchez Campoy CM

Uploaded by

Document Information

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

Actividad4 Sanchez Campoy CM

Uploaded by

Copyright:

Available Formats

DISEO ESTADSTICO EXPERIMENTAL Y CONTROL DE CALIDAD.

APLICACIONES EN BIOCIENCIAS E INGENIERA

TRABAJO REALIZADO POR: CARMEN M SNCHEZ CAMPOY

RAMN GUTIRREZ SNCHEZ

CURSO: DISEO ESTADSTICO EXPERIMENTAL Y CONTROL DE CALIDAD.

- MASTER ESTADSTICA APLICADA 1

DISEO ESTADSTICO EXPERIMENTAL Y CONTROL DE CALIDAD. APLICACIONES EN BIOCIENCIAS E INGENIERA

A1. CUESTIONES TERICAS

Y la forma escalar de las ecuaciones normales es:

Srs = ( xrj x r )( xsj x s )

DISEO ESTADSTICO EXPERIMENTAL Y CONTROL DE CALIDAD. APLICACIONES EN BIOCIENCIAS E INGENIERA

- Realizamos los productos matriciales:

xi ) = 0 y las definiciones dadas de Srs y de Siy , la igualdad

anterior queda de la forma:

Por la propiedad de igualdad de dos matrices, se cumple la igualdad trmino a trmino,

DISEO ESTADSTICO EXPERIMENTAL Y CONTROL DE CALIDAD. APLICACIONES EN BIOCIENCIAS E INGENIERA

2.- Deducir, en el modelo de regresin lineal mltiple, a partir de la expresin

= ( XX ')1 X ' [ X + ] = ( XX ')1 X ' X + ( XX ')1 X ' = + ( XX ')1 X '

. Tomando esperanza y teniendo en cuenta que E [ ] = 0 , se tiene que:

= E ( XX ')1 X ' ' X ( X ' X ) 1 = ( XX ')1 X ' E [ '] X ( X ' X )1 =

= ( XX ') 1 X ' 2 X ( X ' X )1 = 2 ( XX ') 1 X ' X ( X ' X )1 = 2 ( XX ')1

3.- Derivar las identidades dadas sobre la suma de cuadrados de la regresin y

DISEO ESTADSTICO EXPERIMENTAL Y CONTROL DE CALIDAD. APLICACIONES EN BIOCIENCIAS E INGENIERA

Aplicando ahora la igualdad: S yy = SS R + SS E , se tiene que:

DISEO ESTADSTICO EXPERIMENTAL Y CONTROL DE CALIDAD. APLICACIONES EN BIOCIENCIAS E INGENIERA

1.- CONTRASTE DE HIPTESIS UTILIZANDO EL ESTADSTICO t

siendo Cii el elemento i de la diagonal de la matriz ( X ' X )

el percentil 1 de la distribucin t-Student con n-k-1

DISEO ESTADSTICO EXPERIMENTAL Y CONTROL DE CALIDAD. APLICACIONES EN BIOCIENCIAS E INGENIERA

verse en la figura siguiente:

Unilateral de una cola izquierda:

siendo t ,n k 1 el percentil 1 de la distribucin t-Student con n-k-1 grados

Por lo tanto, rechazamos H0 en favor de H1 cuando

verse en la figura siguiente:

Contraste bilateral dos colas:

DISEO ESTADSTICO EXPERIMENTAL Y CONTROL DE CALIDAD. APLICACIONES EN BIOCIENCIAS E INGENIERA

La hiptesis nula se rechaza cuando

siendo t / 2, n k 1 el percentil 1 / 2 de la distribucin t-Student con n-k-1

Por lo tanto, rechazamos H0 en favor de H1 cuando

puede verse en la figura siguiente:

Cuando no se especifica una hiptesis alternativa, por lo general, se considera que el

siendo Cii el elemento i de la diagonal de la matriz ( X ' X )

DISEO ESTADSTICO EXPERIMENTAL Y CONTROL DE CALIDAD. APLICACIONES EN BIOCIENCIAS E INGENIERA

Para el modelo no restringido siguiente:

el percentil 1- de la distribucin F-snedecor con q y n-k-1

Por lo tanto, rechazamos H0 en favor de H1 cuando

puede verse en la figura siguiente:

DISEO ESTADSTICO EXPERIMENTAL Y CONTROL DE CALIDAD. APLICACIONES EN BIOCIENCIAS E INGENIERA

Significacin global del modelo

el percentil 1- de la distribucin F-snedecor con k y n-k-1

Significacin global del modelo

3.- APLICACIONES EN EL DISEO DE EXPERIMENTOS.

Los modelos de diseo de experimentos son modelos estadsticos clsicos cuyo

DISEO ESTADSTICO EXPERIMENTAL Y CONTROL DE CALIDAD. APLICACIONES EN BIOCIENCIAS E INGENIERA

En el rendimiento de un determinado tipo de mquina (unidades producidas

A3. ANLISIS DE DATOS

Llamamos a las variables DOSIS y ACTVRENAL (Variables Independientes) y

DISEO ESTADSTICO EXPERIMENTAL Y CONTROL DE CALIDAD. APLICACIONES EN BIOCIENCIAS E INGENIERA

ejercicio anterior vamos a ampliar el estudio mediante el contraste de la influencia de

DISEO ESTADSTICO EXPERIMENTAL Y CONTROL DE CALIDAD. APLICACIONES EN BIOCIENCIAS E INGENIERA

En la Tabla ANOVA, se muestra la descomposicin de la Variabilidad Total (491,8) en

La siguiente tabla muestra las estimaciones de los parmetros del modelo de

DISEO ESTADSTICO EXPERIMENTAL Y CONTROL DE CALIDAD. APLICACIONES EN BIOCIENCIAS E INGENIERA

El modelo presenta los siguientes parmetros: como ordenada en el origen, a0 = 6.7 y