You are on page 1of 28

DISEO ESTADSTICO EXPERIMENTAL Y CONTROL DE CALIDAD.

APLICACIONES EN BIOCIENCIAS E INGENIERA


- MASTER EN ESTADSTICA APLICADA AUTORA: CARMEN MARA SNCHEZ CAMPOY

Actividad 4
Tema4

TRABAJO REALIZADO POR: CARMEN M SNCHEZ CAMPOY

PROFESORES:

RAMN GUTIRREZ SNCHEZ


MARIA DOLORES RUIZ MEDINA

CURSO: DISEO ESTADSTICO EXPERIMENTAL Y CONTROL DE CALIDAD.


APLICACIONES EN BIOCIENCIAS E INGENIERA

- MASTER ESTADSTICA APLICADA 1

DISEO ESTADSTICO EXPERIMENTAL Y CONTROL DE CALIDAD. APLICACIONES EN BIOCIENCIAS E INGENIERA


- MASTER EN ESTADSTICA APLICADA AUTORA: CARMEN MARA SNCHEZ CAMPOY

A1. CUESTIONES TERICAS


Resolver tres actividades tericas.
1.- Verificar, en el modelo de regresin lineal mltiple, que la forma matricial de
las ecuaciones normales es idntica a la forma escalar.
Para el modelo de regresin lineal mltiple:
La forma matricial de las ecuaciones normales viene dada por:


Y = X

Siendo:

y1

Y =
y
n

1 ( x11 x1 ) ( xk1 x k )

X =

1 ( x x ) ( x x )
1
k
1n
kn

'
0

 = 1


k

Y la forma escalar de las ecuaciones normales es:


n

'

 =
n
yj
0
j =1

 S
l =1

il

= Siy

i = 1,...k

Siendo:
n

Srs = ( xrj x r )( xsj x s )


j =1

Siy = y j ( xij xi )
j =1

Para verificar que son idnticas basta multiplicar por la traspuesta de X a ambos lados
de la ecuacin en forma matricial, desarrollar y hacer los productos hasta obtener una
igualdad de matrices de tamao (k+1)x1 donde encontramos las k+1 ecuaciones vistas
en la forma escalar:
- Multiplicamos por la traspuesta de X:


X 'Y = X ' X
1

( x11 x1 )

( xk1 x k )

y1
( x1n x1 ) ( x11 x1 )
=

yn

( xkn x k )
( xk1 x k )

'

0
1 ( x11 x1 ) ( xk1 x k )

( x1n x1 )

1

1 ( x x1 ) ( x x k )
1n
kn


( xkn x k )
k

DISEO ESTADSTICO EXPERIMENTAL Y CONTROL DE CALIDAD. APLICACIONES EN BIOCIENCIAS E INGENIERA


- MASTER EN ESTADSTICA APLICADA AUTORA: CARMEN MARA SNCHEZ CAMPOY

- Realizamos los productos matriciales:


n


yj
n


j =1


n
n
y j ( x1 j x1 ) ( x1 j x1 )
j =1
= j =1

n
n


y j ( xkj x k ) ( xkj x k )
j =1
j =1
n

Puesto que,

(x
j =1

ij

'
j =1
j =1


0
n
n

2

( x1 j x1 )
( x1 j x1 )( xkj x k )

1
j =1
j =1


n
n
k

2
(
x
x
)(
x
x
)

(
x
x
)

k
k
1

1j
kj
kj

j =1
j =1

( x1 j x1 )

(x

kj

xk )

xi ) = 0 y las definiciones dadas de Srs y de Siy , la igualdad

anterior queda de la forma:

'
yj n 0 0 0
j =1 0 S S 
11
1k 1
S1 y =



S 0 S k1 S kk
k
ky
Es decir:

n
'
0

y
k
j
 S
j =1
l 1l
S1 y = l =1

S

ky l Skl
l =1

Por la propiedad de igualdad de dos matrices, se cumple la igualdad trmino a trmino,


con lo cual se tendra la forma escalar de las ecuaciones normales:
n

'

 =
n
yj
0
j =1

 S
l =1

il

= Siy

i = 1,...k

DISEO ESTADSTICO EXPERIMENTAL Y CONTROL DE CALIDAD. APLICACIONES EN BIOCIENCIAS E INGENIERA


- MASTER EN ESTADSTICA APLICADA AUTORA: CARMEN MARA SNCHEZ CAMPOY

2.- Deducir, en el modelo de regresin lineal mltiple, a partir de la expresin


derivada del estimador mnimo-cuadrtico del vector de parmetros, el vector
media y matriz de covarianza de dicho estimador.
Sabemos que la expresin derivada del estimador mnimo-cuadrtico del vector de
parmetros es:

 = ( XX ') 1 X ' y
Haciendo operaciones en dicha expresin:

 = ( XX ')1 X ' [ X + ] = ( XX ')1 X ' X + ( XX ')1 X ' = + ( XX ')1 X '


El vector media y la matriz de covarianza de dicho estimador, se calculan como sigue:
VECTOR MEDIA:

. Tomando esperanza y teniendo en cuenta que E [ ] = 0 , se tiene que:

 = + ( XX ')1 X ' E [ ] =
E

 =
E

MATRIZ DE COVARIANZAS:
La matriz de covarianza se obtiene de la forma siguiente:

)(

'
 = E
 E

 E
 = E

Cov

) (  ) =
'

'
'
= E ( + ( XX ') 1 X ' )( + ( XX ') 1 X ' ) = E ( ( XX ') 1 X ' )( ( XX ') 1 X ' ) =

= E ( XX ')1 X ' ' X ( X ' X ) 1 = ( XX ')1 X ' E [ '] X ( X ' X )1 =

= ( XX ') 1 X ' 2 X ( X ' X )1 = 2 ( XX ') 1 X ' X ( X ' X )1 = 2 ( XX ')1


Luego:

 = 2 ( XX ')1
Cov

3.- Derivar las identidades dadas sobre la suma de cuadrados de la regresin y


la suma de cuadrados del error para el clculo del estadstico F.
Sabemos que la suma total de los cuadrados S yy , se descompone en la suma de
cuadrados de regresin y la suma de cuadrados del error:

S yy = SS R + SS E
Haciendo operaciones en la frmula de SS E y teniendo en cuenta la igualdad anterior
podemos llegar a las expresiones buscadas:

DISEO ESTADSTICO EXPERIMENTAL Y CONTROL DE CALIDAD. APLICACIONES EN BIOCIENCIAS E INGENIERA


- MASTER EN ESTADSTICA APLICADA AUTORA: CARMEN MARA SNCHEZ CAMPOY

Aplicando ahora la igualdad: S yy = SS R + SS E , se tiene que:


k

S
SS E = SS R + SS E
iy

i =1

S
SS R =
iy
i =1

Luego:
k

S
SS E = S yy
iy
i =1

S
SS R =
iy
i =1

A2. TRABAJO
Elaborar un resumen sobre los contrastes de significacin en el modelo de
regresin lineal mltiple y sus posibles aplicaciones en el diseo de
experimentos.
Para el planteamiento de contrastes de hiptesis sobre los parmetros del modelo de
regresin mltiple se supondr adicionalmente que la variable respuesta se distribuye
segn una normal. Ms concretamente, las componentes aleatorias de error sern
variables independientes e idnticamente distribuidas, segn una normal con media
cero y varianza 2 . Por tanto, las variables yi para j = 1,..., n se distribuirn segn
una normal con media:
k

0 + i xij
i =1

DISEO ESTADSTICO EXPERIMENTAL Y CONTROL DE CALIDAD. APLICACIONES EN BIOCIENCIAS E INGENIERA


- MASTER EN ESTADSTICA APLICADA AUTORA: CARMEN MARA SNCHEZ CAMPOY

1.- CONTRASTE DE HIPTESIS UTILIZANDO EL ESTADSTICO t


CONTRASTES DE UN SOLO PARMETRO
El contraste individualmente de cada variable explicativa contribuye significativamente
al ajuste del modelo de regresin. Dentro de ste mbito se puede abordar tambin el
problema de inclusin de nuevas variables explicativas que, en caso de ser necesarias,
aumentarn la suma de cuadrados de la regresin y disminuirn las suma de
cuadrados del error.
Consideremos la hiptesis:

H 0 : i = 0
Puesto que i mide el efecto parcial de xi sobre y, despus de controlar para todas
las otras variables independientes, H 0 significa que, una vez que x1 ,..., xi 1 , xi +1 ,..., xk
han sido tenidos en cuenta, xi no tiene efectos sobre y. Por tal, esta hiptesis nula
pertenece a los denominados contrastes de significatividad.
- El estadstico pivote para este contraste es:
k

t0 =

 i
MS E Cii

donde: MS E =

S
S yy
i iy
i =1

n k 1

siendo Cii el elemento i de la diagonal de la matriz ( X ' X )

con

1 ( x11 x1 ) ( xk1 x k )

X =

1 ( x x ) ( x x )
1
k
1n
kn

Bajo la hiptesis nula, dicho estadstico sigue una distribucin t-Student con n-k-1
grados de libertad.
Con respecto a la hiptesis alternativa hay tres posibilidades:
Unilateral de una cola derecha:

H 0 : i = 0 (i 0)

H1 : i > 0
Es un contraste de significacin positiva, la regla de decisin es:
La hiptesis nula se rechaza cuando:
siendo

t , n k 1

t0 t ,n k 1

el percentil 1 de la distribucin t-Student con n-k-1

grados de libertad.
Otra forma ver si rechazamos o no la hiptesis nula es con el p-valor:
Rechazamos Ho si : p-valor <
Calculndose el p-valor en este caso de la forma siguiente:
6

DISEO ESTADSTICO EXPERIMENTAL Y CONTROL DE CALIDAD. APLICACIONES EN BIOCIENCIAS E INGENIERA


- MASTER EN ESTADSTICA APLICADA AUTORA: CARMEN MARA SNCHEZ CAMPOY

p valor = P ( tn k 1 t0 )
Por lo tanto, rechazamos H0 en favor de H1 cuando

t0 t ,n k 1

como puede

verse en la figura siguiente:

Unilateral de una cola izquierda:

H 0 : i = 0 (i 0)

H1 : i < 0
Es un contraste de significacin negativa, la regla de decisin es:
La hiptesis nula se rechaza cuando

t0 t , n k 1

siendo t ,n k 1 el percentil 1 de la distribucin t-Student con n-k-1 grados


de libertad.
Otra forma ver si rechazamos o no la hiptesis nula es con el p-valor:
Rechazamos Ho si : p-valor <
Calculndose el p-valor en este caso de la forma siguiente:

p valor = P ( tn k 1 t0 )

Por lo tanto, rechazamos H0 en favor de H1 cuando

t0 t , n k 1

como puede

verse en la figura siguiente:

Contraste bilateral dos colas:

H 0 : i = 0

H1 : i 0
Esta es la alternativa relevante cuando el signo i no est bien determinado
por la teora o el sentido comn. Cuando la alternativa es de dos colas,
estamos interesados en el valor absoluto del estadstico t. Este contraste es un
contraste de significacin., la regla de decisin es:
7

DISEO ESTADSTICO EXPERIMENTAL Y CONTROL DE CALIDAD. APLICACIONES EN BIOCIENCIAS E INGENIERA


- MASTER EN ESTADSTICA APLICADA AUTORA: CARMEN MARA SNCHEZ CAMPOY

La hiptesis nula se rechaza cuando

t0 t /2, n k 1

siendo t / 2, n k 1 el percentil 1 / 2 de la distribucin t-Student con n-k-1


grados de libertad.
Otra forma ver si rechazamos o no la hiptesis nula es con el p-valor:
Rechazamos Ho si : p-valor <
Calculndose el p-valor en este caso de la forma siguiente:

p valor = 2* Max { P ( tn k 1 t0 ) ,1 P ( tn k 1 t0 )}

Por lo tanto, rechazamos H0 en favor de H1 cuando

t0 t /2, n k 1

como

puede verse en la figura siguiente:

Cuando no se especifica una hiptesis alternativa, por lo general, se considera que el


contraste de hiptesis es de dos colas. Si se rechaza la H0 a favor de H1 para un
dado, se suele decir que xi es estadsticamente significativa para el nivel .
Un caso general en el que el parmetro en la H0 toma un valor especfico cualquiera:

H 0 : i = 0
- El estadstico pivote para este contraste es:
k

t0 =

 i 0
MS E Cii

donde: MS E =

S
S yy
i iy
i =1

n k 1

siendo Cii el elemento i de la diagonal de la matriz ( X ' X )

 distanciada
Al igual que antes, t0 mide la cantidad de desviaciones estndar est
i
de 0 , valor que toma el parmetro en la hiptesis nula, los contraste son los mismos
que antes para el nuevo valor 0 con las mismas regiones de rechazo.
2.- CONTRASTE DE RESTRICCIONES LINEALES MLTIPLES UTILIZANDO EL
ESTADSTICO F.
Hasta ahora, slo hemos considerado hiptesis que implican una sola restriccin. Con
frecuencia, deseamos contrastar hiptesis mltiples sobre los parmetros 1 ,..., k .
En las restricciones lineales mltiples podemos distinguir tres tipos: las restricciones
de exclusin, la significatividad del modelo y otras restricciones lineales.
Restricciones de exclusin
8

DISEO ESTADSTICO EXPERIMENTAL Y CONTROL DE CALIDAD. APLICACIONES EN BIOCIENCIAS E INGENIERA


- MASTER EN ESTADSTICA APLICADA AUTORA: CARMEN MARA SNCHEZ CAMPOY

Para el modelo no restringido siguiente:

y = 1 x1 + + k xk +
Supongamos que hay q restricciones de exclusin a contrastar. Entonces, H0 postula
que q variables tienen coeficientes cero. Si se asume que son las ltimas q variables,
la H0 se expresa como:

H 0 : k q 1 = = k = 0
El modelo restringido se obtiene mediante la imposicin de q restricciones de la H0 en
el modelo no restringido:

y = 1 x1 + + k q xk q +
La H1 se expresa como:

H1 : H 0 no es cierta
- El estadstico pivote para este contraste es:

F0 =

( SSRR SSRNR ) / q
SSRNR / (n k 1)

donde:
SSRNR : suma de cuadrados de residuos en el modelo no restringido.
SSRR : suma de cuadrados de residuos en el modelo restringido.
Bajo la hiptesis nula, dicho estadstico sigue una distribucin F-snedecor de q y n-k-1
grados de libertad.
- La hiptesis nula se rechaza cuando:

F0 > F , q , n k 1
siendo

F , q ,n k 1

el percentil 1- de la distribucin F-snedecor con q y n-k-1

grados de libertad.
Otra forma ver si rechazamos o no la hiptesis nula es con el p-valor:
Rechazamos Ho si : p-valor <
Calculndose el p-valor en este caso de la forma siguiente:
p-valor =

P ( Fq , n k 1 > F0 )

Por lo tanto, rechazamos H0 en favor de H1 cuando

F0 > F , q , n k 1

como

puede verse en la figura siguiente:

DISEO ESTADSTICO EXPERIMENTAL Y CONTROL DE CALIDAD. APLICACIONES EN BIOCIENCIAS E INGENIERA


- MASTER EN ESTADSTICA APLICADA AUTORA: CARMEN MARA SNCHEZ CAMPOY

Significacin global del modelo


Contrastar la significacin del modelo, o significacin global del modelo, es un caso
particular de los contrastes de restricciones de exclusin. Se podra pensar que este
contraste la H0 debera ser la siguiente:

H 0 : 1 = = k = 0
La H1 se expresa como:

H1 : H 0 no es cierta
- El estadstico pivote para este contraste es:

F0 =

SS R / k
SS E / (n k 1)

donde:
k

S
SS E = S yy
i iy
i =1

S
SS R =
i iy
i =1

Bajo la hiptesis nula, dicho estadstico sigue una distribucin F-snedecor de k y n-k-1
grados de libertad.
- La hiptesis nula se rechaza cuando:

F0 > F , k , n k 1
siendo

F , k ,n k 1

el percentil 1- de la distribucin F-snedecor con k y n-k-1

grados de libertad.
Otra forma ver si rechazamos o no la hiptesis nula es con el p-valor:
Rechazamos Ho si : p-valor <
Calculndose el p-valor en este caso de la forma siguiente:
p-valor =

P ( Fk , n k 1 > F0 )

Significacin global del modelo


Podemos obtener el caso en el que un contraste con t y otro con F sean el mismo. El
estadstico F puede utilizarse para contrastar una sola restriccin, en este caso,
podemos elegir entre el estadstico F o el estadstico t para hacer un contraste de dos
colas. Las conclusiones sern exactamente las mismas.
La relacin entre una F con grados de libertad 1 y n-k-1 y una t es:

F1, n k 1 tn2 k 1

3.- APLICACIONES EN EL DISEO DE EXPERIMENTOS.

Los modelos de diseo de experimentos son modelos estadsticos clsicos cuyo


objetivo es averiguar si unos determinados factores influyen en una variable de inters
y, si existe influencia de algn factor, cuantificar dicha influencia.
Unos ejemplos donde habra que utilizar estos modelos son los siguientes:

10

DISEO ESTADSTICO EXPERIMENTAL Y CONTROL DE CALIDAD. APLICACIONES EN BIOCIENCIAS E INGENIERA


- MASTER EN ESTADSTICA APLICADA AUTORA: CARMEN MARA SNCHEZ CAMPOY

En el rendimiento de un determinado tipo de mquina (unidades producidas


por da): se desea estudiar la influencia del trabajador que la maneja y la marca
de la mquina.
Se quiere estudiar la influencia de un tipo de pila elctrica y de la marca, en la
duracin de las pilas.
Una compaa de software est interesada en estudiar la variable porcentaje
en que se comprime un fichero, al utilizar un programa de compresin teniendo
en cuenta el tipo de programa utilizado y el tipo de fichero que se comprime.
Tomando como referencia esta definicin, podemos hacernos una idea del alcance
que para el diseo de experimentos tiene los contraste de hiptesis para estudiar la
significatividad o no del modelo o de una variable o variables en particular, sin esta
herramienta no podra afirmar que un modelo de regresin lineal sea vlido para la
variable dependiente elegida.

A3. ANLISIS DE DATOS


Para realizar los ejercicios voy a utilizar el software SPSS, los ejercicios 2 y 3
son los mismos que en la actividad 3 y se encuentran hechos en dicha actividad.

Llamamos a las variables DOSIS y ACTVRENAL (Variables Independientes) y


NIVELTOX (Variable Dependiente) que vienen recogidas en archivo ejercicio1.sav de
la carpeta de datos.
El contraste de la significacin de la dosis de paracetamol administrada en el nivel de
toxicidad heptica fue objeto de estudio en la actividad 3, como continuacin del
11

DISEO ESTADSTICO EXPERIMENTAL Y CONTROL DE CALIDAD. APLICACIONES EN BIOCIENCIAS E INGENIERA


- MASTER EN ESTADSTICA APLICADA AUTORA: CARMEN MARA SNCHEZ CAMPOY

ejercicio anterior vamos a ampliar el estudio mediante el contraste de la influencia de


la actividad renal, as como un estudio de regresin mltiple con las dos variables
independientes definidas.
Presentamos el diagrama de dispersin entre las variables ACTVRENAL y NIVELTOX,
y la representacin de la recta de regresin aproximada.
Los diagramas de dispersin ofrecen una idea bastante aproximada sobre el tipo de
relacin existente entre dos variables, adems, tambin puede utilizarse como una
forma de cuantificar el grado de relacin lineal existente entre dos variables, basta con
observar el grado en el que la nube de puntos se ajusta a una lnea recta.

El grfico muestra una posible adecuacin del modelo lineal, no muy buena y la
tendencia creciente del mismo.
La recta de regresin mnima cuadrtica de NIVELTOX sobre ACTRENAL,
representada en la nube de puntos

Y = a0 + a1 X
La podemos estimar utilizando la opcin Analizar/Regresin/Lineales...
proporciona el SPSS, obtenemos los siguientes resultados:

que

En la tabla Resumen del modelo, se muestran los resultados del ajuste del modelo de
regresin. El valor del coeficiente de determinacin, R cuadrado, mide la bondad del
ajuste de la recta de regresin a la nube de puntos, valores pequeos de R
cuadrado indican que el modelo no se ajusta bien a los datos.

12

DISEO ESTADSTICO EXPERIMENTAL Y CONTROL DE CALIDAD. APLICACIONES EN BIOCIENCIAS E INGENIERA


- MASTER EN ESTADSTICA APLICADA AUTORA: CARMEN MARA SNCHEZ CAMPOY

R cuadrado toma un valor de 0.719 que nos indica que el 71.9% de la variabilidad
de NIVELTOX, es explicada por la relacin lineal con ACTRENAL.
El valor R (0.848) representa el valor absoluto del Coeficiente de Correlacin, es decir
es un valor entre 0 y 1. Valores prximos a 1 indican una fuerte relacin entre las
variables. La ltima columna nos muestra el Error tpico de la estimacin (raz
cuadrada de la varianza residual) con un valor igual a 2,772.
En cuadro siguiente se tiene la tabla ANOVA:

En la Tabla ANOVA, se muestra la descomposicin de la Variabilidad Total (491,8) en


la Variabilidad debida a la Regresin (353,44) y la Variabilidad Residual (138,36), es
decir, en Variabilidad explicada por el modelo de regresin y la Variabilidad no
explicada. La Tabla de Anlisis de la Varianza (Tabla ANOVA) se construye a partir de
esta descomposicin y proporciona el valor del estadstico F que permite contrastar la
hiptesis nula de que la pendiente de la recta de regresin es igual a cero contra la
alternativa de que la pendiente es distinta de cero, es decir:

H 0 : a1 = 0

H1 : a1 0
donde H0 se conoce, en general, como hiptesis de no linealidad entre X e Y.
La Tabla ANOVA muestra el valor del estadstico de contraste, F = 45.981, que se
define como el cociente entre el Cuadrado medio debido a la regresin (353.44) y el
Cuadrado medio residual (7.687), por tanto cuanto mayor sea su valor, mejor ser la
prediccin mediante el modelo lineal. El p-valor asociado a F, en la columna Sig, es
cero en su redondeo, menor que el nivel de significacin = 0.05, lo que conduce a
rechazar la hiptesis nula, es decir existe una relacin lineal significativa entre las
variables del problema.
"Esto indica que es vlido el modelo de regresin considerado, en
este caso el modelo lineal simple."

La siguiente tabla muestra las estimaciones de los parmetros del modelo de


regresin lineal simple:

13

DISEO ESTADSTICO EXPERIMENTAL Y CONTROL DE CALIDAD. APLICACIONES EN BIOCIENCIAS E INGENIERA


- MASTER EN ESTADSTICA APLICADA AUTORA: CARMEN MARA SNCHEZ CAMPOY

El modelo presenta los siguientes parmetros: como ordenada en el origen, a0 = 6.7 y


la pendiente a1 = 15.04 .
Por tanto, la ecuacin de la recta estimada o ajustada es: y = 6.7 + 15.04 x . As mismo,
en esta tabla se presentan los resultados de los dos contrastes individuales de la
significacin de cada uno de estos parmetros:

H 0 : a0 = 0

H1 : a0 0

H 0 : a1 = 0

H1 : a1 0

El primero de estos contrastes carece de inters en la mayora de los casos ya que


raramente el punto de corte de la recta de regresin con el eje de ordenadas
(ordenada en el origen) ser el punto (0,0). Adems dicho punto de corte carece de
significado casi siempre.
El segundo contraste, el contraste de la pendiente de la recta, es una alternativa
equivalente al contraste que acabamos de comentar en la Tabla ANOVA. El
estadstico de contraste que aparece en la columna t vale 6.781 tiene un p-valor
asociado, columna Sig, menor que 0.001, menor que el nivel de significacin = 0.05
que conduce al rechazo de la hiptesis nula y podemos afirmar que existe una relacin
lineal significativa entre Y y X.
En la ltima columna de la tabla se muestran los intervalos de confianza para a0 y a1 ,
al 95%. El intervalo para a0 es (3.51, 9.89), puesto que el cero no pertenece al
intervalo, se rechaza la hiptesis nula.
VALIDACIN Y DIAGNOSIS DEL MODELO
En este apartado vamos a comprobar que se verifican los supuestos del modelo de
regresin lineal (normalidad, homocedasticidad (igualdad de varianzas) y linealidad)
estos supuestos resultan necesarios para validar la inferencia respecto a los
parmetros. Utilizaremos el anlisis de los residuos para realizar los contrastes a
posteriori de dichas hiptesis del modelo.
Normalidad
Podemos comprobarla de forma grfica o analticamente, grficamente podemos
estudiar el grfico probabilstico normal, Para obtener dicho grfico
14

DISEO ESTADSTICO EXPERIMENTAL Y CONTROL DE CALIDAD. APLICACIONES EN BIOCIENCIAS E INGENIERA


- MASTER EN ESTADSTICA APLICADA AUTORA: CARMEN MARA SNCHEZ CAMPOY

seleccionamos Analizar/Estadsticos
siguiente:

descriptivos/Grficos

Q-Q... ,

obtenemos

lo

El Grfico representa las funciones de distribucin terica y emprica de los residuos


tipificados. Desviaciones de los puntos del grfico respecto de la diagonal indican
alteraciones de la normalidad. Observamos la ubicacin de los puntos del grfico,
estos puntos se aproximan razonablemente bien a la diagonal lo que confirma la
hiptesis de normalidad. Lo conformamos de forma analstica mediante el contraste de
Kolmogorov-Smirnov:

Esta tabla muestra la mayor diferencia entre los resultados esperados en caso de que
los residuos surgieran de una distribucin normal y los valores observados. Se
distingue entre la mayor diferencia en valor absoluto, la mayor diferencia positiva y la
mayor diferencia negativa. Se muestra el valor del estadstico Z (0.647) y el valor del

15

DISEO ESTADSTICO EXPERIMENTAL Y CONTROL DE CALIDAD. APLICACIONES EN BIOCIENCIAS E INGENIERA


- MASTER EN ESTADSTICA APLICADA AUTORA: CARMEN MARA SNCHEZ CAMPOY

p-valor asociado (0.797). Por lo tanto no se puede rechazar la hiptesis de normalidad


de los residuos.
Homocedasticidad
Comprobamos la hiptesis de homogeneidad de las varianzas grficamente
representando los residuos tipificados frente a los tiempos de incubacin estimados
tipificados. El anlisis de este grfico puede revelar una posible violacin de la
hiptesis de homocedasticidad, si observamos que el grfico muestra forma de
embudo... Si por el contario dicho grfico no muestra patrn alguno, entonces no
podemos rechazar la hiptesis de igualdad de varianzas.

No apreciamos tendencia clara en este grfico, los residuos no presentan estructura


definida respecto de los valores predichos por el modelo por lo que no debemos
rechazar la hiptesis de homocedasticidad.
Independencia de los residuos
La hiptesis de independencia de los residuos la realizaremos mediante el contraste
de Durbin-Watson. Para ello se selecciona Analizar/Regresin/Lineal...

SPSS proporciona el valor del estadstico de Durbin-Watson pero no muestra el pvalor asociado por lo que hay que utilizar las tablas correspondientes. El estadstico de
Durbin-Watson mide el grado de autocorrelacin entre el residuo correspondiente a
cada observacin y la anterior. Si su valor est prximo a 2, entonces los residuos
16

DISEO ESTADSTICO EXPERIMENTAL Y CONTROL DE CALIDAD. APLICACIONES EN BIOCIENCIAS E INGENIERA


- MASTER EN ESTADSTICA APLICADA AUTORA: CARMEN MARA SNCHEZ CAMPOY

estn incorrelados, si se aproxima a 4, estarn negativamente autocorrelados y si su


valor est cercano a 0 estarn positivamente autocorrelados. En nuestro caso, toma el
valor 2.399 prximo a 2 lo que indica la incorrelacin de los residuos.
REGRESIN LINEAL MLTIPLE
El anlisis de regresin mltiple, la ecuacin de regresin ya no define una recta en el
plano, sino un hiperplano en un espacio multidimensional, si realizamos el diagrama
de dispersin se obtiene:

Para obtener el plano de regresin mnima cuadrtica de Z sobre X e Y, representada


en la nube de puntos,

Z = a0 + a1 X + a2Y
Para ello utilizamos la opcin Analizar/Regresin/Lineales... que proporciona el SPSS,
obtenemos los siguientes resultados:
Podemos observar que en el estudio de Regresin en el SPSS se ha excluido la
variable ACTRENAL, considerando slo para el modelo la variable DOSIS como
variable independiente, tal y como muestran los cuadros siguientes:

El cuadro de coeficientes queda de la forma:

17

DISEO ESTADSTICO EXPERIMENTAL Y CONTROL DE CALIDAD. APLICACIONES EN BIOCIENCIAS E INGENIERA


- MASTER EN ESTADSTICA APLICADA AUTORA: CARMEN MARA SNCHEZ CAMPOY

18

DISEO ESTADSTICO EXPERIMENTAL Y CONTROL DE CALIDAD. APLICACIONES EN BIOCIENCIAS E INGENIERA


- MASTER EN ESTADSTICA APLICADA AUTORA: CARMEN MARA SNCHEZ CAMPOY

REGRESIN LINEAL MLTIPLE


En el anlisis de regresin mltiple, la ecuacin de regresin ya no define una recta en
el plano, sino un hiperplano en un espacio multidimensional.
Para obtener el plano de regresin mnima cuadrtica de Y (variable dependiente)
sobre X1, X2, X3, X4, X5 (variables independientes)

Y = a0 + a1 X 1 + a2 X 2 + a3 X 3 + a4 X 4 + + a5 X 5
Para ello utilizamos la opcin Analizar/Regresin/Lineales... que proporciona el SPSS,
obtenemos los siguientes resultados:

En la tabla Resumen del modelo, se muestran los resultados del ajuste del modelo de
regresin. El valor del coeficiente de determinacin, R cuadrado, mide la bondad del
ajuste de la recta de regresin a la nube de puntos, valores pequeos de R
cuadrado indican que el modelo no se ajusta bien a los datos.
R cuadrado toma un valor de 0.832 que nos indica que las cinco variables
independientes incluidas en el anlisis explican un 83.2% de la varianza de la variable
dependiente. Adems, el error tpico de los residuos es 0.05674
El valor R (0.8912) representa el valor absoluto del Coeficiente de Correlacin, es
decir es un valor entre 0 y 1. Valores prximos a 1 indican una fuerte relacin entre las
variables.
En cuadro siguiente se tiene la tabla ANOVA:

En la Tabla ANOVA, se muestra la descomposicin de la Variabilidad Total (0.345) en


la Variabilidad debida a la Regresin (0.287) y la Variabilidad Residual (0.058), es
decir, en Variabilidad explicada por el modelo de regresin y la Variabilidad no
explicada.
El estadstico F contrasta la hiptesis nula de que el valor poblacional de R es cero y,
por tanto, nos permite decidir si existe relacin lineal significativa entre la variable dependiente y el conjunto de variables independientes tomadas juntas. El valor del nivel
crtico Sig. = 0,000 indica que s existe relacin lineal significativa. Podemos afirmar,
por tanto, que el hiperplano definido por la ecuacin de regresin ofrece un buen
ajuste a la nube de puntos.
19

DISEO ESTADSTICO EXPERIMENTAL Y CONTROL DE CALIDAD. APLICACIONES EN BIOCIENCIAS E INGENIERA


- MASTER EN ESTADSTICA APLICADA AUTORA: CARMEN MARA SNCHEZ CAMPOY

"Esto indica que es vlido el modelo de regresin considerado, en


este caso el modelo lineal mltiple."
La siguiente tabla muestra las estimaciones de los parmetros del modelo de
regresin lineal mltiple:

En la tabla obtenida, se observa los p-valores que corresponden a cada variable y que
nos proporcionan informacin de la significatividad de cada variable independiente,
para p-valores mayores de 0.05 se consideraran variables no significativas para el
modelo, existe una variable a la que le sucede este caso, vamos a eliminarla para
quedarnos con un modelo con p-valores menores a 0.05:

El modelo presenta los siguientes parmetros: a0 = 0.498 , , a2 = 0.032 , a3 = 0.005 ,

a4 = 0.096 , a5 = 0.065 .
Por tanto, la ecuacin de la recta estimada o ajustada es:

y = 0.498 + 0.032 x2 0.005 x3 0.096 x4 0.065 x5


La interpretacin de estos coeficientes, por ejemplo, el correspondiente a la variable X2,
que vale 0.032, indica que, si el resto de variables se mantienen constantes, a un
aumento de una unidad en X2, le corresponde, en promedio, un aumento de 0.032 en
el valor de Y. Estos coeficientes reciben el nombre de coeficientes de regresin parcial

20

DISEO ESTADSTICO EXPERIMENTAL Y CONTROL DE CALIDAD. APLICACIONES EN BIOCIENCIAS E INGENIERA


- MASTER EN ESTADSTICA APLICADA AUTORA: CARMEN MARA SNCHEZ CAMPOY

Los Coeficientes de regresin estandarizados (Beta) estn basados en las


puntuaciones tpicas y, por tanto, son directamente comparables entre s. Indican la
cantidad de cambio, en puntuaciones tpicas, que se producir en la variable
dependiente por cada cambio de una unidad en la correspondiente variable independiente (manteniendo constantes el resto de variables independientes).
Estos coeficientes proporcionan una pista muy til sobre la importancia relativa de
cada variable independiente en la ecuacin de regresin. En general, una variable
tiene tanto ms peso (importancia) en la ecuacin de regresin cuanto mayor (en valor
absoluto) es su coeficiente de regresin estandarizado.
Observando los coeficientes Beta vemos que la variable X2, es la ms importante,
seguida de X3. Las pruebas t y sus niveles crticos recogidos en el cuadro de
coeficientes, t y Sig., sirven para contrastar la hiptesis nula de que un coeficiente de
regresin vale cero en la poblacin. Niveles crticos (Sig.) muy pequeos
(generalmente menores que 0,05) indican que debemos rechazar esa hiptesis nula.
VALIDACIN Y DIAGNOSIS DEL MODELO
En este apartado vamos a comprobar que se verifican los supuestos del modelo de
regresin lineal (normalidad, homocedasticidad (igualdad de varianzas), linealidad,
independencia y no co-linealidad) estos supuestos resultan necesarios para validar la
inferencia respecto a los parmetros. Utilizaremos el anlisis de los residuos para
realizar los contrastes a posteriori de dichas hiptesis del modelo.
Normalidad
Podemos comprobarla de forma grfica o analticamente, grficamente podemos
estudiar el grfico probabilstico normal, Para obtener dicho grfico
seleccionamos Analizar/Estadsticos descriptivos/Grficos Q-Q... , obtenemos lo
siguiente:

21

DISEO ESTADSTICO EXPERIMENTAL Y CONTROL DE CALIDAD. APLICACIONES EN BIOCIENCIAS E INGENIERA


- MASTER EN ESTADSTICA APLICADA AUTORA: CARMEN MARA SNCHEZ CAMPOY

El Grfico representa las funciones de distribucin terica y emprica de los residuos


tipificados. Desviaciones de los puntos del grfico respecto de la diagonal indican
alteraciones de la normalidad. Observamos la ubicacin de los puntos del grfico,
estos puntos se aproximan razonablemente bien a la diagonal lo que confirma la
hiptesis de normalidad. Lo confirmamos de forma analstica mediante el contraste de
Kolmogorov-Smirnov:

Al salir un p-valor 0.963, mayor de 0.05, podemos aceptar la hiptesis de normalidad


de los residuos.
Homocedasticidad
Comprobamos la hiptesis de homogeneidad de las varianzas grficamente
representando los residuos tipificados frente a los tiempos de incubacin estimados
tipificados. El anlisis de este grfico puede revelar una posible violacin de la
hiptesis de homocedasticidad, si observamos que el grfico muestra forma de
embudo... Si por el contario dicho grfico no muestra patrn alguno, entonces no
podemos rechazar la hiptesis de igualdad de varianzas.

22

DISEO ESTADSTICO EXPERIMENTAL Y CONTROL DE CALIDAD. APLICACIONES EN BIOCIENCIAS E INGENIERA


- MASTER EN ESTADSTICA APLICADA AUTORA: CARMEN MARA SNCHEZ CAMPOY

No apreciamos tendencia clara en este grfico, los residuos no presentan estructura


definida respecto de los valores predichos por el modelo por lo que no debemos
rechazar la hiptesis de homocedasticidad.
Independencia de los residuos
La hiptesis de independencia de los residuos la realizaremos mediante el contraste
de Durbin-Watson. Para ello se selecciona Analizar/Regresin/Lineal...

SPSS proporciona el valor del estadstico de Durbin-Watson pero no muestra el pvalor asociado por lo que hay que utilizar las tablas correspondientes. El estadstico de
Durbin-Watson mide el grado de autocorrelacin entre el residuo correspondiente a
cada observacin y la anterior. Si su valor est prximo a 2, entonces los residuos
estn incorrelados, si se aproxima a 4, estarn negativamente autocorrelados y si su
valor est cercano a 0 estarn positivamente autocorrelados. En nuestro caso, toma el
valor 2.288 prximo a 2 lo que indica la incorrelacin de los residuos.

REGRESIN LINEAL MLTIPLE


Los datos de este ejercicio vienen recogidos en el archivo ejercicio5.sav del fichero zip
enviado.

23

DISEO ESTADSTICO EXPERIMENTAL Y CONTROL DE CALIDAD. APLICACIONES EN BIOCIENCIAS E INGENIERA


- MASTER EN ESTADSTICA APLICADA AUTORA: CARMEN MARA SNCHEZ CAMPOY

En el anlisis de regresin mltiple, la ecuacin de regresin define un hiperplano en


un espacio multidimensional.
Para obtener el plano de regresin mnima cuadrtica de Y (variable dependiente)
sobre X1, X2, X3, X4, X5, X6, X7 (variables independientes)

Y = a0 + a1 X 1 + a2 X 2 + a3 X 3 + a4 X 4 + a5 X 5 + a6 X 6 + a7 X 7
Una vez cargados los datos en el SPSS, para obtener el modelo lineal deseado,
utilizamos la opcin Analizar/Regresin/Lineales..., consiguiendo los siguientes
resultados:

En la tabla Resumen del modelo, se muestran los resultados del ajuste del modelo de
regresin. El valor del coeficiente de determinacin, R cuadrado, mide la bondad del
ajuste de la recta de regresin a la nube de puntos, valores pequeos de R
cuadrado indican que el modelo no se ajusta bien a los datos.
R cuadrado toma un valor de 0.775 que nos indica que las siete variables
independientes incluidas en el anlisis explican un 77.5% de la varianza de la variable
dependiente.
El valor R (0.88) representa el valor absoluto del Coeficiente de Correlacin, es decir
es un valor entre 0 y 1. Valores prximos a 1 indican una fuerte relacin entre las
variables.
En cuadro siguiente se tiene la tabla ANOVA:

En la Tabla ANOVA, se muestra la descomposicin de la Variabilidad Total (7999) en


la Variabilidad debida a la Regresin (6198,766) y la Variabilidad Residual (1800.234),
es decir, en Variabilidad explicada por el modelo de regresin y la Variabilidad no
explicada.
El estadstico F contrasta la hiptesis nula de que el valor poblacional de R es cero y,
por tanto, nos permite decidir si existe relacin lineal significativa entre la variable dependiente y el conjunto de variables independientes tomadas juntas. El valor del nivel
crtico Sig. = 0,000 indica que s existe relacin lineal significativa. Podemos afirmar,
por tanto, que el hiperplano definido por la ecuacin de regresin ofrece un buen
ajuste a la nube de puntos.
24

DISEO ESTADSTICO EXPERIMENTAL Y CONTROL DE CALIDAD. APLICACIONES EN BIOCIENCIAS E INGENIERA


- MASTER EN ESTADSTICA APLICADA AUTORA: CARMEN MARA SNCHEZ CAMPOY

"Esto indica que es vlido el modelo de regresin considerado, en


este caso el modelo lineal mltiple."
La siguiente tabla muestra las estimaciones de los parmetros del modelo de
regresin lineal mltiple:

En la tabla obtenida, se observa los p-valores que corresponden a cada variable y que
nos proporcionan informacin de la significatividad de cada variable independiente,
para p-valores mayores de 0.05 se consideraran variables no significativas para el
modelo, existen varias variables a las que les sucede este caso, vamos a ir eliminando
una a una (empezando por la de mayor p-valor) hasta quedarnos con un modelo con
p-valores menores a 0.05, obtenemos as un modelo en que las variables
independientes consideradas son X3, X5 y X6:

El modelo presenta los siguientes parmetros: a3 = 3.376 , a5 = 7.621 y a6 = 1.406 .


Por tanto, la ecuacin de la recta estimada o ajustada es:

y = 6.52 + 3.376 x3 + 7.621x5 + 1.406 x6


La interpretacin de estos coeficientes, por ejemplo, el correspondiente a la variable X3,
que vale 3.376, indica que, si el resto de variables se mantienen constantes, a un
aumento de una unidad en X3, le corresponde, en promedio, un aumento de 3.376 en
el valor de Y. Estos coeficientes reciben el nombre de coeficientes de regresin parcial.
Los Coeficientes de regresin estandarizados (Beta) estn basados en las
puntuaciones tpicas y, por tanto, son directamente comparables entre s. Indican la
25

DISEO ESTADSTICO EXPERIMENTAL Y CONTROL DE CALIDAD. APLICACIONES EN BIOCIENCIAS E INGENIERA


- MASTER EN ESTADSTICA APLICADA AUTORA: CARMEN MARA SNCHEZ CAMPOY

cantidad de cambio, en puntuaciones tpicas, que se producir en la variable


dependiente por cada cambio de una unidad en la correspondiente variable independiente (manteniendo constantes el resto de variables independientes).
Estos coeficientes proporcionan una pista muy til sobre la importancia relativa de
cada variable independiente en la ecuacin de regresin. En general, una variable
tiene tanto ms peso (importancia) en la ecuacin de regresin cuanto mayor (en valor
absoluto) es su coeficiente de regresin estandarizado.
Observando los coeficientes Beta vemos que la variable X5, es la ms importante,
seguida de X3.
La tabla, tambin nos proporciona los intervalos de confianza al 95% de dichos
coeficientes, es decir, sus valores extremos con una probabilidad de 0,95.
VALIDACIN Y DIAGNOSIS DEL MODELO
En este apartado vamos a comprobar que se verifican los supuestos del modelo de
regresin lineal (normalidad, homocedasticidad (igualdad de varianzas), linealidad,
independencia y no co-linealidad) estos supuestos resultan necesarios para validar la
inferencia respecto a los parmetros. Utilizaremos el anlisis de los residuos para
realizar los contrastes a posteriori de dichas hiptesis del modelo.
Normalidad
Podemos comprobarla de forma grfica o analticamente, grficamente podemos
estudiar el grfico probabilstico normal, para obtener dicho grfico
seleccionamos Analizar/Estadsticos descriptivos/Grficos Q-Q... , obtenemos lo
siguiente:

26

DISEO ESTADSTICO EXPERIMENTAL Y CONTROL DE CALIDAD. APLICACIONES EN BIOCIENCIAS E INGENIERA


- MASTER EN ESTADSTICA APLICADA AUTORA: CARMEN MARA SNCHEZ CAMPOY

El Grfico representa las funciones de distribucin terica y emprica de los residuos


tipificados. Desviaciones de los puntos del grfico respecto de la diagonal indican
alteraciones de la normalidad. Observamos la ubicacin de los puntos del grfico,
estos puntos se aproximan razonablemente bien a la diagonal lo que confirma la
hiptesis de normalidad. Lo confirmamos de forma analstica mediante el contraste de
Kolmogorov-Smirnov:

Al salir un p-valor 0.56, mayor de 0.05, podemos aceptar la hiptesis de normalidad de


los residuos.
Homocedasticidad
Comprobamos la hiptesis de homogeneidad de las varianzas grficamente
representando los residuos tipificados frente a los tiempos de incubacin estimados
tipificados. El anlisis de este grfico puede revelar una posible violacin de la
hiptesis de homocedasticidad, si observamos que el grfico muestra forma de
embudo... Si por el contario dicho grfico no muestra patrn alguno, entonces no
podemos rechazar la hiptesis de igualdad de varianzas.

27

DISEO ESTADSTICO EXPERIMENTAL Y CONTROL DE CALIDAD. APLICACIONES EN BIOCIENCIAS E INGENIERA


- MASTER EN ESTADSTICA APLICADA AUTORA: CARMEN MARA SNCHEZ CAMPOY

No apreciamos tendencia clara en este grfico, los residuos no presentan estructura


definida respecto de los valores predichos por el modelo por lo que no debemos
rechazar la hiptesis de homocedasticidad.
Independencia de los residuos
La hiptesis de independencia de los residuos la realizaremos mediante el contraste
de Durbin-Watson. Para ello se selecciona Analizar/Regresin/Lineal...

SPSS proporciona el valor del estadstico de Durbin-Watson pero no muestra el pvalor asociado por lo que hay que utilizar las tablas correspondientes. El estadstico de
Durbin-Watson mide el grado de autocorrelacin entre el residuo correspondiente a
cada observacin y la anterior. Si su valor est prximo a 2, entonces los residuos
estn incorrelados, si se aproxima a 4, estarn negativamente autocorrelados y si su
valor est cercano a 0 estarn positivamente autocorrelados. En nuestro caso, toma el
valor 1.897 prximo a 2 lo que indica la incorrelacin de los residuos.

28

You might also like