You are on page 1of 30

90

CAPTULO 4

EXPERIMENTOS CON UN SOLO FACTOR: ANLISIS DE VARIANZA


1. INTRODUCCIN

El anlisis de varianza (ANOVA) permite probar la significancia de las diferencias entre ms de dos medias de
muestra o hacer inferencias sobre si las muestras fueron tomadas de poblaciones que tienen la misma media.

El anlisis de varianza ser til en situaciones como la comparacin del kilometraje logrado por 5 tipos de gasolina;
en la prueba de cul de 4 mtodos de entrenamiento produce el ms rpido aprendizaje, etc.

Sin embargo estas aplicaciones no son todo lo que se puede querer conocer. Con respecto a si hay diferencias en la
eficiencia entre 5 tipos de gasolina, hay varias preguntas que quedan sin resolver: Qu autos se usaron para las
pruebas? Los instrumentos para medir la eficiencia eran similares en precisin? En la prueba de la eficiencia de los
mtodos de aprendizaje se podra preguntar: Qu tipo de profesores se usaron? La calidad de los textos es la
misma? Los estudiantes tenan un mismo nivel de inteligencia? El resolver estas preguntas lleva al vasto tema del
diseo de experimentos, del cual, el ANOVA es el fundamento.

En el captulo anterior el anlisis estadstico se basaba en la comparacin de dos mtodos, condiciones o
tratamientos. El ANOVA ampliar esta comparacin a ms de dos tratamientos. Se puede describir entonces el
anlisis de varianza como un experimento de un factor con a niveles o tratamientos, suponiendo que las muestras
son completamente aleatorias.

1.1. Diseo experimental

El sistema experimental, puede ser esquematizado como sigue:









Los diseos experimentales ms utilizados para comparar tratamientos, considerando desde cero hasta tres factores
de bloque, son, respectivamente:

1. Diseo completamente al azar.
2. Diseo en bloques completos al azar.
3. Diseo en cuadrado latino.
4. Diseo en cuadrado grecolatino.

Los diseos que presentan una o ms variables de bloque se analizarn en el captulo siguiente.

1.2. Suposiciones

Para utilizar el ANOVA se deben realizar las siguientes suposiciones:

Cada una de las muestras es tomada de una poblacin normal de forma independiente y adems cada una de
las poblaciones tiene la misma varianza (Si los tamaos de las muestras son lo suficientemente grandes no se
necesita la suposicin de normalidad, pero esto no ocurre frecuentemente).

Si se prueba que las muestras salieron de la misma poblacin, entonces se pueden reunirlas en una sola
muestra (No existe diferencia significativa entre los tratamientos).




Sistema Entrada
Salida
y = Variable de salida
x = Una variable de entrada con ms
de dos niveles (tratamientos)
z = Cero variables de bloque

91
1.3. Procedimiento

El anlisis de varianza est basado en una comparacin de dos estimaciones diferentes de la vari anza de la
poblacin total, mediante una prueba de hiptesis:



Para probar esta hiptesis se realizan los siguientes pasos:

1. Se determina una estimacin de la varianza de la poblacin a partir de la varianza entre las medias de las
muestras (intervarianza).

2. Se determina una segunda estimacin de la varianza de la poblacin desde la varianza dentro de las muestras
(intravarianza).

3. Se compara estas dos estimaciones. Si su valor es aproximadamente igual, aceptamos que las muestras
provienen de la misma poblacin.

Para probar la hiptesis nula, se utiliza el valor crtico:

y se compara con el valor del estadstico


F con un cierto nivel de significancia. Si la Hiptesis nula fuera falsa, la intervarianza debera ser significativamente
mayor que la intravarianza.

1.4. Anlisis de varianza con un factor

Se supondr que se tiene a diferentes niveles de un factor que se desean comparar (llamados tratamientos). La
respuesta observada para cada nivel de los a tratamientos es una variable aleatoria. Los datos pueden ser
representados mediante la tabla 4.1.1, del modo siguiente:

Tabla 4.1.1. Datos para el ANOVA de un factor

Tratamientos Observaciones Totales Promedios
1 2 3 .... n
1 y11 y12 y13 .... y1n y1.


2 y21 y22 y23 .... y2n y2.


3 y31 y32 y33 .... y3n y3.


: : : : : : : :
a ya1 ya2 ya3 .... yan ya.


Totales y..



Para un tratamiento a, habr n observaciones. y11 por ejemplo representa la primera observacin del tratamiento
1. N es el nmero de datos del experimento.

El modelo estadstico para representar cada observacin de la tabla est dado por:



dnde: i = 1, 2, ..., a tratamientos
j = 1, 2, ..., n niveles

= Parmetro comn a todos los tratamientos, llamada media global.

= Parmetro asociado al i-simo tratamiento, llamado el efecto del tratamiento i.


= Error aleatorio del proceso de muestreo.



El objetivo ser probar hiptesis con respecto a los efectos de los tratamientos o realizar estimaciones de ellos,
suponiendo que el error aleatorio del muestreo sigue una variable aleatoria independiente con distribucin normal,
con una varianza constante para todos los niveles del factor.


92
Este modelo estadstico tiene dos direcciones:

Si los a tratamientos fueron seleccionados especficamente por el experimentador, entonces las conclusiones
no pueden generalizarse a tratamientos similares que no hayan sido considerados en el anlisis (Este modelo se
llama modelo de efectos fijos). Aqu es deseable estimar los parmetros del modelo:

.

Si los a tratamientos son una muestra aleatoria de una poblacin mayor de tratamientos, entonces las
conclusiones se pueden generalizar a todos los tratamientos de la poblacin (Este es el modelo de efectos
aleatorios). Aqu es deseable realizar hiptesis sobre la variabilidad de los

.

2. MODELO DE EFECTOS FIJOS

2.1. Prueba estadstica

Primer paso.

Se desea probar la igualdad de los efectos de los a tratamientos:



Si H0 es cierta, entonces

, esto es, la variable de respuesta no se ve afectada por el factor investigado.



Segundo paso.

El investigador fija su nivel de riesgo:



Tercer paso.

Se muestra a continuacin la Tabla 4.2.1, los clculos para este tipo de anlisis de varianza.

Tabla 4.2.1. ANOVA para el diseo completamente al azar

Fuente de
variacin
Suma de
cuadrados
Grados de
libertad
Media cuadrada Razn F
Entre
tratamientos


Error muestral




Total



El estadstico de prueba es la F de Fisher, puesto que se estn relacionando dos varianzas. Las ecuaciones para
hallar este valor son:



Cuarto paso.







Quinto paso.

Se realiza la decisin con base en la regla establecida.





93
Ejemplo

Un ingeniero de desarrollo de productos est interesado en maximizar la resistencia a la tensin de una nueva fibra
sinttica que se utilizar en la fabricacin de camisas para varn. Por experiencia sabe que a mayor contenido de
algodn habr mayor resistencia a la tensin en la fibra, el rango de porcentaje de algodn en la fibra debe ser de 10
a 40% para que la tela se pueda planchar fcilmente. El ingeniero planific este experimento de modo que el orden
de las pruebas sea completamente aleatorio. Para ello enumer las muestras del siguiente modo (Tabla 4.2.2):

Tabla 4.2.2. Numeracin de las pruebas para obtener el % de algodn para camisas

% de algodn Nmero de corrida experimental
15 1 2 3 4 5
20 6 7 8 9 10
25 11 12 13 14 15
30 16 17 18 19 20
35 21 22 23 24 25

Luego, mediante una tabla de nmeros aleatorios, determin el orden de la corrida de cada prueba. Los resultados
son (Tabla 4.2.3):

Tabla 4.2.3. Aleatorizacin del nmero de pruebas para obtener el porcentaje de algodn ptimo para
camisas

% de algodn Secuencia de corrida experimental
15 15 19 25 12 6
20 8 14 1 11 3
25 18 13 20 7 9
30 22 5 2 24 10
35 17 21 4 16 23

En ese orden, el ingeniero midi la resistencia a la tensin de las 25 muestras (en lb/plg
2
). Los resultados del
experimento son (Tabla 4.2.4.):

Tabla 4.2.4. Resistencia a la tensin para obtener el porcentaje de algodn ptimo para camisas

Tratamiento Observaciones Total Promedio
1 2 3 4 5
15 7 7 15 11 9 49 9,8
20 12 17 12 18 18 77 15,4
25 14 18 18 19 19 88 17,6
30 19 25 22 19 23 108 21,6
35 7 10 11 15 11 54 10,8
Total 376 15,04

El ingeniero quiere probar y hallar qu porcentaje de algodn es el que da una mayor resistencia a la tensin.

El diseo experimental es el siguiente:













Proceso de fabricacin de
camisas Camisas
Camisas resistentes

5
2
25
3
35


94
El anlisis estadstico es el siguiente:

Paso 1:

H0: No hay diferencia significativa entre las resistencias a la tensin de las telas de algodn
H1: Al menos una resistencia a la tensin de las telas es diferente

Paso 2:


Paso 3:



Paso 4:







Paso 5:

Con los valores de las muestras se realizan los clculos especficos:

)
3
25
3

5
)
3
25
5

3 5 2

Se llena la Tabla 4.2.5, con los valores calculados:

Tabla 4.2.5. Resultados ANOVA de la resistencia a la tensin

Fuente de
variacin
Suma de
cuadrados
Grados de
libertad
Media cuadrada Razn F
Entre
tratamientos


Error muestral

2 2

2
2


Total

3 2

Comparando el estadstico F con el valor crtico, se rechaza la hiptesis nula.

Conclusin: Existe diferencia significativa entre las resistencias medias a la tensin de las telas de algodn.

Accin: El ingeniero deber seleccionar la tela que presente mayor resistencia a la tensin.

25 5 2

4
3

95
El ejemplo anterior presentaba el mismo tamao de muestra para los tres tratamientos. Si alguno de los tratamientos
tiene diferente tamao el procedimiento es el mismo, tenindose un caso denominado desequilibrado o
desbalanceado.

2.2. Estimacin de los parmetros del modelo

Si se despeja de la ecuacin del modelo el error aleatorio debido al muestreo y se aplica el mtodo de mnimos
cuadrados, se determinan las ecuaciones para la estimacin de los parmetros y

del modelo de efectos fijos:


2 (

2 (

2

El sistema de ecuaciones resultante es:



Sin embargo, para este sistema existen infinitas soluciones. Una manera de resolver este problema es incluir la
restriccin:

, con lo cual la solucin a las ecuaciones normales es:



2

Esta solucin no es nica y depende de la restriccin que se ha elegido. Sin embargo, esto no interesa, ya que los
parmetros a estimar son las diferencias entre las medias de dos tratamientos y la media de cualquier tratamiento, y
stos son independientes de la restriccin usada.

2.3. Intervalo de confianza para las medias de tratamientos y la comparacin entre medias de tratamientos

Un intervalo de confianza para la media del i-simo tratamiento es:

(

)

Un intervalo de confianza para la diferencia de medias de dos tratamientos es:

(

)

Ejemplo

Determine los efectos de los 3 tratamientos y estime las medias del ejemplo anterior.

Se determina la media general:


96

3
2
5

Se hallan los valores de los efectos de cada tratamiento:

5 52

5 5 3

5 25

4

4

2 5 5

5 2

La estimacin de medias:

( 2

5
) 5
(5

25) 5

(25

5) 5
(5

225) 5
(5
4
225) 5
(5

35) 5

2.4. Comparacin de medias de tratamientos individuales

Si despus de realizar un anlisis de varianza, se prueba estadsticamente que hubo diferencia entre los
tratamientos, entonces ahora interesar conocer cul de ellos es el diferente. Para ello se realizan comparaciones
que se conocen como mtodos de comparacin mltiple, y son varios:

1. Comparacin grfica de medias.
2. Contrastes.
3. Contrastes ortogonales.
4. Mtodo de Scheft para comparar todos los Contrastes.
5. Comparacin de parejas de medias de tratamientos.
Mtodo de la mnima diferencia significativa (LSD).
Prueba de intervalos mltiples de Duncan.
Prueba de Newman-Keuls.
Prueba de Tukey
6. Comparacin de tratamientos con un control.

De todos ellos slo se desarrollar a continuacin los de comparacin de parejas de tratamientos y con control. No
se desarrollar la prueba de Newman-Keuls ni la de Tukey, porque no son tan eficientes como la de Duncan y el
LSD.

2.4.1. Mtodo de la mnima diferencia significativa (LSD)

Si la hiptesis nula de la ANOVA fue rechazada, se puede probar la siguiente hiptesis:



usando el estadstico t:

)


Suponiendo que la hiptesis alternativa es:



97
se rechaza la hiptesis nula cuando:

|

|

Dnde:

)

Si el diseo es balanceado (los tratamientos tienen el mismo nmero de observaciones), el LSD es:



Ejemplo

En el ejemplo anterior el LSD es:

2()
5
2

2()
5
35

Se construyen las diferencias de los promedios de los tratamientos:


4
2



Si existen 5 tratamientos, habr (52)

()
combinaciones tomadas de 2 en dos:

|

| | 5| 5
|

| | |
|


4
| | 2|
|

| | |
|

| |5 | 22
|


4
| |5 2| 2
|

| |5 |
|


4
| | 2|
|


4
| | |
|
4

| |2 |

Los valores marcados con asterisco son las parejas de medias que son significativamente diferentes, es decir cuyas
hiptesis nulas han sido rechazadas. Las nicas parejas de medias significativamente iguales son 1 y 5, y 2 y 3.

Una desventaja de este mtodo es que conforme aumenta el nmero de tratamientos hay ms posibilidad de que se
cometa en varias pruebas un error tipo I.

Por ltimo se ordenan las medias de menor a mayor valor y se establece las relaciones de igualdad entre ellas:


4
2


El tratamiento que ha logrado mayor resistencia a la tensin de la fibra es el cuarto, que tiene 30% de porcentaje de
algodn.

2.4.2. Prueba de intervalos mltiples de Duncan

El procedimiento consiste en disponer en orden ascendente los a promedios de tratamiento, determinando luego el
error estndar de cada promedio mediante:


98



Para muestras de diferentes tamaos, n se debe reemplazar por la media armnica nh de ni:



A partir de la tabla de intervalos significativos de Duncan (vase anexo de tablas) se obtienen los valores de

( ),
para 23 , donde es el nivel de significancia y es el nmero de grados de libertad del error. Estos
intervalos deben transformarse en un conjunto de a-1 mnimos intervalos significativos

, para 23 ,
calculando de la siguiente manera:

( )

23

Luego se prueban las diferencias observadas entre las medias, comenzando por el valor ms alto contra el ms
pequeo, comparando esta diferencia con el intervalo mnimo significativo

. Despus se calcula la diferencia entre


el valor ms alto y el segundo ms pequeo y se compara con el intervalo significativo mnimo

. Este
procedimiento contina hasta que todas las medias han sido comparadas con la media ms grande. A continuacin
la diferencia entre la segunda media ms grande y la ms pequea se calcula y compara contra el intervalo mnimo
significativo

. Este proceso contina hasta que han sido consideradas las diferencias entre todos los
()


posibles pares. Si una diferencia observada es mayor que el intervalo mnimo significativo correspondiente, se
concluye que la pareja de medias en cuestin es significativamente diferente. Para evitar contradi cciones, ninguna
diferencia entre una pareja de medias se considera significativa si las dos medias se encuentran entre otras dos que
no difieran significativamente.

Ejemplo

Se realizar la prueba de Duncan al ejemplo del captulo. Primero se ordenan los promedios de tratamiento en orden
ascendente:


4
2

Luego se calcula el error estndar de cada promedio:

5
2

Usando la tabla de Duncan, para 20 grados de libertad (grados de libertad del error) y 5, los intervalos
significativos son:

(22) 25

(32) 3

(2) 3

(52) 325

Los rangos mnimos significativos son:

(22)

25(2) 35

(32)

3(2) 3

(2)

3(2)

(52)

325(2) 3

Se realizan las comparaciones en el siguiente orden:

|2 | 3 (

)
5 |2 | (
4
)
2 |2 5| 2 3 (

)
3 |2 | 35 (

)

99
3 | | (
4
)
3 5 | | 35 (

)
3 2 | 5| 22 35 (

)
3 2 | 5| 22 35 (

)
2 |5 | 5 3 (

)
2 5 |5 | 35 (

)
5 | | 35 (

)

Para facilitar la comparacin se anotan todas las medias en orden ascendente y sus igualdades:


4
2


Conclusin: Existen diferencias significativas entre todas las parejas de medias, excepto en 3 y 2, y 5 y 1. Por lo
tanto el mejor tratamiento es el 4 (30% de algodn), ya que presenta la mayor resistencia a la tensin, y es
significativamente distinta a las dems.

En este ejemplo el mtodo LSD y el mtodo de Duncan arrojaron respuestas iguales.

2.4.3. Comparacin de tratamientos con un control

Si existe en el experimento un control (un tratamiento a que se realiz para comparar los otros a-1 tratamientos),
se realiza el siguiente procedimiento desarrollado por Dunnet, que es una modificacin de la prueba t:

Se quieren probar las hiptesis:



para: 2

Para cada hiptesis se calculan las diferencias que se observan en las medias de tratamiento:

|

| 2

La hiptesis nula es rechazada con un nivel de significancia de si:

|

( )

)

donde la constante

( ) se encuentra en la tabla del Anexo ( es el nivel de significacin conjunto asociado a


las a-1 pruebas.

Ejemplo

Supngase que el tratamiento 5 es el control en el ejemplo del captulo. Con los datos:

5 2

5 5

Se encuentra la constante:

(2) 25

As, la diferencia crtica es:

(2)(

5
) 25

2()
5


Se comparan las diferencias con el valor crtico:

100

|

| | |
|

| |5 |
|

| | |
|
4

| |2 |

Conclusin: Se puede decir que los tratamientos 1, 2 tienen la misma resistencia a la tensin que el tratamiento de
control. Los tratamientos 3 y 4 son diferentes al tratamiento de control.

En general es mejor seguir la siguiente relacin para encontrar na:



Si se hubiera hecho caso de esta relacin, el nmero de observaciones para el control, es decir para el tratamiento 5
tendra que ser de 11 aproximadamente.

2.5. Una medida de asociacin

Un valor de F significativo para el ANOVA indica que hay una asociacin entre dos variables, la variable tratamiento
y la variable de respuesta. Sin embargo, F no indica la intensidad de la asociacin entre estas dos variables y esa
informacin es importante al evaluar el resultado de un experimento, pues es posible tener una asociacin pequea
entre dos variables, aunque la asociacin sea estadsticamente significativa debido a que se han utilizado muestras
suficientemente grandes.

Un estimador comn de la fuerza de la asociacin entre la variable del tratamiento y la de respuesta, s el estadstico
omega cuadrada de Hays,

, cuya frmula es:


( )



Ejemplo

Para el ejemplo de la resistencia a la tensin para obtener el porcentaje de algodn ptimo para camisas, el
estadstico tendra el siguiente valor:

5 (5 )
3


Se puede concluir que el porcentaje de algodn aporta o contribuye con el 69% de la varianza de la resistencia a la
tensin. De esa manera se comprueba que no solo es estadsticamente significativa la asociacin entre el porcentaje
de algodn y la resistencia a la tensin de la tela para camisas, sino que adems la asociacin es moderadamente
fuerte.

3. MODELO DE EFECTOS ALEATORIOS

3.1. Anlisis estadstico

Este modelo se usa cuando se quiere seleccionar a niveles (o tratamientos) de un factor aleatoriamente de una
poblacin de infinitos niveles, barriendo todo el rango de posibles valores del factor, consiguiendo as conclusiones
de toda la poblacin.

El modelo estadstico lineal, es el mismo que para los efectos fijos:

{
2
2


Donde

son variables aleatorias. Si

tiene una varianza

y es independiente de

, la varianza de cualquier
observacin es:


101
(



La hiptesis que se desea probar es ms general:

Primer paso.

( )

( )

Segundo paso. El investigador fija su nivel de riesgo:



Tercer paso.

Se muestra la Tabla 4.3.1, los clculos para este tipo de anlisis de varianza.

Tabla 4.3.1. Clculos para ANOVA de efectos aleatorios

Fuente de
variacin
Suma de
cuadrados
Grados de
libertad
Media cuadrada Razn F
Entre
tratamientos


Error muestral




Total



El estadstico de prueba es la F de Fisher, puesto que se estn relacionando dos varianzas. Las ecuaciones para
hallar este valor son:



Cuarto paso.







Quinto paso.

Se realiza la decisin con base en la regla establecida.

3.2. Clculo de los componentes de varianza del modelo

El procedimiento para estimar

se conoce como mtodo de anlisis de varianza y consiste en igualar los


valores esperados de las medias de cuadrados con su correspondiente valor observado en la tabla de anlisis de
varianza, para despus despejar las componentes de varianza. Al igualar los valores observados y esperados de las
medias de cuadrados y despejar se obtiene:



Para tamaos de muestras desiguales, n se debe reemplazar por:





102
Ejemplo

Una compaa textil posee gran nmero de telares. El ingeniero de procesos quiere averiguar si los telares producen
tela de resistencia homognea o existe una variacin significativa.

Para realizar el experimento seleccion 4 telares al azar de toda la poblacin, y de cada uno tom 4 observaciones
de la resistencia de tela producida al azar. Los resultados son (Tabla 4.3.2):

Tabla 4.3.2. Resistencia de tela producida por 4 telares elegidos al azar

Telares Observaciones
Totales
1 2 3 4
1 98 97 99 96 390
2 91 90 93 92 366
3 96 95 97 95 383
4 95 96 99 98 388
Totales 1527

Los resultados de la ANOVA con un nivel de significancia del 5%, son (Tabla 4.3.3):

Tabla 4.3.3. Resultados del ANOVA de resistencia de tela producida por 4 telares elegidos al azar








Se rechaza la hiptesis nula, es decir, existe diferencia significativa entre las resistencias de las telas producidas por
los distintos telares de la fbrica (El valor crtico para la comparacin es

3).

Las estimaciones para los componentes de la varianza son:

23



La estimacin de la varianza total de cualquier observacin de la muestra es:



Se puede observar que la mayor parte de la variabilidad se debe a diferencias entre los telares.

Aplicacin: El diferente desempeo de los telares puede ser causado por varios factores:

Instalacin inadecuada.
Programa de mantenimiento deficiente.
Supervisin ineficiente.
Operadores mal adiestrados.
Materia prima de baja calidad.
Defectos de fbrica.

El ingeniero de procesos deber aislar las causas especficas de la diferencia del desempeo de los telares. Si
podra identificar las fuentes de variacin, la varianza del proceso podra ser reducida tan bajo como 1.90 en teora,
pero en la prctica se sabe que no ocurrir eso, pero se incrementar la calidad de la tela.



Fuente de variacin Suma de
cuadrados
Grados de
libertad
Media
cuadrada
Razn F
Entre tratamientos 89,19 3 29,73 15,68
Error muestral 22,75 12 1,90
Total 111,94 15

103
3.3. Intervalos de confianza para los componentes de varianza

El intervalo de confianza para

se construye a partir del estadstico chi-cuadrada, usando el mtodo del pivote:



(

( )

)

El intervalo es:

(
( )

( )

)

No es posible determinar un intervalo de confianza para

, pero si para la proporcin de la varianza de una


observacin

:

(


)

dnde:

)

Ejemplo

Determine los intervalos de confianza para los componentes de la varianza de cada observacin del ejemplo
anterior.

El intervalo para la varianza

es:

23

2333


(
(2)
2333

(2)

) 5
(

5) 5

El intervalo de confianza para la proporcin

es:

44

4
(

44
) 25

4
(

) 53
(
25
25

53
53
) 5
(3

) 5

Se concluye que la proporcin de la variabilidad entre los telares est entre 39 y 98% de la variabilidad total de la
resistencia de la tela producida.

4. COMPROBACIN DE LA IDONEIDAD DEL MODELO

4.1. Suposiciones

Las suposiciones que deben hacerse para aplicar la ANOVA son:

Los datos estn descritos por el modelo:

104

{
2
2


los errores sean independientes y estn normalmente distribuidos con media cero y varianza constante

.

En el modelo aleatorio se hace la suposicin adicional de que las

son independientes y estn normalmente


distribuidos con media cero y varianza constante

y adems que

son variables aleatorias independientes.


Estas suposiciones sern comprobadas por medio del clculo de los residuos:

Cada valor, puede ser estimado mediante:



Los residuos sern calculados por:



Una vez calculados los residuos, se analizarn cuatro pruebas de idoneidad del modelo.

4.2. Suposicin de normalidad

Para comprobar la suposicin de normalidad se realiza un histograma de los residuos. Si la suposicin de que los
errores siguen una distribucin ( ()

) se satisface, esta grfica debe ser semejante a la de una


muestra extrada de una distribucin normal centrada en cero. Sin embargo, ocurren fluctuaciones considerables de
la normalidad cuando la muestra es pequea sin que esto signifique una violacin seria a la suposicin.

Cuando esto ocurre otro procedimiento til es realizar una grfica de probabilidad normal de los residuos. Una
grfica de este tipo es la representacin de la distribucin acumulada de los residuos sobre papel de probabilidad
normal, es decir, papel para grficas cuya escala de ordenadas es tal que la distribucin normal acumulada sea una
recta. Para construirla, deben disponerse los residuos en forma ascendente y graficar el k-simo residuo ordenado
contra su punto de probabilidad acumulada

sobre papel de probabilidad normal. Si la distribucin de


errores es normal, la grfica ser una lnea recta, poniendo nfasis en los valores centrales y no en los extremos.

Ejemplo

La Tabla 4.4.1 muestra los valores originales, los residuos y la sucesin de tiempo en que fueron recopilados los
datos de la resistencia a la tensin del ejemplo de distintos porcentajes de algodn.

Tabla 4.4.1. Residuos del ejemplo de la resistencia a la tensin

Trat. Observaciones Promedio
1 2 3 4 5
15 7
-2,8
15
7
-2,8
19
15
5,2
25
11
1,2
12
9
-0,8
6
9,8
20 12
-3,4
8
17
1,6
14
12
-3,4
1
18
2,6
11
18
2,6
3
15,4
25 14
-3,6
18
18
0,4
13
18
0,4
20
19
1,4
7
19
1,4
9
17,6
30 19
-2,6
22
25
3,4
5
22
0,4
2
19
-2,6
24
23
1,4
10
21,6
35 7
-3,8
17
10
-0,8
21
11
0,2
4
15
4,2
16
11
0,2
23
10,8

El histograma de residuos y la grfica de probabilidad normal, se muestran a continuacin (Grfico 4.4.1):

105
Grfico 4.4.1. Histograma de residuos del ejemplo de resistencia a la tensin


Esta es una distribucin ligeramente sesgada, con el extremo derecho ms largo que el izquierdo. El extremo
izquierdo de la distribucin del error es ms reducido que lo esperado en una distribucin normal; es decir los
residuos negativos no son tan grandes como se esperaba. Sin embargo, se puede decir que esta grfica se
aproxima a la normal suficientemente como para que la suposicin de normalidad se cumpla.

A continuacin en la Tabla 4.4.2 se determinan los residuos y las probabilidades acumuladas y se observan en el
Grfico 4.4.2.

Tabla 4.4.2. Valores de residuos y probabilidades acumuladas

Orden k Residuo


Orden k Residuo


1 -3,8 0,02 14 0,4 0,54
2 -3,6 0,06 15 0,4 0,58
3 -3,4 0,10 16 1,2 0,62
4 -3,4 0,14 17 1,4 0,66
5 -2,8 0,18 18 1,4 0,70
6 -2,8 0,22 19 1,4 0,74
7 -2,8 0,26 20 1,6 0,78
8 -2,6 0,30 21 2,6 0,82
9 -0,8 0,34 22 2,6 0,86
10 -0,8 0,38 23 3,4 0,90
11 0,2 0,42 24 4,2 0,94
12 0,2 0,46 25 5,2 0,98
13 0,4 0,50

En esta grfica se observa una tendencia lineal, con ligeras variaciones.

Grfico 4.4.2. Distribucin normal acumulada de residuos


Histograma
-5 -3 -1 1 3 5 7
RESIDUALS
0
2
4
6
8
10
f
r
e
c
u
e
n
c
i
a
Grfico de Probabilidad Normal para Residuos
-3,8 -1,8 0,2 2,2 4,2 6,2
Residuos
0.1
1
5
20
50
80
95
99
99,9
p
o
r
c
e
n
t
a
j
e

106
En general estas desviaciones moderadas no tienen mucha importancia en el modelo de efectos fijos, pero el
modelo de efectos aleatorios se ve ms afectado por la no normalidad.

4.3. Presencia de residuos inusitados o atpicos

Un defecto que a menudo se muestra en la grfica de probabilidad normal es un residuo que es mucho mayor que
los otros, denominado residuo inusitado, que distorsiona seriamente el anlisis de varianza. Si se encuentra ms de
uno, se deber realizar una cuidadosa investigacin para tratar de eliminarlos.

Para hallarlos se realiza la comparacin grfica de los residuos estandarizados (

), con una distribucin


normal con media cero y varianza uno, con una dispersin de 3 desviaciones estndar. Si algn residuo est fuera
del rango, este es un inusitado.

Ejemplo

En el ejemplo de la resistencia a la tensin, se puede observar que no existe ningn residuo inusitado. El residuo
distanciado mximo es:

52

3

4.4. Independencia de residuos

Para determinar alguna correlacin entre los datos, se realiza una grfica de residuos en funcin del orden del
tiempo en el que se recopilaron los datos. Si existe una correlacin positiva quiere decir que los residuos no son
independientes, y generalmente se debe a que no se sigui un procedimiento de aleatorizacin de las
observaciones.

Otros problemas se pueden detectar mediante esta grfica, como el que se pueda observar que la habilidad del
experimentador cambi por cansancio a medida que se desarrollaba el experimento y por lo tanto la varianza
aument.

Ejemplo

A continuacin se muestra el Grfico 4.4.3 de residuos contra el tiempo, para el ejemplo de la resistencia a la tensin
de telas con diferentes porcentajes de algodn.

Grfico 4.4.3. Residuos vs. secuencia de tiempo

Observando la grfica no existe razn para dudar de la suposicin de independencia de los errores aleatorios. No
existe ningn patrn diferente del aleatorio y los residuos estn distribuidos uniformemente abajo y arriba del cero.

4.5. Varianza constante

4.5.1. Mtodo grfico

Las suposiciones indican que los residuos no deben tener ningn patrn o estar relacionados con alguna variable,
incluyendo la respuesta

. Dicho de otra manera se debe verificar el supuesto de varianza constante (o que los
-5
-4
-3
-2
-1
0
1
2
3
4
5
6
0 10 20 30 R
e
s
i
d
u
o

Tiempo

107
tratamientos tienen la misma varianza). Para detectar si hay patrones, se grafican los residuos contra los promedios
de tratamiento

. Si los puntos de esta grfica se distribuyen aleatoriamente, entonces se cumple el supuesto de


homogeneidad de varianzas, pero si existe una forma de corneta, embudo o alta voz, entonces no se cumple el
supuesto.

Tambin se puede realizar la grfica de niveles o tratamientos vs. residuos para realizar esta comprobacin. Si se
cumple el supuesto, se espera que la amplitud de la dispersin de los puntos en cada nivel de factor tienda a ser
similar.

Ejemplo

El grfico de residuos contra valores ajustados del ejemplo de la resistencia a la tensin se muestra a continuacin.

Grfico 4.4.4. Residuos vs. valores ajustados



Observando la grfica no se detecta ningn patrn inusual, y la varianza se mantiene aproximadamente constante.

Un defecto que en ocasiones revela la grfica es el de una varianza variable, es decir que depende o se incrementa
conforme lo hace la magnitud de las observaciones. En estos casos la grfica parecer un embudo que se ensancha
o un altavoz. Esto ocurre tambin cuando no se cumple la suposicin de normalidad.

Tambin se puede ver si la varianza se mantiene constante en los diferentes niveles de la variable de entrada (Ver
Grfico 4.4.5).

Grfico 4.4.5. Residuos versus % de algodn


Se observa que la varianza se mantiene constante en los diferentes niveles de la variable de entrada.

Por lo tanto, el experimento de la resistencia a la tensin de diferentes telas con distintos porcentajes de algodn
cumple con todas las pruebas de idoneidad del modelo.


Grfico de Residuos para Resistencia
-6
-4
-2
0
2
4
6
r
e
s
i
d
u
o
s
9 12 15 18 21 24
predichos
15 20 25 30 35
Grfico de Residuos para Resistencia
-6
-4
-2
0
2
4
6
r
e
s
i
d
u
o
s
% algodn

108
4.5.2. El test de Levene

Existen varios test para verificar el supuesto de varianza constante. Algunas de ellas son: la prueba de
Bartlett, la prueba de Levene (Brown & Forsythe, 1974), la prueba de Hartley (1950), la prueba de
Cochran (1941), la prueba de Fligner & Killeen (1976), la prueba basada en la teora de la informacin, la
prueba de Layard, etc. Aqu solo se desarrollar la prueba de Levene porque es menos sensible a la
desviacin del supuesto de normalidad.

La hiptesis que se quiere probar es:

( )

El estadstico de prueba de Levene se define como:


( )

( ) (



Dnde:

|, donde

es la media del i-simo subgrupo o tratamiento.

es la media global de

es la media del i-simo subgrupo de los

.

La prueba de Levene rechaza la hiptesis de que las varianzas son iguales con un nivel de significancia
si

donde

es el valor crtico superior de la distribucin F con a1 grados de


libertad en el numerador y N a grados de libertad en el denominador a un nivel de significancia .

Ejemplo

Se verificar en el ejemplo de la resistencia a la tensin para fabricacin de camisas si la varianza se mantiene
constante entre los 5 tratamientos. Los clculos son los siguientes:

Tratamiento


1 2 3 4 5
15 2,8 2,8 5,2 1,2 0,8 2,56 5 0,9331
20 3,4 1,6 3,4 2,6 2,6 2,72 5 1,7523
25 3,6 0,4 0,4 1,4 1,4 1,44 5 2,3667
30 2,6 3,4 0,4 2,6 1,4 2,08 5 0,0115
35 3,8 0,8 0,2 4,2 0,2 1,84 5 0,4147
Total

= 2,128 N = 25 5,4784


Tratamiento
(



1 2 3 4 5
15 0,0576 0,0576 6,9696 1,8496 3,0976
12,032
20 0,4624 1,2544 0,4624 0,0144 0,0144
2,208
25 4,6656 1,0816 1,0816 0,0016 0,0016
6,832
30 0,2704 1,7424 2,8224 0,2704 0,4624
5,568
35 3,8416 1,0816 2,6896 5,5696 2,6896
15,872
Total 42,512

109


(25 5)(5)
(5 )(252)
3

Puesto que el valor de W es mayor al valor crtico
4
2 , se acepta la hiptesis nula, es decir, la
varianza se mantiene constante a lo largo de todo el experimento.

5. SELECCIN DEL TAMAO MUESTRAL

Se tienen 3 mtodos para determinar el tamao apropiado de una muestra (rplicas):

1. Curvas caractersticas de operacin
2. Especificacin de un incremento en la desviacin estndar
3. Estimacin por intervalos de confianza

Sin embargo, no se realizar el segundo mtodo, ya que es poco usado.

5.1. Curvas caractersticas de operacin

Una curva caracterstica de operacin es una grfica de la probabilidad del error tipo II de una prueba de inferencia
estadstica, para un tamao de muestra particular, contra el parmetro que refleja la extensin en la cual la hiptesis
nula es falsa. Estas curvas son una gua para seleccionar el tamao muestral para que el diseo sea sensible a
diferencias potenciales entre tratamientos.

5.1.1. Modelo de efectos fijos

La probabilidad del error tipo II es:

(

)

(

)

Para evaluar esta probabilidad, se requiere conocer la distribucin del estadstico F0 si la hiptesis nula es falsa. Es
posible mostrar que si eso ocurre F0 tiene distribucin F no centrada, con a-1 y N-a grados de libertad y un
parmetro de descentralizacin . Si , la distribucin se transforma en la usual centrada.

Las curvas caractersticas de operacin se muestran en las tablas de anexos. En ellas se indica la probabilidad del
error tipo II en funcin del parmetro , donde:

est asociado al parmetro de descentralizacin . Hay curvas para y 5 y para diversos valores
de los grados de libertad del numerador y denominador.

Para hallar n, el investigador debe dar un valor a . Esto es muy difcil de determinar, pero una forma de hacerlo es
elegir los valores de las medias de tratamiento para los cuales se desea rechazar la hiptesis nula con una
probabilidad alta. Si

son las medias de tratamiento propuestas, el valor de

se encuentra usando la
anterior ecuacin, donde:

, el promedio de las medias individuales de tratamiento. Tambin


es necesaria una estimacin de

, que se la obtiene por experiencias pasadas, experimentos previos o


estimaciones propuestas. Cuando no hay seguridad en esta estimacin, el tamao de las muestras puede
determinarse para un intervalo de valores posibles y estudiar sus efectos sobre el tamao de la muestra.

Ejemplo

Se considerar el ejemplo de la resistencia a la tensin, suponiendo que el investigador rechazar la hiptesis nula
con una probabilidad mnima de 0,99 si las medias de tratamiento son:

5
4




110
Se fija un nivel de significancia de 0,01. En este caso:

5 y los efectos de tratamiento son:


2 5 3

5 5

4

4
5 3

5

Luego se calcula que:

5. Adems el investigador ha estimado que la desviacin estndar de la resistencia


a la tensin de cualquier observacin no excede a 3 psi. Mediante la ecuacin para

se obtiene:

5
5()


Se utilizar la curva caracterstica de operacin para 5 , ( ) 5( ), grados de
libertad del error y . (Ver Anexo de tablas estadsticas). Como no se sabe qu tamao muestral n dar la
potencia de prueba adecuada, se construye una tabla, con los datos especficos:

n

a(n-1) Poder ( )
4 4,44 2,11 15 0,30 0,70
5 5,55 2,36 20 0,15 0,85
6 6,66 2,58 25 0,04 0,96

Conclusin: Se requieren al menos 6 rplicas para tener una prueba con la potencia deseada.

Cuando resulta difcil seleccionar el conjunto de medias de tratamiento sobre el cual se basar la decisin, un
enfoque ms sencillo es seleccionar el tamao de muestra de manera que se rechace la hiptesis nula si la
diferencia entre cualquier par de medias de tratamiento excede un valor especfico D, donde:



Ejemplo

Se vuelve a utilizar el ejemplo de la resistencia a la tensin. El investigador desea rechazar la hiptesis nula con una
probabilidad de 0,99, si la diferencia entre cualquier par de medias de tratamiento a lo sumo es igual a 10 psi,
suponiendo 3 psi.

El valor mnimo de

es:

()

2(5)(3)




5.1.2. Modelo de efectos aleatorios

La probabilidad del error tipo II para este modelo es:

(

)

(

)

Es posible demostrar que si

es verdadera (

), F0 tiene una distribucin F centrada, con a-1 y N-a grados de


libertad.

En las curvas caractersticas para este modelo (ver Anexo de tablas estadsticas al final del texto) se grafica la
probabilidad del error tipo II contra el parmetro :


111



Si se tiene una idea de cuanta variabilidad es importante detectar en la poblacin de tratamientos, puede estimarse

. Mediante experiencia anterior se puede estimar

. Para definir

a veces es til usar la relacin

.

Ejemplo

Supngase que se han seleccionado aleatoriamente 5 tratamientos con 6 observaciones por tratamiento, y que
5. Se desea determinar la potencia de la prueba si

es igual a

.

El valor de es:

() 2

La curva caracterstica de operacin con a-1=4 y N-a=25 grados de libertad, para el nivel 0,05, arroja un error tipo II
de 2. La potencia de la prueba es entonces de 0,8.

5.2. Estimacin por intervalos de confianza

La suposicin bsica para usar este mtodo es que los resultados deben ser representados en intervalos de
confianza y que se debe especificar de antemano la anchura de los intervalos.

Recurdese que el error mximo que se puede cometer en la estimacin de la media para la diferencia entre dos
tratamientos es:



Observando la ecuacin, se concluye que este error depende del nivel de confianza fijado, la varianza del error
aleatorio y del tamao muestral.

Entonces, el mnimo tamao de muestra para no exceder un error fijado, vendr dado por:

2



Ejemplo

Si se considera el ejemplo de la resistencia a la tensin, en el cual el ingeniero quera probar si los porcentajes de
algodn influan en la resistencia a la tensin de las telas para la confeccin de camisas para varn, y ste quera
que la diferencia entre cualquiera dos tratamientos no sobrepase de 5 psi, con una confianza del 95%, y que una
estimacin a priori de la varianza del error es de 9, el tamao de la muestra para cada tratamiento debi ser de:

2

2() (
2
5
)



n = 4 es el tamao mnimo de la muestra que conducira a la precisin deseada de 5 psi.

6. MTODOS NO PARAMTRICOS EN EL ANLISIS DE VARIANZA (KRUSKAL WALLIS)

Si en un experimento el investigador duda de que los datos adquiridos cumplan con las suposiciones para
desarrollar la ANOVA, entonces deber recurrir a otros mtodos no paramtricos, donde la suposicin de normalidad
principalmente, no es un requisito.

El mtodo de Kruskal Wallis es especialmente til cuando se seleccionan k conjuntos aleatorios independientes de
observaciones muestrales (que deben ser por lo menos de nivel ordinal) y se quiere saber si provienen o no de la

112
misma poblacin (o si tienen medias iguales). Esta es una prueba alternativa a la ANOVA, la cual no requiere que
las poblaciones estn normalmente distribuidas y que sus desviaciones estndares sean iguales.

Primer paso.

H0: Las muestras provienen de la misma poblacin (Los tratamientos son iguales)

H1: Las muestras provienen de poblaciones distintas (Los tratamientos no son iguales)

Segundo paso.



Tercer paso.

El estadstico de prueba es:

()

4
)

()

4
)

es la varianza de los rangos. Si no hay muchos empates

()

y el estadstico de prueba se simplifica a:




2
( )
(

) 3( )

dnde:

, es la suma de los rangos de la muestra i


ni es el tamao de la muestra i, es decir el nmero de rplicas de cada tratamiento.
N es el nmero combinado de observaciones para todas las muestras de tratamiento.
a-1 son los grados de libertad.
a es el nmero de poblaciones o tratamientos.

Cuarto paso.

La distribucin del estadstico H se acerca mucho a la distribucin chi-cuadrada con a-1 grados de libertad con la
condicin de que cada tamao de muestra sea por lo menos de 5.








Quinto paso.

Se hallan la sumas de rangos de todas las muestras, ordenando los valores de menor a mayor y asignando el valor
de 1 para el valor ms bajo. En caso de empate (varias observaciones con el mismo valor para la asignacin del
rango), se asigna el rango promedio a cada observacin empatada.
Luego se halla el valor del estadstico y se realiza la decisin.

Ejemplo

Se va a llevar a cabo un seminario de administracin para un gran nmero de ejecutivos de manufactura, finanzas y
comercio. Antes de programar las sesiones, el director quiere saber si los tres grupos tienen conocimientos
semejantes sobre los principios de administracin o gerenciales. Se tom muestras de los ejecutivos de los tres
grupos y se aplic una prueba a cada uno (Tabla 4.6.1).




113
Tabla 4.6.1. Prueba a ejecutivos sobre conocimientos de negocios

Manufactura Finanzas Comercio
51 14 89
32 31 20
17 68 60
69 87 72
86 20 56
62 28 22
96 77
97

Si no existe diferencia entre las tres distribuciones, el director impartir una sola sesin a todos, pero si hay
diferencia en las puntuaciones, se impartirn sesiones separadas.

El director del seminario no sabe nada acerca de la forma de la distribucin de la poblacin de las puntuaciones
sobre principios de administracin y tampoco puede suponer que las varianzas de las poblaciones son iguales.
Impartir sesiones separadas? Realice la prueba al nivel 0,05.

Primer paso.

H0: Las distribuciones de las puntuaciones sobre principios de administracin son iguales
H1: No todas las distribuciones son iguales

Segundo paso.

5

Tercer paso.


2
( )
(

) 3( )

Cuarto paso.







Quinto paso.

Se hallan la sumas de rangos de todas las muestras, ordenando los valores de menor a mayor y asignando el valor
de 1 para el valor ms bajo (Tabla 4.6.2).

Tabla 4.6.2. Clculos para determinar si ejecutivos de tres reas tienen igual conocimiento sobre negocios

Manufactura R1 Finanzas R2 Comercio R3
51 9 14 1 89 19
32 8 31 7 20 3.5
17 2 68 13 60 11
69 14 87 18 72 15
86 17 20 3,5 56 10
62 12 28 6 22 5
96 20 77 16
97 21
Sumas (Ri.) 82 85,5 63,5

55

114
Como no hay muchos empates, se halla el valor del estadstico H simplificado:


2
2(2 )
(
2

55

35

) 3(2 )

Comparando este valor con el crtico, se acepta la hiptesis nula.

Conclusin: No hay evidencia estadstica suficiente para que el director pueda pensar que los niveles de
conocimiento sobre administracin de los tres grupos que tomarn el seminario sean diferentes.

Accin: El director planificar una sola sesin para todos los asistentes al seminario.

Ejemplo

Realice el anlisis del ejemplo de la resistencia a la tensin, suponiendo que los datos no se ajustan a la normalidad.

Primer paso.

H0: Los porcentajes de algodn producen igual resistencia a la tensin
H1: Algn porcentaje de algodn produce diferente resistencia a la tensin


Segundo paso.


Tercer paso.

Como hay una gran cantidad de empates es mejor usar el estadstico general:

()

4
)

()

4
)

Cuarto paso.








Quinto paso.

Se hallan la sumas de rangos de todas las muestras, ordenando los valores de menor a mayor y asignando el valor
de 1 para el valor ms bajo (Tabla 4.6.3).

Tabla 4.6.3. Clculo de rangos para el ejemplo de la resistencia a la tensin

15% R1 20% R2 25% R3 30% R4 35% R5
7 2 12 9,5 14 11 19 20,5 7 2
7 2 17 14 18 16,5 25 25,0 10 5
15 12,5 12 9,5 18 16,5 22 23,0 11 7
11 7 18 16,5 19 20,5 19 20,5 15 12,5
9 4 18 16,5 19 20,5 23 24,0 11 7
(Ri.) 27,5 66,0 85,0 113,0 33,5

Como hay varios empates, se halla el valor del estadstico H no simplificado:

25
(5
25(25 )

) 533

32

115

533
(525
25(25 )

) 25

Comparando este valor con el crtico, se rechaza hiptesis nula.

Conclusin: Los tratamientos son diferentes. Hay evidencia estadstica suficiente para que el ingeniero pueda elegir
el porcentaje adecuado de algodn que produzca en la tela una resistencia a la tensin mayor.

Esta es la misma conclusin que la que se obtuvo en la ANOVA.


116
EJERCICIOS DE CLASE


ANOVA de efectos fijos

En todos los ejercicios realice:

a) La prueba ANOVA.
b) Estimacin de los parmetros del modelo (media global, efectos de tratamientos e intervalos de confianza
para las medias de tratamientos)
c) Comparacin de parejas de medias de tratamientos por los mtodos:
Mtodo de la mnima diferencia significativa (LSD).
Prueba de intervalos mltiples de Duncan.
d) Comparacin de tratamientos con un control (suponiendo que el tratamiento 1 es el control).
e) Prueba de normalidad mediante una grfica de probabilidades acumuladas de los errores.
f) Grfica de residuos contra el valor ajustado
ij
y .
g) Estimacin del poder de la prueba.
h) Realizacin de una prueba no paramtrica alternativa a la ANOVA y comparacin de los resultados.

1. Pruebe la hiptesis nula de que tres mtodos de instruccin, que miden el nivel especfico de habilidades para el
manejo de cierta mquina, son equivalentes. Las notas obtenidas en 15 operarios seleccionados aleatoriamente
en 3 grupos se presentan a continuacin (Tome 5% como nivel de significancia).

Mtodo A 86 79 81 70 84
Mtodo B 90 76 88 82 89
Mtodo C 82 68 73 71 81

2. Se ha realizado un experimento para determinar si cuatro temperaturas especficas de horneado afectan la
densidad de un cierto tipo de ladrillo. El experimento proporcion los siguientes datos:

Temperatura
Densidad
Observaciones
1 2 3 4 5
100 21,8 21,9 21,7 21,6 21,7
125 21,7 21,4 21,5 21,4
150 21,9 21,8 21,8 21,6 21,5
175 21,9 21,7 21,8 21,4

Afecta la temperatura de horneado la densidad del ladrillo? Use .

3. Una compaa farmacutica desea evaluar el efecto que tiene la cantidad de almidn en la dureza de las
tabletas. Se decidi producir lotes con una cantidad determinada de almidn. Las cantidades de almidn a probar
fueron de 2%, 5% y 10%. La variable de respuesta sera el promedio de la dureza de 20 tabletas de cada lote,
obtenindose los siguientes resultados:

% almidn Dureza
2 4,3 5,2 4,8 4,5
5 6,5 7,3 6,9 6,1
10 9,0 7,8 8,5 8,1

a) Con los datos experimentales, hay evidencia suficiente de que el porcentaje de almidn influye en la dureza
de las tabletas?
b) Realice los anlisis complementarios necesarios.
c) Qu recomendara al fabricante si se desea maximizar la dureza de las tabletas?
d) Verifique la idoneidad del modelo.





117
ANOVA de efectos aleatorios

4. Un fabricante supone que existe diferencia en el contenido de calcio en lotes de materia prima que le son
suministrados por su proveedor. Actualmente hay una gran cantidad de lotes en la bodega. Cinco de stos son
elegidos aleatoriamente. Un qumico realiza 5 pruebas sobre cada lote y obtiene los siguientes datos:

Nmero
de lote
Observaciones del contenido de calcio
1 2 3 4 5
1 23,46 23,48 23,56 23,39 23,40
2 23,59 23,46 23,42 23,49 23,50
3 23,51 23,64 23,46 23,52 23,49
4 23,28 23,40 23,37 23,46 23,39
5 23,29 23,46 23,37 23,32 23,38

a) Hay variacin significativa en el contenido de calcio de un lote a otro?
b) Estime los componentes de varianza del modelo.
c) Determine un intervalo de confianza del 95% para la proporcin de la variacin debido a los efectos de
tratamiento.
d) Realice la prueba de Kruskal Wallis y compare los resultados con la ANOVA.

5. Suponga que

5
4
, son las medias de cuatro poblaciones normales. Cuntas
observaciones deben tomarse de cada poblacin para que la probabilidad de rechazar la hiptesis nula de
igualdad de medias sea al menos de 0,9? Suponga que 5 y que una estimacin razonable de la varianza
del error es de

25.

118
EJERCICIOS PROPUESTOS


En todos los ejercicios realice:

a) La prueba ANOVA.
b) Estimacin de los parmetros del modelo (media global, efectos de tratamientos e intervalos de confianza
para las medias de tratamientos)
c) Comparacin de parejas de medias de tratamientos por los mtodos:
Mtodo de la mnima diferencia significativa (LSD).
Prueba de intervalos mltiples de Duncan.
d) Comparacin de tratamientos con un control (suponiendo que el tratamiento 1 es el control).
e) Prueba de normalidad mediante una grfica de probabilidades acumuladas de los errores.
f) Grfica de residuos contra el valor ajustado.
g) Estimacin del poder de la prueba.
h) Realice una prueba no paramtrica alternativa a la ANOVA y compare los resultados.

1. En un estudio se compararon los efectos de cuatro promociones mensuales sobre las ventas. A continuacin
presentamos las ventas unitarias de 5 tiendas que utilizaron las 4 promociones en meses diferentes:

Muestra gratis 78 87 81 89 85
Regalo de un paquete 94 91 87 90 88
Descuento 73 78 69 83 76
Reembolso por correo 79 83 78 69 81

Las promociones producen diferentes efectos sobre las ventas? (Use un nivel de significancia de 0,01).

2. La oficina de contabilidad del gobierno de Bolivia est interesada en ver si las oficinas de tamao parecido
gastan la misma cantidad de dinero en personal y equipo (Las oficinas que gastan ms son susceptibles de una
auditoria especial) Se examinaron los gastos mensuales de tres oficinas: una de ellas en el ministerio de
agricultura, otra en el ministerio de estado y la ltima en el ministerio del interior. Los datos se presentan a
continuacin. Al nivel de significancia de 0,01, existen diferencias en los gastos de las diferentes oficinas?

Gastos mensuales (en cientos de dlares) durante
algunos meses
Agricultura 10 8 11 9 12
Estado 15 9 8 10 13 13
Interior 8 16 12

3. Nutica, ofrece 4 marcas populares de pantalones Jeans: Levis, Wrangler, American Colt, Oops. La tienda desea
ver si existen diferencias en el nmero de pantalones vendidos de marca diferente. El gerente ha contado el
nmero de pantalones vendidos de cada marca en diferentes meses. Al nivel de significancia de 0,05, son
iguales las ventas de las 4 marcas?

Pantalones vendidos
Levis 17 21 13 27 12
Wrangler 27 13 29 9
American Colt 13 15 17 23 10 21
Oops 18 25 15 27 12

4. Una compaa de investigacin ha diseado tres sistemas distintos para limpiar manchas de aceite. La siguiente
tabla contiene los resultados de cada sistema, medidos en qu tanta superficie (en metros cuadrados) es
limpiada en una hora. Los datos se obtuvieron probando cada mtodo en varias sesiones. Son los tres
sistemas igualmente efectivos? Utilice un nivel de significancia de 0,05.

A 55 60 63 56 59 55
B 57 53 64 49 62
C 66 52 61 57



119
En los ejercicios siguientes realice:

a) Estime los componentes de varianza del modelo.
b) Determine un intervalo de confianza del 95% para la varianza.
c) Determine un intervalo de confianza del 95% para la proporcin de la variacin debido a los efectos de
tratamiento.
d) Prueba de normalidad mediante una grfica de probabilidades acumuladas de los errores.
e) Grfica de residuos contra el valor ajustado.
f) Estimacin del poder de la prueba.
g) Realice una prueba no paramtrica alternativa a la ANOVA y compare los resultados.

5. Una fbrica de textiles cuenta con un gran nmero de telares. Se supone que cada uno tiene la misma
produccin de tela por minuto. Para investigar esta suposicin, cinco telares son escogidos al azar, y se mide la
cantidad de tela producida en 5 tiempos diferentes. Se obtienen los datos siguientes:

Nmero
de telar
Produccin (lb/min)
1 2 3 4 5
1 14,0 14,1 14,2 14,0 14,1
2 13,9 13,8 13,9 14,0 14,0
3 14,1 14,2 14,1 14,0 13,9
4 13,6 13,8 14,0 13,9 13,7
5 13,8 13,6 13,9 13,8 14,0

6. En una forja se utilizan varios hornos para calentar muestras de metal. Se supone que todos los hornos operan a
la misma temperatura, aunque se sospecha que esto probablemente no es cierto. Se seleccionan aleatoriamente
3 hornos y se anotan sus temperaturas en tres calentamientos sucesivos. Los datos se muestran a continuacin.

Horno Temperatura
1 491,50 498,30 498,10 493,50 493,60
2 488,50 484,65 479,90 477,35
3 490,10 484,80 488,25 473,00 471,85 478,65

Existe variacin significativa en la temperatura de los hornos?

You might also like