You are on page 1of 34

EC302: Estadstica II.

Anlisis de la varianza (ANOVA)


Marcelo Avalos
Mayo de 2013
Fuente:
Newbold, 1998. Cap. 15.
Amn, 1996. Cap. 15.
Introduccin
Los modelos de ANOVA (ANalysis Of VAriance) son un
conjunto de modelos estadsticos donde se analiza la
relacin entre una o ms variables independientes con una
o ms variables dependientes.
Las variables dependientes son siempre mtricas y las
independientes son siempre no mtricas.
Cuando hay dos o ms variables dependientes se les
denomina MANOVA (Multivariate ANalysis Of VAriance).
Si se introduce una o ms variables independientes
mtricas (manteniendo al menos una independiente no
mtrica), nos encontramos ante modelos de ANCOVA
(ANalysis Of COVAriance), que no veremos en este curso.
Introduccin
El anlisis se realiza descomponiendo la varianza de
la(s) variable(s) dependiente(s).
Estos componentes corresponden a la varianza
explicada por la(s) independientes(s), su interaccin
(opcionalmente) y el error (o residuo).
Para el contraste de hiptesis se utiliza el estadstico F
puesto que es un contraste de razn de varianzas.
Se realizan contrastes independientes para cada
variable independiente y para su interaccin.
Los resultados se presentan en una tabla de ANOVA
que tiene siempre las mismas columnas, pero el
nmero de filas depende del modelo especfico.
Primer criterio de clasificacin
Segn n de variables independientes:
Simple: se define slo una variable independiente. En este
contexto, puede entenderse el ANOVA como una
generalizacin de las pruebas y para diferencias de dos
poblaciones. En la siguiente seccin utilizaremos el ANOVA
para contrastar la hiptesis nula de igualdad de medias de
poblaciones ( 2).
Mltiple (o factorial): se definen dos o ms variables
independientes. En ocasiones tambin se analiza la
interaccin entre ellas. Esta interaccin se operacionaliza
como el conjunto de las combinaciones de los valores (o
niveles) de las variables independientes.
Segundo criterio de clasificacin
Segn grado de aleatorizacin:
Completamente aleatorizado: el comportamiento de
la variable dependiente slo se ve afectado por la(s)
independiente(s), por lo que es posible hacer un
muestreo aleatorio en cada nivel de estas ltimas.
Aleatorizado en bloque: existen variables que afectan
la relacin entre la dependiente y la independiente,
pero no se consideran independientes sino
intervinientes, por lo que debe controlarse a travs de
un muestreo estratificado en cada nivel de la(s)
variable(s) independiente(s).
Tercer criterio de clasificacin
Segn tipo de efectos:
Efectos fijos: todos los valores de la(s)
independiente(s) (poblaciones a comparar) son
considerados en el anlisis.
Efectos aleatorios: en el anlisis se considera un
subconjunto (una muestra aleatoria) de los
valores de la(s) independiente(s).
Efectos mixtos: una o ms independientes
presentan efectos fijos y una o ms presentan
efectos aleatorios.
ANOVA simple, completamente
aleatorizado y efectos fijos
ANOVA simple, completamente
aleatorizado y efectos fijos
La variable independiente presenta i niveles, de tal manera que el
valor de Y en el sujeto j de la muestra i se puede entender como la
suma de los efectos de la media global (), del nivel i de la variable
independiente y de un error idiosincrtico del sujeto (

):

= +

+

La hiptesis nula a contrastar es la de igualdad de todas las i
medias.
De ser rechazada, sabemos que al menos una de las i medias es
significativamente distinta de las dems, pero no sabemos cul.
Para averiguarlo debemos realizar contrastes posteriores (post
hoc) que indican qu diferencia en particular resulta significativa
(puede haber ms de una).
ANOVA simple
En este caso la hiptesis nula es de igualdad de medias
poblacionales:



Mientras que la hiptesis alternativa es que al menos una media
es distinta de las dems.

: |


Si se distribuye normalmente y las varianzas de las
poblaciones son similares (homocedsticas), la variable
=


Se distribuye segn una de Snedecor con ( 1) y ( ) grados
de libertad. Donde es la cantidad de poblaciones a comparar y
el nmero de observaciones de la muestra total.
tal que
para todo
ANOVA simple
Los trminos

(media cuadrtica entre grupos) y

(media cuadrtica
dentro de los grupos) se obtienen a partir de las sumas de cuadrados entre
los grupos y dentro de los grupos, respectivamente, que definiremos a
continuacin.
Denominando a la media de la muestra total,

a la media de la i-sima
muestra, al tamao de la muestra total,

al tamao de la i-sima muestra


y

a la j-sima observacin de la i-sima muestra, definimos las siguientes


sumas de cuadrados
: =

=1

: =

=1

=1

: =

=1

=1

ANOVA simple
Estas sumas de cuadrado las disponemos en una tabla
ANOVA para obtener las medias cuadrticas entre los
grupos (

) y dentro de los grupos (

). Con ellas
calculamos el estadstico para contrastar la hiptesis nula.
Fuente de variacin
Suma de
cuadrados
Grados de
libertad
Medias
cuadrticas

Entre grupos (factor) 1

1

=


Intragrupo (error)



Total 1
Rechazamos H
0
si >
1;;

ANOVA simple
Scientific American (1) Fortune (2) New Yorker (3)

1

1
2

2

2
2

3

3
2
15,75 22,8484 12,63 3,8025 9,27 3,7636
11,55 0,3364 11,46 0,6084 8,28 0,9025
11,16 0,0361 10,77 0,0081 8,15 0,6724
9,92 1,1025 9,93 0,5625 6,37 0,9216
9,23 3,0276 9,87 0,6561 6,37 0,9216
8,2 7,6729 9,42 1,5876 5,56 3,1329
SUMAS: 65,81 35,0239 64,08 7,2252 44,00 10,3146
MEDIAS:
1
=10,97
2
=10,68
3
=7,33
MEDIA GLOBAL ( )=9,66
Ejemplo 15.1 (pp 523):
El ndice fog se utiliza para medir la dificultad de lectura de un texto escrito: a mayor
valor del ndice, mayor dificultad de lectura. Se tom una muestra aleatoria
independiente de seis anuncios en las revistas Scientific American, Fortune y New
Yorker, y se midieron los ndices fog para los 18 anuncios, como se recoge en la tabla
siguiente.
ANOVA simple
Ejemplo 15.1, continuacin (pp 523):
La media total ( ) es 9,66 y
1
=
2
=
3
= 6. adems, = 3 y = 18.
Calculamos las sumas de cuadrados y las disponemos en la tabla de ANOVA.

= 6 10,97 9,66
2
+ 6 10,68 9,66
2
+ 6 7,33 9,66
2
= ,
= 35,0239 + 7,2232 + 10,3146 = ,
= 49,1124 + 52,5617 = ,
Fuente de
variacin
Suma de
cuadrados
Grados de
libertad
Medias cuadrticas
Entre grupos = 49,1124 3 1

=
49,1124
2

=
24,5562
3,50411
= ,
Intragrupo = 52,5617 18 3

=
52,5617
15

Total = 101,6741 18 1
Considerando un 99% de confianza tenemos:
31;183;0,01
= 6,36
Entonces, rechazamos H
0
dado que 7,008 > 6,36.
ANOVA simple
En el ejemplo anterior hemos rechazado la hiptesis nula
de igualdad de medias entre las poblaciones.
Sabemos, entonces, que existe al menos una diferencia
significativa entre dos muestras.
Esta diferencia ser la existente entre la media ms alta
(
1
= 10,97) y la ms baja (
3
= 7,33).
Sin embargo, no podemos saber si las otras diferencias son
significativas o no. En este caso
1

2
y
2

3
.
Para averiguarlo se realizan los contrastes posteriores o
post hoc.
Estos contrastes se utilizan siempre que > 2, ya que si
= 2 bastar con identificar la media ms alta y/o la
media ms baja.
ANOVA simple
Se han diseado distintos contrastes posteriores, de los cuales
revisaremos el propuesto por Scheff (1953) que puede utilizarse si
las varianzas son homocedsticas.
Rechazaremos que la diferencia entre dos muestras es nula con un
riesgo de error si

+
1

( 1)
1 ; ;


Donde

son las medias y

son los tamaos de las muestras


i-sima y j-sima, respectivamente.
Por su parte,
1 ; ;
es el ya utilizado en el contraste de
ANOVA.
ANOVA simple
Debemos, entonces, obtener el estadstico de contraste para las
tres diferencias:
1

1

2

1
+
1

2
=
10,97 10,68
3,50424
1
6
+
1
6
=
0,29
1,168
= ,
2

2

3

2
+
1

3
=
10,68 7,33
3,50424
1
6
+
1
6
=
3,35
1,168
= ,
3

3

1

3
+
1

1
=
7,33 10,97
3,50424
1
6
+
1
6
=
3,64
1,168
= ,
ANOVA simple
Debemos ahora obtener el estadstico crtico para este contrate
post hoc
( 1)
1 ; ;
= (3 1)
31 ; 183 ;0,01
= 2 6,36 = ,
Curiosamente, el contraste posterior no detecta diferencias
significativas, ya que 0,268 < 3,566; 3,099 < 3,566; y 3,367 < 3,566.
Esto es un resultado poco comn, aunque posible, dejndonos en la
necesidad de realizar un nuevo muestreo y repetir el anlisis para
poder concluir respecto de la semejanza o igualdad de las medias
poblacionales.
Tambin es posible hallar contrastes posteriores significativos en
ANOVAs no significativos, aunque slo corresponde realizarlos si el
ANOVA ha resultado significativo.
ANOVA factorial doble, completamente
aleatorizado y efectos fijos
ANOVA factorial doble, completamente
aleatorizado y efectos fijos
Se plantean dos variables independientes: una presenta i niveles y la
otra j niveles. Se considera, adems, la interaccin entre ambas como
un factor ms, de tal manera que el valor de Y en el sujeto l de la
muestra ij se puede entender como la suma de los efectos de la media
global (), del nivel i de una variable independiente, del nivel j de la
otra, de la combinacin de los niveles i y j de ambas y de un error
idiosincrtico del sujeto (

):

= +


Existen tres hiptesis nulas a contrastar, independientes entre s:
La de igualdad de todas las i medias de la primera V.I.
La de igualdad de todas las h medias de la segunda V.I.
La de igualdad de todas las ih medias de la interaccin entre
Vs.Is.
ANOVA factorial doble, completamente
aleatorizado y efectos fijos
De ser rechazadas las dos primeras hiptesis, se procede de la
misma forma que en el ANOVA simple.

Sin embargo, si la interaccin es significativa las anteriores
pierden importancia y el anlisis e interpretacin se centra
sobre la interaccin (ejemplos desarrollados de tal anlisis
pueden consultarse en Garrido (2008) La interaccin entre
factores en el anlisis de varianza: errores de interpretacin.
Tesis doctoral. Madrid: UAM. Disponible en lnea.).

ANOVA factorial doble
Para este diseo de ANOVA, los datos se disponen en una tabla de
doble entrada, donde una variable independiente se distribuye por
filas (grupo) y la otra por columnas (bloque), de tal manera que la
interaccin entre ambas queda capturada por las intersecciones entre
filas y columnas (celdas) .
La variacin total de la variable dependiente se descompone en cuatro
componentes:
La debida a la primera variable independiente (grupos/filas).
La debida a la segunda variable independiente (bloques/columnas).
La debida a la interaccin entre ambas (interseccin/celda).
La debida al error (o intragrupo).
Denotamos con K el nmero grupos, con H el nmero de bloques y
con L el nmero de observaciones en cada celda. El nmero de celdas
es KH, y si L es constante, el tamao de la muestra ser KHL.
ANOVA factorial doble
Para realizar el contraste debemos obtener la media global y las
medias marginales de grupos, bloques y celdas.
La media marginal del i-simo grupo ser

..
=

=1

=1


La media marginal del j-simo bloque ser

..
=

=1

=1


La media marginal de la celda (i,j)ser

.
=

=1


La media global ser
=

=1

=1

=1


ANOVA factorial doble
Una vez obtenidas las media podemos definir las sumas de cuadrados de la
siguiente forma:
(): =
..

=1

(): =
..

=1

=
.

..

..
+
2

=1

=1

=

.
2


=

2



ANOVA factorial doble
Estas sumas de cuadrado las disponemos en una tabla ANOVA para obtener
las medias cuadrticas correspondientes y calculamos los estadsticos para
contrastar cada hiptesis nula.
Fuente de
variacin
Suma de
cuadrados
Grados de
libertad
Medias cuadrticas


Entre grupos
(filas)
1

1
=


Entre bloques
(columnas)
1

1
=


Interaccin
(celdas)
( 1)( 1)

( 1)( 1)

=


Error ( 1)

( 1)

Total 1
En cada caso, rechazamos H
0
si

>
1;2;
; donde gl1 y gl2 son los grados
de libertad del numerador y del denominador, respectivamente.
ANOVA factorial doble
La siguiente tabla presenta los datos del consumo de gasolina de tres tipos de coches
(columnas/bloques) para cinco tipos de conductores clasificados segn su edad (filas/grupos).
Para cada combinacin entre tipo de coche y tipo de conductor hay tres observaciones.
Se presentan en la tabla la media global y las medias marginales de grupos, bloques y celdas.

Coche
Conductor
X
.
Y
.
Z
.

..

1 25,0 25,4 25,2 25,2 24,0 24,4 23,9 24,1 25,9 25,8 25,4 25,7 25,00
2 24,8 24,8 24,5 24,7 23,5 23,8 23,8 23,7 25,2 25,0 25,4 25,2 24,53
3 26,1 26,3 26,2 26,2 24,6 24,9 24,9 24,8 25,7 25,9 25,5 25,7 25,57
4 24,1 24,4 24,4 24,3 23,9 24,0 23,8 23,9 24,0 23,6 23,5 23,7 23,97
5 24,0 23,6 24,1 23,9 24,4 24,4 24,1 24,3 25,1 25,2 25,3 25,2 24,47

..

24,86 24,16 25,10 24,71
ANOVA factorial doble
Con los datos de la tabla anterior procedemos a calcular las sumas de cuadrados:
=
..

2

=1

SCG= 3*3*[(25,00-24,71)
2
+(24,53-24,71)
2
+(25,57-24,71)
2

+(23,97-24,71)
2
+(24,47-24,71)
2
]7,1565

=
..

=1

SCB=5*3*[(24,86-24,71)2+(24,16-24,71)2+(25,10-24,71)2] 13,1517

=
.

..

..
+
2

=1

=1

SCI= 3*[(25,2-25,00-24,86-24,71)
2
+
+(24,8-25,57-24,16-24,71)
2
+
+(25,2-24,47-25,10-24,71)
2
] 6,6045
ANOVA factorial doble
=


.
2



SCE= (25,0-25,2)
2
++(26,1-26,2)
2
++(24,0-23,9)
2
+
+(24,0-24,1)
2
++(24,6-24,8)
2
++(24,4-24,3)
2
+
+(25,9-25,7)
2
++(25,7-25,7)
2
++(25,1-25,2)
2
1,1600

=

2



SCT= (25,0-24,71)
2
++(26,1-24,71)
2
++(24,0-24,71)
2
+
+(24,0-24,71)
2
++(24,6-24,71)
2
++(24,4-24,71)
2
+
+(25,9-24,71)
2
++(25,7-24,71)
2
++(25,1-24,71)
2
28,0727

ANOVA factorial doble
Como vimos, las sumas de cuadrados se obtienen con la simple aplicacin de
sus definiciones. En la tabla de ANOVA siguiente se presentan estas sumas
para el ejemplo dado, las medias cuadrticas (redondeadas al cuarto decimal)
y los estadsticos

para cada contraste (redondeados al segundo decimal).


Fuente de
variacin
Suma de
cuadrados
Grados de
libertad
Medias cuadrticas


Entre grupos
(filas)
7,1565 5 1 = 4

1,7891 ,
Entre bloques
(columnas)
13,1517 3 1 = 2

6,5759

,
Interaccin
(celdas)
6,6045 2 4 = 8

0,8256 ,
Error 1,1600
3 5 3 1 = 30

0,0387
Total 28,0727
3 5 3 1 = 44
ANOVA factorial doble
En cada caso, rechazamos H
0
si

>
1;2;
; donde gl1 y
gl2 son los grados de libertad del numerador y del
denominador, respectivamente.
Debemos contrastar todas las hiptesis nulas con el mismo
riesgo de error, en este caso fijaremos = 0,01.
Como el denominador es el mismo para cada contraste, las
diferencias en el estadstico crtico ser producto de los
grados de libertad de los numeradores.
En este caso, tenemos tres estadsticos crticos distintos:

4;30;0,01
= 4,02 ;
2;30;0,01
= 5,39 ;
8;30;0,01
= 3,17
Apreciamos que se rechazan las tres hiptesis nulas:
46,23 > 4,02 ; 169,9 > 5,39 ; 21,33 > 3,17
ANOVA factorial doble
X Y Z
24,86 24,16 25,10
X 24,86 S No
Y 24,16 0,70 S
Z 25,10 0,24 0,94
24,1
24,3
24,5
24,7
24,9
25,1
25,3
X Y Z
Decamos anteriormente que si resultaba
significativa la interaccin, debamos ignorar las
otras hiptesis.
Sin embargo, y slo con fines didcticos,
procederemos aqu a interpretar cada hiptesis:

El grfico y la tabla a la izquierda presentan las
medias de cada tipo de vehculo. La tabla adems
muestra (bajo la diagonal principal) las diferencias
absolutas entre las medias y (sobre ella) si estas
diferencias resultan significativas o no.
Apreciamos que los coches Z y X presentan las
medias ms altas (en ese orden) y su diferencia no
es significativa.
Asimismo, la media ms baja es del coche tipo Y,
que presenta diferencias significativas tanto con Z
como con X.
Resumiendo: El coche tipo Y gasta menos que los
coches tipo Z y X, que son equivalentes en gasto.
ANOVA factorial doble
1 2 3 4 5
25,00 24,53 25,57 23,97 24,47
1 25,00 S S S S
2 24,53 0,47 S S No
3 25,57 0,57 1,03 S S
4 23,97 1,03 0,57 1,60 S
5 24,47 0,53 0,07 1,10 0,50
23,8
24,0
24,2
24,4
24,6
24,8
25,0
25,2
25,4
25,6
25,8
1 2 3 4 5
El grfico y la tabla a la izquierda
presentan las medias de cada tipo de
conductor. La tabla adems muestra
(bajo la diagonal principal) las
diferencias absolutas entre las medias
y (sobre ella) si estas diferencias
resultan significativas o no.
Considerando tanto el valor de las
medias como la significacin de las
diferencias, apreciamos lo siguiente:
1. Los conductores 3 presentan la
media ms alta, seguidos por los
conductores 1.
2. Empatados en el tercer lugar (al no
ser su diferencia estadsticamente
significativa) se encuentran los
conductores 2 y 5.
3. Los conductores 4 son los que
menos gasolina consumen.
ANOVA factorial doble
Interpretaremos ahora el efecto de la interaccin con ayuda de dos grficos.
El grfico abajo representa las medias esperadas si la hiptesis de interaccin nula
fuese cierta.
En esta situacin, el patrn de comportamiento de los conductores hubiese sido el
mismo, diferencindose slo en el nivel segn el tipo de coche.
23,0
23,5
24,0
24,5
25,0
25,5
26,0
26,5
1 2 3 4 5
X
Y
Z
Medias esperadas
As, bastara describir el
efecto de cada variable
independiente para
hacerse una idea ajustada
de su comportamiento
conjunto.
Recordemos que se
rechaz la hiptesis nula
para la interaccin, por lo
que esta interpretacin no
es correcta.
Veremos a continuacin
cmo cambian nuestras
conclusiones cuando la
interaccin es significativa.
ANOVA factorial doble
El grfico de ms abajo presenta las medias observadas.
Notamos que el patrn de comportamiento entre los conductores 1 y 2 es similar,
pero sus diferencias mayores, a lo esperado bajo la hiptesis nula.
A partir de ese punto, los tipos de coche intercambian posiciones, siendo el coche X el
que ms consume en los conductores 3 y 4 y el que menos lo hace en los 5.
23,0
23,5
24,0
24,5
25,0
25,5
26,0
26,5
1 2 3 4 5
X
Y
Z
Medias observadas
Por su parte, el coche Z
es el que menos consume
en los conductores 4 y
vuelve a ser el que ms
consume en los 5.
Vemos as que de ser
significativa la
interaccin, pierde
sentido interpretar los
contrastes anteriores,
Esto ya que las variables
independientes por
separado no dan cuenta
de su comportamiento
conjunto.
ANOVA factorial doble
X1 X2 X3 X4 X5 Y1 Y2 Y3 Y4 Y5 Z1 Z2 Z3 Z4 Z5
25,2 24,7 26,2 24,3 23,9 24,1 23,7 24,8 23,9 24,3 25,7 25,2 25,7 23,7 25,2
X1 25,2 No S S S S S No S S No No No S No
X2 24,7 0,5 S No No No S No No No S No S S No
X3 26,2 1,0 1,5 S S S S S S S No S No S S
X4 24,3 0,9 0,4 1,9 No No No No No No S S S No S
X5 23,9 1,3 0,8 2,3 0,4 No No S No No S S S No S
Y1 24,1 1,1 0,6 2,1 0,2 0,2 No No No No S S S No S
Y2 23,7 1,5 1,0 2,5 0,6 0,2 0,4 S No No S S S No S
Y3 24,8 0,4 0,1 1,4 0,5 0,9 0,7 1,1 S No S No S S No
Y4 23,9 1,3 0,8 2,3 0,4 0,0 0,2 0,2 0,9 No S S S No S
Y5 24,3 0,9 0,4 1,9 0,0 0,4 0,2 0,6 0,5 0,4 S S S No S
Z1 25,7 0,5 1,0 0,5 1,4 1,8 1,6 2,0 0,9 1,8 1,4 No No S No
Z2 25,2 0,0 0,5 1,0 0,9 1,3 1,1 1,5 0,4 1,3 0,9 0,5 No S No
Z3 25,7 0,5 1,0 0,5 1,4 1,8 1,6 2,0 0,9 1,8 1,4 0,0 0,5 S No
Z4 23,7 1,5 1,0 2,5 0,6 0,2 0,4 0,0 1,1 0,2 0,6 2,0 1,5 2,0 S
Z5 25,2 0,0 0,5 1,0 0,9 1,3 1,1 1,5 0,4 1,3 0,9 0,5 0,0 0,5 1,5
Notar que de realizarse todas las comparaciones de medias entre las interacciones,
en este caso seran 15(15-1)/2=105 comparaciones. De ellas 57 son significativas.
El procedimiento grfico resulta ms intuitivo, por lo que es preferible a la hora de
reportar los resultados.