You are on page 1of 11

ANLISIS DE LA VARIANZA CON UN FACTOR (ANOVA)

El anlisis de la varianza permite contrastar la hiptesis nula de que las medias de K poblaciones (K >2) son
iguales, frente a la hiptesis alternativa de que por lo menos una de las poblaciones difiere de las dems en
cuanto a su valor esperado. Este contraste es fundamental en el anlisis de resultados experimentales, en
los que interesa comparar los resultados de K 'tratamientos' o 'factores' con respecto a la variable
dependiente o de inters.

El Anova requiere el cumplimiento los siguientes supuestos:

Las poblaciones (distribuciones de probabilidad de la variable dependiente correspondiente a cada


factor) son normales.

Las K muestras sobre las que se aplican los tratamientos son independientes.

Las poblaciones tienen todas igual varianza (homoscedasticidad).

El ANOVA se basa en la descomposicin de la variacin total de los datos con respecto a la media global
(SCT), que bajo el supuesto de que H0 es cierta es una estimacin de

obtenida a partir de toda la

informacin muestral, en dos partes:

Variacin dentro de las muestras (SCD) o Intra-grupos, cuantifica la dispersin de los valores de
cada muestra con respecto a sus correspondientes medias.

Variacin entre muestras (SCE) o Inter-grupos, cuantifica la dispersin de las medias de las
muestras con respecto a la media global.

Las expresiones para el clculo de los elementos que intervienen en el Anova son las siguientes:

Media Global:
Variacin Total:

Variacin Intra-grupos:

Variacin Inter-grupos:

Siendo xij el i-simo valor de la muestra j-sima; nj el tamao de dicha muestra y

su media.

Cuando la hiptesis nula es cierta SCE/K-1 y SCD/n-K son dos estimadores insesgados de la varianza
poblacional y el cociente entre ambos se distribuye segn una F de Snedecor con K-1 grados de libertad en
el numerador y N-K grados de libertad en el denominador. Por lo tanto, si H0 es cierta es de esperar que el
cociente entre ambas estimaciones ser aproximadamente igual a 1, de forma que se rechazar H0 si dicho
cociente difiere significativamente de 1.

La secuencia para realizar un ANOVA es:

Analizar

Comparar medias

ANOVA de un factor

Se abre el siguiente cuadro de dilogo:

Se selecciona la variable que se considera Dependiente y la variable Factor y con el botn Opciones se
activan EstadsticosDescriptivos y Homogeneidad de varianzas.

Al aceptar en el visor de resultados aparecen los siguientes cuadros:

Descriptivos. Recoge la media, la desviacin tpica, el intervalo de confianza del 95% (por defecto)
para la media correspondientes a la variable dependiente para cada uno de los grupos definidos por
el factor.

Prueba de homogeneidad de varianzas. Contiene el valor del estadstico de Levene del contraste de
la hiptesis de homoscedasticidad con el nivel de significacin crtico.

ANOVA. Contiene las sumas de cuadrados inter-grupos, intra-grupos y total, sus correspondientes
grados de libertad y el valor del estadstico de prueba F junto con el nivel de significacin crtico.

Como complemento grfico de este anlisis, para obtener una primera aproximacin acerca de si es
razonable o no la hiptesis nula, se selecciona Grficos > Barras de error y se activa la opcin Simple. Con el
botn Definir se abre el siguiente cuadro de dilogo:

Se selecciona en Variable la variable dependiente del ANOVA y en el Eje de categoras la variable factor. El
intervalo

de

confianza

para la media se calcula por defecto al 95% de confianza. Al aceptar aparece en el visor de resultados los
puntos que respresentan a la media de cada grupo junto con los lmites del correspondiente intervalo de
confianza para la media poblacional. Si los puntos que representan las medias estn desigualmente
distribuidos en el grfico se tiene un indicio de que a nivel poblacional no puede sostenerse la hiptesis de
igualdad de medias; es decir, por lo menos uno de los niveles del factor influye significativamente sobre la
variable dependiente.

EJEMPLOS

Con los datos de la encuesta sobre transporte, Enctrans.sav, razonar si puede aceptarse que el tipo de
transporte utilizado, Trans, influye sobre la variable tiempo.

Con la opcin de men Grficos > Barras de error > Simple y con el botn Definir se selecciona
como Variable Tiempo y en Eje de categoras la variable Trans; al aceptar se obtiene la siguiente
representacin grfica:

Como puede observarse, los puntos que representan a las medias de cada grupo aparecen dispersos a
diferentes niveles; sobre todo la media del grupo definido por el factor Tren. El intervalo de confianza para la
media correspondiente al grupo definido por el factor Metro est contenido dentro del intervalo
correspondiente al grupo definido por el factor Bus, as como, el intervalo correspondiente al factor Coche

est contenido dentro de los intervalos correspondientes definidos por los factores Metro y Otros. El grfico,
por tanto, parece sugerir no una nica poblacin sino tres poblaciones con distintas medias.

Para realizar el anlisis de la varianza propiamente dicho la secuencia es Analizar > Comparar medias >
ANOVA de un factor. En el cuadro de dilogo se selecciona Tiempo como variable Dependiente y Trans
como Factor. Para contrastar la hiptesis de igualdad de varianzas se abre con el botn correspondiente el
cuadro de dilogo ANOVA de un factor: Opciones y se activa Homogeneidad de varianzas. Si se desea un
anlisis descriptivo del comportamiento de la variable dependiente dentro de cada grupo se activa tambin la
opcin Descriptivos. Al aceptar se obtienen los siguientes cuadros de resultados:

Este cuadro contiene un anlisis descriptivo de la variable dependiente por grupos, as como, los lmites
superior e inferior para la media de cada grupo al 95% de confianza.

El estadstico de Levene toma un valor lo suficientemente pequeo para no rechazar la hiptesis de


homocesdaticidad a los niveles de significacin habituales.

En el cuadro de resultados del ANOVA, el valor del estadstico de prueba, F=6,450, es significativamente
distinto de 1 para cualquier nivel de significacin y, por lo tanto, se rechaza la hiptesis nula de igualdad de
medias y queda confirmada la primera impresin proporcionada por el grfico de barras de error.

ANLISIS DE LA VARIANZA
V. Abraira
Bibliografa:
V. Abraira, A. Prez de Vargas
Mtodos Multivariantes en Bioestadstica.
Ed. Centro de Estudios Ramn Areces. 1996.
Anlisis de la varianza
El anlisis de la varianza (o Anova: Analysis of variance) es un mtodo para comparar
dos o ms medias, que es necesario porque cuando se quiere comparar ms de dos
medias es incorrecto utilizar repetidamente el contraste basado en la t de Student. por
dos motivos:
En primer lugar, y como se realizaran simultnea e independientemente varios
contrastes de hiptesis, la probabilidad de encontrar alguno significativo por azar
aumentara. En cada contraste se rechaza la H0 si la t supera el nivel crtico, para lo
que, en la hiptesis nula, hay una probabilidad . Si se realizan m contrastes
independientes, la probabilidad de que, en la hiptesis nula, ningn estadstico supere
el valor crtico es (1 - )m, por lo tanto, la probabilidad de que alguno lo supere es 1 (1 - )m, que para valores de prximos a 0 es aproximadamente igual a m. Una
primera solucin, denominada mtodo de Bonferroni, consiste en bajar el valor de ,
usando en su lugar /m, aunque resulta un mtodo muy conservador.
Por otro lado, en cada comparacin la hiptesis nula es que las dos muestras provienen
de la misma poblacin, por lo tanto, cuando se hayan realizado todas las
comparaciones, la hiptesis nula es que todas las muestras provienen de la misma

poblacin y, sin embargo, para cada comparacin, la estimacin de la varianza


necesaria para el contraste es distinta, pues se ha hecho en base a muestras distintas.
El mtodo que resuelve ambos problemas es el anova, aunque es algo ms que esto:
es un mtodo que permite comparar varias medias en diversas situaciones; muy
ligado, por tanto, al diseo de experimentos y, de alguna manera, es la base del
anlisis multivariante.

Bases del anlisis de la varianza


Supnganse k muestras aleatorias independientes, de tamao n, extradas de una
nica poblacin normal. A partir de ellas existen dos maneras independientes de
estimar la varianza de la poblacin 2
1) Una llamada varianza dentro de los grupos (ya que slo contribuye a ella la varianza
dentro de las muestras), o varianza de error, ocuadrados medios del error, y
habitualmente representada por MSE(Mean Square Error)
o MSW (Mean Square Within) que se calcula como la media de las k varianzas
muestrales (cada varianza muestral es un estimador centrado de2 y la media
de k estimadores centrados es tambin un estimador centrado y ms eficiente que
todos ellos). MSE es un cociente: al numerador se le llama suma de cuadrados del
error y se representa por SSE y al denominador grados de libertad por ser los trminos
independientes de la suma de cuadrados.
2) Otra llamada varianza entre grupos (slo contribuye a ella la varianza entre las
distintas muestras), o varianza de los tratamientos, ocuadrados medios de los
tratamientos y representada por MSA o MSB(Mean Square Between). Se calcula a
partir de la varianza de las medias muestrales y es tambin un cociente; al numerador
se le llamasuma de cuadrados de los tratamientos (se le representa por SSA) y al
denominador (k-1) grados de libertad.
MSA y MSE, estiman la varianza poblacional en la hiptesis de que las kmuestras
provengan de la misma poblacin. La distribucin muestral del cociente de dos
estimaciones independientes de la varianza de una poblacin normal es una F con los
grados de libertad correspondientes al numerador y denominador respectivamente, por
lo tanto se puede contrastar dicha hiptesis usando esa distribucin.
Si en base a este contraste se rechaza la hiptesis de que MSE y MSAestimen la misma
varianza, se puede rechazar la hiptesis de que las kmedias provengan de una misma
poblacin.
Aceptando que las muestras provengan de poblaciones con la misma varianza, este
rechazo implica que las medias poblacionales son distintas, de modo que con un nico
contraste se contrasta la igualdad de k medias.
Existe una tercera manera de estimar la varianza de la poblacin, aunque no es
independiente de las anteriores. Si se consideran las knobservaciones como una nica
muestra, su varianza muestral tambin es un estimador centrado de 2:

Se suele representar por MST, se le denomina varianza total ocuadrados medios


totales, es tambin un cociente y al numerador se le llama suma de cuadrados total y
se representa por SST, y el denominador (kn -1) grados de libertad.
Los resultados de un anova se suelen representar en una tabla como la siguiente:

Fuente de
variacin

G.L.

SS

MS

Entre grupos
Tratamientos

k-1

SSA

SSA /(k-1) MSA /MSE

Dentro
Error

(n-1)k

SSE

SSE /k(n1)

Total

kn-1

SST

F se usa para realizar el contraste de la hiptesis de medias iguales. Laregin


crtica para dicho contraste es F > F(k-1,(n-1)k)

Algunas propiedades
Es fcil ver en la tabla anterior que
GLerror+ GLtrata = (n - 1) k + k - 1 = k + k - 1 = nk - 1 = GLtotal
No es tan inmediato, pero las sumas de cuadrados cumplen la misma propiedad,
llamada identidad o propiedad aditiva de la suma de cuadrados:
SST = SSA + SSE
El anlisis de la varianza se puede realizar con tamaos muestrales iguales o distintos,
sin embargo es recomendable iguales tamaos por dos motivos:
1) La F es insensible a pequeas variaciones en la asuncin de igual varianza, si el
tamao es igual.
2) Igual tamao minimiza la probabilidad de error tipo II.

Ejemplo 1
Se quiere evaluar la eficacia de distintas dosis de un frmaco contra la hipertensin
arterial, comparndola con la de una dieta sin sal. Para ello se seleccionan al azar
25 hipertensos y se distribuyen aleatoriamente en 5 grupos. Al primero de ellos no
se le suministra ningn tratamiento, al segundo una dieta con un contenido pobre
en sal, al tercero una dieta sin sal, al cuarto el frmaco a una dosis determinada y
al quinto el mismo frmaco a otra dosis. Las presiones arteriales sistlicas de los 25
sujetos al finalizar los tratamientos son:
Grupo
1

180

172

163

158

147

173

158

170

146

152

175

167

158

160

143

182

160

162

171

155

181

175

170

155

160

La tabla de anova es:

Fuente de
variacin

GL

SS

MS

Tratamiento

2010,64

502,66

11,24

Error

20

894,4

44,72

Total

24

2905,04

Como F0,05(4,20) =2,87 y 11,24>2,87 rechazamos la hiptesis nula y concluimos que

los resultados de los tratamientos son diferentes.


Nota: Para hacerlo con un paquete estadstico, p.e. el SPSS, deberamos crear un
archivo con 2 variables: Trata (con un cdigo distinto para cada grupo, p.e. de 1 a
5) y Presion con la presin arterial de cada individuo al acabar el estudio. Para
calcular el Anova desplegamos los mens que se ven en la grfica:

La tabla de anova que devuelve el programa es

que incluye tambin el valor p asociado al contraste.

You might also like