You are on page 1of 12

Anlisis de la varianza

El anlisis de la varianza (o Anova: Analysis of variance) es un mtodo para comparar


dos o ms medias, que es necesario porque cuando se quiere comparar ms de dos
medias es incorrecto utilizar repetidamente el contraste basado en la t de Student. por
dos motivos:
En primer lugar, y como se realizaran simultnea e independientemente varios
contrastes de hiptesis, la probabilidad de encontrar alguno significativo por azar
aumentara. En cada contraste se rechaza la H0 si la t supera el nivel crtico, para lo
que, en la hiptesis nula, hay una probabilidad . Si se
realizan m contrastes independientes, la probabilidad de que, en la hiptesis nula,
ningn estadstico supere el valor crtico es (1 - )m, por lo tanto, la probabilidad de
que alguno lo supere es 1 - (1 - )m, que para valores de prximos a 0 es
aproximadamente igual a m. Una primera solucin, denominada mtodo de
Bonferroni, consiste en bajar el valor de , usando en su lugar /m, aunque resulta un
mtodo muy conservador.
Por otro lado, en cada comparacin la hiptesis nula es que las dos muestras provienen
de la misma poblacin, por lo tanto, cuando se hayan realizado todas las
comparaciones, la hiptesis nula es que todas las muestras provienen de la misma
poblacin y, sin embargo, para cada comparacin, la estimacin de la varianza
necesaria para el contraste es distinta, pues se ha hecho en base a muestras distintas.
El mtodo que resuelve ambos problemas es el anova, aunque es algo ms que esto:
es un mtodo que permite comparar varias medias en diversas situaciones; muy
ligado, por tanto, al diseo de experimentos y, de alguna manera, es la base del
anlisis multivariante.

Anlisis de la varianza de dos factores


Es un diseo de anova que permite estudiar simultneamente los efectos de dos
fuentes de variacin.
En el ejemplo 1, en el que se estudiaban diversos tratamientos para la hipertensin
arterial, se podra plantear que, quizs, la evolucin de la misma fuera diferente para
los hombres y las mujeres, en cuyo caso, y si el nmero de hombres y mujeres en
cada muestra no fuera el mismo, podra ocurrir que una parte del efecto atribuido a los
tratamientos fuera debido al sexo.
En cualquier caso, el investigador puede estar interesado en estudiar si hay, o no,
diferencia en la evolucin segn el sexo. En un anova de dos vas se clasifica a los
individuos de acuerdo a dos factores (o vas) para estudiar simultneamente sus
efectos. En este ejemplo se haran cinco grupos de tratamiento para los hombres y
otros cinco para las mujeres, en total diez grupos; en general, si el primer factor
tiene a niveles y el segundo tiene b, se tendrn ab muestras o unidades
experimentales, cada una con n individuos o repeticiones.

Una observacin individual se representa como:

El primer subndice indica el nivel del primer factor, el segundo el nivel del segundo
factor y el tercero la observacin dentro de la muestra. Los factores pueden ser ambos
de efectos fijos (se habla entonces de modelo I), de efectos aleatorios (modelo II) o
uno de efectos fijos y el otro de efectos aleatorios (modelo mixto). El modelo
matemtico de este anlisis es:
modelo I
modelo II
modelo mixto
donde es la media global, i o Ai el efecto del nivel i del 1 factor, j o Bj el efecto del
nivel j del 2 factor y ijk las desviaciones aleatorias alrededor de las medias, que
tambin se asume que estn normalmente distribuidas, son independientes y tienen
media 0 y varianza 2.
A las condiciones de muestreo aleatorio, normalidad e independencia, este modelo
aade la de aditividad de los efectos de los factores.
A los trminos ( )ij, (AB)ij, (B)ij, se les denomina interaccin entre ambos factores y
representan el hecho de que el efecto de un determinado nivel de un factor sea
diferente para cada nivel del otro factor.
Para entender mejor este concepto de interaccin veamos un ejemplo sencillo sobre un
anova de dos factores, cada uno con dos niveles: supngase un estudio para analizar
el efecto de un somnfero teniendo en cuenta el sexo de los sujetos. Se eligen al azar
dos grupos de hombres y otros dos de mujeres. A un grupo de hombres y otro de
mujeres se les suministra un placebo y a los otros grupos el somnfero. Se mide el
efecto por el tiempo que los sujetos tardan en dormirse desde el suministro de la
pldora.
Se trata de un anova de dos factores (sexo y frmaco) fijos, cada uno con dos niveles
(hombre y mujer para el sexo y somnfero y placebo para el frmaco). Los dos tipos de
resultados posibles se esquematizan en la figura

En la figura A se observa que las mujeres tardan ms en dormirse, tanto en el grupo


tratado como en el grupo placebo (hay un efecto del sexo) y que los tratados con
placebo tardan ms en dormirse que los tratados con somnfero en ambos sexos (hay
un efecto del tratamiento). Ambos efectos son fcilmente observables.
Sin embargo en la figura B es difcil cuantificar el efecto del somnfero pues es distinto
en ambos sexos y, simtricamente, es difcil cuantificar el efecto del sexo pues es
distinto en ambos grupos de tratamiento. En este caso, se dice que existe interaccin.
Podra, incluso, darse el caso de que se invirtieran los efectos de un factor para los
distintos niveles del otro, es decir, que las mujeres se durmieran antes con el
somnfero y los hombres antes con el placebo.
La interaccin indica, por tanto, que los efectos de ambos factores no son aditivos:
cuando se dan juntos, su efecto no es la suma de los efectos que tienen cuando estn
por separado, por lo que, si en un determinado estudio se encuentra interaccin
entre dos factores, no tiene sentido estimar los efectos de los factores por
separado. A la interaccin positiva, es decir, cuando el efecto de los factores actuando
juntos es mayor que la suma de efectos actuando por separado, en Biologa se le
denomina sinergia o potenciacin y a la interaccin negativa inhibicin. En el ejemplo
de la figura B, se dira que el ser mujer inhibe el efecto del somnfero, o que el ser
hombre lo potencia (segn el sexo que se tome como referencia).
ANLISIS DE LA VARIANZA CON UN FACTOR (ANOVA)

El anlisis de la varianza permite contrastar la hiptesis nula de que las medias de K poblaciones (K >2) son
iguales, frente a la hiptesis alternativa de que por lo menos una de las poblaciones difiere de las dems en
cuanto a su valor esperado. Este contraste es fundamental en el anlisis de resultados experimentales, en
los que interesa comparar los resultados de K 'tratamientos' o 'factores' con respecto a la variable
dependiente o de inters.

El Anova requiere el cumplimiento los siguientes supuestos:

Las poblaciones (distribuciones de probabilidad de la variable dependiente correspondiente a cada


factor) son normales.

Las K muestras sobre las que se aplican los tratamientos son independientes.

Las poblaciones tienen todas igual varianza (homoscedasticidad).

El ANOVA se basa en la descomposicin de la variacin total de los datos con respecto a la media global
(SCT), que bajo el supuesto de que H0 es cierta es una estimacin de

obtenida a partir de toda la

informacin muestral, en dos partes:

Variacin dentro de las muestras (SCD) o Intra-grupos, cuantifica la dispersin de los valores de
cada muestra con respecto a sus correspondientes medias.

Variacin entre muestras (SCE) o Inter-grupos, cuantifica la dispersin de las medias de las
muestras con respecto a la media global.

Las expresiones para el clculo de los elementos que intervienen en el Anova son las siguientes:

Media

Global:

Variacin Total:

Variacin Intra-grupos:

Variacin Inter-grupos:

Siendo xij el i-simo valor de la muestra j-sima; nj el tamao de dicha muestra y

su media.

Cuando la hiptesis nula es cierta SCE/K-1 y SCD/n-K son dos estimadores insesgados de la varianza
poblacional y el cociente entre ambos se distribuye segn una F de Snedecor con K-1 grados de libertad en
el numerador y N-K grados de libertad en el denominador. Por lo tanto, si H0 es cierta es de esperar que el
cociente entre ambas estimaciones ser aproximadamente igual a 1, de forma que se rechazar H0 si dicho
cociente difiere significativamente de 1.

La secuencia para realizar un ANOVA es:

Analizar

Comparar medias

ANOVA de un factor

Se abre el siguiente cuadro de dilogo:

Se selecciona la variable que se considera Dependiente y la variable Factor y con el botn Opciones se
activan EstadsticosDescriptivos y Homogeneidad de varianzas.

Al aceptar en el visor de resultados aparecen los siguientes cuadros:

Descriptivos. Recoge la media, la desviacin tpica, el intervalo de confianza del 95% (por defecto)
para la media correspondientes a la variable dependiente para cada uno de los grupos definidos por
el factor.

Prueba de homogeneidad de varianzas. Contiene el valor del estadstico de Levene del contraste de
la hiptesis de homoscedasticidad con el nivel de significacin crtico.

ANOVA. Contiene las sumas de cuadrados inter-grupos, intra-grupos y total, sus correspondientes
grados de libertad y el valor del estadstico de prueba F junto con el nivel de significacin crtico.

Como complemento grfico de este anlisis, para obtener una primera aproximacin acerca de si es
razonable o no la hiptesis nula, se selecciona Grficos > Barras de error y se activa la opcin Simple. Con el
botn Definir se abre el siguiente cuadro de dilogo:

Se selecciona en Variable la variable dependiente del ANOVA y en el Eje de categoras la variable factor. El
intervalo

de

confianza

para la media se calcula por defecto al 95% de confianza. Al aceptar aparece en el visor de resultados los
puntos que respresentan a la media de cada grupo junto con los lmites del correspondiente intervalo de
confianza para la media poblacional. Si los puntos que representan las medias estn desigualmente
distribuidos en el grfico se tiene un indicio de que a nivel poblacional no puede sostenerse la hiptesis de
igualdad de medias; es decir, por lo menos uno de los niveles del factor influye significativamente sobre la
variable dependiente.

EJEMPLOS

Con los datos de la encuesta sobre transporte, Enctrans.sav, razonar si puede aceptarse que el tipo de
transporte utilizado, Trans, influye sobre la variable tiempo.

Con la opcin de men Grficos > Barras de error > Simple y con el botn Definir se selecciona
como Variable Tiempo y en Eje de categoras la variable Trans; al aceptar se obtiene la siguiente
representacin grfica:

Como puede observarse, los puntos que representan a las medias de cada grupo aparecen dispersos a
diferentes niveles; sobre todo la media del grupo definido por el factor Tren. El intervalo de confianza para la
media correspondiente al grupo definido por el factor Metro est contenido dentro del intervalo
correspondiente al grupo definido por el factor Bus, as como, el intervalo correspondiente al factor Coche
est contenido dentro de los intervalos correspondientes definidos por los factores Metro y Otros. El grfico,
por tanto, parece sugerir no una nica poblacin sino tres poblaciones con distintas medias.

Para realizar el anlisis de la varianza propiamente dicho la secuencia es Analizar > Comparar medias >
ANOVA de un factor. En el cuadro de dilogo se selecciona Tiempo como variable Dependiente y Trans
como Factor. Para contrastar la hiptesis de igualdad de varianzas se abre con el botn correspondiente el
cuadro de dilogo ANOVA de un factor: Opciones y se activa Homogeneidad de varianzas. Si se desea un
anlisis descriptivo del comportamiento de la variable dependiente dentro de cada grupo se activa tambin la
opcin Descriptivos. Al aceptar se obtienen los siguientes cuadros de resultados:

Este cuadro contiene un anlisis descriptivo de la variable dependiente por grupos, as como, los lmites
superior e inferior para la media de cada grupo al 95% de confianza.

El estadstico de Levene toma un valor lo suficientemente pequeo para no rechazar la hiptesis de


homocesdaticidad a los niveles de significacin habituales.

En el cuadro de resultados del ANOVA, el valor del estadstico de prueba, F=6,450, es significativamente
distinto de 1 para cualquier nivel de significacin y, por lo tanto, se rechaza la hiptesis nula de igualdad de
medias y queda confirmada la primera impresin proporcionada por el grfico de barras de error.

APLICACIONES
UTILIZACIN DEL PROGRAMA SPSS
A continuacin se describirn cuales son los pasos necesarios para realizar el
Anlisis de la Varianza utilizando la aplicacin del SPSS para Windows. Para
nuestra aplicacin utilizaremos el ejemplo en el que se intenta determinar si el
posicionamiento del producto influye o no en sus ventas, por lo que generamos
una nueva variable que denominaremos posicin y que diferencia los niveles
del factor.
Establecimiento Ventas Posicionamiento del Producto
A

663

795

922

1056

798

926

1060

1188

528

660

792

924

Anlisis de la Varianza con un solo factor


Opcin recomendable cuando deseamos aplicar un Anlisis de la Varianza en
el que utilizamos un slo factor como variable explicativa. Para ello, una vez
abierto nuestro archivo de datos e introducidas las variables posicin y
ventas, nos introducimos en la opcin de "Analizar" y pinchamos en
Comparar Medias, seleccionando la opcin "ANOVA de un factor" que nos
permitir realizar el Anlisis de la Varianza.

Una vez seleccionada esta opcin aparece el cuadro de dilogo del Anova de
un Factor, donde debemos especificar cul es la variable dependiente (Ventas)
y el Factor o variable independiente (Posicin). Inicialmente las variables
aparecern en el cuadro blanco de la parte izquierda de la imagen; nosotros
deberemos desplazar dichas variables a su casilla correspondiente utilizando
los iconos de las flechas. En nuestro ejemplo deberemos introducir la variable
"Ventas" en la casilla correspondiente a "Variables dependientes", y la variable
"Posicin" en la casilla que dice "Factor", tal y como se muestra en la imagen. A
continuacin podemos seleccionar una serie de opciones, pulsando en cada
uno de los tres botones del cuadro de dialogo inicial (Contrastes, Post hoc y
Opciones). Pulsando el botn Contrastes permite dividir la suma de cuadrados
entre-grupos en componentes de tendencia o especificar contrastes a priori
para que se contrasten mediante el estadstico t. Cuando el ANOVA rechace la
hiptesis nula (es decir cuando aceptemos la hiptesis de que los niveles del
factor influyen sobre la variable endgena) ser interesante realizar un anlisis
ex-post. Este tipo de anlisis se basa en comparaciones mltiples por parejas
entre las medias de los distintos grupos, para as conocer a qu grupos
exactamente se deben las diferencias observadas entre ellos. El botn Post Hoc
nos permite seleccionar distintas pruebas para realizar este tipo de anlisis,
entre las que se encuentran el test de la Diferencia Mnima Significativa (DMS),
Bonferroni, Sidak, etc... Pulsando el botn Opciones aparece la siguiente
pantalla, cuyas distintas alternativas se explican a continuacin: Descriptivos:
Muestra el nmero de casos, la media, la desviacin tpica, el error tpico, los
valores mnimo y mximo y el intervalo de confianza al 95% para cada variable
dependiente en cada grupo. Homogeneidad de varianzas: Contrastan las
violaciones del supuesto de igualdad de varianzas utilizando la prueba de
Levene. Excluir casos segn anlisis: Excluye los casos que tienen valores
perdidos en la variable implicada en esa prueba. Excluir casos segn lista:
Excluye los casos que tienen valores perdidos en cualquiera de las variables
utilizadas en cualquiera de los anlisis. Una vez seleccionadas todas las
opciones que consideremos necesarias para nuestro anlisis ya estaremos en
condiciones para realizar al anlisis de la varianza (ANOVA), pulsando la tecla
Aceptar. Los resultados del ANOVA aparecern en el Navegador de resultados
de SPSS. A continuacin se muestran la salida de SPSS correspondiente al
Anlisis de la Varianza con los datos propuestos en el ejemplo habiendo
seleccionado nicamente las opcin de Estadsticos descriptivos en el botn de
Opciones: ANOVA de un factor 4 859,0000 168,6120 84,3060 590,7046
1127,2954 663,00 1056,00 4 993,0000 168,3528 84,1764 725,1170 1260,8830
798,00 1188,00 4 726,0000 170,4113 85,2056 454,8416 997,1584 528,00
924,00 12 859,3333 190,6965 55,0493 738,1706 980,4961 528,00 1188,00
ALTA MEDIA BAJA Total VENTAS POSICION N Media Desviacin tpica Error tpico
Lmite inferior Lmite superior Intervalo de confianza para la media al 95%
Mnimo Mximo Descriptivos 142578,67 2 71289,333 2,492 ,138 257438,00 9
28604,222 400016,67 11 Inter-grupos Intra-grupos Total VENTAS Suma de
cuadrados gl Media cuadrtica F Sig. ANOVA La primera tabla muestra la
media, la desviacin tpica, el error tpico, y los valores mximo y mnimo para
cada uno de los grupos. Los valores de esta tabla nos permiten conocer en qu
posicin sobre la estantera, las ventas del producto son mayores. Dados estos

resultados se puede observar a primera vista que las ventas en la posicin


media son mayores que las ventas en las posiciones baja y alta, y que cuando
el producto se coloca en la posicin baja las ventas del producto son las
menores. La siguiente tabla es la salida bsica de un Anlisis de la Varianza: a
travs de los datos que muestra podremos saber si realmente existe una
relacin de dependencia entre las variables objeto de estudio o no, podremos
saber si los distintos niveles de la variables cualitativa o factor (posicin del
producto sobre la estantera) determinan el valor de la variable cuantitativa
(ventas del producto). Lo que en la tabla aparece como Inter-grupos es el
valor de la VARIACIN ENTRE, y el valor de Intra-grupos, es la VARIACIN
INTRA. Tambin aparece el valor de la VARIACIN TOTAL. A continuacin, la
salida muestra los grados de libertad, que para el caso de la Variacin Entre
son g 1 = 2 y en el caso de la Variacin Intra son n g = 9. La columna
Media cuadrtica muestra los valores del cociente de la Variacin Entre y la
Variacin Intra por sus correspondientes grados de libertad. Recordemos que
cuanto ms se aproximen la media cuadrtica factorial (Variacin Entre/g-1) y
la media cuadrtica residual (Variacin Intra/n-g) mayor ser la probabilidad de
aceptar la hiptesis nula (H0) o no influencia del factor. Por ltimo la salida del
SPSS nos muestra el valor calculado del estadstico F y su nivel de significacin.
El nivel de significacin nos va a permitir aceptar o rechazar la hiptesis nula
(independencia entre las variables) sin necesidad de tener que comparar el
valor de la F con su valor real de las tablas estadsticas de una F de Snedecor.
El valor que nos sirve de referencia a la hora de aceptar o rechazar la hiptesis
nula es el nivel de significacin. Si el nivel de significacin es mayor que 0,05,
aceptaremos la hiptesis nula de independencia entre las variables (no existen
efectos diferenciales entre los tratamientos). Si el nivel de significacin es
menor que 0,05 rechazaremos la hiptesis nula y aceptaremos la hiptesis
alternativa, es decir, concluiremos que existe una relacin de dependencia
entre las variables, y en este caso podremos decir que los distintos niveles del
factor s influyen sobre los valores de la variable cuantitativa. El nivel de
significacin como se expuso en el captulo anterior es la probabilidad de
rechazar la hiptesis nula siendo cierta. En nuestro caso, dado que el valor del
nivel de significacin es 0,138 y este valor es mayor que 0,05 aceptaremos la
hiptesis nula de que no existen efectos diferenciales entre los tratamientos.
Esto querr decir que la posicin del producto sobre la estantera no hace que
las ventas del mismo sean estadsticamente diferentes.

APLICACIONES
APLICACIONES DE CONCEPTO ESTADSTICO AL MUNDO DE LOS NEGOCIOS
Existen muchas aplicaciones de las tcnicas de ANOVA presentadas a lo largo de este tema que son importantes
para el mundo de los negocios. Cuando el valor promedio de alguna variable se compara con tres o mas
poblaciones, las conclusiones que resultan de un estudio de ANOVA pueden ser muy tiles para el administrador.
Con frecuencia se modifican las variables de produccin para determinar que combinacin lleva al proceso de
manufactura optimo.

Monografa:
http://www.monografias.com/trabajos61/analisis-varianza/analisisvarianza2.shtml
http://www.hrc.es/bioest/Anova_1.html
http://www.ub.edu/aplica_infor/spss/cap4-7.htm analisis de varianza con un
factor
http://www.angelfire.com/ar/iagg101/docum/Diseno2.pdf experimentos
factoriales

You might also like