You are on page 1of 56

ANLISIS DE VARIANZA

ANOVA
Anlisis de Varianza de un factor

El anlisis ANOVA de un factor


Datos y supuestos
Prueba de homogeneidad de Varianzas.

Comparaciones post-hoc

Prueba no parmetrica H de Kruskal-Wallis


2
El anlisis de la varianza es un mtodo
estadstico para determinar si diversos conjuntos
de muestras aleatorias de una determinada
variable proceden de una misma poblacin o
bien de poblaciones distintas
Anlisis de Varianza
Anlisis de varianza de un factor
El anlisis ANOVA de un factor es una generalizacin de la prueba
T para dos muestras independientes al caso de diseos con ms
de dos muestras.
Sirve para comparar varios grupos en una variable cuantitativa.

Variable Independiente Variable Dependiente


(VI) o factor (VD)

Variable categrica
Variable cuantitativa en la que
(Nominal u ordinal)
se desea comparar los grupos
que define los grupos
4
Anlisis de varianza de un factor
Datos. Los valores de la variable de factor deben ser
enteros y la variable dependiente debe ser cuantitativa
(nivel de medida de intervalo).

Supuestos. Cada grupo es una muestra aleatoria


independiente procedente de una poblacin normal. El
anlisis de varianza es robusto a las desviaciones de la
normalidad, aunque los datos debern ser simtricos.
Los grupos deben proceder de poblaciones con
varianzas iguales. Para contrastar este supuesto, utilice
la prueba de Levene de homogeneidad de varianzas.

5
Anlisis de varianza de un factor
La hiptesis que se pone a prueba en el ANOVA de un
factor es que las medias poblacionales ( las medias de la
VD en cada nivel de la VI) son iguales.

H 0 : 1 2 3 ... n
Si las medias poblacionales son iguales, eso significa que
los grupos no difieren en la VD y que, en consecuencia, la
VI o factor es independiente de la VD.

El procedimiento para poner a prueba la Ho consiste en obtener


un estadstico, llamado F, que refleja el grado de parecido
existente entre las medias que se estn comparando.
2 2
1 n Y
F 6
2 2
2 S j
Anlisis de varianza de un factor
El numerador del estadstico F es una
estimacin de la varianza poblacional
basada en la variabilidad existente
2 2
1 n Y
entre las medias de cada grupo
F
2 2 El denominador del estadstico F es
2 S j una estimacin de la varianza
poblacional, basada en la variabilidad
existente dentro de cada grupo ( j se
refiere a los distintos grupos o niveles
del factor)

Si las medias poblacionales son iguales, las medias muestrales de los diferentes
grupos sern parecidas, existiendo entre ellas tan slo diferencias atribuibles al
2
azar. En ese caso, la estimacin ( basada en las diferencias entre las
1 2
medias muestrales) reflejar el mismo grado de variacin que la estimacin
2
basada en las diferencias entre las puntuaciones individuales dentro de 7
cada grupo) y el cuociente F tomar un valor prximo a 1
Anlisis de varianza de un factor
2
Por el contrario, si las medias muestrales son distintas, la estimacin
2 1
reflejar mayor grado de variacin que la estimacin , en cuyo
2
caso el cuociente F tomar un valor mayor que 1. Cuanto ms
diferentes sean las medias muestrales, mayor ser el valor de F.

2 2 Si las poblaciones muestreadas


1 n Y son normales y sus varianzas
F iguales, el estadstico F se
2 2
distribuye segn el modelo de
2 S j
probabilidad F de Fisher
Snedecor

Los grados de libertad del numerador son el nmero de


grupos menos 1;los del denominador el nmero total de
observaciones menos el nmero de grupos. 8
Se tiene que dar que la variacin intragrupos sea mnima, y
que la variacin entre-grupos sea mxima.
EJEMPLO DE APLICACIN ANOVA

retendemos medir la influencia que tiene en la venta de un producto


P
de alimentacin, la posicin en que se exhibe al pblico dentro del
establecimiento.
Las posiciones establecidas son:
-ALTA:por encima de los ojos.
-MEDIA: nivel de los ojos.
-BAJA: por debajo del nivel de los ojos.

Las preguntas que nos formulamos son:


1.Tiene alguna influencia la posicin del producto en la venta del
mismo?
2.Quposicionamiento es ms eficaz?
3.Son estadsticamente significativas las diferencias obtenidas?
Este sencillo ejemplo nos presenta el caso de tener un nico factor a
analizar (posicin del producto) y tres niveles del factor (ALTO,
MEDIO, BAJO).

Tambin podemos encontrarnos con mltiples factores a estudiar


simultneamente.

Podemos distinguir tres tipos de modelos segn sean de:

-Efectos fijos: donde slo estudiamos determinados niveles del factor


(es el caso de las tres alturas) y nicamente perseguimos sacar
conclusiones para stos niveles.
-Efectos aleatorios: en este caso los niveles son infinitos y estudiamos
una muestra de los mismos. Sus resultados tambin sern aleatorios.
-Efectos mixtos: cuando nos encontramos con uno o ms factores de
las clases anteriores.
Dadas una variable dependiente cuantitativa
(ventas) y una variable independiente cualitativa
(posicin) , o factor, el anlisis de la varianza con un
factor consiste en analizar el comportamiento de la
variable dependiente (ventas) en las K sub-poblaciones
o grupos establecidos por los valores de la
independiente (las tres posibles posiciones).
Hiptesis del modelo:

-Sobre la poblacin: Las varianzas de todos los grupos


son idnticas (hiptesis de homocedasticidad), y cada
uno de las grupos tiene una distribucin normal

-Sobre el proceso de obtencin de la muestra: Se


supone que se ha obtenido una muestra aleatoria
independiente de cada uno de los K grupos.
Dado que a travs del Anlisis de la Varianza se persigue saber si los
distintos niveles de un factor influyen en los valores de una
variable continua (en nuestros ejemplo queremos saber si la posicin
de un producto en una estantera influye en las ventas de ese
producto).

Para que efectivamente s haya diferencias en los valores de la


variable continua segn el nivel del factor, se tiene que dar
simultneamente que el comportamiento de la variable
continua sea lo ms distinto posible para los distintos niveles
del factor, y a su vez, que dentro de cada grupo (determinado
por los niveles del factor) los valores sean lo ms homogneos
posibles.
Validacin del modelo:
-Independencia, las muestras han sido tomadas de
manera independiente para cada poblacin:
representacin grfica de los residuos.

-Normalidad, las poblaciones de partida son


normales: Test de Kolmogorov Smirnov, grficos q-q -
Homocedasticidad: las varianzas de cada poblacin
son iguales. Prueba de Levene, contrastes de
Cochranne, Barletty Box, test propuesto por H.O.
Hartley.

-Verificar si existen atpicos que afecten de


manera importante a las medias y a las varianzas
muestrales.
Procedimientos para comparaciones mltiples o
Comparaciones a posteriori:
(Cuando s que hay variacin entre las muestras)

-Procedimiento de Bonferroni: dividir el nivel de


significacin por el nmero de comparaciones posible.
Aconsejable sobre todo cuando no hay muchas
comparaciones posibles.

-Otros mtodos: Tukey y Scheff


APLICACIN CON SPSS
"Analizar" y pinchamos en Comparar Medias, seleccionando la
opcin "ANOVA de un factor" que nos permitir realizar el
Anlisis de la Varianza.
APLICACIN CON SPSS

La variable "Ventas" en la casilla correspondiente a


"Variables dependientes", y la variable "Posicin" en la
casilla que dice "Factor", tal y como se muestra en la
imagen.
APLICACIN CON SPSS
ANOVA de un factor: Comparaciones mltiples post hoc

Asumiendo varia rizas iguales
r DMS] r S N-K P Waller-Duncan
P Bonferroni P Tukey 1100 |~ Dunnett
P SjdaK P Tukey-b Razn de error tipo
Scheffe P Cunean Categora de control: U timo w
P R-EG-WF P GT2 de - Contraste
Hochberg
P Fl-E-G-W Q r Gabriel (* Bilateral P i Control P > Control
No asumiendo variarlas iguales

P T2deTamhane \~ T3deDunnetl | Games-Howell I- CdeDunnett

N ivel de significacin: .05 Continuar Cancelar Ayuda

El botn Post Hoc nos permite seleccionar distintas pruebas para


cuando aceptemos la hiptesis de que los niveles del factor
influyen sobre la variable para as conocer a qu grupos
exactamente se deben las diferencias observadas entre ellos.
APLICACIN CON SPSS

Descriptivos: Muestra el
nmero de casos, la media, la
desviacin tpica, el error tpico,
los valores mnimo y mximo y el
intervalo de confianza al 95% para
cada variable dependiente en cada
grupo.
Homogeneidad de varianzas:
Contrastan las violaciones del
supuesto de igualdad de varianzas
utilizando la prueba de Levene.
APLICACIN CON SPSS

Descripti vos
Intervalo de confianza
para la media al 95%
Desviacin Error Lmite Lmite
N Media tpica tpico inferior superior Mnimo Mximo
VENTAS POSICION ALTA 4 859,0000 168,6120 84,3060 590,7046 1127,2954 663,00 1056,00
MEDIA 4 993,0000 168,3528 84,1764 725,1170 1260,8830 798,00 1138,00
BAJA 4 726,0000 170,4113 85,2056 454,8416 997,1584 528,00 924, C'O
Total 12 859,3333 190,6965 55,0493 738,1706 980.4961 528,00 1138.00

ANOVA

Suma de Media
cuadrados gi cuadrtica F Sig.
VENTAS Inter-grupos 142573,67 2 71289,333 2,492 ,133
Intra-grupos 257438,00 9 23604,222
Total 400016.67 11
APLICACIN CON SPSS

Mean of Ventas
EJERCICIO PROPUESTO TRABAJO INDIVIDUAL

Datos de empleados
Anlisis de varianza de un factor

Ejemplo: ANOVA de un factor


Consideremos el archivo de Datos de empleados

Variable dependiente: Salario actual (salario)


Factor: Categora laboral (catlab)
Descriptivos

Salario actual

Des viacin
N Media tpica Mnimo Mximo
Adminis trativo 363 $27,838.54 $7,567.995 $15,750 $80,000
Seguridad 27 $30,938.89 $2,114.616 $24,300 $35,250
Directivo 84 $63,977.80 $18,244.776 $34,410 $135,000
Total 474 $34,419.57 $17,075.661 $15,750 $135,000

27
Anlisis de varianza de un factor
ANOVA

Salario actual
Suma de
cuadrados gl Media cuadrtica F Sig.
Inter-grupos 89438483925,9 2 44719241962,971 434,481 ,000
Intra-grupos 48478011510,4 471 102925714,459
Total 137916495436 473

La tabla ANOVA muestra el resultado del estadstico F ( cuociente entre


dos estimadores diferentes de la varianza poblacional. Uno de los
estimadores se obtiene a partir de la variacin existente entre las medias
de los grupos (variacin Inter-grupos). El otro estimador se obtiene a
partir de la variacin existente entre las puntuaciones dentro de cada
grupo (variacin Intra-grupos)

La tabla ofrece una cuantificacin de ambas fuentes de variacin (Suma


de cuadrados), los grados de libertad asociados a cada suma de
cuadrados (gl) y el valor concreto que adopta cada estimador de la
varianza poblacional (medias cuadrticas, que se obtienen dividiendo
las sumas de cuadrados entre sus correspondientes grados de libertad) 28
Anlisis de varianza de un factor
ANOVA

Salario actual
Suma de
cuadrados gl Media cuadrtica F Sig.
Inter-grupos 89438483925,9 2 44719241962,971 434,481 ,000
Intra-grupos 48478011510,4 471 102925714,459
Total 137916495436 473

El cuociente entre las dos medias


Puesto que el nivel
cuadrticas (la inter-grupos y la
crtico (Sig=0,000)
intra-grupos) proporciona el valor
es menor que 0,05,
del estadstico F, el cual aparece
debe rechazarse la
acompaado de su correspondiente
hiptesis de
nivel de significacin observado
igualdad de medias
(Sig)

Puede concluirse que las poblaciones definidas por la variable


catlab no poseen el mismo salario medio: hay al menos una
29
poblacin cuyo salario medio difiere del de al menos otra.
Anlisis de varianza de un factor

Prueba de homogeneidad de las varianzas

El estadstico F del ANOVA de un factor se basa en el cumplimiento


de dos supuestos fundamentales:
normalidad y homocedasticidad

Normalidad significa que la variable Homocedasticidad o


dependiente se distribuye normalmente igualdad de varianzas
en la J poblaciones muestreadas significa que la J
(tantas como grupos definidos por la poblaciones muestreadas
variable factor); si los tamaos de los poseen la misma varianza;
grupos son grandes, el estadstico F se con grupos de distinto,
comporta razonablemente bien incluso tamao el incumplimiento
con distribuciones poblacionales de este supuesto debe ser
sensiblemente alejadas de la cuidadosamente vigilado. 30
normalidad
Prueba de homogeneidad de las varianzas.
Prueba de Levene

La prueba de Levene permite contrastar el supuesto de homogeneidad


de varianzas, es decir permite contrastar la hiptesis de que los grupos
definidos por la variable factor proceden de poblaciones con las misma
varianza
Prueba de homogeneidad de varianzas

Salario actual
Estads tico
de Levene gl1 gl2 Sig.
59,733 2 471 ,000

La tabla contiene el estadstico de Levene. Puesto que el nivel crtico es


menor que 0,05, se debe rechazar la hiptesis de igualdad de varianzas
y concluir, que en las poblaciones definidas por las tres categoras
laborales, las varianzas de la variable salario no son iguales. 31
Pruebas robustas de igualdad de las medias

Salario actual
a
Estads tico gl1 gl2 Sig.
Welch 162,200 2 117,312 ,000
Brown-Forsythe 306,810 2 93,906 ,000
a. Dis tribuidos en F asintticamente.

El estadstico de Welch y el de Brown-Forsythe contrasta


la igualdad de las medias de grupo. Este estadstico es
preferible al estadstico F cuando no se puede mantener
el supuesto de igualdad de varianzas.
Puesto que el nivel crtico asociado a ambos estadsticos
es menor que 0,05, se puede rechazar la hiptesis de
igualdad de medias y concluir que los promedios
salariales de las poblaciones no son iguales
32
Comparaciones post-hoc

El estadstico F del ANOVA nicamente permite


contrastar la hiptesis general de que los J promedios
comparados son iguales. Rechazar esa hiptesis
significa que las medias poblacionales comparadas no
son iguales, pero no permite precisar dnde en concreto
se encuentran las diferencias detectadas.

Para saber qu media difiere de qu otra se debe utilizar


un tipo particular de contrastes denominados
comparaciones mltiples post-hoc

Asumiendo varianzas iguales


Existen varios mtodos , el ms utilizado es la opcin Tukey
33
No asumiendo varianzas iguales

Existen varios mtodos , el ms utilizado es la opcin Games -Howell


En nuestro ejemplo por la prueba de Levene, no podemos
asumir que las varianzas poblacionales sean iguales por tanto
debe prestarse atencin a la opcin de Games- Howell
Comparaciones mltiples

Variable dependiente: Salario actual


Games-Howell

Intervalo de confianza al 95%


Diferencia de Lmite
(I) Categora laboral (J) Categora laboral medias (I-J) Error tpico Sig. Lmite inferior s uperior
Adminis trativo Seguridad -$3,100.349* $568.679 ,000 -$4,454.82 -$1,745.88
Directivo -$36,139.258* $2,029.912 ,000 -$40,977.01 -$31,301.51
Seguridad Adminis trativo $3,100.349* $568.679 ,000 $1,745.88 $4,454.82
Directivo -$33,038.909* $2,031.840 ,000 -$37,881.37 -$28,196.45
Directivo Adminis trativo $36,139.258* $2,029.912 ,000 $31,301.51 $40,977.01
Seguridad $33,038.909* $2,031.840 ,000 $28,196.45 $37,881.37
*. La diferencia entre las medias es significativa al nivel .05.

Puede concluirse que todos los promedios comparados


difieren significativamente. 34
Anlisis no paramtrico
Prueba de H de Kruskal-Wallis
La prueba de Mann- Whitney para dos muestras independientes
fue extendida al caso de ms de dos muestras por Kruskal y Wallis
(1952). La situacin experimental que permite resolver esta prueba
es similar a la estudiada a propsito del ANOVA de un factor
completamente aleatorizado: J muestras son aleatoria e
independientemente extradas de J poblaciones para averiguar si
las J poblaciones son idnticas o alguna de ellas presenta
promedios mayores que otra.
Las ventajas fundamentales de esta prueba frente al estadstico F del
ANOVA de un factor son dos:
(1) no necesita establecer supuestos sobre las poblaciones originales
tan exigentes como los del estadstico F (normalidad,
homocedasticidad); y
(2) permite trabajar con datos ordinales.
Si se cumplen los supuestos en los que se basa el estadstico F, la
potencia de ste es mayor que la que es posible alcanzar con el 35
estadstico H de Kruskal- Wallis.
Ejemplo:
Pruebas no paramtricas /Varias muestras independientes
H de Kruskal-Wallis
Rangos Estadsticos de contrastea, b
Rango Salario actual
Categora laboral N promedio Chi-cuadrado 207,679
Salario actual Adminis trativo 363 190,37 gl 2
Seguridad 27 278,98 Sig. asintt. ,000
Directivo 84 427,85 a. Prueba de Kruskal-Wallis
Total 474 b. Variable de agrupacin: Categora laboral

La primera tabla ofrece el tamao de cada grupo (N) y los rangos


promedios resultantes de la asignacin de rangos a las
puntuaciones de los tres grupos.
En la segunda tabla, puesto que el nivel crtico es menor que 0,05,
se puede rechazar la hiptesis de igualdad de medias
poblacionales y concluir que las poblaciones comparadas difieren
en salario actual. 36
ANOVA DE 2 FACTORES
ANOVA DE 2 FACTORES

Formulacin del problema


Hiptesis del modelo
Realizacin del contraste
Validacin del modelo
Procedimientos para comparaciones
mltiples
ANOVA DE 2 FACTORES

Supongamos que el experimentador ha dividido los


individuos en tres grupos de experimentacin segn un
factor y cada uno de esos en dos grupos segn otro
factor. Le interesa analizar las diferencias en medias de
una variable independiente (continua) segn esos dos
factores (cualitativos). El diseo puede ser representado
en una tabla
ANOVA DE 2 FACTORES

Niveles Niveles del factor B

del factor A
1 2 J

1 nii ni2 nij

2 n2i n22 n2j


ANOVA DE 2 FACTORES: Ejemplo
Una cadena de electrodomsticos tiene tres
establecimientos con una amplia gama de electrodomsticos de
lnea blanca. Cada modelo est clasifica en una de estas tres
categoras: econmica, normal y lujo. Las preguntas que se
plantea el director de la cadena son las siguientes
Difieren las ventas de electrodomsticos de lnea blanca en
cada una de las categoras? ANOVA 1 factor: categora
electrodomstico
Difiere el volumen de ventas en los tres establecimientos?
ANOVA 1 factor: establecimiento
Interaccionan la categora de los electrodomsticos y el
establecimiento sobre las ventas? ANOVA de 2 Factores:
categora electrodomstico (econmica, normal y lujo) y
establecimiento (EJ El Alisal, Gral Dvila, y el del Sardinero)
ANOVA DE 2 FACTORES

Hiptesis del modelo:


- Sobre la poblacin: Las varianzas de todas las
poblaciones son idnticas (hiptesis de
homocedasticidad), y cada una de las poblaciones
tiene una distribucin normal.
- Sobre el proceso de obtencin de la muestra:
Se supone que se ha obtenido una muestra aleatoria
independiente de cada una de los G grupos.
ANOVA DE 2 FACTORES

Realizacin del contraste:


- Descomponemos la varianza total en una suma de
componentes (varianza explicada por un factor,
por otro, por la interaccin de ambos y varianza
residual).
- Construir la Tabla de anlisis de la varianza.,
calcular estadsticos F, y determinar la
significacin de los estadsticos.
ANOVA DE 2 FACTORES
Modelo general del ANOVA de 2 factores:

Ygj = M + ag + Pj + (aP) g +
g = T2,.., G j = 1,2,.., J
GJGJ

Xa Lp=YL(aP)
== , ,g = 0

g=l j=1 g= T j=1


ANOVA DE 2 FACTORES
Las hiptesis a contrastar a travs del Anlisis de la
Varianza
Ho:a1 = a2 =.. = aG = 0 :
no todas nulas

Ho:p, = p2_ =.. = PG = 0


H1 : no todas nulas

Ho: (ap) 0
H, : no todas nulas
Efecto principal: Categora electrodomstico
H0: la media de las ventas de electrodomsticos en cada
una de las categoras es la misma
H1: No son iguales las medias
Efecto principal: Establecimiento
H0: la media de las ventas no difiere en los tres
establecimientos
H1: No son iguales las medias
Efecto interaccin:CategoraxEstablecimiento
H0: no existen interacciones entre categora y
establecimiento
H1: No son iguales las medias
ANOVA DE 2 FACTORES

Grados de
Fuente variacin Suma cuadrados Media de cuadrados Estadstico F
libertad

Factor A SCFA G-1 MCFA=SCFA/G-1 F=MCFA/MCR

Factor B SCFB J-1 MCFB=SCFB/J-1 F=MCFB/MCR

Interaccin SCFAB (G-1)(J-1) MCFAxB= F=MCFAxB/MR


SCFAB/((G-1)(J-1))

Residual SCR n-GJ MCR=SCR/(n-GJ)

Total SCT n-1 MCT=SCT/(n-1)


ANOVA DE 2 FACTORES

^ Los efectos diferenciales se estiman mediante las


diferencias entre la media global y la media de cada
grupo
^ Cuando se rechace la hiptesis de que los efectos
diferenciales son nulos, se plantea el mismo problema
de comparaciones mltiples. Un procedimiento que
puede usarse es el de Bonferroni, u otros mtodos de
comparaciones mltiples
Ventas de electrodomsticos en la cadena

Mes Establecimiento A Establecimiento B Establecimiento C

Econo Normal Lujo Econo Normal Lujo Econo Normal Lujo

1 41.00 51.00 27.00 28,00 39,00 19,00 47,00 49,00 31,00

2 37,00 43,00 29,00 37,00 43,00 23,00 56,00 53,00 33,00

3 46,00 53,00 33,00 42,00 48,00 28,00 51,00 51,00 29,00

4 32,00 37,00 17,00 29,00 51,00 23,00 43,00 60,00 27,00

5 39,00 56,00 23,00 35,00 53,00 31,00 46,00 52,00 26,00

6 40,00 53,00 28,00 23,00 47,00 18,00 44,00 49,00 32,00


APLICACIN CON SPSS
APLICACIN CON SPSS

"Analizar y pinchamos en Modelo lineal general,


seleccionando la opcin Univariante" que nos permitir
realizar el Anlisis de la Varianza.
APLICACIN CON SPSS

La variable "Ventas" en la casilla correspondiente a "Variables


dependientes", y las variables Categoria y
Establecimiento en la casilla que dice "Factores Fijos"
Pruebas de efectos inter-sujetos
Variable dependiente: Ventas
Tipo III de suma Media
Origen de cuadrados gl cuadrtica F Sig.
a
Modelo corregido 4733,815 2 2366,907 55,079 ,000
Interseccin 80195,574 1 80195,574 1866,195 ,000
Establecimiento ,000 0 . . .
Categoria_electrodomestico 4733,815 2 2366,907 55,079 ,000
Establecimiento *
,000 0 . . .
Categoria_electrodomestico
Error 2191,611 51 42,973
Total 87121,000 54
Total corregido 6925,426 53
a. R al cuadrado = ,684 (R al cuadrado ajustada = ,671)
EJEMPLO (ANOVA CON DOS FACTORES):
INDEPENDENCIA, SINERGISMO O ANTAGONISMO DEL
CONSUMO DE HASCHIS Y LA COCANA.

Se dispone de una muestra de 100 individuos de los cuales, un


25% no son consumidores de ninguna de las dos drogas, otro
25% son consumidores exclusivos de cocana, un 25%
exclusivos de Haschis y un 25% de ambas drogas
simultneamente. En condiciones experimentales de
homogeneidad adecuada se toman las pulsaciones por minuto a
estos 100 individuos.
El anlisis no slo permitir diferenciar la variabilidad
"biolgica" de la debida al consumo individual de cada droga
sino tambin de la debida a la interaccin de ambas drogas
PRUEBA MANOVA

APLICACIN CON SPSS

You might also like