Anova

Pruebas de Hipótesis
“ANOVA”
Análisis de la Varianza de un factor
(ANOVA)
El análisis de la varianza (ANOVA) es una técnica estadística paramétrica de
contraste de hipótesis. El ANOVA de un factor sirve para comparar varios
grupos en una variable cuantitativa. Se trata, por tanto, de una generalización
de la Prueba T para dos muestras independientes al caso de diseños con más
de dos muestras.
A la variable categórica (nominal u ordinal) que define los grupos que deseamos
comparar la llamamos independiente o factor y la representamos por VI. A la
variable cuantitativa (de intervalo o razón) en la que deseamos comparar los
grupos la llamamos dependiente y la representamos por VD.
La hipótesis nula que se pone a prueba en el ANOVA de un factor es que las

medias poblacionales (las medias de la VD en cada nivel de la VI) son iguales.
Si las medias poblacionales son iguales, eso significa que los grupos no difieren
en la VD y que, en consecuencia, la VI o factor es independiente de la VD.
ANOVA
Condiciones:
• Cada muestra debe ser independiente de las
otras.
• Cada muestra debe haber sido seleccionada al
azar de la población de donde proviene.
• Las población de donde provienen las
muestras debe tener distribución normal.
• Las varianzas de cada población deben ser
iguales.
ANOVA
Ejemplo
• Una Directora de un colegio, preocupada de explicar los problemas de

comportamiento de sus estudiantes, se dispuso a hacer un estudio para
establecer si existían diferencias en ese aspecto según estado civil de los
padres, entre otras variables.
• Para ese fin, solicitó a los padres de 45 niños la aplicación del Child Behavior
Checklist, versión para padres. El CBCL (Achenbach, 1991) es un instrumento
conformado por 113 ítems que comprenden problemas específicos,
agrupados en síndromes que exploran dos tipos de anomalías de conducta:
externalización (agresión, delincuencia y trastornos de conducta) e
internalización (aislamiento, preocupaciones somáticas, depresión y
ansiedad). Además, (Friedrich et al., 1986) seis de sus ítems conforman la
escala de problemas sexuales, la que sólo se aplica a niños y niñas mayores.
• Los ítems son categorizados 0=no es cierto o nunca observado, 1=es cierto
algunas veces o de cierta manera, 2=muy cierto o a menudo cierto. El
puntaje total se obtiene a partir de la suma de los parciales.
ANOVA
Paso 1: Obtiene los siguientes datos
CASADO SEPARADO VIUDO SOLTERO

10 23 78 22
19 62 70 70
36 90 48 48
55 30 68 28
45 73 62 45
41 30 29 30
30 40 38 55
41 28 68 45
32 43 60 50
46 54 61 42
38 49 58 66
15 19 25
30 62 60
55 28
63
ANOVA
Paso 2: Calculamos la media de cada grupo y la media global

10 23 78 22
19 62 70 70
36 90 48 48
55 30 68 28
45 73 62 45
41 30 29 30
30 40 38 55
41 28 68 45
Mg
32 43 60 50
46 54 61 42
38 49 58 66
15 19 25
30 62 60
55 28
63
35,21 46,27 58,18 45,08 45,53
ANOVA
Paso 3: Calculamos la suma de cuadrados de las desviaciones de cada observación

respecto a la media global, suma que denominaremos Suma de Cuadrados Total (SCT) y
que refleja la variabilidad total. Si se divide por el tamaño total de muestra se obtiene la
varianza total.
SCT   xi  M g 
2
ANOVA
1262,26 507,52 1054,41 553,58
703,75 271,32 598,86 598,86
90,79 1977,73 6,11 6,11
89,71 241,13 504,98 307,24
0,28 754,69 271,32 0,28
20,51 241,13 273,18 241,13
241,13 30,56 56,68 89,71
20,51 307,24 504,98 0,28
183,01 6,39 209,43 20,00
  xi  M g   1669571,77
2
SCT0,22 ,208 239,37 12,45
56,68 12,05 155,54 419,09
931,98 703,75 421,41
241,13 271,32 209,43
89,71 307,24
305,26
16695,208
ANOVA
Paso 4: Calculamos la suma de cuadrados de las desviaciones entre la media de cada

grupo y la media general. Esta es la suma de cuadrados explicada por el factor
considerado, a la que denominaremos Suma de cuadrados del factor (SCF) o variabilidad
explicada.
SC F   nK M K  M g 
2
• Siendo: Mg  media global

nk  número de sujetos en el grupo k
M K  media aritmética del grupo k
En la literatura científica también se denomina a la SCF como SC Entre los

grupos (SS Between) o SC del Modelo (SS Model)
ANOVA
CASADO SEPARADO VIUDO SOLTERO MEDIA GLOBAL
MEDIA 35,21 46,27 58,18 45,08 45,53
n 14 15 11 13
(x-X)2 106,38 0,55 160,11 0,20
n(x-X)2 1489,305 8,178 1761,226 2,649 3261,358
SCF   nK M K  M g   3261,358
2
ANOVA
Paso 5: Calculamos la suma de cuadrados de las desviaciones entre cada dato y la media
de su grupo. Esta es la suma de cuadrados no explicada, a la que denominaremos Suma
de cuadrados residual (SCR) o variabilidad residual.
2
 
SC R    xik  M k 
 
• Siendo: xik  cada dato i del grupo k
___
xk  media aritmética del grupo k
En la literatura científica también se denomina a la SCR como SC Dentro de los

grupos (SS Within)
Si SCT  SCF  SCR  SCR  SCT  SCF

ANOVA
635,76 541,34 392,76 532,54
262,90 247,54 139,67 621,16
0,62 1912,60 103,67 8,54
391,47 264,60 96,40 291,62
95,76 714,67 14,58 0,01
33,47 264,60 851,58 227,31
27,19 39,27 407,31 98,47
33,47 333,67 96,40 0,01
10,33 10,67 3,31 24,24
116,33 59,80 7,94 9,47
7,76 7,47 0,03 437,78
408,62 743,47 403,08
27,19 247,54 222,70
391,47 333,67
280,00
2 13433,850
 
SCR    xik  M k   13433,850
 
ANOVA
Paso 6: Calculamos las medias cuadráticas, para lo cual necesitamos
conocer los grados de libertad correspondiente a cada suma de
cuadrados de las desviaciones
• Cada suma de cuadrados tiene sus propios grados de

libertad.
• La SCT es el número total de casos menos uno, es decir
n-1;
• La SCF es el número de grupos menos uno, es decir, k-1
y
• La SCR es el número total de datos menos k, es decir,
n-k.
• En el análisis de la varianza, se define una media
cuadrática como el cociente entre la suma de cuadrados y
sus correspondientes grados de libertad:
ANOVA
Grados de libertad
• Factor, Entre los grupos (between)
(k-1):
(4 - 1) = 3
• Residual, Dentro de los grupos (within)

(n-k):
53-4 = 49
• Total =
(n – 1):
53 - 1 = 52
glSCT  glSCF  glSCR

ANOVA
Medias Cuadráticas
SCF 3261,358
MC F  MC F   1087,119
k 1 3
SC R 13433,850
MC R  MC R   274,160
nk 49
SCT 16695,208
MCT  MCT 
n 1 52
ANOVA
Paso 7: Calculamos el estadístico F de Snedecor, que nos informará si

tenemos “pruebas suficientes” para rechazar o aceptar la hipótesis nula.
SC F
2
F
MC F
 k  1 S F
 2
MC R SC R S R
nk
En nuestro caso
1087,119
F  3,965
274,160
ANOVA
Paso 8: Con el fin de informar los resultados, se procede a generar el

cuadro resumen del ANOVA.
FUENTE DE VARIACIÓN SUMA DE CUADRADOS (SC) GRADOS DE LIBERTAD (gl) MEDIA DE CUADRADOS (MC) F calculado
FACTOR SC ENTRE k-1 SC Entre / k-1 MC Entre/MC Dentro
RESIDUAL SC DENTRO n-k SC Dentro/ n-k
TOTAL SC TOTAL n-1
En nuestro caso
FUENTE DE VARIACIÓN SUMA DE CUADRADOS (SC) GRADOS DE LIBERTAD (gl) MEDIA DE CUADRADOS (MC) F calculado
FACTOR 3261,358 3 1087,119 3,965

RESIDUAL 13433,850 49 274,160
TOTAL 16695,208 52
ANOVA
Paso 9) Se procede a establecer la probabilidad de error tipo I o alfa
asociada a nuestro valor F.
Procedimiento:
Encuentre el valor crítico en una distribución F, con k-1

grados de libertad en el numerador (en las columnas) y
n-k grados de libertad en el denominador (en las filas),
que deje una probabilidad de  en la cola superior de la
distribución.
Rechace la hipótesis nula si el estadístico F calculado
en el Paso 7 es mayor o igual que el valor crítico F(k-
1, n-K) que encontramos en la tabla de F.
ANOVA
REGLAS DE DECISIÓN
H 0 : 1  2  ...k
H1 : (1  2  ...k )
Las reglas de decisión en este procedimiento son las siguientes:
Rechace H 0 si Fobs  F( )

No rechace H 0 si Fobs  F( )
ANOVA
Si desarrollamos el contraste en nuestro ejemplo, tenemos los siguientes
valores:
glF (k 1)  3 glR (n  k )  49 F  3,965

En la tabla correspondiente, ubicamos los valores (k-1) en las columnas; y
(n-k) en las filas y el punto de intersección nos informa el valor F con el
cual compararemos el Fobs
ANOVA
Los valores críticos de F son:
F0.10  2,28
F0.05  2,92
F0.025  3,59
F0.01  5,24
Al realizar la comparación de Fobs con F, se observa que
Fobs  F0.05 3,965  2,920

Paso 10) Se concluye sobre la Hipótesis nula.
Por lo tanto, podemos rechazar la hipótesis nula, al 2,5% y aceptamos que

existe evidencia empírica suficiente para afirmar que existen diferencias
significativas entre las medias de, al menos, dos de los grupos de padres.
ANOVA
A partir de los resultados expuestos

sabemos que las cuatro categorías de la
variable independiente presentan
resultados diferentes.
Pero no sabemos exactamente entre que

categoría se presentan dichas diferencias,
pues ANOVA no nos informa al respecto.
Nos dice que hay diferencias significativas,
pero no entre que pares
ANOVA
•Podemos tener varias preguntas:
• ¿Los hijos de padres casados presentan

menos problemas específicos que los de
padres separados?
• ¿Los hijos de padres viudos presentan más

problemas específicos que los de padres
separados?
• ¿Existen diferencias entre los hijos de padres

solteros y los de padres separados
•El ANOVA de un factor no responde estas

preguntas
ANOVA
• Podemos probar la significación estadística de las diferencias entre

pares individuales de condiciones
• Estas pruebas son conocidas como comparaciones post-hoc
• Se calcula un valor crítico de diferencias a través del procedimiento
que explicaremos a continuación.
COMPARACION POST-HOC ANOVA
Las Comparaciones Post-Hoc ( a posteriori) se hacen

solamente si el resultado de ANOVA es p<0,05, es
decir, se han encontrado diferencias significativas.
En este curso aplicaremos en estos casos la Prueba T de

Student para muestras independientes, explicada
anteriormente.
Análisis de la Varianza de
Kruskal-Wallis
El contraste de Kruskall-Wallis es la alternativa no paramétrica del método
ANOVA Unifactorial, es decir, sirve para contrastar la hipótesis de que k
muestras cuantitativas han sido obtenidas de la misma población. La única
exigencia se refiere a la aleatoriedad en la extracción de las muestras, sin hacer
referencia a las otras condiciones de homocedasticidad y normalidad necesarias
para la aplicación del test paramétrico ANOVA.
De este modo, este contraste es el que debemos aplicar necesariamente

cuando no se cumplen algunas de las condiciones que se necesitan para aplicar
dicho método.
Al igual que las demás técnicas no paramétricas, ésta se apoya en el uso de los
rangos asignados a las observaciones.
PRUEBA DE KRUSKAL-WALLIS
Ejemplo
• Un psicopedagogo investigador pretende establecer si existen

diferencias en las expectativas de logro que manifiestan los
padres acerca de los avances de sus hijos en la atención
especializada que reciben, según la dependencia del colegio de
procedencia de los niños.
• Para ese fin, aplica una escala de expectativas, la cual indica

que a mayor puntuación, mayor expectativa sobre los avances
de su hijo(a).
Paso 1: Se obtienen los siguientes datos
MUNICIPAL PARTICULAR PARTICULAR
PAGADO SUBVENCIONADO
14 12 11
15 14 12
14 15 9
16 14 8
16 13
17
Paso 2) Se ordenan todos los datos, de menor a mayor, de las k muestras
y en un solo conjunto, cuidando de identificar a cada uno con su muestra
respectiva.
Paso 3) Luego se suman los rangos de cada grupo.
Municipal R1 Particular R2 Particular R3

pagado subvencionado
14 8,5 12 4,5 8 1
14 8,5 14 8,5 9 2
15 11,5 14 8,5 11 3
16 13,5 15 11,5 12 4,5
16 13,5 13 6
17 15
42,0 61,5 16,5
Paso 4) A continuación se calcula el valor H de Kruskal-Wallis.
 12 Rk 2

H   j
  3( N  1)
 N ( N  1) j 1 n j 
k  número de grupos
N  número total de sujetos
n j  número de sujetos en cada grupo
R j  Suma de los rangos en cada grupo
k
  Indica que se deben sumar los k grupos

j 1
En nuestro ejemplo de las expectativas de los padres según la dependencia
del colegio de sus hijos, tenemos los siguientes valores:
n1 (M )  4 n2 ( PP)  6 n3 ( PS )  5
R1 (M )  42 R2 ( PP)  61,5 R3 ( PS )  16,5
 12 k R2 
Si sustituimos en H   j
  3( N  1)
 N ( N  1) j 1 n j 
 12  42 2 61,52 16,52 
Tenemos       3(15  1)
15(15  1)  4 6 5 
Por lo tanto H  8,291

Paso 5) Se procede a establecer la probabilidad de error tipo I o alfa
asociada a nuestro valor H.
Existen dos procedimientos, asociados a la cantidad de grupos y sus tamaños
Primer procedimiento:
Si el número de muestras es k=3 y el número de observaciones en cada una
de ellas no pasa de 5, se rechaza H0 si el valor de Hobs supera el valor teórico
de H que encontramos en la tabla de Kruskal-Wallis. (La tabla aportada en el
curso opera hasta k=5 para n=3).
Segundo procedimiento:
En cualquier otro caso, se compara el valor de Hobs con el de la tabla de Chi

cuadrado con k-1 grados de libertad. Se rechaza H0 si el valor del estadístico
supera el valor teórico .
REGLAS DE DECISIÓN
H 0 : M1  M 2  ...M k
H1 : (M1  M2  ...Mk )
Las reglas de decisión en este procedimiento son las siguientes:
Rechace H 0 si H obs  H ( )
No rechace H 0 si H obs  H ( )
Si desarrollamos el contraste en nuestro ejemplo, siguiendo el primer
procedimiento, tenemos los siguientes valores:
n1 (M )  4 n2 ( PP)  6 n3 ( PS )  5 H  8,291
En la tabla correspondiente, ubicamos los valores de los tamaños de los
grupos 6,5,4 y comparamos nuestro valor Hobs con el H correspondiente
Los valores críticos de H son:
H 0.10  4,522
H 0.05  5,661
H 0.025  6,750
H 0.01  7,936
Al realizar la comparación de Hobs con H, se observa que
H obs  H 0.01
Por lo tanto, podemos rechazar la hipótesis nula, al 1%, y debemos aceptar

que existe evidencia empírica suficiente para afirmar que existen diferencias
significativas entre las medias de rangos entre, al menos, dos de los grupos
de padres.
Si desarrollamos los pasos 5 y 6, siguiendo el segundo procedimiento de
contraste, tenemos los siguientes valores:
k 3 H  8,291
En la tabla correspondiente, ubicamos en la columna DF nuestro k-1 y
comparamos nuestro valor Hobs con el X 2 correspondiente
Los valores críticos de H son:
H 0.10  4,605
H 0.05  5,991
H 0.02  7,824
H 0.01  9,210
Al realizar la comparación de Hobs con H, se observa que
H obs  H 0.02
Por lo tanto, podemos rechazar la hipótesis nula, al 2%, y debemos aceptar

que existe evidencia empírica suficiente para afirmar que existen diferencias
significativas entre las medias de rangos entre, al menos, dos de los grupos
de padres.
A partir de los resultados expuestos

sabemos que las tres categorías de la
variable independiente presentan
resultados diferentes.
Pero no sabemos exactamente entre que

categoría se presentan dichas diferencias,
pues el Test de Kruskal-Wallis no nos
informa al respecto. Nos dice que hay
diferencias significativas, pero no entre que
pares
•Podemos tener varias preguntas:
• ¿Los padres M tienen más

expectativas que los PS?
• ¿Los padres PS tienen menos
expectativas que los PP?
• ¿Existen diferencias entre los
padres PP y M?
•La prueba de Kruskal-Wallis no responde estas

preguntas
COMPARACIONES POST-HOC KRUSKAL-WALLIS
• Podemos probar la significación estadística de las diferencias entre

pares individuales de condiciones
• Estas pruebas son conocidas como comparaciones post-hoc
• Se calcula un valor crítico de diferencias a través de uno de los
procedimientos.
• En este curso usaremos la U de Mann Whitney, explicada
anteriormente.

Anova

Uploaded by

Document Information

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

Anova

Uploaded by

Copyright:

Available Formats

Pruebas de Hipótesis

La hipótesis nula que se pone a prueba en el ANOVA de un factor es que las

• Una Directora de un colegio, preocupada de explicar los problemas de

CASADO SEPARADO VIUDO SOLTERO

CASADO SEPARADO VIUDO SOLTERO

Paso 3: Calculamos la suma de cuadrados de las desviaciones de cada observación

Paso 4: Calculamos la suma de cuadrados de las desviaciones entre la media de cada

• Siendo: Mg  media global

En la literatura científica también se denomina a la SCF como SC Entre los

CASADO SEPARADO VIUDO SOLTERO MEDIA GLOBAL

MEDIA 35,21 46,27 58,18 45,08 45,53

(x-X)2 106,38 0,55 160,11 0,20

n(x-X)2 1489,305 8,178 1761,226 2,649 3261,358

xk  media aritmética del grupo k

En la literatura científica también se denomina a la SCR como SC Dentro de los

Si SCT  SCF  SCR  SCR  SCT  SCF

• Cada suma de cuadrados tiene sus propios grados de

• Residual, Dentro de los grupos (within)

glSCT  glSCF  glSCR

Paso 7: Calculamos el estadístico F de Snedecor, que nos informará si

Paso 8: Con el fin de informar los resultados, se procede a generar el

FACTOR SC ENTRE k-1 SC Entre / k-1 MC Entre/MC Dentro

RESIDUAL SC DENTRO n-k SC Dentro/ n-k

TOTAL SC TOTAL n-1

FACTOR 3261,358 3 1087,119 3,965

Encuentre el valor crítico en una distribución F, con k-1

Rechace H 0 si Fobs  F( )

glF (k 1)  3 glR (n  k )  49 F  3,965

Fobs  F0.05 3,965  2,920

Por lo tanto, podemos rechazar la hipótesis nula, al 2,5% y aceptamos que

A partir de los resultados expuestos

Pero no sabemos exactamente entre que

•Podemos tener varias preguntas:

• ¿Los hijos de padres casados presentan

• ¿Los hijos de padres viudos presentan más

• ¿Existen diferencias entre los hijos de padres

•El ANOVA de un factor no responde estas

• Podemos probar la significación estadística de las diferencias entre

Las Comparaciones Post-Hoc ( a posteriori) se hacen

En este curso aplicaremos en estos casos la Prueba T de

De este modo, este contraste es el que debemos aplicar necesariamente

• Un psicopedagogo investigador pretende establecer si existen

• Para ese fin, aplica una escala de expectativas, la cual indica

MUNICIPAL PARTICULAR PARTICULAR

Paso 3) Luego se suman los rangos de cada grupo.

Municipal R1 Particular R2 Particular R3

  Indica que se deben sumar los k grupos

Por lo tanto H  8,291

Existen dos procedimientos, asociados a la cantidad de grupos y sus tamaños

En cualquier otro caso, se compara el valor de Hobs con el de la tabla de Chi

Por lo tanto, podemos rechazar la hipótesis nula, al 1%, y debemos aceptar

Por lo tanto, podemos rechazar la hipótesis nula, al 2%, y debemos aceptar

A partir de los resultados expuestos

Pero no sabemos exactamente entre que

•Podemos tener varias preguntas:

• ¿Los padres M tienen más

•La prueba de Kruskal-Wallis no responde estas

• Podemos probar la significación estadística de las diferencias entre

You might also like