You are on page 1of 12

Captulo 11: Comparacin de varios tratamientos o grupos Muchas preguntas de investigacin en educacin, psicologa, negocios, industria y ciencias naturales

tienen que ver con la comparacin de varios grupos o tratamientos. Ya estudiamos como comparar diferencias entre dos tratamientos cuando las poblaciones son independientes, ahora nos interesa comparar ms de dos poblaciones. La pregunta de inters del investigador ser existen diferencias significativas entre las medias de los tratamientos? Si comprueba que existen diferencias significativas, entonces le interesar saber cules de las poblaciones o tratamientos comparados son diferentes? Primero necesitamos saber cmo contestar la pregunta general. El procedimiento para determinar si existen diferencias significativas entre varias poblaciones o grupos se llama Anlisis de Varianza, y nos vamos a referir a l usando las letras ANOVA por Analysis of Variance, en ingls. ANOVA es un nombre genrico y se usa para una variedad inmensa de modelos de comparacin de medias, tambin conocido como diseo de experimentos. Por ahora slo hablaremos del ANOVA simple, de un factor, o de una va (one way ANOVA), que se refiere a la comparacin de medias de dos o ms tratamientos. Vamos a llamar factor a una variable cualitativa que usaremos para designar a los grupos o tratamientos a comparar. Los niveles del factor sern el nmero de tratamientos o grupos. El anlisis de varianza es similar al anlisis de regresin y en realidad los dos pertenecen a la gran familia de los modelos lineales. Los modelos lineales se caracterizan por investigar la relacin entre una variable respuesta cuantitativa y una o ms variables explicatorias. Sin embargo el anlisis de varianza difiere del anlisis de regresin en que en el ANOVA las variables explicatorias son cualitativas o factores. Lo que nos interesa en el anlisis de varianza de una va es extender el test t para dos muestras independientes, para comparar ms de dos muestras. ANOVA de una va Caso 1: Un mdico quiere comparar la efectividad de tres tratamientos para reducir el colesterol de pacientes con altos niveles de colesterol sanguneo. Se asignan aleatoriamente 60 individuos a los tres tratamientos (20 en cada uno) y se registra la reduccin de colesterol de cada paciente. Caso 2: Una ecloga est interesada en comparar la concentracin de cadmio en 5 ros. Recolecta 50 muestras de agua (10 muestras en cada ro) y mide la concentracin de cadmio. Estos dos casos tienen similitudes. En ambos tenemos una variable respuesta cuantitativa (reduccin del colesterol, concentracin de cadmio) medida en varias unidades (personas y muestras de agua). Esperamos que la respuesta sea Normal en ambos casos. Queremos comparar varias poblaciones, tres tratamientos en el caso 1 y 5 ros en el caso 2. El caso 1 es un experimento en el cual los pacientes son asignados aleatoriamente a los tratamientos. En el caso 2 es un estudio observacional simplemente se toman muestras de distintos ros. En ambos casos podemos usar el ANOVA para analizar los datos. En el caso 1 usaremos un anlisis de varianza de un factor con 3 niveles. En el caso 2 usaremos un anlisis de varianza de un factor con 5 niveles. TOMATES Porqu las plantas de tomate crecen con diferente tamao? Un tomatero quiere comparar el efecto de tres fertilizantes (A, B y C) en el crecimiento de sus plantas de tomate. Seleccion 15 plantas de tomate de una semana y las plant en diferentes maceteros. Asign aleatoriamente los 3 fertilizantes y se los administr a las plantas por 45 das. La figura muestra la altura de las plantas (en cms). Qu ocurri con la altura de estas plantas? Las plantas de tomate son todas de la misma variedad y de la misma edad. Adems recibieron el mismo cuidado. Qu razones hay para que las plantas crezcan a diferente altura?

Es desarrollo de este tema de estudio se debe principalmente al trabajo de Sir Ronald Fisher, cuyas contribuciones a la estadstica, desde 1912 hasta 1962, tuvieron una gran influencia en toda la estadstica moderna. 1

50

45

Altura (cms)

40

35

30
0 1 2 3 4

Fertilizantes

Datos: A 31 32 36 38 39

Fertilizante B 41 42 43 44 46

C 35 36 36 37 38

De qu manera podramos comparar estos tres tratamientos? La respuesta natural sera comparar cada par de tratamientos o grupos con una prueba t para muestras independientes. Sin embargo, no es correcto hacer pruebas t de Student entre todos los pares posibles de medias ya que se altera el nivel de significacin fijado para cada una de las pruebas. Especficamente, aumenta la probabilidad de encontrar diferencias donde no existen, es decir aumenta el Error Tipo I. Por ejemplo, si tenemos 4 tratamientos el nmero posible de pares de pruebas sera 4 = 4! = 6 . En el caso de los tomates tenemos 3 = 3! = 3 pruebas. El test de ANOVA permite el estudio simultneo
2 2!2!
2 1!2!

de las diferencias con un nivel fijo de significacin. Problema de comparaciones mltiples Si tenemos 4 grupos o tratamientos, necesitamos hacer 6 test de hiptesis:

H0 : 1 = 2 H1 : 1 2
=0,05

H 0 : 1 = 3 H1 : 1 3
=0,05

H0 : 1 = 4 H1 : 1 4
=0,05

H0 : 2 = 3 H1 : 2 3
=0,05

H 0 : 2 = 4 H1 : 2 4
=0,05

H0 : 3 = 4 H1 : 3 4
=0,05

A medida que aumenta el nmero de grupos, no podemos garantizar que se mantenga el nivel de significacin. Para solucionar este problema es que hacemos primero una pregunta global y dependiendo del resultados seguimos investigando pares de grupos.

Comparando medias mediante ANOVA:

Se tienen k muestras aleatorias independientes

N (1 , )
m.a.s. tamao n1 Poblacin 1

N ( 2 , )
m.a.s. tamao n2 Poblacin 2

N ( k , )
...
Poblacin k m.a.s. tamao nk

n1 observaciones de una poblacin N (1 , ) . Tenemos una muestra aleatoria simple de n2 observaciones de una poblacin N ( 2 , ) .
Tenemos una muestra aleatoria simple de
. . .

Tenemos una muestra aleatoria simple de

nk

observaciones de una poblacin N ( k , ) .

Las k muestras aleatorias son independientes una de otra. Nota: La desviacin estndar poblacional de cada grupo es igual a

(homocedasticidad).

HIPOTESIS GLOBAL Usaremos i para representar la media del grupo i, entonces estaremos interesados en docimar la siguiente hiptesis:

H 0 : 1 = 2 = ... = k H 1 : al menos dos medias no son iguales


Graficamente podemos representar esta hiptesis:

Ho: las medias poblacionales son iguales


Normal

H1 : al menos una media es diferente


Normal

Normal

=== 1 2 3
TOMATES continuacin Hiptesis de inters:

= 1 2 3

H 0 : 1 = 2 = 3 H1 : al menos dos medias no son iguales.


Con un nivel de significacin =0,05 3

Datos:
N A B C Total 5 5 5 15 Media 35.20 43.20 36.40 38.27 Desviacin tpica 3.564 1.924 1.140 4.284

Notacin en las k muestras:

ni

n1

n2

n3

yi si
Fuentes de variacin

y1 s1

y2 s2

y3 s3

El anlisis de varianza se define como una tcnica en la que la variabilidad de un conjunto de datos se divide en varios componentes y cada unos de ellos se asocia a una fuente especfica de variacin, de manera que durante el anlisis es posible encontrar la magnitud con la que contribuye cada una de esas fuentes en la variacin total. El nombre ANOVA es porque para comparar las medias de los grupos o tratamientos necesitamos identificar las distintas fuentes de variabilidad. La variabilidad de la variable respuesta, sin referencia a ningn factor que la pudiera estar afectando, se conoce como variabilidad total. La variabilidad de la variable respuesta que se atribuye a factores especficos se conoce como variabilidad explicada. Mide la variabilidad entre los diferentes grupos. La variabilidad de la variable respuesta de las unidades (experimentales) dentro de cada nivel del factor se conoce como variabilidad no-explicada. Se desprende que: Variabilidad total = variabilidad explicada + variabilidad no explicada En el ejemplo de los tomates distinga las fuentes de variacin. Para docimar la hiptesis global acerca de las medias usaremos el test estadstico F. Este test contrasta la variabilidad entre los grupos con la variabilidad que ser natural dentro de los grupos.

F=

variabilidad ENTRE las medias muestrales variabilidad DENTRO de las muestras

Pensemos Caso A: Case B:

Si las medias muestrales son exactamente iguales, cul ser el numerador del test F? Si las medias muestrales son muy distintas entre los grupos, como ser la variabilidad entre comparada con el caso A?

Qu valores puede tener el estadstico F? F puede ser negativo? Qu tipo de valores de F sern a favor de la hiptesis alternativa?

Medias cuadrticas El test estadstico del ANOVA es la razn entre dos medidas de variacin de los datos muestrales. El test estadstico F compara la variacin entre los promedios de los grupos con la variacin natural dentro de los grupos. Formalmente estas dos medidas de variacin se llaman medias cuadrticas, as en el numerador tendemos la media cuadrtica entre los grupos (MCE) y en el denominador la media cuadrtica dentro de los grupos (MCD).

F=

variabilidad ENTRE las medias muestrales MCE = variabilidad DENTRO de las muestras MCD

Las dos medidas de variabilidad en ANOVA, MCE y MCD tienen la misma forma.

Media cuadrtica =

Suma de cuadrados (SC) Grados de libertad (gl)

Entre ms grande sea la variacin entre las medias muestrales comparada con la variacin natural dentro de las muestras, mayor evidencia a favor de diferencias entre las medias poblacionales. En vista de que slo valores grandes del test estadstico nos sirven para rechazar la hiptesis nula, los test F de ANOVA son unilaterales (de una cola) con la direccin del extremo hacia la derecha. El valor p ser la probabilidad de observar un test estadstico tan o ms grande. Distribucin F de Fisher Bajo H 0 el test estadstico F que se calcula en el ANOVA tiene una distribucin F de Fisher con (k-1, n-k) grados de libertad. Caractersticas: La distribucin es sesgada a la derecha Sus valores son positivos, empiezan en cero y se extienden hasta infinito La curva de la distribucin queda definida por los grados de libertad del numerador y del denominador

GRAFICOS Se muestran dos grficos de caja. Cada uno representa el resultado de sacar 3 muestras aleatorias independientes de tres poblaciones normales. En cul de los dos grficos cree usted que podemos rechazar la hiptesis nula H 0 : 1 = 2 = 3 ?
Respuesta Respuesta

Grupo 1

Grupo 2

Grupo 3

Grupo 1

Grupo 2

Grupo 3

Cmo calculamos F Cuando tenemos una muestra aleatoria de una poblacin con varianza desconocida 2, vamos a estimar esta varianza con la varianza muestral s2. La varianza muestral se calcula tomando la suma de los cuadrados de las desviaciones a la media y dividiendo por los grados de libertad (n-1). En este caso cada muestra aleatoria, una por cada k poblaciones, tiene su media muestral y su varianza muestral representados por:

y1 , y 2 ,..., y k

s12 , s22 ,..., sI2 .

Variacin ENTRE grupos: Bajo la hiptesis nula, las medias poblacionales son iguales. Si la hiptesis nula fuera cierta, sera razonable promediar todas las observaciones para tener una estimacin de la media de la poblacin. La media muestral comn sera:

y=

n1 y1 + n 2 y 2 + L + n k y k n
MCE = SCE k 1

La media cuadrtica ENTRE los grupos o media cuadrtica de los tratamientos se calcula como:

donde la suma de cuadrados ENTRE (SCE) se calcula como:

SCE = n1 ( y1 y ) + n2 ( y 2 y ) + L + nk ( y k y ) =
2 2 2

n (y
i grupos

y)

grupos

(tamao muestra grupo)(media muestral grupo media muestral conjunta )

Variacin DENTRO de los grupos: Uno de los supuestos de ANOVA es que las k poblaciones tienen la misma varianza. Cada una de las varianza muestrales es un estimador de la varianza comn 2, independiente de si la hiptesis nula es cierta. Los grados de libertad de cada varianza muestral es, ni 1. La MCD esencialmente combina las varianza muestrales para obtener un estimador de 2. La media cuadrtica dentro, es tambin llamada la media cuadrtica del error. El denominador del estadstico F es:

MCD =
donde la suma de cuadrados DENTRO de los grupos se calcula:

SCD nk

2 2 SCD = (n1 1)s12 + (n2 1)s 2 + L + (nk 1)s k =

(n
grupos

1)si2

grupos

(tamao muestral grupo - 1)(varianza muestral grupo)


(n1 1)s12 + (n 2 1)s 22 + K + (n k
n1 + n 2 + L + n k k
2 1)s k

Note que esta cantidad es una extensin de la estimacin combinada de la varianza empleada para la prueba t de 2 muestras:

s2 = p

Midiendo la variacin TOTAL: En ANOVA de una va, la varianza total de todas las observaciones esta dada por la suma de cuadrados total, SCT, que mide la variacin de cada observacin a la media muestral de todas las observaciones.

SCT =

ij observaciones

(y

y) =
2

(observacin - media muestral)


observaciones

La variacin total puede ser particionada entre las dos fuentes de variacin entre y dentro. La relacin entre las sumas de cuadrados es: SCT = SCE + SCD . Si se tienen dos de las sumas de cuadrados, se obtiene la tercera fcilmente. Tabla ANOVA Todo esto se resume en la tabla de Anlisis de Varianza, en que se presentan las fuentes de variacin, los grados de libertad, las sumas de cuadrados y las medias cuadrticas correspondientes: TABLA DE ANALISIS DE VARIANZA gl Fuente de variacin Grados de libertad Entre tratamientos

SC Suma de Cuadrados

MC Medias cuadrticas

k 1

SCE = ni ( yi y )
i =1

SCE k 1

F=

MCE MCD

Dentro de tratamientos

nk

SCD = (ni 1)si2


i =1

SCD nk

Total

n 1

SCT = ( y ij y )
n i =1

Salida SPSS para ANOVA TOMATES


Suma de cuadrados 186.133 70.800 256.933 gl 2 12 14 Media cuadrtica 93.067 5.900 F 15.774 Sig. .000

Inter-grupos Intra-grupos Total

Realice los clculos para docimar la hipotesis de inters del tomatero. Compruebe sus resultados con tabla salida del SPSS. Compruebe la relacin entre las sumas de cuadrados y la de los grados de libertad. Escriba su conclusin para el tomatero.

Revisin de supuestos de ANOVA:

Los supuestos del ANOVA son exactamente los mismos que los de la prueba t para comparar dos grupos1. 1. los grupos o tratamientos son independientes entre s, por ejemplo en un diseo experimental, los tratamientos son asignados a grupos de personas asignados al azar. Este supuesto es parte del diseo experimental, o en caso de que el estudio sea observaciones se verifica en los datos. La distribucin de los residuos es Normal. En la prctica, esto implica un problema slo si se considera que las poblaciones tienen distribuciones marcadamente asimtricas y en direcciones opuestas. En general, la falta de normalidad de los residuos no tiene gran efecto en el nivel de significancia del test F (se dice que la prueba F es estadsticamente robusta). En otro captulo hablaremos de una alternativa de anlisis cuando los residuos no son normales que se llama estadstica no paramtrica. En SPSS no obtenemos directamente los residuos del ANOVA. Como alternativa vamos a verificar el supuesto de Normalidad usando la variable respuesta en vez de los residuos. Se verifica normalidad haciendo grficos y test de hiptesis. Para los residuos (respuesta) de cada tratamiento construya un histograma o tallo-y-hoja y verifique que no exista un sesgo pronunciado. Para tamaos de grupos ni pequeos, estos grficos sern de poca utilidad. SPSS realiza dos test estadsticos para verificar normalidad, el test de Kolmogorov-Smirnov y el test de Shapiro-Wilk. El test de Kolmogorov-Smirnov es un test clsico y conocido. El test de Shapiro-Wilk es ms nuevo y recomendado para tamaos muestrales mayores a 50. En todo caso, se espera que las conclusiones con cualquiera de los dos test sean las mismas. La hiptesis ser:

2.

H 0 : los residuos provienent es del tratamien to i son normales H 1 : los residuos provienent es del tratamien to i NO son normales
Por lo tanto si el valor p del correspondiente test es mayor que 0,05 aceptamos la hiptesis nula y concluimos que se cumple el supuesto de Normalidad. Note que en este caso especial la hiptesis de inters es la hiptesis nula. 3. La varianza de cada una de las distribuciones es la misma (homocedasticidad). El supuesto de homogeneidad de varianza se verifica con el test de Levene, tal como vimos para el caso de comparar dos grupos.
Hiptesis
2 H 0 : 12 = 2 = L = k2

Test Estadstico

Distribucin bajo Ho F de Fisher con grados de libertad (k-1, n-k)

H 1 : al menos una varianza difiere


Si el valor p del test es mayor que 0,05 entonces aceptamos la hiptesis nula y decimos que se cumple el supuesto de homocedasticidad. Si el valor p fuera menor de 0,05 y entonces no se cumple el supuesto de homogeneidad de varianza. En este caso ya no podremos usar el test F de ANOVA para comparar las medias o tratamientos. Existe un test de comparacin de medias que toma en cuenta este problema y se llama el test de Welch.

En el libro de Hopkins & Hopkins & Glass aparece una discusin detallada sobre la verificacin de supuestos pag. 202207. 8

Salida SPSS para ANOVA TOMATES (continuacin)


Grfico Q-Q normal de Altura en cms.
Para FERTIL= A
1.0
1.0

Grfico Q-Q normal de Altura en cms.


Para FERTIL= B

.5

.5

0.0

0.0

Normal esperado

-.5

Normal esperado
32 34 36 38 40

-.5

-1.0 30

-1.0 40 41 42 43 44 45 46 47

Valor observado

Valor observado

Grfico Q-Q normal de Altura en cms.


Para FERTIL= C
1.0

.5

0.0

Normal esperado

-.5

-1.0 34.5 35.0 35.5 36.0 36.5 37.0 37.5 38.0 38.5

Valor observado

Pruebas de normalidad para los tomates con SPSS FERTILIZ A A B C Kolmogorov-Smirnov(a) Estadstico .215 .141 gl 5 5 Sig. .200(*) .200(*) .200(*) Estadstico .901 .979 .961 Shapiro-Wilk gl 5 5 5 Sig. .415 .928 .814

ALTURA

.237 5 * Este es un lmite inferior de la significacin verdadera. a Correccin de la significacin de Lilliefors

Prueba de homogeneidad de varianzas con SPSS Estadstico de Levene 5.450 gl1 2 gl2 12 Sig. .021

Pruebas robustas de igualdad de las medias Welch Estadstico(a) 22.565 gl1 2 gl2 6.942 Sig. .001

a Distribuidos en F asintticamente.

Comparaciones mltiples

En el ANOVA estamos tratando de comparar varios promedios poblacionales, es decir estamos haciendo comparaciones mltiples. El procedimiento nos indica que primero hacemos un test global para saber si existen diferencias en al menos uno los promedios. Si la respuesta es negativa (es decir aceptamos la hiptesis de que las medias son iguales) no es necesario, ni til, seguir haciendo comparaciones. Pero si los datos son estadsticamente significativos, entonces la pregunta siguiente es: cules medias o grupos difieren? El llamado problema de comparaciones mltiples se debe a que cuando tenemos ms de dos grupos a comparar, aumenta el nmero de pares de comparaciones y el nivel de significacin establecido ya no es 0,05 sino mayor. Existe controversia en este tema, pero las revistas de corriente principal en general requieren el uso de mtodos de comparaciones mltiples al hacer un ANOVA en sus publicaciones. Existen diferentes mtodos de comparaciones mltiples, primero lo ms simple sera realizar test t para cada par de medias, esto se conoce como contrastes y "estn permitidos" cuando las comparaciones a realizar han sido pre-planeadas en el diseo o protocolo del estudio. Sin embargo, a pesar de poder justificar como pre-planeadas o a- priori, los llamados mtodos post-hoc son los ms seguros. Los mtodos de comparaciones mltiples o post-hoc nos permiten comparar las medias con un nivel de significacin global de =0,05. En este curso revisaremos los contrastes (a-priori) y el mtodo de Tukey (post-hoc), SPSS realiza muchos otros mtodos que pudieran ser tiles y que siguen la misma filosofa de Tukey.
Contrastes Realizar contrastes es equivalente a realizar test t para comparar medias de todos los posibles pares de combinaciones:

t=

yi y j MCD

1 ni

1 nj

Donde MCD es la media cuadrtica dentro o la estimacin de la varianza poblacional. En SPSS tenemos que indicar cuales son los pares a comparar indicndole cuales son los coeficientes de los contrastes. Cada contraste tiene que sumar cero:
Coeficientes de los contrastes Fertilizante Contraste 1 2 3 A 1 1 0 B -1 0 1 C 0 -1 -1

El contraste 1 equivale a docimar la hiptesis: H 0 El contraste 2 equivale a docimar la hiptesis: H 0 El contraste 2 equivale a docimar la hiptesis: H 0

:11 1 2 + 0 3 = 0 , es decir H 0 : 1 2 = 0 :11 + 0 2 1 3 = 0 , es decir H 0 : 1 3 = 0 : 0 1 + 1 2 1 3 = 0 , es decir H 0 : 2 3 = 0

10

Pruebas para los contrastes Contraste 1 2 3 Valor del contraste -8.00 -1.20 6.80 Error tpico 1.536 1.536 1.536 t -5.208 -.781 4.426 gl 12 12 12 Sig. (bilateral) .000 .450 .001

ALTURA

Asumiendo igualdad de varianzas

Test de Tukey El test de Tukey es bastante conocido y aceptado en la literatura. La prueba estadstica que utiliza el mtodo de Tukey es la estadstica de rango estudentizado, q, donde

q=

yi y j MCDq

~ q(k , n k )

Existen tablas para la estadstica de rango estudentizado pero no las vamos a necesitar, usaremos los resultados de SPSS.
Comparaciones mltiples Intervalo de confianza al 95% (I) Fertilizante A B (J) Fertilizante B C A C Diferencia de medias (I-J) -8.00(*) -1.20 8.00(*) Error tpico 1.536 1.536 1.536 1.536 1.536 1.536 Sig. .001 .721 .001 .002 .721 .002 Lmite inferior -12.10 -5.30 3.90 2.70 -2.90 -10.90 Lmite superior -3.90 2.90 12.10 10.90 5.30 -2.70

HSD de Tukey

6.80(*) C A 1.20 B -6.80(*) * La diferencia entre las medias es significativa al nivel .05.

Notar que el error estndar es el mismo, lo que cambia es la distribucin que estamos usando como referencia, y por lo tanto cambia el valor- p.
Subconjuntos homogneos
Fertilizante N Subconjunto para alfa = .05 1 HSD de Tukey(a) A C B Sig. 5 5 5 .721 35.20 36.40 43.20 1.000 2

Se muestran las medias para los grupos en los subconjuntos homogneos. a Usa el tamao muestral de la media armnica = 5.000.

Una manera de presentar los resultados es con el grfico que muestra las medias de cada grupo y sus intervalos de 95% de confianza:
Nota final:

El mtodo de Tukey es casi siempre bueno Si se tienen muchos tratamientos y poca planificacin (muchas preguntas) Scheffe es el ms seguro, pero ms exigente Si se tiene un grupo control con el cual se quieren comprar los tratamientos, existe la prueba de Dunnet

11

Pasos en ANOVA de un factor:

1.

Describir los grupos y verificar los supuestos, se recomienda una descripcin numrica (promedio y error estndar) y descripcin grfica (box)

Descripcin grfica de efecto de los fertilizantes en la altura de los tomates


50

50

45

40

40

35

95% IC ALTURA

30

30

ALTURA

25

20
N= 5 5 5

20
N= 5 5 5

Fertilizante

Fertilizante

2.

Anlisis de los supuestos: Normalidad y Homocedasticidad Normalidad: Test de Kolmogorov-Smirnov y Shapiro-Wilks Homocedasticidad: Test de Levene

2a) Si no se obtiene normalidad, se pueden trasformar los datos2 o usar mtodos no paramtricos (otro captulo). 2b) Si no se obtiene homogeneidad de varianza: se pueden trasformar los datos o usar mtodos no paramtricos o realizar el Test de Welch (para comparar las medias) 3. Tabla de ANOVA 3a) Si F grande, valor p menor a 0,05 entonces: Test de comparaciones mltiples 3b) Si valor p mayor a 0,05 quiere decir que no hay diferencias estadsticamente significativas entre los promedios y por lo tanto no hay ms preguntas.

Ver Aron & Aron captulo 15 12

You might also like