You are on page 1of 10

DEPARTAMENTO DE ESTADISTICA INFERENCIA M.V.

COMPARACION DE VARIAS MEDIAS POBLACIONALES ANALISIS DE VARIANZA DE UN FACTOR Hasta el momento hemos tratado el problema de comparar las medias de dos poblaciones. La idea ahora es generalizar la comparacin de medias de k poblaciones. Supongamos entonces que disponemos de k muestras aleatorias independientes, cada una de tamao ni , para i=1,...,k y k. hemos calculado las distintas medias muestrales para cada una de ellas: x 1, x 2 ,...,x Cuando varias muestras exhiben promedios diferentes, los investigadores tienen inters en explorar si todas estas muestras provienen de poblaciones con la misma media, esto es : .1 = .2 = ....=.k , o si cada una de las k muestras se obtiene de poblaciones con medias que no son todas iguales. As, se desea resolver el problema de hiptesis: H0 : .1 = .2 = ....=.k vs. H1 : algn .i distinto.

Si el anlisis estadstico permite aceptar el primer caso, entonces las diferencias observadas entre las medias muestrales, se deben slo a fluctuaciones del muestreo y, por lo tanto, no son significativas. En cambio, si el anlisis no permite aceptar igualdad de medias, las diferencias entre las diversas medias muestrales son significativas, esto es se rechaza la hiptesis que .1 =.....=.k . El procedimiento usado para probar igualdad de medias de varias poblaciones normales se denomina Anlisis de Varianza (nombre que parece errado ya que queremos probar igualdad de medias). Este procedimiento involucra una separacin de una varianza total en piezas o partes: varianza intra (dentro) y varianza inter (entre) y luego decide aceptar o rechazar la igualdad de medias basndose en la magnitud relativa de estas partes. Supongamos que disponemos de k muestras aleatorias independientes, cada una de tamao ni i=1,2,..,k .Para poder llevar a cabo la prueba de igualdad de medias necesitamos que se satisfagan los dos supuestos siguientes: 1) Cada una de las muestras se obtienen de una poblacin con distribucin normal y ,
2 2 2 2) Las k poblaciones tienen la misma varianza, esto es 51 = 52 = ......= 5k .

Sea :

H0 : .1 = .2 = ....=.k vs. H1 : algn .i distinto.

La decisin de rechazar o no H! se har con el estadstico

DEPARTAMENTO DE ESTADISTICA INFERENCIA M.V.H

F=

Varianza inter-muestras Varianza intra-muestras

donde la varianza inter y la varianza intra son dos estimaciones de la varianza comn 5# Si la disparidad entre estas dos estimaciones es considerable, la hiptesis nula es rechazada y las diferencias entre las diversas medias muestrales son consideradas significativas. Si la hiptesis nula es verdadera, esperamos que las dos estimaciones para la varianza poblacional estn razonablemente cercanas y por lo tanto se espera que la razn F sea cercana a 1, en cambio, si las k medias son diferentes, la varianza inter-muestras ser mayor que la varianza intra-muestras. Esto debido a que la varianza intra-muestras es una estimacin insesgada de la varianza poblacional sin importar si H0 es verdadero o no, en cambio el valor esperado de la varianza inter-muestras consiste de la varianza poblacional ms una varianza adicional que refleja la diferencia entre las k poblaciones. Esto es, los valores esperados de las dos estimaciones de la varianza 52 son: E[Varianza intra-muestras] = 52 E[Varianza inter-muestras] = 52 + " ni
i=1 k

(.i -.)2 k"

As, cuando las k poblaciones difieren en lo que respecta a su media, se espera que la razn F sea mayor que 1; adems, mientras mayor sea la diferencia entre las diversas muestras, mayor ser la razn F. Por lo tanto, con un nivel de significacin !, se rechazar H0 : .1 = .2 = ....=.k si F >F1-! (r1 , r2 ).

Frmulas
k= N de poblaciones en estudio (N de muestras) ni = Tamao de la muestra i, i=1,2,...,k ; "ni = n.
i=1 k

Estimador de la media :

. s=
k ni

i=1 j =1 k

! !Xij ! ni
i=1

ni

...................................(1)

!!(Xij . s )2 Estimador de la varianza total : 5 s2 =


i=1 j=1

! ni 1
i=1

...........................................(2)

DEPARTAMENTO DE ESTADISTICA INFERENCIA M.V.H

Si ni = n , a i=1, ..,k, entonces "ni = nk y las frmulas (1) y (2) pasan a ser respectivamente
i=1

n !Xi . s=
i=1

!X i =
i=1

!!(Xij . s )2 , 5 s2 =
i=1 j=1

k n

nk

nk 1

Notemos que, el numerador de 5 s2 corresponde a una suma de cuadrados totales que puede descomponerse en: ""(Xij . s )2 ="" [(Xij X i )+(X i . s )]2
i=1 j=1 i=1 j=1 k ni k ni k ni k ni

y como los dobles productos son 0

= "" (Xij X i )2 + "" (X i . s )2


i=1 j=1 i=1 j=1

.............................(3)

Suma cuadrado total=Suma cuadrado dentro de muestras+ Suma cuadrado entre muestras Notemos que (3) se puede escribir como: ""(Xij . s)
i=1 j=1 k ni 2

= "ni
i=1

"S2 i+ +

"ni (X s )2 i.
i=1

SCT

SCW

SCB

(W=Whithin=dentro, B=Between=entre) Como . s es combinacin lineal de variables normales, ella es normal. Adems, X i . s se distribuye normal por ser combinacin lineal de normales. Cov ( . s ,Xi . s )=0 para cada i, y Cov( X i . s , Xij X i )=0 para cada i, j. As: . s es independiente de X i . s, !ni "S2 i . s es independiente de S2 c = y
i=1 k

n. k

Xi . s es independiente de S2 c .

Dividiendo la expresin (3) por 52 tenemos: SCT ;2 (n. 1), 52 SCW ;2 (n. k), 52 SCB ;2 (k 1), 52

DEPARTAMENTO DE ESTADISTICA INFERENCIA M.V.H

Dada la independencia de las variables involucradas obtenemos que


k !ni (X s )2 i. i=1

SCB 1) F= = SCW 52 (n. k) 52 (k

k1 !ni "S2 i
i=1 k

F( k 1, n. k) .......................(5)

n. k Si ni = n para todo i = 1, ...,k (5) toma la forma :


k n! (X i . s )2 i=1

F=

k1 !S2 i i=1 k
k

2 nS X

!S2 i i=1 k

F( k 1, k(n 1)).

Lo anterior se puede resumir en una tabla conocida como la TABLA ANOVA (de un factor) ANOVA SC CP SCB SCW SCT SCB/(k 1) SCW/(n. k)

Fuente de Variacin Entre pobl. Dentro de las k pobl. Total

g.l. k1 n. k n. 1

Razn F Fc =
SCB (k1) SCW (n.k)

v-p P(F Fc )

Observacin. Podemos obtener frmulas alternativas para la SCT y SCB, estas son: !! Xij 2
i=1 j=1 k ni

SCT = !! X2 ij
i=1 j=1 n"

k ni

n ! X#j 2 +
j=1 n#

! X"j 2 SCB= y
j=1

! Xkj 2 .....+
j=1

nk

!! Xij 2
i=1 j=1

k ni

n"

n2

nk

SCW = SCT SCB

DEPARTAMENTO DE ESTADISTICA INFERENCIA M.V.H

Ejercicio. Como parte de la investigacin del derrumbe del techo de un edificio, un laboratorio prueba todos los pernos disponibles que conectaban la estructura de acero en tres posiciones distintas del techo. Las fuerzas requeridas para "cortar" cada uno de los pernos (valores codificados) son los siguientes: Posicin 1: 90 82 79 98 83 91 Posicin 2: 105 89 93 104 89 95 86 Posicin 3: 83 89 80 94 Realice un anlisis de varianza para probar, con un nivel de significacin de 0.05, si las diferencias entre las medias muestrales en las 3 posiciones son significativas. Solucin Realizamos la prueba de hiptesis: H0 : .1 =.2 =.3 (las fuerzas promedios es la misma para las tres posiciones) H1 : Algn .i es distinto. Bajo los supuestos de normalidad en las fuerzas requeridas, independencia e igualdad de varianza para las 3 posiciones obtenemos: De acuerdo a la observacin anterior recogemos las distintas sumas para cada una de las posiciones

ni ! Xij
j=1 ni

Posicin 1 6 523

Posicin 2 7 661

Posicin 3 4 346

Total n. =17 !! Xij =1530


i=1 j=1 k ni

As SCT="" X2 ij
i=1 j=1 k ni

(1530)# (1530)# = 138638 =938 17 17

SCB = y

523# 661# 346# (1530)# #$% 6 7 4 17

SCW=938 234=704. De donde el estadstico es Fc =


#$% # (!% "%

""( =2.33 50.3

Para !=0.05 tenemos F0.95 (2,14)=3.74 Dado que Fc =2.33 F0.95 (2,14) no podemos rechazar H0 . Las diferencias entre las medias muestrales no son significativas al nivel 0.05.

DEPARTAMENTO DE ESTADISTICA INFERENCIA M.V.H

Z +69< : P(F(2,14) 2.33) = 0.13381807 no significativo. Los clculos los podemos resumir en la siguiente tabla ANOVA Fuente de variacin Posiciones Error Total g.l. 2 14 16 SC 234 704 938 SCP 117 50.3 Fc 2.33 F1! (k-1, n -k) 3.74 v-p 0.1338

Esta misma tabla la podemos obtener de la planilla Excell en la opcin "Anlisis de Varianza de un Factor" en "Anlisis", todo dentro del cono "Datos".
Ejercicio 1. Como parte de la investigacin del derrumbre del techo de un edificio, un laboratorio prueba todos los pernos disponibles que conectaban la estructura de acero en tres posiciones distintas del techo. Las fuerzas requeridas para "cortar" cada uno de los pernos (valores codificados ) son los siguientes:

Posicin 2 105 89 93 104 89 95 86 Anlisis de varianza de un factor RESUMEN Grupos Posicin 1 Posicin 2 Posicin 3

Posicin 1 90 82 79 98 83 91

Posicin 3 83 89 80 94

N Observaciones 6 7 4

Suma 523 661 346

Promedio Varianza 87,1666667 50,1666667 94,4285714 55,952381 86,5 39

ANLISIS DE VARIANZA O. de las variaciones Entre grupos Dentro de los grupos Total

S.C. 234,452381 703,547619 938

G. de l. 2 14 16

C.M F Prob (v-p) V. crtico para F 117,22619 2,33270161 0,133547147 3,738891832 50,2534014

DEPARTAMENTO DE ESTADISTICA INFERENCIA M.V.H

COMPARACIONES MULTIPLES EN ANOVA Cuando el valor calculado del estadstico F en una ANOVA unifactorial no es significativo el anlisis termina porque no se han identificado diferencias entre las .i , pero cuando H0 es rechazada , el investigador normalmente desear saber cuales de las .i son diferentes una de la otra. Un mtodo para realizar este anlisis adicional se llama procedimiento de comparaciones mltiples. Varios de dichos procedimientos ms frecuentemente usados estn basados en la siguiete idea central. Primero se calcula un intervalo de confianza para cada diferencia .i .j con i j , hay 1) k k(k2 intervalos. Entonces si el intervalo para .i .j no incluye al 0, se concluye que .i y 2 = .j difieren significativamente una de otra, si el intervalo incluye al 0, se considera que las dos medias no difieren de manera significativa. Se sigue el mismo razonamiento para cada uno de los dems intervalos. Los procedimientos basados en esta idea difieren en el mtodo utilizado para calcular los varios intervalos de confianza. A continuacin veremos un mtodo popular que controla el nivel de 1) confianza simultneo para todos los k(k2 intervalos. Procedimiento de Tukey (caso: n1 =n2 =...=nk = n) El procedimiento de Tukey utiliza la distribucin de probabilidades llamada distribucin de rango estudentizada. Esta distribucin depende de dos parmetros : m los grados de libertad asociados con el numerador y / grados de libertad asociados con el denominador. La Tabla 10 muestra los percentiles (1 !) = 0.95 y 0.99 de esta distribucin, denotados por Q1! (m, / ) (anlogo a la F"! (r1 , r2 )) Resultado 1.(caso: n1 =n2 =...=nk = n) Con probabilidad 1 ! , el intervalo contiene a (X i X j Q1! (k, k(n 1))CPW/n ) .i .j para cada i y j (i=1,2,...,k y j=1,2,...,k ) con i j
SCW Cuando las x i, x j son calculadas y el CPW= k(n 1) se sustituye arriba, el resultado es un conjunto de intervalos de confianza simultneo de 100(1 !)% para todas las diferencias .i .j con i j. Cada intervalo que no incluye al 0 da lugar a la conclusin que los valores correspondientes de .i y .j difieren significativamente uno de otro.

Como en realidad no interesan los lmites inferior y superior de los diversos intervalos sino slo cul incluye al 0 y cul no, se puede evitar mucha aritmtica asociada con el resultado anterior. El procedimiento a continuacin permite identificar en forma visual las diferencias significativas con un patrn de subrayado.

DEPARTAMENTO DE ESTADISTICA INFERENCIA M.V.H

Mtodo de Tukey para identificar los .i significativamente diferentes -Seleccione ! y determine Q1! (k, k(n 1)) de la tabla. -Calcule w= Q1! (k, k(n 1))CPW/n. -Haga una lista con las medias muestrales en orden creciente de magnitud - Subraye los pares que difieren en menos de w. Cualquier par de medias muestrales no subrayadas por la misma raya corresponde a un par de medias de poblacin o tratamiento juzgadas significativamente diferentes. Ejemplo. Se realiz un experimento para comparar 5 marcas diferentes de filtros de aceite para automviles con respecto a su capacidad de atrapar materia extraa. Sea .i la cantidad promedio verdadera de material atrapado por los filtros marca i (i=1,2,..,5) en condiciones controladas. Se utiliz una muestra de 9 filtros de cada marca y se obtuvieron las siguientes cantidades medias muestrales: x 1 = 14.5, x 2 = 13.8, x 3 = 13.3, x 4 =14.3, x 5 = 13.1. La siguiente tabla Anova resume la primera parte del anlisis de H0 :.1 =.2 =......=.5 F. de Variacin Tratamientos (marcas) Error Total g.l 4 40 44 sc 13.32 3.53 16.85 cp 3.33 0.088 F 37.84 F0.95 (4,40) 2.61

Como Fc =37.84 2.61 rechazamos H! y hay diferencias entre las medias. Utilicemos el procedimiento de Tukey para encontrar las diferencias significativas entre las .i . Para !=0.05 encontramos que Q1! (k, k(n 1))= Q0.95 (5, 40)=4.04 y por lo tanto w= Q1! (k, k(n 1))CPW/n = 4.04 0.088/9=0.4 Ordenamos las medias muestrales en forma ascendente: x5 13.1 x3 13.3 x2 13.8 x4 14.3 x1 14.5

Note que la primera raya no puede ser extendida a x 2 pues 13.8 13.1=0.7 0.4. As las marcas 1 y 4 no son significativamente diferentes una de otra, pero s son ms altas de manera significativa que las otras tres marcas en sus contenidos promedio verdaderos. La marca 2 es significativamente mejor que la 3 y 5, pero peor que la 1 y la 4 y las marcas 1 y 5 no difieren en modo significativo. 8

DEPARTAMENTO DE ESTADISTICA INFERENCIA M.V.H

Resultado 2.(caso: tamaos de muestras distintas, pero similares)


" " Sea wij =Q1! (k, n k) CPW 2 ( ni + nj ). Con probabilidad aproximada 1 ! , el intervalo (X i X j wij ) contiene a .i .j para cada i y j (i=1,2,...,k y j=1,2,...,k ) con i j

En el Resultado 2 el nivel de confianza simultneo de (1 !)100% es slo aproximado y no exacto ya que se determin con tamaos de muestras iguales. El mtodo de subrayado puede seguir siendo usado, pero ahora el factor wij utilizado para decidir si xi y x j pueden ser conectados depender de ni y nj . Ejercicio. Aunque el t es la bebida que ms se consume en el mundo despus del agua, se sabe poco sobre su valor nutricional. La folacina es la nica vitamina B presente en cualquier cantidad significativa de t y avances recientes en mtodos de ensayos han determinado con precisin el contenido de folacina factible. Considere los datos adjuntos sobre el contenido de folancina en espcmenes seleccionados al azar de las cuatro marcas lderes de t verde. 1: 2: 3. 4. 7.9 5.7 6.8 6.4 6.2 7.5 7.5 7.1 6.6 9.8 5.0 7.9 8.6 6.1 7.4 4.5 8.9 8.4 5.3 5.0 10.1 6.1 4.0 9.6

a) Sugieren estos datos que el contenido de folacina promedio es la misma en las 4 marcas. (Use valor-p y considere !=0.05). b) Realice, si tiene sentido, un anlisis de comparaciones mltiples para identificar diferencias significativas entre marcas. Solucin. Bajo los supuestos de normalidad e igualdad de varianza, realizamos la ANOVA para la prueba H0 : El contenido promedio de folacina en las 4 marcas es la misma vs H" H! es falsa

ni ! Xij
j=1 ni

Marca 1 7 57.9 8.27

Marca 2 5 37.5 7.5

Marca 3 6 38.1 6.35

Marca 4 6 34.9 5.82

Total n. =24 !! Xij =168.4


i=1 j=1 k ni

xi

SCT= 1246.88

(168.4)2 = 65.2733 24

DEPARTAMENTO DE ESTADISTICA INFERENCIA M.V.H

SCB=

(57.9)2 ($7.&)2 (38.1)2 (34.9)2 (168.4)2 23.4957 + + + 7 & 6 6 24

SCW=65.2733 23.4957=41.7776 ANOVA sc 23.4957 41.7776 65.2733

F. de Variacin Tratamientos (marcas) Error Total

g.l 3 20 23

cp 7.8319 2.0888

F 3.7495

v-p 0.0275

Valor-p 0.05 rechazamos H0 Hay diferencias significativas entre las medias de contenido de folacina entre las 4 marcas.
" " b) Para !=0.05 calculamos: w12 =3.96 2.0888 2 ( 7 + 5 )= 2.3773 " " w13 =3.96 2.0888 2 ( 7 + 6 )= 2.2514 " " w14 =3.96 2.0888 2 ( 7 + 6 )= 2.2514 " " w23 =3.96 2.0888 2 ( 5 + 6 )=2.4506 " " w24 =3.96 2.0888 2 ( 5 + 6 )= 2.4506 " " w34 =3.96 2.0888 2 ( 6 + 6 )=2.3339

Ordenando las medias muestrales tenemos: 4 5.82 . 3 6.35 . 2 7.50 . 1 8.27 .

Slo las marcas 1 y 4 parecen diferir de manera importante.

10