Professional Documents
Culture Documents
Enviado por omary2k Indice 1. Introduccin 2. Bases del anlisis de la varianza 3. Modelos de anlisis de la varianza 4. Contrates de hiptesis en un anlisis de la varianza de dos factores 5. Bibliografa 1. Introduccin El anlisis de la varianza (o Anova: Analysis of variance) es un mtodo para comparar dos o ms medias, que es necesario porque cuando se quiere comparar ms de dos medias es incorrecto utilizar repetidamente el contraste basado en la t de Student. por dos motivos: En primer lugar, y como se realizaran simultnea e independientemente varios contrastes de hiptesis, la probabilidad de encontrar alguno significativo por azar aumentara. En cada contraste se rechaza la H0 si la t supera el nivel crtico, para lo que, en la hiptesis nula, hay una probabilidad . Si se realizan m contrastes independientes, la probabilidad de que, en la hiptesis nula, ningn estadstico supere el valor )crtico es (1 - m, por lo tanto, la probabilidad de que alguno lo )supere es 1 - (1 - m, que para valores m. Una primera solucin, prximos a 0 es aproximadamente igual a de denominada mtodo de Bonferroni, consiste en bajar el valor /m, aunque resulta un mtodo muy conservador., usando en su lugar de Por otro lado, en cada comparacin la hiptesis nula es que las dos muestras provienen de la misma poblacin, por lo tanto, cuando se hayan realizado todas las comparaciones, la hiptesis nula es que todas las muestras provienen de la misma poblacin y, sin embargo, para cada comparacin, la estimacin de la varianza necesaria para el contraste es distinta, pues se ha hecho en base a muestras distintas. El mtodo que resuelve ambos problemas es el anova, aunque es algo ms que esto: es un mtodo que permite comparar varias medias en diversas situaciones; muy ligado, por tanto, al diseo de experimentos y, de alguna manera, es la base del anlisis multivariante. 2. Bases del anlisis de la varianza Supnganse k muestras aleatorias independientes, de tamao n, extradas de una nica poblacin normal. A partir de ellas existen dos maneras independientes de estimar la varianza de la poblacin 2: 1) Una llamada varianza dentro de los grupos (ya que slo contribuye a ella la varianza dentro de las muestras), o varianza de error, o cuadrados medios del error, y habitualmente representada por MSE (Mean Square Error) o MSW (Mean Square Within) que se calcula como la media de las k varianzas muestrales (cada varianza muestral es un estimador centrado de2 y la media de k estimadores centrados es tambin un estimador centrado y ms eficiente que todos ellos). MSE es un cociente: al numerador se le llama suma de
cuadrados del error y se representa por SSE y al denominador grados de libertad por ser los trminos independientes de la suma de cuadrados. 2) Otra llamada varianza entre grupos (slo contribuye a ella la varianza entre las distintas muestras), o varianza de los tratamientos, o cuadrados medios de los tratamientos y representada por MSA o MSB (Mean Square Between). Se calcula a partir de la varianza de las medias muestrales y es tambin un cociente; al numerador se le llama suma de cuadrados de los tratamientos (se le representa por SSA) y al denominador (k-1) grados de libertad. MSA y MSE, estiman la varianza poblacional en la hiptesis de que las k muestras provengan de la misma poblacin. La distribucin muestral del cociente de dos estimaciones independientes de la varianza de una poblacin normal es una F con los grados de libertad correspondientes al numerador y denominador respectivamente, por lo tanto se puede contrastar dicha hiptesis usando esa distribucin. Si en base a este contraste se rechaza la hiptesis de que MSE y MSA estimen la misma varianza, se puede rechazar la hiptesis de que las k medias provengan de una misma poblacin. Aceptando que las muestras provengan de poblaciones con la misma varianza, este rechazo implica que las medias poblacionales son distintas, de modo que con un nico contraste se contrasta la igualdad de k medias. Existe una tercera manera de estimar la varianza de la poblacin, aunque no es independiente de las anteriores. Si se consideran las kn observaciones como una nica muestra, su varianza muestral tambin es un estimador centrado de 2: Se suele representar por MST, se le denomina varianza total o cuadrados medios totales, es tambin un cociente y al numerador se le llama suma de cuadrados total y se representa por SST, y el denominador (kn -1) grados de libertad. Los resultados de un anova se suelen representar en una tabla como la siguiente: Fuente de variacin G.L. Entre grupos Tratamientos Dentro Error Total k-1 SS SSA MS SSA/(k-1) F MSA/MSE
(n-1)k
SSE
SSE/k(n-1)
kn-1
SST
Y el cociente F se usa para realizar el contraste de la hiptesis de medias iguales. La regin crtica para dicho contraste es F > F(k-1,(n-1)k) Algunas propiedades Es fcil ver en la tabla anterior que GLerror+ GLtrata = (n - 1) k + k - 1 = nk - k + k - 1 = nk - 1 = GLtotal No es tan inmediato, pero las sumas de cuadrados cumplen la misma propiedad, llamada identidad o propiedad aditiva de la suma de cuadrados:
SST = SSA + SSE El anlisis de la varianza se puede realizar con tamaos muestrales iguales o distintos, sin embargo es recomendable iguales tamaos por dos motivos: La F es insensible a pequeas variaciones en la asuncin de igual varianza, si el tamao es igual. Igual tamao minimiza la probabilidad de error tipo II. 3. Modelos de anlisis de la varianza El anova permite distinguir dos modelos para la hiptesis alternativa: Modelo I o de efectos fijos en el que la H1 supone que las k muestras son muestras de k poblaciones distintas y fijas. Modelo II o de efectos aleatorios en el que se supone que las k muestras, se han seleccionado aleatoriamente de un conjunto de m>k poblaciones. Un ejemplo de modelo I de anova es que se asume que existen cinco poblaciones (sin tratamiento, con poca sal, sin sal, etc.) fijas, de las que se han extrado las muestras. Un ejemplo de modelo II sera: un investigador est interesado en determinar el contenido, y sus variaciones, de grasas en las clulas hepticas de cobayas; toma del animalario 5 cobayas al azar y les realiza, a cada una, 3 biopsias hepticas. La manera ms sencilla de distinguir entre ambos modelos es pensar que, si se repitiera el estudio un tiempo despus, en un modelo I las muestras seran iguales (no los individuos que las forman) es decir corresponderan a la misma situacin, mientras que en un modelo II las muestras seran distintas. Aunque las asunciones iniciales y los propsitos de ambos modelos son diferentes, los clculos y las pruebas de significacin son los mismos y slo difieren en la interpretacin y en algunas pruebas de hiptesis suplementarias. Anlisis de la varianza de dos factores Es un diseo de anova que permite estudiar simultneamente los efectos de dos fuentes de variacin. En cualquier caso, el investigador puede estar interesado en estudiar si hay, o no, diferencia en la evolucin segn el sexo. En un anova de dos vas se clasifica a los individuos de acuerdo a dos factores (o vas) para estudiar simultneamente sus efectos. En este ejemplo se haran cinco grupos de tratamiento para los hombres y otros cinco para las mujeres, en total diez grupos; en general, si el primer factor tiene a niveles y el segundo tiene b, se tendrn ab muestras o unidades experimentales, cada una con n individuos o repeticiones. Una observacin individual se representa como: El primer subndice indica el nivel del primer factor, el segundo el nivel del segundo factor y el tercero la observacin dentro de la muestra. Los factores pueden ser ambos de efectos fijos (se habla entonces de modelo I), de efectos aleatorios (modelo II) o uno de efectos fijos y el otro de efectos aleatorios (modelo mixto). El modelo matemtico de este anlisis es: modelo I modelo II
modelo mixto donde es la media global, i o Ai el efecto del nivel i del 11 factor, j o Bj el efecto del nivel j del 2 factor y ijk las desviaciones aleatorias alrededor de las medias, que tambin se asume que estn normalmente distribuidas, son independientes y tienen media 0 y varianza 2. A las condiciones de muestreo aleatorio, normalidad e independencia, este modelo aade la de aditividad de los efectos de los factores. A los trminos ( )ij, (AB)ij, ( B)ij, se les denomina interaccin entre ambos factores y representan el hecho de que el efecto de un determinado nivel de un factor sea diferente para cada nivel del otro factor. Para entender mejor este concepto de interaccin veamos un ejemplo sencillo sobre un anova de dos factores, cada uno con dos niveles: supngase un estudio para analizar el efecto de un somnfero teniendo en cuenta el sexo de los sujetos. Se eligen al azar dos grupos de hombres y otros dos de mujeres. A un grupo de hombres y otro de mujeres se les suministra un placebo y a los otros grupos el somnfero. Se mide el efecto por el tiempo que los sujetos tardan en dormirse desde el suministro de la pldora. Se trata de un anova de dos factores (sexo y frmaco) fijos, cada uno con dos niveles (hombre y mujer para el sexo y somnfero y placebo para el frmaco). Los dos tipos de resultados posibles se esquematizan en la figura
AB En la figura A se observa que las mujeres tardan ms en dormirse, tanto en el grupo tratado como en el grupo placebo (hay un efecto del sexo) y que los tratados con placebo tardan ms en dormirse que los tratados con somnfero en ambos sexos (hay un efecto del tratamiento). Ambos efectos son fcilmente observables. Sin embargo en la figura B es difcil cuantificar el efecto del somnfero pues es distinto en ambos sexos y, simtricamente, es difcil cuantificar el efecto del sexo pues es distinto en ambos grupos de tratamiento. En este caso, se dice que existe interaccin. Podra, incluso, darse el caso de que se invirtieran los efectos de un factor para los distintos niveles del otro, es decir, que las mujeres se durmieran antes con el somnfero y los hombres antes con el placebo. La interaccin indica, por tanto, que los efectos de ambos factores no son aditivos: cuando se dan juntos, su efecto no es la suma de los efectos que tienen cuando estn por separado, por lo que, si en un determinado estudio se
encuentra interaccin entre dos factores, no tiene sentido estimar los efectos de los factores por separado. A la interaccin positiva, es decir, cuando el efecto de los factores actuando juntos es mayor que la suma de efectos actuando por separado, en Biologa se le denomina sinergia o potenciacin y a la interaccin negativa inhibicin. En el ejemplo de la figura B, se dira que el ser mujer inhibe el efecto del somnfero, o que el ser hombre lo potencia (segn el sexo que se tome como referencia). 4. Contrates de hiptesis en un anlisis de la varianza de dos factores Del mismo modo que se hizo en el anova de una va, para plantear los contrastes de hiptesis habr que calcular los valores esperados de los distintos cuadrados medios. Los resultados son: Modelo I MS MSA Valor esperado
MSB
MSAB MSE Por lo tanto, los estadsticos MSAB/MSE, MSA/MSE y MSB/MSE se distribuyen como una F con los grados de libertad correspondientes y permiten contrastar, respectivamente, las hiptesis: no existe interaccin (MSAB/MSE)
no existe efecto del primer factor, es decir, diferencias entre niveles del primer factor (MSA/MSE) no existe efecto del segundo factor (MSB/MSE)
Si se rechaza la primera hiptesis de no interaccin, no tiene sentido contrastar las siguientes. En este caso lo que est indicado es realizar un anlisis de una va entre las ab combinaciones de tratamientos para encontrar la mejor combinacin de los mismos. 5. Bibliografa V. Abraira, A. Prez de Vargas
Anlisis de la varianza
De Wikipedia, la enciclopedia libre
Saltar a navegacin, bsqueda En estadstica, el anlisis de la varianza o anlisis de varianza (ANOVA, segn terminologa inglesa) es una coleccin de modelos estadsticos y sus procedimientos asociados, en el cual la varianza esta particionada en ciertos componentes debidos a diferentes variables explicativas. Las tcnicas iniciales del analisis de varianza fueron desarrolladas por el estadstico y genetista R. A. Fisher en los aos 1920 y 1930 y es algunas veces conocido como Anova de Fisher o analisis de varianza de Fisher, debido al uso de la distribucin F de Fisher como parte del contraste de hiptesis. El anlisis de varianza sirve para comparar si los valores de un conjunto de datos numricos son significativamente distintos a los valores de otro o ms conjuntos de datos. El procedimiento para comparar estos valores est basado en la varianza global observada en los grupos de datos numricos a comparar. Tpicamente, el anlisis de varianza se utiliza para asociar una probabilidad a la conclusin de que la media de un grupo de puntuaciones es distinta de la media de otro grupo de puntuaciones.
Contenido
[ocultar] 1 Visin general 2 Supuestos previos 3 Modelo de efectos fijos 4 Modelo de efectos aleatorios 5 Grados de libertad
6 Pruebas de significacin
La variable dependiente debe medirse al menos a nivel de intervalo. Independencia de las observaciones. La distribucin de los residuales debe ser normal. Homocedasticidad: homogeneidad de las varianzas.
La tcnica fundamental consiste en la separacin de la suma de cuadrados (SS, 'sum of squares') en componentes relativos a los factores contemplados en el modelo. Como ejemplo, mostramos el modelo para un ANOVA simplificado con un tipo de factores en diferentes niveles. (Si los niveles son cuantitativos y los efectos son lineales, puede resultar apropiado un anlisis de regresin lineal) SSTotal = SSError + SSFactores El nmero de grados de libertad (gl) puede separarse de forma similar y se corresponde con la forma en que la distribucin chi-cuadrado describe la suma de cuadrados asociada. glTotal = glError + glFactores
Obtenido de "http://es.wikipedia.org/wiki/An%C3%A1lisis_de_la_varianza"
El anlisis de varianza es una prueba que nos permite medir la variacin de las respuestas numricas como valores de evaluacin de diferentes variables nominales.
La prueba a realizar es de s existe diferencia en los promedios para la los diferentes valores de las variables nominales; esta prueba se realiza para variables donde una tiene valores nominales y la otra tiene valores numricos. En el siguiente ejemplo, se tiene la calificacin de una prueba a personas con diferentes grados de escolaridad, lo que se intenta es probar si existe o no diferencia entre el grado escolar (variable nominal ) y el promedio de la calificacin ( variable numrica ). Para analizar si existe diferencia en los promedios se procede a realizar una prueba F que se explica posteriormente.
TABLA 1
CALIFICACIN 67.15204678 64.36842105 60.91130604 55.38986355 53.917154 53.3460039 52.15984405 51.86842105 51.12768031 50.63060429
GRADO ESCOLAR DOCTORADO DOCTORADO ESTUDIANTE ESTUDIANTE ESTUDIANTE MAESTRA ESTUDIANTE ESTUDIANTE DOCTORADO ESTUDIANTE
CALIFICACIN 39.5662768 39.07309942 38.71247563 34.95321637 34.27777778 34.27192982 67.63611386 62.77020467 60.88483775 56.50144025
GRADO ESCOLAR ESTUDIANTE ESTUDIANTE DOCTORADO ESTUDIANTE ESTUDIANTE ESTUDIANTE DOCTORADO DOCTORADO ESTUDIANTE ESTUDIANTE
50.35477583 48.38596491 47.07407407 44.09454191 43.41520468 43.23781676 41.82066277 41.57212476 41.21539961 40.8245614 40.79824561 33.09835159 32.1839986 58.49961104 56.18983249 51.46872891 53.4198814 53.7674174 50.90286877 49.49529961 50.07639845
MAESTRA MAESTRA DOCTORADO MAESTRA ESTUDIANTE MAESTRA ESTUDIANTE ESTUDIANTE MAESTRA ESTUDIANTE ESTUDIANTE ESTUDIANTE ESTUDIANTE ESTUDIANTE ESTUDIANTE ESTUDIANTE MAESTRA ESTUDIANTE ESTUDIANTE DOCTORADO ESTUDIANTE
51.76861802 53.63085832 50.77179452 50.89056506 48.66061841 52.67230843 47.98778555 48.23106247 46.83381069 45.52452004 43.28708589 41.03983895 41.53716416 43.38891669 39.98564149 39.42669945 38.45267793 39.80270585 37.09940719 41.13772888 34.4219837
ESTUDIANTE MAESTRA ESTUDIANTE ESTUDIANTE DOCTORADO ESTUDIANTE MAESTRA MAESTRA DOCTORADO MAESTRA ESTUDIANTE MAESTRA ESTUDIANTE ESTUDIANTE MAESTRA ESTUDIANTE ESTUDIANTE ESTUDIANTE ESTUDIANTE DOCTORADO ESTUDIANTE
48.55589372
MAESTRA
40.28758583
ESTUDIANTE
LA PRUEBA F.
El primer paso es ordenar los datos de acuerdo al valor nominal que le corresponde para as obtener: El nmero de datos, el promedio y la desviacin estndar de cada uno de los valores nominales. De la TABLA 1 obtenemos tres valores nominales que toma la variable GRADO ESCOLAR, estos tres valores son: DOCTORADO, ESTUDIANTE Y MAESTRA. La siguiente tabla nos muestra estos resultados. TABLA 2
GRADO ESCOLAR
CALIFICACIN
TOTALES
DOCTORADO
ESTUDIANTE
MAESTRA
cuad med
7133.522799
2828.000955
2089.735312
2215.78653
desviacin
8.477715089
10.44722904
8.383858417
4.69392914
media
47.29390233
53.17895218
45.71362283
47.0721418
64
11
39
14
SUMA CUADRADOS
147677.5588
32199.45645
84170.66229
31307.4401
67.15204678
60.91130604
53.3460039
64.36842105
55.38986355
50.3547758
51.12768031
53.917154
48.3859649
47.07407407
52.15984405
44.0945419
49.49529961
51.86842105
43.2378168
38.71247563
50.63060429
41.2153996
67.63611386
43.41520468
53.4198814
62.77020467
41.82066277
48.5558937
48.66061841
41.57212476
53.6308583
46.83381069
40.8245614
47.9877855
41.13772888
40.79824561
48.2310625
33.09835159
45.52452
32.1839986
41.0398389
58.49961104
39.9856415
56.18983249
51.46872891
53.7674174
50.90286877
50.07639845
39.5662768
39.07309942
34.95321637
34.27777778
34.27192982
60.88483775
56.50144025
51.76861802
50.77179452
50.89056506
52.67230843
43.28708589
41.53716416
43.38891669
39.42669945
38.45267793
39.80270585
37.09940719
34.4219837
40.28758583
Siendo:
Obtenemos:
Para nuestro ejemplo: c = 3 nmero de columnas (nmero de valores nominales DOCTORADO, ESTUDIANTE Y MAESTRA) n = 64 total de datos n1 =11 DOCTORADO n2 = 39 ESTUDIANTE
n3 =14 MAESTRA
SCE = SCT SCC =4527.914147 479.0544662 = 4048.859681 g.l. 1 = c-1 = 3-1 = 2 g.l. 2 = n-c = 64 3 = 61
Para ello necesitamos F, g.l. 1 y g.l. 2 Que son: F =3.608710198 g.l. 1 = 2 g.l. 2 = 61 La funcin anterior no se puede integrar de manera explcita por lo que para resolverla es necesario usar mtodos numricos de integracin. Mediante las hojas de clculo de Microsoft Excel es posible calcular el valor de a escribiendo para este ejemplo: =DISTR.F(3.608710198, 2,61)
El significado de a (alfa) y su interpretacin El mtodo de anlisis de varianza para comparacin de promedios parte del supuesto inicial de que no existe diferencia entre los promedios y que los resultados de la muestra son producto exclusivamente del azar. A este supuesto inicial se le conoce como la hiptesis nula y se le designa con H0. Dada esta suposicin el valor de a es la probabilidad de que se obtenga una muestra como la que se obtuvo sin que exista al menos una diferencia entre los promedios, si el valor de a es muy pequeo, entonces tenemos dos opciones: 1.-) Se obtuvo una muestra muy extraa y con escasas probabilidades de ocurrir. 2.-)La hiptesis nula de que no hay diferencia entre los promedios es falsa siendo que los valores observados ocurrieron no por azar sino porque existe al menos una pareja de valores nominales cuyos promedios son diferentes, A esta opcin se le conoce como la hiptesis alternativa y se le denomina Ha. Si el valor de a es muy pequeo, se opta por la segunda opcin pues es una explicacin mas plausible que las variables estn correlacionadas a que haya ocurrido un hecho rarsimo. Para nuestro ejemplo tenemos que: = 0.033018211 Esto significa que la probabilidad sera un poco mayor al del 3 % para que ocurra una muestra como la que se obtuvo. Otra forma de percibir la probabilidad de alfa es obteniendo el reciproco de a esto es:
=1/ = 1 / 0.033018211
a -1 = 30.28631684
1
Tambin tenemos lo que es el nivel de significancia o intervalo de confianza (I.C). I.C. = 1 I.C. = 1 - 0.033018211 .. = 0.966981789 .. = 96.698 %
Tenemos entonces para nuestro ejemplo dos opciones. 1.-) Los resultados de esta muestra son producto exclusivamente del azar y ocurri algo que ocurre una de cada 30 veces (hiptesis nula H 0 ). 2.-) No ha ocurrido un hecho extrao con pocas posibilidades de ocurrencia sino que ha ocurrido un hecho comn donde existe al menos una pareja de valores nominales cuyos promedios son diferentes (hiptesis alternativa Ha ). Cul es la opcin que tomaramos para este caso? Se tiene un criterio que es enteramente convencional pues no existe ninguna razn matemtica para validarlo; de que con valores de a menores o iguales a 0.05, se opta por la hiptesis alternativa H a, esto es que al menos una pareja de los valores nominales tienen promedios que son diferentes en tanto que para valores de a mayores de 0.05 se opta por la hiptesis nula H0, esto no hay ninguna diferencia estadsticamente significativa entre los promedios de los valores nominales. Una a = 0.05 implica un nivel de significancia de o intervalo de confianza (I.C.) de:
I.C. = 1 I.C. = 1 0.05 I.C. = 0.95 I.C. = 95 % A este criterio se le conoce como un nivel de significancia del 95 % Si aplicamos este criterio a nuestro ejemplo, tenemos que: = 0.033018211 0.033018211< 0.05 .. = 96.698 % 96.698 % > 95 % Lo que implica la hiptesis alternativa Ha estos es existe al menos una pareja de valores nominales cuyos promedios son diferentes. La siguiente tabla (TABLA 3) nos muestra el resultado del anlisis de varianza entre la variable nominal GRADO ESCOLAR y la variable numrica CALIFICACIN como resultado de este ejemplo.
TABLA 3
Nombre
nombre
Alfa
I.C.
g.l. 1
g.l. 2
CALIFICACIN
GRADO ESCOLAR
0.033018211
0.966981789
61
3.608710198
Si: No existe ninguna diferencia estadsticamente significativa entre los promedios de los valores nominales H0 (hiptesis nula) el problema termina, pero si consideramos la hiptesis alternativa Ha tenemos que analizar en que pareja o parejas de valores, hay una diferencia estadsticamente significativa en el promedio, en nuestro ejemplo, nuestro nivel de significancia o intervalo de confianza rebasa muy ligeramente el criterio del 95 %.
Para analizar cada una de las parejas, se hace una prueba t de student para comparar si existe o no diferencia entre las dos medias. La siguiente tabla (TABLA 4) nos muestra el nivel de significancia o intervalo de confianza I.C. en la prueba t de student para cada una de las combinaciones de los diferentes valores nominales.
TABLA 4
COMBINACIONES
VALORES
g.l. 1
g.l. 2
alfa
I . C. crit
var num
Var nom
I . C.
61
0.033018211
0.966981789
PROMEDIO TOTAL
GRADO ESCOLAR
3.609
95%
valido
desvi
media
valor
VALOR
VALOR
ALFA
I.C.
DIF
11
10.44722904
53.17895218
DOCTORADO
DOCTORADO
ESTUDIANTE
0.017
0.983
7.465
64
8.477715089
47.29390233
TOTALES
DOCTORADO
MAESTRIA
0.062
0.938
6.107
14
4.693929139
47.07214178
MAESTRA
ESTUDIANTE
MAESTRIA
0.569
0.431
-1.359
39
8.383858417
45.71362283
ESTUDIANTE
CONCLUSIONES Si tomamos el criterio de 95 %, veremos que solamente existe una diferencia estadsticamente significativa entre los valores nominales de DOCTORADO Y ESTUDIANTE pues el I.C. es del 98.3 %, en las otras dos parejas, DOCTORADO Y MAESTRA, el I.C. es de 93.8 % por lo que para el criterio del 95 % no existe diferencia significativa, si tomramos como criterio un nivel de significancia del 90 %, entonces optaramos por la hiptesis alternativa de que si hubiese diferencia entre las calificaciones de las personas de DOCTORADO Y MAESTRA. Finalmente para ESTUDIANTE Y MAESTRA el nivel de significancia I.C. es de 43.1 % por lo que no podemos afirmar que exista diferencia entre los promedios de ESTUDIANTE Y MAESTRA.