Professional Documents
Culture Documents
ESTADÍSTICA III
SESIÓN 1
Análisis de Varianza
De un Factor
𝒚𝒊𝒋 : representa la observación j-ésima tomada bajo el nivel del factor o tratamiento i.
En general hay n observaciones bajo el tratamiento i-ésimo.
Suposiciones
Los errores del modelo son variables aleatorias que siguen una distribución normal e
independiente con media cero y varianza 𝜎 2 . Es decir: 𝒆𝒊𝒋 ~𝑵(𝟎, 𝝈𝟐 )
Varianza constante para todos los niveles del factor. Esto implica que las
observaciones
De:
Se tiene:
donde:
: Suma de cuadrados debido a los tratamientos (entre tratamientos)
A las cantidades:
Se demuestra que:
Entonces, bajo el supuesto de que los errores son variables aleatorias independientes
distribuidas normalmente con media cero y varianza común y bajo la Ho se puede
demostrar que:
𝑆𝑆𝑇𝑟𝑎𝑡𝑎𝑚𝑖𝑒𝑛𝑡𝑜𝑠 /(𝑎 − 1) 𝑀𝑆𝑇𝑟𝑎𝑡𝑎𝑚𝑖𝑒𝑛𝑡𝑜𝑠
𝐹𝑜 = = ~𝐹(α, 𝑎−1,𝑁−𝑎)
𝑆𝑆𝐸 /(𝑁 − 𝑎) 𝑀𝑆𝐸
Es el estadístico para probar de que no ha diferencias en las medias de los tratamientos
Ho debe rechazarse y concluirse que hay diferencia en las medias de los tratamientos si:
De manera alternativa puede usarse el enfoque del valor de P para tomar una decisión.
Ejemplo
Para los datos del ejemplo de la resistencia a la tensión del experimento del peso
porcentual de algodón, obtener:
Las violaciones de los supuestos básicos y la adecuación del modelo pueden investigarse
con facilidad mediante el examen de los residuales.
Si el modelo es adecuado, los residuales deberán estar si estructura (no deben presentar
patrones obvios).
Si los errores Є𝒊𝒋 son N(0,𝝈𝟐 ), los residuales estandarizados deben ser aproximadamente normales
con media cero y varianza unitaria. Por lo tanto, cerca del 68% de los residuales deben estar incluidos
dentro de los limites ±1, cerca del 95% de ellos deben estar incluidos dentro de ±2, y virtualmente
todos ellos deben estar incluidos dentro de ±3. Un residual mayor que 3 o 4 desviaciones estándar a
partir de cero es un punto atípico potencial.
La gráfica de los residuales en el orden temporal de la recolección de los datos es útil para detectar
correlaciones entre los residuales.
Una tendencia a tener corridas de residuales positivos y negativos indica una correlación positiva, el
cual implica que el supuesto de independencia de los errores a sido violado. La aleatorización
adecuada del experimento es un paso importante para conseguir la independencia.
Una gráfica de los residuales contra el tiempo que muestra una mayor dispersión en uno de sus
extremos que en el otro (el cual implica una varianza no constante) es un problema potencialmente
serio.
Si el modelo es correcto y se satisface los supuestos, los residuales deberán estar sin estructura; no
deberán estar relacionado con ninguna otra variable, incluyendo la respuesta predicha.
Esta gráfica (residuales vs valores ajustados) no deberá mostrar ningún patrón obvio.
Un defecto que se observa en ocasiones en esta gráfica (residuales vs valores ajustados) es la varianza
no constante, el cual se da cuando la varianza de las observaciones se incrementa cuando la magnitud
de la observación se incrementa. En este caso los residuos se harían mayores conforme 𝑦𝑖𝑗 se hace mas
grande, en ese caso la gráfica de los residuales contra 𝑦𝑖𝑗 se vería como un embudo o un megáfono con
la boca hacia afuera. El enfoque usual para abordar el
problema de una varianza no constante,
consiste en aplicar una transformación
para estabilizar la varianza, para correr
después el análisis de varianza en los
datos transformados. En este enfoque,
deberá tenerse presente que las
conclusiones del análisis de varianza se
aplican a las poblaciones
transformadas.
Prueba de Bartllet
Hipótesis: H 0 : 12 22 t2
H a : Al menos dos i2 son diferentes
Nivel de significancia: α
Estadístico de Prueba:
La prueba de Barttel
Varianza muestral de la población i-ésima
es muy sensible al
supuesto de
Criterio de Decisión: Rechazar Ho Normalidad
• La prueba evalúa si la media de estas desviaciones es igual o no para todos los tratamientos.
Cuando las desviaciones medias son iguales, las varianzas de las observaciones de todos los
tratamientos serán iguales.
• El estadístico de prueba es simplemente el estadístico F ANOVA usual para probar la igualdad de
las medias que se aplica a las desviaciones absolutas
Hipótesis: H 0 : 12 22 t2
H a : Al menos dos i2 son diferentes
Sea W el estadístico de prueba de Levene
Ejemplo
Prueba de Tukey
Suponga que después del análisis de varianza en el que se ha rechazado la hipótesis nula de
la igualdad de las medias de los tratamientos, quieren probarse todas las comparaciones de
las medias por pares: 𝐻𝑜 : 𝜇𝑖 = 𝜇𝑗 , 𝐻1 : 𝜇𝑖 ≠ 𝜇𝑗 para todo i ≠ j
El procedimiento de Tukey hace uso de la distribución del estadístico del rango
estudentizado.
La prueba de Tukey declara que dos medias son significativamente diferentes si el valor
absoluto de sus diferencias muestrales excede a 𝑻𝜶
Es obtenido mediante tabla
Es el número de grados de libertad asociado con
UNI - FIEECS – Estadística III Profesor: Ing. Jorge Mejía
Análisis de Varianza de un Factor
El método de la diferencia significativa mínima (LSD) de Fisher
Suponiendo una hipótesis alternativa de dos colas, los pares de medias 𝜇𝑖 y 𝜇𝑗 serán
significativamente diferentes si:
Para usar el procedimiento LSD de Fisher, comparar la diferencia observada entre cada
par de promedios con la LSD correspondiente, es decir:
Si: se concluye que las medias poblacionales 𝝁𝒊 𝒚 𝝁𝒋 difieren
UNI - FIEECS – Estadística III Profesor: Ing. Jorge Mejía
Análisis de Varianza de un Factor
Prueba del rango múltiple de Duncan
Observe que si 𝑛1 = 𝑛2 = ⋯ = 𝑛𝑎 , 𝑛ℎ = 𝑛
En la tabla de Duncan de los rangos significativos se obtienen los valores 𝒓𝜶 𝒑, 𝒇 para
𝑝 = 2,3, … . , 𝑎, donde α es el nivel de significación y 𝑓 es el numero de grados de libertad
del error. Estos rangos se convierten en un conjunto de 𝑎 − 1 rangos mínimos de
significación (por ejemplo, 𝑅𝑝 ) para 𝑝 = 2,3, … . , 𝑎 calculando:
para 𝑝 = 2,3, … . , 𝑎
• Se prueba las diferencias observadas entre las medias, empezando con la mas grande
contra la menor, la cual se compararía con el rango mínimo de significación 𝑅𝑎 .
• Después se calcula la diferencia de la mayor y la segunda menor y se compara con el
rango mínimo de significación 𝑅𝑎−1 .
• Estas comparaciones se continúan hasta que todas las medias se han comparado con
la media mayor.
• Por último se calcula la diferencia entre la segunda media mayor y la menor y se
compara con el rango mínimo de significación 𝑅𝑎−1 .
• Este proceso continua hasta que se han considerado las diferencias entre todos los
𝑎 𝑎−1
pares de medias posibles.
2
• Si una diferencia observada es mayor que el rango de significación mínima
correspondiente, se concluye que el par de medias en cuestión es significativamente
diferente.
• Para evitar contradicciones, ninguna de las diferencias entre un par de medias se
considera significativa si dos medias en cuestión se localizan entre otras dos medias
que no difieren significativamente
Para 𝑖 = 1,2, … , 𝑎 − 1
Ejemplos:
a. La prueba de Tukey.
b. La prueba LSD de Fisher
c. La prueba del Rango múltiple de Duncan
d. La prueba de comparación de medias de tratamientos con un control de Dunnett.