Estadistica III - Analisis de Varianza

UNIVERSIDAD NACIONAL DE INGENIERÍA
Facultad de Ingeniería Económica, Estadística y Ciencias Sociales

Escuela Profesional de Ingeniería Estadística
ESTADÍSTICA III
Profesor: Ing. Jorge Mejía

E-mail: jmejiap@uni.pe
Contenido
SESIÓN 1
Análisis de Varianza
De un Factor
UNI - FIEECS – Estadística III Profesor: Ing. Jorge Mejía

Análisis de Varianza de un Factor
Suponga que se desea comparar “a” tratamientos o niveles diferentes de un solo factor.
La respuesta observada (Y) de cada uno de los a tratamientos es una variable aleatoria.
Luego, se obtiene el siguiente cuadro de datos:
𝒚𝒊𝒋 : representa la observación j-ésima tomada bajo el nivel del factor o tratamiento i.
En general hay n observaciones bajo el tratamiento i-ésimo.

Modelos estadísticos lineales: Modelo de análisis de varianza simple o de un solo factor
Modelo de las
medias
donde:
𝒚𝒊𝒋 : observación ij-ésima,
𝝁𝒊 : media del nivel del factor o tratamiento i-ésimo
𝒆𝒊𝒋 : componente del error aleatorio (incorpora todas las demás fuentes de variabilidad
del experimento, incluyendo la variabilidad de factores no controlados).
Los errores tienen media cero, de tal modo que:
Una forma de escribir el modelo es:

De esta manera el modelo de los datos queda definido:
donde: Modelo de los
μ: media global efectos
𝝉𝒊 : efecto del tratamiento i-ésimo
μ es una constante, los efectos de los tratamientos representan desviaciones de esa
constante cuando se aplican los tratamientos específicos
Objetivos
 Probar las hipótesis acerca de la media de los tratamientos y estimarlas.
Suposiciones
 Los errores del modelo son variables aleatorias que siguen una distribución normal e
independiente con media cero y varianza 𝜎 2 . Es decir: 𝒆𝒊𝒋 ~𝑵(𝟎, 𝝈𝟐 )
 Varianza constante para todos los niveles del factor. Esto implica que las
observaciones
 Observaciones son mutuamente independientes.

De acuerdo con el tipo de efecto que se desea analizar se presentan dos tipos de modelos:
 Modelo de efectos fijos (Modelo I)

 Modelo de efectos Aleatorios (Modelo II)

MODELO DE EFECTOS FIJOS
Sean:
𝒚𝒊. : Total de observaciones bajo el tratamiento i-ésimo

𝒚𝒊. ∶ Promedio de las observaciones bajo el tratamiento i-ésimo
𝒚.. ∶ Gran total de todas las observaciones
𝒚.. ∶ Gran promedio de todas las observaciones
𝑵 = 𝒂𝒏 : Es el número total de observaciones.
El sub índice punto implica la operación suma sobre el sub índice que reemplaza

MODELO DE EFECTOS FIJOS
El interés se encuentra en probar la igualdad de las a medias de los tratamientos, es decir:
Las hipótesis apropiadas son:
De:
Se tiene:
Los efectos de los tratamientos o factores pueden considerarse como desviaciones de la

media global. Por consiguiente una forma equivalente de escribir las hipótesis anteriores es
en términos de los efectos de los tratamientos es:
El procedimiento apropiado para probar la igualdad de medias de los a tratamientos es el

análisis de varianza.
Descomposición de la Suma de Cuadrados Total
El termino producto cruzado es cero debido a :

Por los tanto se tiene:

Descomposición de la Suma de Cuadrados Total
donde:
: Suma de cuadrados debido a los tratamientos (entre tratamientos)
: Suma de cuadrados debido al error (dentro de los tratamientos)

: Suma de cuadrados total
A las cantidades:
Se les llama cuadrados medios.
Se demuestra que:
De manera similar se demuestra que:

Análisis Estadístico
Los valores calculados anteriormente se pueden presentar en la siguiente tabla (ANOVA)
Entonces, bajo el supuesto de que los errores son variables aleatorias independientes
distribuidas normalmente con media cero y varianza común y bajo la Ho se puede
demostrar que:
𝑆𝑆𝑇𝑟𝑎𝑡𝑎𝑚𝑖𝑒𝑛𝑡𝑜𝑠 /(𝑎 − 1) 𝑀𝑆𝑇𝑟𝑎𝑡𝑎𝑚𝑖𝑒𝑛𝑡𝑜𝑠
𝐹𝑜 = = ~𝐹(α, 𝑎−1,𝑁−𝑎)
𝑆𝑆𝐸 /(𝑁 − 𝑎) 𝑀𝑆𝐸
Es el estadístico para probar de que no ha diferencias en las medias de los tratamientos

Análisis Estadístico
Ho debe rechazarse y concluirse que hay diferencia en las medias de los tratamientos si:
De manera alternativa puede usarse el enfoque del valor de P para tomar una decisión.
Formulas para calcular las suma de cuadrados:

Ejemplo:
Un ingeniero de desarrollo de productos Le interesa determinar si el peso porcentual de
algodón en una fibra sintética afecta la resistencia a la tensión, para ello ha llevado a cabo
un experimento completamente aleatorizado con cinco niveles de peso porcentual de
algodón y cinco replicas.
i. Identificar el factor, los niveles del factor y la variable respuesta.

ii. Construir el modelo
iii. Calcular la suma de cuadrado total, de los tratamientos y del error.
iv. Calcular los cuadrados medios del total, de los tratamientos y del error.
v. Plantear la hipótesis nula y alternativa.
vi. Realizar el análisis de varianza, a que conclusión llega.

Estimación de los parámetros del modelo
Sea el modelo con un solo factor:
Estimador de la media global :

Estimador de los efectos de los tratamientos:
Estimación de un Intervalo de confianza de la media del tratamiento i-ésimo:

La media del tratamiento i-ésimo es:
Un estimador puntual de 𝜇𝑖 seria:
Un intervalo de confianza de 100(1-α) por ciento para la media del tratamiento i-
ésimo es:
Un intervalo de confianza de 100(1-α) por ciento para la diferencia de medias de dos

tratamientos cualesquiera esta dada por:

Estimación de los parámetros del modelo
Ejemplo
Para los datos del ejemplo de la resistencia a la tensión del experimento del peso
porcentual de algodón, obtener:
a. La estimación de la media global

b. La estimación de los efectos de los tratamientos
c. Un intervalo de confianza de 95% para la media del tratamiento 4 (30% de algodón)

Datos no balanceados
Cuando el número de observaciones que se hacen dentro de cada tratamiento es
diferente, se le llama diseño no balanceado.
Se aplicará el análisis de varianza descrito anteriormente, haciendo ligeras modificaciones
en las formulas de las sumas de cuadrados.
Sea que se hagan 𝑛𝑖 observaciones bajo el tratamiento i (i=1,2,…,a) y que
Las formulas para calcular manualmente la 𝑺𝑺𝑻 y 𝑺𝑺𝑻𝒓𝒂𝒕𝒂𝒎𝒊𝒆𝒏𝒕𝒐𝒔 queda así:
No se requieren mas cambios en el análisis de varianza.
Ventajas de elegir un diseño balanceado:
 El estadístico de prueba es relativamente insensible a las observaciones pequeñas del supuesto

de la igualdad de las varianzas de los a tratamientos cuando los tamaños de las muestras son
iguales. No siendo el caso cuando los tamaños de las muestras son diferentes.
 La potencia de la prueba se maximiza cuando las muestras tienen el mismo tamaño.

Verificación de los Supuestos del modelo
Las violaciones de los supuestos básicos y la adecuación del modelo pueden investigarse
con facilidad mediante el examen de los residuales.
El residual de la observación j-ésima en el tratamiento i-ésimo se define como:
donde es una estimación de la observación 𝑦𝑖𝑗 correspondiente, el cual se obtiene así:
Si el modelo es adecuado, los residuales deberán estar si estructura (no deben presentar
patrones obvios).

Verificación de la adecuación del modelo: Supuesto de Normalidad
• Histograma de los residuales
Si se satisface el supuesto de NID(0,𝜎 2 ) para los errores, esta gráfica deberá aparecer como una
muestra de una distribución normal con centro en cero.
• Gráfica de probabilidad Normal de los residuales

Si la distribución de los errores es normal, esta gráfica tendrá la apariencia de una línea recta.
En general, las desviaciones moderadas de la normalidad no son motivo de gran

preocupación en el análisis de varianza de efectos fijos.
Una anomalía muy común que suele presentarse en las gráficas de probabilidad normal es un residual
que es mucho mas grande que cualquier otro. A un residual así se le llama con frecuencia punto
atípico. La presencia de uno o mas puntos atípicos puede introducir serias distorsiones en el análisis de
varianza.
Pueden hacerse una verificación aproximada de puntos atípicos examinando los residuales
estandarizados:
Si los errores Є𝒊𝒋 son N(0,𝝈𝟐 ), los residuales estandarizados deben ser aproximadamente normales
con media cero y varianza unitaria. Por lo tanto, cerca del 68% de los residuales deben estar incluidos
dentro de los limites ±1, cerca del 95% de ellos deben estar incluidos dentro de ±2, y virtualmente
todos ellos deben estar incluidos dentro de ±3. Un residual mayor que 3 o 4 desviaciones estándar a
partir de cero es un punto atípico potencial.

 Gráfica de los residuales en secuencia del tiempo
La gráfica de los residuales en el orden temporal de la recolección de los datos es útil para detectar
correlaciones entre los residuales.
Una tendencia a tener corridas de residuales positivos y negativos indica una correlación positiva, el
cual implica que el supuesto de independencia de los errores a sido violado. La aleatorización
adecuada del experimento es un paso importante para conseguir la independencia.
Una gráfica de los residuales contra el tiempo que muestra una mayor dispersión en uno de sus
extremos que en el otro (el cual implica una varianza no constante) es un problema potencialmente
serio.

 Gráfica de los residuales contra los valores ajustados
Si el modelo es correcto y se satisface los supuestos, los residuales deberán estar sin estructura; no
deberán estar relacionado con ninguna otra variable, incluyendo la respuesta predicha.
Esta gráfica (residuales vs valores ajustados) no deberá mostrar ningún patrón obvio.
Un defecto que se observa en ocasiones en esta gráfica (residuales vs valores ajustados) es la varianza
no constante, el cual se da cuando la varianza de las observaciones se incrementa cuando la magnitud
de la observación se incrementa. En este caso los residuos se harían mayores conforme 𝑦𝑖𝑗 se hace mas
grande, en ese caso la gráfica de los residuales contra 𝑦𝑖𝑗 se vería como un embudo o un megáfono con
la boca hacia afuera. El enfoque usual para abordar el
problema de una varianza no constante,
consiste en aplicar una transformación
para estabilizar la varianza, para correr
después el análisis de varianza en los
datos transformados. En este enfoque,
deberá tenerse presente que las
conclusiones del análisis de varianza se
aplican a las poblaciones
transformadas.

Verificación de la adecuación del modelo: Supuesto de Homogeneidad de varianza
Prueba de Bartllet
Hipótesis: H 0 : 12   22    t2
H a : Al menos dos  i2 son diferentes
Nivel de significancia: α
Estadístico de Prueba:
La prueba de Barttel
Varianza muestral de la población i-ésima
es muy sensible al
supuesto de
Criterio de Decisión: Rechazar Ho Normalidad

Verificación de la adecuación del modelo: Supuesto de Homogeneidad de varianza
Prueba de Levene
• Es una alternativa a la prueba de Barttlet.
• Menos sensible que la prueba de Bartlett al incumplimiento del supuesto de normalidad.
• Si se tiene una fuerte evidencia que sus datos provienen de una distribución normal o casi normal,
entonces la prueba de Bartlett es mejor.
• Utiliza la desviación absoluta de las observaciones yij de cada tratamiento de la mediana de los
tratamientos.
• La prueba evalúa si la media de estas desviaciones es igual o no para todos los tratamientos.
Cuando las desviaciones medias son iguales, las varianzas de las observaciones de todos los
tratamientos serán iguales.
• El estadístico de prueba es simplemente el estadístico F ANOVA usual para probar la igualdad de
las medias que se aplica a las desviaciones absolutas
Hipótesis: H 0 : 12   22    t2
H a : Al menos dos  i2 son diferentes
Sea W el estadístico de prueba de Levene
Criterio de Decisión: Si W > 𝐹(1−𝛼,𝑎−1,𝑁−𝑎) Rechazar Ho

Verificación de la adecuación del modelo
Ejemplo
Para el ejemplo de la resistencia a la tensión del experimento del peso porcentual de

algodón:
a. Verificar el supuesto de normalidad
b. Realizar la prueba de Bartlett
c. Realizar la prueba de Levene

Pruebas de Comparaciones múltiples
Suponga que nos interesa comparar todos los pares de a medias de tratamientos y que las
hipótesis nulas que quieren probarse son: 𝐻𝑜 : 𝜇𝑖 = 𝜇𝑗 para todo i ≠ j
Prueba de Tukey
Suponga que después del análisis de varianza en el que se ha rechazado la hipótesis nula de
la igualdad de las medias de los tratamientos, quieren probarse todas las comparaciones de
las medias por pares: 𝐻𝑜 : 𝜇𝑖 = 𝜇𝑗 , 𝐻1 : 𝜇𝑖 ≠ 𝜇𝑗 para todo i ≠ j
El procedimiento de Tukey hace uso de la distribución del estadístico del rango
estudentizado.
Para tamaño de muestras iguales:

Para tamaños de muestra no son iguales:
La prueba de Tukey declara que dos medias son significativamente diferentes si el valor
absoluto de sus diferencias muestrales excede a 𝑻𝜶
Es obtenido mediante tabla
Es el número de grados de libertad asociado con
El método de la diferencia significativa mínima (LSD) de Fisher
Se utiliza el estadístico F para probar 𝐻𝑜 : 𝜇𝑖 = 𝜇𝑗 para todo i ≠ j
Suponiendo una hipótesis alternativa de dos colas, los pares de medias 𝜇𝑖 y 𝜇𝑗 serán
significativamente diferentes si:
A: se le llama diferencia significativa mínima.

Si el diseño es balanceado el LSD queda así:
Para usar el procedimiento LSD de Fisher, comparar la diferencia observada entre cada
par de promedios con la LSD correspondiente, es decir:
Si: se concluye que las medias poblacionales 𝝁𝒊 𝒚 𝝁𝒋 difieren
Prueba del rango múltiple de Duncan
Utilizado para comparar todos los pares de medias.

Cuando los tamaños de muestras son iguales:
Los a promedios de los tratamientos se arreglan en orden ascendente, y el error estándar
de cada promedio se determina de la siguiente manera:
Para tamaños de muestra desiguales, se sustituye el n anterior con la media armónica 𝒏𝒉

del {𝑛𝑖 }, donde:
Observe que si 𝑛1 = 𝑛2 = ⋯ = 𝑛𝑎 , 𝑛ℎ = 𝑛
En la tabla de Duncan de los rangos significativos se obtienen los valores 𝒓𝜶 𝒑, 𝒇 para
𝑝 = 2,3, … . , 𝑎, donde α es el nivel de significación y 𝑓 es el numero de grados de libertad
del error. Estos rangos se convierten en un conjunto de 𝑎 − 1 rangos mínimos de
significación (por ejemplo, 𝑅𝑝 ) para 𝑝 = 2,3, … . , 𝑎 calculando:
para 𝑝 = 2,3, … . , 𝑎

Prueba del rango múltiple de Duncan
• Se prueba las diferencias observadas entre las medias, empezando con la mas grande
contra la menor, la cual se compararía con el rango mínimo de significación 𝑅𝑎 .
• Después se calcula la diferencia de la mayor y la segunda menor y se compara con el
rango mínimo de significación 𝑅𝑎−1 .
• Estas comparaciones se continúan hasta que todas las medias se han comparado con
la media mayor.
• Por último se calcula la diferencia entre la segunda media mayor y la menor y se
compara con el rango mínimo de significación 𝑅𝑎−1 .
• Este proceso continua hasta que se han considerado las diferencias entre todos los
𝑎 𝑎−1
pares de medias posibles.
2
• Si una diferencia observada es mayor que el rango de significación mínima
correspondiente, se concluye que el par de medias en cuestión es significativamente
diferente.
• Para evitar contradicciones, ninguna de las diferencias entre un par de medias se
considera significativa si dos medias en cuestión se localizan entre otras dos medias
que no difieren significativamente

Comparación de medias de tratamientos con un control: Prueba de Dunnett
En muchos de los experimentos, uno de los tratamientos es un control.

Útil cuando nos interesa comparar cada una de las medias de los 𝑎 − 1 tratamientos
restantes con el control. Por lo tanto solo es necesario hacer 𝑎 − 1 comparaciones.
Supongamos que el tratamiento 𝑎 es el control y que se quieren probar las hipótesis:
Para 𝑖 = 1,2, … , 𝑎 − 1
El procedimiento de Dunnett es una modificación de la prueba 𝑡 común. Para cada

hipótesis se calculan las diferencias observadas en las medias muestrales.
La hipótesis nula 𝐻𝑜 : 𝜇𝑖 = 𝜇𝑎 se rechaza utilizando un índice α de error tipo I si
donde la constante 𝒅𝒂 𝒂 − 𝟏, 𝒇 se da en tabla (Pueden hacerse pruebas tanto de una

como de dos colas). Observar que α es el nivel de significación conjunto asociado con las
𝑎 − 1 pruebas

Pruebas de Comparaciones múltiples
Ejemplos:
Para el ejemplo del experimento del peso porcentual de algodón, realice:
a. La prueba de Tukey.
b. La prueba LSD de Fisher
c. La prueba del Rango múltiple de Duncan
d. La prueba de comparación de medias de tratamientos con un control de Dunnett.

¡Muchas Gracias!

Estadistica III - Analisis de Varianza

Uploaded by

Document Information

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

Estadistica III - Analisis de Varianza

Uploaded by

Copyright:

Available Formats

UNIVERSIDAD NACIONAL DE INGENIERÍA

Facultad de Ingeniería Económica, Estadística y Ciencias Sociales

Profesor: Ing. Jorge Mejía

UNI - FIEECS – Estadística III Profesor: Ing. Jorge Mejía

UNI - FIEECS – Estadística III Profesor: Ing. Jorge Mejía

Los errores tienen media cero, de tal modo que:

Una forma de escribir el modelo es:

 Probar las hipótesis acerca de la media de los tratamientos y estimarlas.

 Observaciones son mutuamente independientes.

 Modelo de efectos fijos (Modelo I)

UNI - FIEECS – Estadística III Profesor: Ing. Jorge Mejía

𝒚𝒊. : Total de observaciones bajo el tratamiento i-ésimo

UNI - FIEECS – Estadística III Profesor: Ing. Jorge Mejía

Las hipótesis apropiadas son:

Los efectos de los tratamientos o factores pueden considerarse como desviaciones de la

El procedimiento apropiado para probar la igualdad de medias de los a tratamientos es el

El termino producto cruzado es cero debido a :

UNI - FIEECS – Estadística III Profesor: Ing. Jorge Mejía

: Suma de cuadrados debido al error (dentro de los tratamientos)

Se les llama cuadrados medios.

De manera similar se demuestra que:

UNI - FIEECS – Estadística III Profesor: Ing. Jorge Mejía

UNI - FIEECS – Estadística III Profesor: Ing. Jorge Mejía

Formulas para calcular las suma de cuadrados:

UNI - FIEECS – Estadística III Profesor: Ing. Jorge Mejía

i. Identificar el factor, los niveles del factor y la variable respuesta.

UNI - FIEECS – Estadística III Profesor: Ing. Jorge Mejía

Estimador de la media global :

Estimación de un Intervalo de confianza de la media del tratamiento i-ésimo:

Un intervalo de confianza de 100(1-α) por ciento para la diferencia de medias de dos

UNI - FIEECS – Estadística III Profesor: Ing. Jorge Mejía

a. La estimación de la media global

UNI - FIEECS – Estadística III Profesor: Ing. Jorge Mejía

No se requieren mas cambios en el análisis de varianza.

Ventajas de elegir un diseño balanceado:

 El estadístico de prueba es relativamente insensible a las observaciones pequeñas del supuesto

UNI - FIEECS – Estadística III Profesor: Ing. Jorge Mejía

El residual de la observación j-ésima en el tratamiento i-ésimo se define como:

donde es una estimación de la observación 𝑦𝑖𝑗 correspondiente, el cual se obtiene así:

UNI - FIEECS – Estadística III Profesor: Ing. Jorge Mejía

• Gráfica de probabilidad Normal de los residuales

En general, las desviaciones moderadas de la normalidad no son motivo de gran

UNI - FIEECS – Estadística III Profesor: Ing. Jorge Mejía

UNI - FIEECS – Estadística III Profesor: Ing. Jorge Mejía

UNI - FIEECS – Estadística III Profesor: Ing. Jorge Mejía

UNI - FIEECS – Estadística III Profesor: Ing. Jorge Mejía

Criterio de Decisión: Si W > 𝐹(1−𝛼,𝑎−1,𝑁−𝑎) Rechazar Ho

Para el ejemplo de la resistencia a la tensión del experimento del peso porcentual de

UNI - FIEECS – Estadística III Profesor: Ing. Jorge Mejía

Para tamaño de muestras iguales:

Se utiliza el estadístico F para probar 𝐻𝑜 : 𝜇𝑖 = 𝜇𝑗 para todo i ≠ j

A: se le llama diferencia significativa mínima.

Utilizado para comparar todos los pares de medias.

Para tamaños de muestra desiguales, se sustituye el n anterior con la media armónica 𝒏𝒉

UNI - FIEECS – Estadística III Profesor: Ing. Jorge Mejía

UNI - FIEECS – Estadística III Profesor: Ing. Jorge Mejía

En muchos de los experimentos, uno de los tratamientos es un control.

El procedimiento de Dunnett es una modificación de la prueba 𝑡 común. Para cada

La hipótesis nula 𝐻𝑜 : 𝜇𝑖 = 𝜇𝑎 se rechaza utilizando un índice α de error tipo I si

donde la constante 𝒅𝒂 𝒂 − 𝟏, 𝒇 se da en tabla (Pueden hacerse pruebas tanto de una

UNI - FIEECS – Estadística III Profesor: Ing. Jorge Mejía

Para el ejemplo del experimento del peso porcentual de algodón, realice:

UNI - FIEECS – Estadística III Profesor: Ing. Jorge Mejía

You might also like