You are on page 1of 20

INGENIERÍA EN

BIOTECNOLOGIA AMBIENTAL

9 "A y B"

BIOMETRÍA Y DISEÑOS UNIDAD 2


EXPERIMENTALES INTRODUCCION A
DISEÑOS
Presentado por: EXPERIMENTALES
Raúl Benavides Lara Ph.D.

Clase No.9
Riobamba
O17- M18
CONTENIDOS:

2.5 Experimentos con un solo factor (Análisis


de varianza - ANOVA)
• Diseño Completamente al Azar (DCA) y
ANOVA
A.- INTRODUCCION
• Fin: considerando aún un solo factor, se presentan diseños
experimentales, para comparar más de dos tratamientos
• Aplicación: comparar tres materiales, cinco dosis de un fármaco, cuatro
procesos, tres o más máquinas, varios proveedores…
• Eje: comparar 4 dietas utilizadas en ratas de laboratorio, con el fin de establecer si
una nueva dieta propuesta es mejor o igual que las existentes; la variable de
interés es el peso promedio ganado por cada grupo de animales después de ser
alimentado con la dieta que le tocó.

• Desde el punto de vista estadístico, la hipótesis a probar cuando se


comparan varios tratamientos es: H : μ = µ = …= µ = µ
O 1 2 K
HA : μi ≠ µj ≠ para algún i ≠ j

• Es decir, establecer si los tratamientos son iguales en cuanto a sus


medias, con la alternativa de que al menos dos de ellos son diferentes

• Para resolver este problema la estrategia es: obtener una muestra


representativa de mediciones en cada tratamiento, y construir un
estadístico de prueba para decidir el resultado de la comparación.
3
Ejemplo 1: Comparación de cuatro métodos de ensamble.

• Un equipo de mejora investiga el efecto de cuatro métodos de ensamble A, B, C


y D, sobre el tiempo de ensamble en minutos.

1ero: la estrategia experimental es aplicar cuatro veces los cuatro métodos


de ensamble en orden aleatorio (las 16 pruebas en orden aleatorio).

• Los tiempos de ensamble obtenidos se muestran en la tabla:

• Si se usa el Diseño Completamente al Azar (DCA), se supone que, además


del método de ensamble, no existe ningún otro factor que influya de manera
significativa sobre la variable de respuesta (eje: tiempo de ensamble).

4
B.- DISEÑO COMPLETAMENTE AL AZAR (DCA) y ANOVA
• El más simple de los diseños utilizados para comparar 2 o más tratamientos,
sólo consideran 2 fuentes de variabilidad: tratamientos y error aleatorio
• Se llama completamente al azar porque todas las corridas experimentales se
realizan en orden aleatorio completo.
• Supongamos que se tienen k poblaciones o tratamientos, independientes y con
medias desconocidas μ1, μ 2, …, μ k, así como varianzas también desconocidas
pero que se suponen iguales σ21= σ22 = … = σ2k = σ2
• Las poblaciones pueden ser k métodos de producción, tratamientos, grupos, etc., y
sus medias, son medidas en términos de la variable de respuesta.

• El elemento Yij es la j-ésima observación que se hizo en el tratamiento i; ni es el


tamaño de la muestra o las repeticiones observadas en el tratamiento i
5
• Es recomendable utilizar ni = n (diseño
balanceado); al menos que hubiera
alguna razón para no hacerlo.
• El número de tratamientos (k), es
determinado por el investigador y
depende del problema particular de que
se trata.
• El número de observaciones por
tratamiento (n) debe escogerse por la
variabilidad que se espera observar en los
datos, así como en la diferencia mínima
que el experimentador espera detectar.
• Por lo general se recomiendan entre 5 y
30 mediciones en cada tratamiento.
• Por ejemplo, se usa n = 10 cuando las
mediciones tienen poca dispersión.
• El otro extremo, n = 30 se utiliza cuando
las mediciones muestran bastante
dispersión. 6
• Para tratamientos que tengan efecto, las observaciones Yij se podrán describir con
el modelo estadístico lineal (para modelos de efecto fijos) dado por:

μ = media global (parámetro común a todos los tratamientos)


Yij = μ + τi + εij τi = parámetro que mide el efecto del tratamiento i, y
εij = error atribuible a la medición Yij

• Si la respuesta media de un tratamiento particular μi es “muy diferente” de la


respuesta media global μ, es síntoma de que existe un efecto de dicho tratamiento,

• Para para concluir si hay un efecto (es decir, los tratamientos son diferentes en
base a sus medias), se utiliza el Análisis de Varianza (ANOVA).
7
C.- ANOVA
para el Diseño Completamente al Azar (DCA)
• Técnica central en el análisis de datos experimentales, que separa la variación total
en las partes que intervienen como fuentes de variación en el experimento.

• El DCA separa la
variabilidad de los
tratamientos, y la
del error.

• El objetivo del ANOVA en el DCA es probar la hipótesis de igualdad de los


tratamientos con respecto a la media de la correspondiente variable de
respuesta:
HO : μ1 = µ2= …= µK= µ Si se acepta Ho los efectos
sobre la respuesta de los k
HA : μi ≠ µj ≠ para algún i ≠ j
tratamientos son
estadísticamente nulos (=0), y
HO : τ1 = τ2= …= τK= 0 si se rechaza, se concluiría
que al menos un efecto es
HA : τi ≠ 0 para algún i (τi = μi- μ) diferente de cero.
8
i) Notación de puntos
Útil para representar de manera abreviada cantidades
numéricas que se pueden calcular a partir de los datos
experimentales, donde:
• Yij , representa la j-ésima observación en el
tratamiento i, con i = 1, 2, …, k y j = 1, 2, …, ni.

Las cantidades de interés son las siguientes:


𝑛𝑖
Yi • = Suma de las observaciones del tratamiento i. Yi • = 𝑗=1 Yij
𝑛𝑖
𝑗=1 Yij
Ȳi • = Media de las observaciones del i-ésimo Ȳi • = 𝒏𝒊
tratamiento.
𝑘 𝑛𝑖
Y•• = Suma total de las N = n1 + n2 + … + nk
mediciones.
Y•• = = Yij
𝑖=1 𝑗=1
Ȳ•• = Media global o promedio de todas las Y••
observaciones. Ȳ•• = i=1,2,…k
𝑵
9
ANOVA Ej.1: Comparación de cuatro métodos de ensamble.

• Se desea comparar cuatro métodos de ensamble en cuanto al tiempo


promedio en minutos que requiere cada uno de ellos

• Para comparar los métodos de ensamble (tratamientos) es probar la


hipótesis:
HO : τA = τB= τC = τD = 0
HA : τi ≠ 0 para algún i = A, B, C, D (τi = μi- μ)

10
1. Yi • = Suma de las observaciones del tratamiento i.

2. Ȳi • = Media de las observaciones del i-ésimo tratamiento.

3. Y•• = Suma total de las N = n1 + n2 + … + nk mediciones.

4. Ȳ•• = Media global o promedio de todas las observaciones

11
• Para probar una hipótesis mediante ANOVA; primero: descomponer la
variabilidad total de los datos en sus dos componentes
𝑘 𝑛𝑖 𝑘 𝑛𝑖
Ȳ••2
• Suma total de 𝑺𝑪𝑻 = 𝒀𝒊𝒋 − Ȳ•• 2 = 𝒀𝒊𝒋𝟐 −
cuadrados 𝑁
𝑖=1 𝑗=1 𝑖=1 𝑗=1

• La Suma de cuadrados de los tratamientos SCTRAT es igual a:;


4
Yi •2 Ȳ••2
𝑆𝐶𝑇𝑅𝐴𝑇 = −
𝑛𝑖 𝑁
𝑖=1

Suma total SCT = Suma de cuadrados de tratamientos (SCTRAT) +


Suma de cuadrados del error (SCE).

𝑺𝑪𝑻 = SCTRAT + SCE

12
• Suma total de cuadrados o variabilidad total de los datos:
4 4 𝟐 Ȳ𝟐.. 1562
𝑆𝐶𝑇 = 𝑖=1 𝑗=1 𝒀𝒊𝒋 − 𝑵 = 1620- = 99,0
16

• Suma de cuadrados de tratamientos o variabilidad debida a la diferencia


entre métodos de ensamble:
4 Yi • Y••.. (292+342+512+422) 1562
2
𝑆𝐶𝑇𝑅𝐴𝑇 = 𝑖=1 − = − = 69,5
4 𝑁 4 16

• Suma de cuadrados del error o variabilidad dentro de métodos de


ensamble:
SCE = SCT – SCTRAT = 99.0 − 69.5 = 29.5
13
𝑛𝑖
• Como hay un total de N = 𝑖=1 𝑛𝑖 observaciones, la SCT tiene
N – 1 grados de libertad.
• Hay k tratamientos o niveles del factor de interés, así que SCTRAT
tiene k – 1 grados de libertad
• Mientras que la SCE tiene N – k

14
• Las sumas de cuadrados divididas entre sus respectivos grados
de libertad se llaman cuadrados medios.
• Los dos que más interesan son el cuadrado medio de
tratamientos:
• y el cuadrado medio del error, que se denotan por

𝑺𝑪𝑻𝑹𝑨𝑻 𝑺𝑪𝑬
𝑪𝑴𝑻𝑹𝑨𝑻 = 𝑪𝑴𝑬 =
k–1 N–k
• Los valores esperados de los
cuadrados medios están dados por: 𝐸(𝐶𝑀𝐸) =σ2
𝐾
𝑖=1 𝑛𝑖 τ i
2
𝐸(𝐶𝑀𝑇𝑅𝐴𝑇) = σ2 +
N−k

15
• Si se sabe que SCE y SCTRAT son independientes, por lo que SCE /σ2 y SCTRAT /σ2
son dos variables aleatorias independientes con distribución ji-cuadrada con N
– k, y k – 1 grados de libertad, respectivamente.
• Entonces, bajo el supuesto de Ho es verdadera, el estadístico es:

𝑪𝑴𝑻𝑹𝑨𝑻
𝑭𝒐 =
𝑪𝑴𝑬
• Sigue una distribución F con (k – 1) grados de libertad en el numerador, y (N –
k) grados de libertad en el denominador
• Si Fo es grande, se contradice la hipótesis de que no hay efectos de tratamientos;
• Si Fo es pequeño se confirma la validez de Ho, para un nivel de significancia
prefijado
• Se rechaza Ho si Fo > Fα, k – 1, N – k, donde: F α, k – l, N – k es el percentil (1 – α) × 100
de la distribución F.
• También se rechaza Ho si el valor-p < α, donde el valor-p: área bajo la distribución
Fk – l, N – k a la derecha del estadístico Fo, es decir:
valor-p = P(F > Fo).
16
• En la distribución F, se lee que el valor crítico para α = 0.05 es
• F0.05, 3, 12 = 3.49.
• Como Fo = 9.42 > 3.49, se rechaza Ho, entonces sí hay diferencia o
efecto en al menos dos de los métodos de ensamble en cuanto a su
tiempo promedio
• El valor-p es el área bajo la curva de la distribución F 3,12 a la derecha
de F0 = 9.42, es 0.0018, lo cual es difícil de calcular de forma manual
https://www.easycalculation.com/es/statistics/f-test-p-value.php

• Ya que valor-p = 0.0018 que es menor (<>) que α = 0.05, se


rechaza Ho en este nivel de significancia.

17
• Tabla de Análisis de Varianza (ANOVA)
• Incluye la información necesaria para calcular el estadístico Fo hasta
llegar al valor-p,

o FV = fuente de variabilidad (efecto)


o SC = suma de cuadrados
o GL = grados de libertad,
o CM = cuadrado medio,
o Fo = estadístico de prueba,
o Valor-p = significancia observada.
18
ANOVA Ejercicio clase: Comparación de cuatro tipos de cuero.

• ¿Existen diferencias entre el desgaste promedio de los diferentes tipos de cuero?


• La respuesta a esta pregunta es el resultado de contrastar las hipótesis:

HO : μA = µB = μC = µD = µ
HA : μi ≠ µj ≠ para algún i ≠ j

19
• F0.05, 3, 20 = 3.10; como Fo = 23.24 > 3.10, se rechaza Ho.
• En el software se tiene un valor-p < 0.001, el cual es menor que la
significancia prefijada α = 0.05, por lo que se rechaza Ho, y se
acepta que al menos un par de tipos de cuero tienen un desgaste
promedio diferente.
• En la tabla se observa que la variación total en 24 datos de este
experimento fue de 9.101,33. De estos 7 072 se debe a las
diferencias entre tipos de cuero, y 2.029,0 a la diferencia entre los
cueros del mismo tipo.
• Si las diferencias de los cuadrados debido al tipo de cuero es de
2.357,44, y el error es de 101,45; se tiene que la primera es 23.2
veces más grande que la segunda, lo que indica que las diferencias
observadas entre los tipos de cuero son significativas, y no se deben
a pequeñas variaciones muestrales (error).

20

You might also like