Professional Documents
Culture Documents
Caractersticas de la distribucin F
Consideraciones de validacin
2
2
2
1
2
1
2
2
2
2
2
1
2
2
2
2
2
1
2
2
2
2
EJEMPLO
La Escuela bancaria va a renovar su contrato de servicio de
autobs escolar para el ao prximo, y debe seleccionar entre
las empresas Transportes rpidos, S.A. y Transportes eficaces,
S.A.. Usaremos la varianza de los tiempos de recepciones que
se tarda en recoger y entregar alumnos como medida principal
de la calidad del servicio. Los valores bajos de varianza indican
que el servicio es ms consistente y de mayor calidad. Si las
varianzas de los tiempos de llegada asociadas con los dos
servicios son iguales, los administradores de la Escuela
bancaria seleccionarn la empresa que ofrezca mejores
condiciones financieras. Sin embargo, si los datos de las
muestras de tiempos de llegada para las dos empresas indican
que hay una gran diferencia entre las varianzas, los
administradores tendrn muy en cuenta a la que tenga menor
varianza del servicio
Observe que la regin bilateral de rechazo se caracteriza por los valores crticos en F0.95 y F0.05 .
Fig. 3: Regin de rechazo para el ejemplo del autobs para la escuela bancaria con = 0.05
s12
F 2
s2
0.05
F0.95
Se rechaza H0
0.05
F0.05
Se rechaza H0
2
2
2
1
2
2
2
1
2
2
0.95
0.05
Prueba
bilateral
poblaciones
de
la
varianza
H 0 : 12
2
2
H 1 : 12
2
2
de
dos
mayor
Estadstico de prueba
s12
F
2
s2
Regla de rechazo
Con el estadstico de prueba: Rechazar
H0
si
F F / 2
Con el valor p
: Rechazar H 0 si el
valor p<
Donde el valor F
se basa en una distribucin F
con n1 1 grados de libertad en el numerador y n2
1 grados de libertad en el denominador.
/2
Estadstico de prueba
s12
F 2
s2
Regla de rechazo
Con el estadstico de prueba: Rechazar H 0 si F F
Con el valor p : Rechazar H 0 si el valor p<
Donde el valor F se basa en una distribucin F con n1 1 grados de
libertad en el numerador y n2 1 grados de libertad en el denominador.
Anova
Nocin general
El segundo uso de la distribucin F comprende la tcnica
del anlisis de varianza, que se simboliza por ANOVA.
Bsicamente, en ese anlisis se emplea informacin muestral
para determinar si tres o ms tratamientos producen o no
resultados diferentes. El uso de la palabra tratamiento tiene su
origen en la investigacin agrcola. Se trataron campos con
distintos fertilizantes o fumigantes, para determinar si haba o no
una diferencia global en la productividad. Se probar si cinco
aditivos para la gasolina (los tratamientos) dan o no como
resultado una diferencia en el rendimiento en millas por galn.
Adems se explotar la siguiente pregunta: Los cuatros mtodos
de entrenamiento (los tratamientos) son igualmente efectivos?
Ejemplo
Suponga que renunci el gerente de la sucursal de
Los Olivos de la cadena de tiendas comerciales Metro, y
se considera que tres vendedores pueden ocupar este
puesto. Los tres tienen la misma antigedad, educacin,
etc. Para tomar una decisin, el gerente de personal, sugiri
examinar los registros de ventas mensuales de cada uno.
En la siguiente tabla se muestran los resultados maestrales de las ventas por mes:
Ventas mensuales ($ 000)
Media muestral:
Sr. Quiroz
Sr. Huarote
Sr. Martnez
15
10
9
5
16
11
15
10
12
11
12
12
19
12
16
16
17
16
H 0 : 1 2 3
2
2
2
3
Fuente de
variacin
Entre
tratamientos
Error (en los
tratamientos)
Total
Grados
Suma de
de
Cuadrados
cuadrados libertad
medios
SST/k-1=
SST
k-1
MSTR
SSE/N-k =
SSE
N-k
MSE
Total SS
SST
MSTR
F k 1
SSE
MSE
N k
en donde:
MSTR: cuadrado medio entre tratamientos.
MSE : cuadrado medio debido al error. Tambin se denomina cuadrado
medio dentro de tratamiento.
SST : suma de cuadrados de tratamiento.
N
nc
en donde:
: indica elevar al cuadrado el total de cada columna
(el subndice c se refiere a la columna)
es el nmero de observaciones para cada
n :
tratamiento respectivo (columna). Hay cinco cifras de
ventas para el Sr. Quiroz, cinco para el Sr. Huarote y
cinco para el Sr. Martnez.
X : es la suma de todas las observaciones (ventas). Es
$ 195.
k : es el nmero de tratamientos (vendedores). Hay
tres.
N : es el nmero total de observaciones. Hay 15.
Tc2
Sr. Quiroz
Totales de columna:
Tamao de muestra
Suma de cuadrados
Sr. Huarote
X1
2
1
15
10
9
5
16
55
5
225
100
81
25
256
687
Sr. Martnez
X2
2
2
X3
X 32
15
10
12
11
12
60
5
225
100
144
121
144
19
12
16
16
17
80
5
361
144
256
256
289
734
1306
Total
195
15
2727
Clculo de SST
Tc2 ( X )
(55) 2 (60) 2 (80) 2 (195)
SST
2,605 2,535 70
n
N
5
5
5
15
c
2
Clculo de SSE
Tc2
SSE X 2,727 2,605 122
nc
2
La variacin total (Total SS) es la suma de la variacin entre columnas y entre renglones; es decir,
Total SS = SST + SSE = 70 + 122 = 192.
Verificacin
( X 2 )
(195) 2
Total SS X
2,727
2,727 2,535 192
N
15
Las tres sumas de cuadrados y los clculos necesarios para determinar F, se presentan en el
siguiente cuadro:
2
Fuente de
variacin
Entre tratamientos
Error (en los tratamientos)
Total SS
Suma de
cuadrados
SST= 70
SSE=122
Total SS=192
Grados de
libertad
k 1=3-1=2
N k=15-3=12
Clculo de F
SST
MSTR 35
F k 1
3.44
SSE
MSE 10.17
N k
Cuadrados
medios
70/2=35 = MSTR
122/12 =10.17= MSE
Ejemplo
Un profesor pidi a los estudiantes de un grupo grande del curso de
estadstica que evaluara su desempeo en el curso como 1 (excelente),
2 (bueno), 3 (aceptable) o 4 (deficiente). Un ayudante del profesor
recolect las evaluaciones y asegur a los estudiantes que el profesor
no las recibira hasta despus que las calificaciones del curso se
hubieran ingresado en la Direccin Acadmica. La evaluacin (el
tratamiento) que un estudiante asign al profesor se compar con su
calificacin final del curso. Lgicamente, se esperara que en general, el
grupo de estudiantes que pens que el profesor era excelente tuvieran
una calificacin promedio final del curso significativamente ms alta que
los alumnos que lo evaluaron como bueno, aceptable o regular, o
deficiente. Tambin se esperara que los alumnos que lo evaluaron
como deficiente tuvieran las calificaciones promedio ms bajas.
Bueno
75
68
77
83
88
Regular
70
73
76
78
80
68
65
Deficiente
68
70
72
65
74
65
Excelente
X1
94
90
85
80
Tc
8836
8100
7225
6400
Bueno
X2
75
68
77
83
88
Aceptable
2
2
5625
4624
5929
6889
7744
X3
70
73
76
78
80
68
65
2
3
4900
5329
5776
6084
6400
4624
4225
Deficiente
X4
X 42
68
70
72
65
74
65
4624
4900
5184
4225
5476
4225
349
391
510
414
nc
2
1
30561
30811
37338
28634
Ntese que la suma de los totales por columna ( xi ) es 1 664; el total de los tamaos de
muestras (N) es 22; y la suma de los cuadrados 127344.
Calculando SST, SSE y total SS, se obtiene:
2
Tc2 ( X )
(349) 2
(391) 2
(510) 2
(414) 2 (1664) 2
SST
890.68
N
4
5
7
6
22
nc
T 2
SSE X 2 c 127344 126749.59 594.41
nc
Total SS
( X 2 )
N
127344
(1664) 2
127344 125858.9 1485.09
22
Suma de
cuadrados
SST= 890.68
SSE=594.41
Total SS=1485.09
Grados de
Cuadrados
libertad
medios
k 1=4-1=3 890.68/3=296.89 MSTR
N k=22-4=18 594.41/18 =33.02= MSE
MSTR 296.89
8.99
MSE 33.02
1 1
( x1 x2 ) t MSE
n1 n2
1 1
(87.25 69.00) 2.101 33.0
4 6
18.25 7.79
10.46 y 26.04
Se conoce que el intervalo de confianza de 95% vara de 10.46 hasta 26.04. Ambos extremos
son positivos; en consecuencia, podemos concluir que estas medias de tratamiento difieren
significativamente. Es decir, los estudiantes que evaluaron al profesor como excelente tienen
calificaciones ms altas que los que lo evaluaron como malo.
Precaucin
La investigacin de diferencias de medias
de tratamiento es un proceso secuencial. El
paso inicial es realizar la prueba ANOVA.
Slo si se rechaza, la hiptesis nula de que
la medias de tratamiento son iguales, debe
intentarse llevar a cabo cualquier anlisis
de las medias de tratamiento
Da
Lunes
Martes
Mircoles
Jueves
Viernes
Al nivel de significancia 0.05, puede concluirse que hay diferencia en las cuatro rutas?
Existe una diferencia dependiendo de qu da de la semana se trata?
Suma de
renglones Br
80
91
91
99
103
Ruta 1
18
21
20
25
26
Ruta 2
20
22
23
21
24
Ruta 3
20
24
25
28
28
Ruta 4
22
24
23
25
25
110
110
125
119
464
2446
2430
3169
2839
10904
20
Totales
Anlogo a la tabla ANOVA para un anlisis en un sentido, el formato general en dos sentidos
es:
Fuente de variacin
Suma de cuadrados
Grados libertad
Tratamientos
SST
k-1
Bloque
SSB
n -1
Error
SSE
(k-1)(n-1)
Total
Total SS
Cuadrado medio
SST
MSTR
k 1
SSB
MSB
n 1
SSE
MSE
(k 1)(n 1)
32.4
n
N
5
5
5
5
20
78.2
N
4
4
4
4
4
20
k
( X 2 )
(464) 2
Total SS X
10904
139.2
N
20
SSE = Total SS SST SSB=139.2 32.4 78.2 = 28.6
2
Los valores para los diferentes componentes de la tabla ANOVA se calculan de la siguiente manera:
Fuente de variacin
Suma de cuadrados
Grados libertad
Tratamientos
32.4
Bloque
78.2
Error
28.6
12
Total
139.0
Cuadrado medio
32.4
10.8
3
78.2
19.55
4
28.6
2.38
12
4.54
MSE 2.38
A continuacin, se hace una prueba para determinar si el tiempo del trayecto es igual para
diferentes das de la semana. Los grados de libertad en el numerador para bloques es n 1 = 5 1 =
4. Los grados de libertad en el denominador son igual que antes, es decir, 12. La hiptesis nula de
que las medias de bloques son iguales se rechaza si la razn F es mayor que 3.26.
MSB 19.55
F
8.21
MSE 2.38
La hiptesis nula se rechaza, y la hiptesis alternativa se acepta. El tiempo promedio del
trayecto no es igual para los diferentes das de la semana.
Mean
22.00
22.00
25.00
23.80
F
4.53
8.20
P
0.024
0.002
Individual 95% CI
----+---------+---------+---------+------(---------*---------)
(---------*---------)
(---------*---------)
(---------*---------)
----+---------+---------+---------+------21.00
22.50
24.00
25.50
dias
1
2
3
4
5
Mean
20.00
22.75
22.75
24.75
25.75
Individual 95% CI
-------+---------+---------+---------+---(------*------)
(------*------)
(------*------)
(------*------)
(------*------)
-------+---------+---------+---------+---20.00
22.50
25.00
27.50