PH Proporciones y Bondad de Ajuste

152
Y 0 aprox
X
t (v) , con v = 13.745
E.P. TC = 2
= 14 .
S1
S22
+ 10
10
R.Crtica:
{TC | TC > t/2 (14)} = {TC | |TC | > t0.025 (14) } = { TC | |TC | > 2.145 }
421 426
TC =
= 3.3989 3.40 .
4
4.2 2
+ 10
10
un la
Como |TC | = 3.40 > 2.145, se rechaza H0 : y se concluye que seg
informacion suministrada por ambas muestras, hay evidencia suciente
para armar que los puntos medios de fusion son diferentes.
Pruebas de hip
otesis para proporciones
Suponga que X es una v.a tal que X bin(n , p), con p desconocida.
Sea p0 un valor de interes para p.
Tres hipotesis pueden ser planteadas acerca de p.
p < p0
p > P0 .
H0 : p = p0 vs H a :
p = p0
Por el T.L.C. sabemos que si n es grande.
p p
p (1p)
n
Si H0 es cierta
a ser usado es
pp0
p0 (1p0 )
n
aprox
aprox
n(0, 1) .
n(0, 1) . As, el estadstico de prueba
p p0
ZC =
p0 (1p0 )
n
Para dado, la Region crtica es de la forma:
ZC | ZC < z
ZC | ZC > z
R.C. :
ZC | |ZC | > z/2
153
Ejemplo
En cierta region, tres candidatos aspiran a cierto cargo p
ublico. Para
elegir uno de los tres se realiza una votacion entre todas las personas
mayores de edad. Para tener idea si existe preferencia por alguno de
los tres, se realiza una encuesta a 1000 personas y se observo 365 a favor
de A, 330 a favor de B y 305 a favor de C. Existe mayor preferencia
por el candidato A?
Soluci
on
X: # votantes en la encuesta a favor de A.
Xi bin (1000, p).
Se desea probar las hipotesis:
H0 : p =
1
3
vs H1 : p >
1
.
3
Estadstico de Prueba:
p 1/3
ZC = 1 2
aprox
(3)
1000
n(0, 1) .
Si = 0.05
forma:
se tiene que Z0.05 = 1.645 y as, la region crtica es de la
R.C = {ZC | ZC > Z0.05 } = {ZC | ZC > 1.645} .

En este caso
ZC =
0.365 1/3
1 2
= 2.12 .
( )
3 3
1000
un los datos obComo ZC > 1.645 se rechaza H0 y se concluye que seg

servados existe mayor preferencia por A.
Si = 0.025
es la misma.
Z0.02 = 1.96
ZC > 1.96.
La conclusion
154
Si = 0.01
chazar H0 .
Z0.01 = 2.33
ZC < 2.33 , no se puede re-
Esto indica que la conclusion vara dependiendo del valor de escogido.
Fig. 27: Rechazo Prueba de Hipotesis
El area sombreada es P (Z > 2.12) = 1 P (Z 2.12) = 0.017.

Observe que si < 0.017 no se puede rechazar H0 pero si > 0.017,
si se rechaza H0 .
Que pasa si n es peque
no? La aproximacion normal ya no es adecuada y es necesario entonces usar directamente la distribucion binomial.
p < p0
p > p0 .
H0 : p = p0 vs Ha :
p = p0
E.Prueba
X bin (n, p) .
X |X < k
X |X > k
R.C =
.
X | X > k1 v X > k 2
Para jo es posible determinar los valores de k, k1 y k2

Suponga que queremos probar H0 : p = p0 vs Ha : p > p0 . E. Prueba: X . R.C. = {X | X > k} . Para jo, es muy com
un que no sea
155
posible encontrar un k tal que la probabilidad de Error Tipo I sea exactamente igual a .
En este caso se halla el menor valor de k tal que
P (Error T ipo I)
P (X > k | p = p0 ) .
Ejemplo
Un tratamiento para dejar de fumar a mostrado ser efectivo en el 60 % de
los casos. Se propone un nuevo tratamiento que se cree mejorara dicho
porcentaje. Para vericar esto se tiene una muestra de 20 voluntarios
que se someten a este tratamiento y 17 de ellos deja de fumar. Es el
nuevo tratamiento mejor?. Use = 0.05. Luego = 0.01. Cambia
la conclusion?
Soluci
on
Sea X: # de pacientes tratados que dejan de fumar.
X bin (20, p). Las hipotesis a probar son:
H0 : p = 0.6 vs Ha : p > 0.6 .
E. Prueba X. Bajo H0 X bin (20, 0.6). R.C.: {X | X > k }.
Si = 0.05, se trata de hallar el menor valor de k tal que: P (X >
k | p = 0.6) 0.05. Ahora, se tiene que:
Si k = 19
P (X > k|p = 0.6) = 3.6562 x 10 5
Si k = 18
P (X > k|p = 0.6) = 5.2405 x 10 4
Si k = 17
P (X > k|p = 0.6) = 0.003611
Si k = 16
P (X > k|p = 0.6) = 0.01596
Si k = 15
P (X > k|p = 0.6) = 0.05095
El menor valor de k es 16. As R.C. = {X | X > 16} . Como x =

17 se rechaza H0 y se concluye que el nuevo tratamiento es mejor.
156
Si = 0.01 se tiene que P (X > k | p = 0.6) 0.01 solo si k = 17 .

No se puede rechazar H0 y concluiramos que la evidencia no es suciente para decir que el nuevo tratamiento es mejor .
Finalmente se tiene que P (X > 17 | p = 0.6) = 0.03611 .
Valor p de una Prueba de Hip

otesis
Ejemplo
Se requiere que la tension a la ruptura de una hilo utilizado en tapicera sea de por lo menos 100psi para considerarse aceptable. Para
establecer este requisisto, se toma una m.a. de 50 hilos y se miden sus
tensiones a la ruptura. Los resultados obtenidos fueron: x
= 99 psi y
S = 3.40 psi. Es este tipo de hilo aceptable?
Soluci
on
Sea X 1 , . . . , X 50 una m.a. que representa las tensiones a la ruptura de
este tipo de hilo. Suponga que E [Xi ] = y V ar [Xi ] = 2 , i =
1, 2, . . . 50. Tenemos que x = 99 psi y S = 3.4 psi. Las hipotesis a
probar son:
H0 : 100 vs Ha : < 100 .
E.P
ZC =
100
X
S
50
N (0, 1) .
Para dado la region crtica o de rechazo esta dad por:

{ZC | ZC < Z } .
Zc = 2.08
Si = 0.05
Si = 0.025
Si = 0.02
Si = 0.01
Observe que para
puede rechazar.
Z = 1.645
Z = 1.96
Z = 2.05
Z = 2.33
= 0.02 se rechaza H0 , pero para = 0.01, No se
157
Fig. 28: Valor P
P (Z < 2.08) = 0.0188.

Observe que el area a izquierda de Z0.02 es mayor que 0.0188 y el area
a izquierda de Z0.01 es menor que 0.0188. Por esto en el primer caso se
rechaza H0 y en el segundo caso no se puede rechazar. El valor observado para ZC es menor que Z0.02 y mayor que Z0.01 . As, para rechazar
H0 , debemos escoger un , tal que ZC < Z .
El mnimo valor de es precisamente 0.0188, que es
P (Z < ZC | = 100) = P (Z < 2.08) .
Esta probabilidad se conoce como Valor P , usualmente denotado Vp .
Esta probabilidad representa el mnimo nivel de signicancia a partir
del cual los datos observados indican que se debe rechazar H0 . Tambien
se entiende como la Mnima probabilidad de equivocarse al rechazar
H0 . Otra interpretacion mas usual se reere a que el Valor p es la probabilidad de equivocarse al rechazar H0 obtenida experimentalmente o
con base en la muestra.
Un Valor p peque
no, permite rechazar H0 con seguridad. Un Valor p
grande, no aporta suciente evidencia para rechazar H0 .
As, para el ejemplo anterior Vp = 0.0188.
158
Observe que: Si < Vp , no se puede rechazar H0 . Si >> Vp , se rechaza H0 con seguridad. Como el valor elegido para puede indicar que se
rechace o acepte H0 , la decision recae en el valor p.
Ejemplo En los datos anteriores se sabe que las tensiones a la ruptura se distribuyen normales n(, 2 ). De una muestra aleatoria de 20
hilos se obtiene una tension a la ruptura promedio de 100.95 con una
desviacion estandar de 2.21psi. Se puede armar que la tension a la
ruptura es superior a 100psi?
Soluci
on
Sea X1 , , X20 una m.a. de una n(, 2 ) que representa las tensiones
a la ruptura de los 20 hilos. De la muestra obtenemos x = 100.95 y
S = 2.21. Las hipotesis a probar son:
H0 : = 100 vs Ha : > 100 .
El estadstico de prueba es:
TC =
100.95 100
2.21
20
= 1.922 .
Si = 0.05 t 0.05 (19) = 1.729

Si = 0.025 t 0.025 (19) = 2.093
En el primer caso rechazamos. En el segundo no podemos rechazar H0 .
Ahora
Vp = P (t(19) > 1.922) = 0.034866 .
Si se considera que 0.035 es un error peque

no, se puede rechazar H0 y
concluir que, seg
un los datos registrados, la tension de ruptura media
de este tipo de hilo es superior a 100psi.
159
Fig. 29: Valor P
El calculo del Valor p esta ligado al tipo de hipotesis alterna. En el

primer ejemplo se calculo un area a izquierda (Ha : < 100). En el
segundo ejemplo un area a derecha (Ha : > 100).
Para el caso de pruebas de hipotesis para la media de una poblacion, se
pueden considerar dos casos para el calculo del Valor p, dependiendo de
la distribucion de la muestra.
Resumen:
H 0 : = 0
< 0
> 0
vs Ha :
= 0
Caso I: Muestras que provienen de poblaciones normales con varianza

2 conocida.
P (Z < ZC )
X 0
P (Z > ZC ) .
, Vp :
E.P ZC =
n
P (|Z| > |Zc |)
Caso II: Muestras que provienen de poblaciones normales con varianza
2 desconocida.
P ( t(n 1) < TC )
X 0
P ( t(n 1) > TC )
.
, Vp :
E.P TC =
n
P ( |t(n 1)| > |TC |)
160
Caso III: Muestras que provienen de poblaciones no-normales.
P (Z < ZC )
X 0
P (Z > ZC ) .
,
V
:
E.P ZC =
p
S
n
P (|Z| > |Zc |)
Para una porporcion.
H0 : p = p 0
p < p0
p > p0
vs Ha :
p = p0
Caso IV: Tama

no de muestra grande.
E.P ZC =
p p0
p0 (1p0 )
P (Z < ZC )
P (Z > ZC ) .
Vp :
P (|Z| > |Zc |)
Para el caso de diferencia de medias, se usan los casos I, II y III para

efectos del calculo de los valores p, teniendo especial cuidado en los supuestos distribucionales y los grados de libertad (seg
un el caso).
Ejemplo
Se lleva a cabo un estudio para determinar la efectividad de una vacuna contra la gripe. La empresa que produce la vacuna asegura que
esta es no efectiva en menos del 0.8 % de los casos en los que se aplica.
Se administra la vacuna a una muestra aleatoria de 3000 sujetos y 13
contraen gripe. Es cierta la armacion del fabricante? Use el Valor p
para concluir.
Soluci
on
Sea X: N
umero de vacunados que contraen gripe. Se sabe que X
b(3000, p) , donde p es desconocido. La hipotesis del fabricante establece
que p < 0.008. Luego, las hipotesis a contrastar son:
H0 : p = 0.008 vs Ha : p < 0.008 .
Como n es grande, el estadstico de prueba es:
ZC =
p 0.008
0.008 (10.008)
3000
161
13
= 0.0043, se tiene que ZC = 2.25. Luego, el Valor p de
Como p = 3000
esta prueba se obtiene como:
Vp = P (Z < ZC ) = P (Z < 2.25)

Vp = P (Z > 2.25) = 1 P (Z < 2.25) = 0.01224 .
Como este valor es peque
no, se puede rechazar H0 con seguridad y concluir que, seg
un la informacion suministrada, la proporcion de personas
vacunadas que contraen gripe, es inferior al 0.8 % .
162
Pruebas de Bondad de Ajuste

Una prueba de Bondad de Ajuste es un procedimiento especial para
determinar si un conjunto de datos proviene de cierta distribucion conocida.
Cuando los datos son discretos, la prueba mas usada es la prueba JiCuadrada, debido a que el estadstico de prueba usado es una nueva
variable aleatoria llamada 2 . Otras pruebas usadas pero en datos continuos son: Kolmogorov-Smirnov, Shapiro-Wilks, Cramer Von Mises,
Anderson-Darling, entre otras.
Denici
on Una variable aleatoria X se dice que tiene una distribucion
2
con grados de libertad, si su p.d.f. es de la forma:
f (x) =
x 2 1 e 2
x>0 , >0.
Por notacion se escribe: X 2 () . El parametro es conocido como

grados de libertad. Un nombre similar al usado en los parametros de la
distribucion f . Es facil mostrar que:
E[X] =
V ar[X] = 2 .
Los cuantiles para esta distribucion se obtienen al resolver la ecuacion:

P X > 2 () = .
Un graco de dicha distribucion y el respectivo cuantil superior se
muestra en la gura 30.
Fig. 30: Distribucion 2 ()
163
Suponga que se tiene una experimento multinomial, es decir una serie
de ensayos (n ensayos) identicos e independientes y k posibles categoras
o clases. Sea p i la probabilidad de clasicar en la categora i y sea Ni el
n
umero de ensayos que caen en la categora i de los n ensayos. Se tiene
que N1 + + Nk = n. Cada Ni sera una v.a. binomial con parametros
n y pi ; i = 1, 2 , k. El n
umero esperado de ensayos en la categora
i es E [Ni ] = n pi ; i = 1, 2 , k
Se desea establecer si los datos observados provienen de cierta distribucion especial con c.d.f. F 0 (x). Las hipotesis a probar son:
H0 : F (x) = F0 (x) vs
Ha : F0 (x) no es la c.d.f. asociada a la muestra.
Si F0 esta claramente especicada, es posible conocer valores particulares para los pi ; i = 1, 2, . . . , k y asi obtener E [Ni ]. En otro caso, los pi
deberan ser estimados y en vez de tener E [Ni ], se estima con n pi .
En resumen tenemos:
clase
1
Frec observada n1
Probabilidad
p1
Frec esperada n p1
2
n2
p2
n p2
...
...
k
nk
pk
n pk
total
n
1
n
Si n pi 5 ; i = 1, 2 . . . , k , la v.a.
X=
k

(Ni n pi ) 2
n pi
i=1
2 (k 1) .
Observe que
X=
k

(Ni n pi ) 2
i=1
n pi
(f.obs f.esp) 2
2 (k 1) .
f.esp
todas las celdas
Suponga que se desea establecer valores particulares para los p i , es decir

queremos probar:
H0 : p i = pi 0 ; i = 1, 2 . . . , k
vs Ha : j tal que pj = pj 0
164
E.P:
XC =
k

(ni n pi ) 2
i=1
n pi
2 (k 1) .
R.C.:
{XC |XC > 2 (k 1) } ;
Finalmente
para dado .

Vp = P 2 (k 1) > XC .
El calculo con la tabla Chi-Cuadrado es similar al calculo con la tabla

t.
v
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
reas a derecha
TABLA PARA LA JI-CUADRADO. A
0,1
0,06
0,05
0,025
0,02
0,01
2,706
3,537
3,841
5,024
5,412
6,635
4,605
5,627
5,991
7,378
7,824
9,210
6,251
7,407
7,815
9,348
9,837 11,345
7,779
9,044
9,488 11,143 11,668 13,277
9,236 10,596 11,070 12,833 13,388 15,086
10,645 12,090 12,592 14,449 15,033 16,812
12,017 13,540 14,067 16,013 16,622 18,475
13,362 14,956 15,507 17,535 18,168 20,090
14,684 16,346 16,919 19,023 19,679 21,666
15,987 17,713 18,307 20,483 21,161 23,209
17,275 19,061 19,675 21,920 22,618 24,725
18,549 20,393 21,026 23,337 24,054 26,217
19,812 21,711 22,362 24,736 25,472 27,688
21,064 23,017 23,685 26,119 26,873 29,141
22,307 24,311 24,996 27,488 28,259 30,578
0,005
7,879
10,597
12,838
14,860
16,750
18,548
20,278
21,955
23,589
25,188
26,757
28,300
29,819
31,319
32,801
Ejemplo
Para determinar si un dado esta cargado o no, este es lanzado 600 veces
y se anota cuantas veces aparece cada cara. Los resultados observados
fueron:
165
Cara
Fre.obs
Frec.esp
1
85
100
2
94
100
3
108
100
4
112
100
5
98
100
6
103
100
Las hipotesis a plantear son:

H 0 : pi =
1
1
, i = 1, 2, , 6 vs Ha : j tal que pj = .
6
6
En este caso la distribucion acumulada F 0 (x), esta asociada a una distribucion uniforme discreta.
Estadstico de Prueba:
XC =
6

(n i 100) 2
i=1
100
2 (5) .
En este caso se tiene que Xc = 4.82. De esta manera se obtiene:

Vp = P 2 (5) > 4.82 > 0.1 .

Usando R se tiene que el valor p es ((1-pchisq(4.82,5) = 0.4382404 )). Por
lo tanto, no se puede rechazar H0 ; en otras palabras, no hay suciente
evidencia para armar que el dado esta cargado. Asumimos que no lo
esta.
Ejemplo
El generador de n
umeros aleatorios de una calculadora arrojo 100 n
umeros aleatorios (dgitos). Los resultados obtenidos son:
Dgito
Frec
F.espe.
0
11
10
1
11
10
2
9
10
3
8
10
4
8
10
5
11
10
6
9
10
7
11
10
8
13
10
9
9
10
Las hipotesis a plantear son:

1
1
, i = 1, 2, . . . , 10 vs Ha : j tal que pj =
.
10
10
1
= 10:
F.esperada = 100 10
E.Prueba:
10

(n i 10) 2
Xc =
2 (9) .
10
i=0
H 0 : pi =
166
En este caso Xc = 2.4. As, el valor p de esta prueba es:
V p = P ( 2 (9) > 2.4) >> 0.1 .
En R se usa el comando: ((1-pchisq(2.4,9) = 0.983453 )). Como no se puede rechazar H0 , se asume que los n
umeros se generan aleatoriamente.
El siguiente ejemplo muestra porque no es adecuado usar esta prueba
para datos continuos.
Ejemplo
Una prueba que consta de 100 preguntas es presentada por 50 estudiantes. Se tiene la creencia de que el puntaje obtenido es una v.a. normal.
Los resultados obtenidos son:
30
70
80
40
70
82
42
70
83
52
71
84
55
72
84
60
72
85
60
73
86
62
74
88
64
74
90
65
75
90
66
76
92
66
76
93
67
78
93
67
78
94
68
78
95
68
79
97
68
80
Para aplicar la prueba Chi-Cuadrado es necesario forzar un esquema

multinomial. Se construira una tabla de frecuencias.
k 1 + 3.33 log(50) 7 min = 30 , max = 97 ,
N.rango = 70 , Amplitud =
67
= 9.571 10 .
7
Los intervalos resultantes son:

( , 40), [40 , 50) , [50 , 60) , [60 , 70) , [70 , 80) , [80 , 90) , [90 , ) .
Fig. 31: Histograma para puntajes
167
Las hipotesis a probar son:
H0 : Los puntajes se distribuyen n (, 2 ).
Ha : Los puntajes no se distribuyen n (, 2 ).
Como y 2 son desconocidas, usamos estimadores puntuales para
y S 2.
y 2 ; estos seran X
Bajo H0 asuma que X: puntaje obtenido en la prueba, es una v.a ,
S 2 ). x = 73.64, S = 14.257, n = 50. Para calcular
donde X n (X,
las probabilidades de clase, se procede as:
p1 = P (X < 40|X n (73.64, 203.256))

40 73.64
=P Z<
= P (Z < 2.36) = 0.00914
14.257
p2 = P (40 X < 50) = P (2.36 < Z < 1.6650)

= 0.03932
Y as analogamente para los demas intervalos. La tabla resultante sera:
Clase
< 40
40 X < 50
50 X < 60
60 X < 70
70 X < 80
80 X < 90
X 90
Fre.obs
1
2
2
12
16
9
8
Probabilidad
0.00914
0.03932
0.12007
0.22890
0.27622
0.20128
0.12507
Frec.Esperada
0.457
1.966
6.0035
11.445
13.811
10.064
6.2535
Como n p1 y n p2 son peque

nos, menores que 5, se organiza una nueva
tabla agrupando las frecuencias menores que 5 (los dos primeros intervalos), con la frecuencia del tercer intervalo:
168
Clase
< 60
60 X < 70
70 X < 80
80 X < 90
X 90
E. Prueba:
XC =
Fre.obs
5
12
16
9
8
Probabilidad
0.16853
0.22890
0.27622
0.20128
0.12507
5

(n i n pi ) 2
i=1
n pi
Frec.Esperada
8.4265
11.445
13.811
10.064
6.2535
2 (5 2 1) .
La razon de que los grados de libertad se reduzcan a 2 y no a 4, es

debido a que se pierde un grado de libertad por cada parametro que
es estimado a partir de H0 (en este caso se estimaron dos parametros
previamente: la media y la varianza).
XC = 2.367 ,
Vp = P 2 (2) > 2.367 > 0.1 .
En R se tiene: ((1-pchisq(2.367,2) = 0.3062051)). Por lo tanto no se puede

rechazar H0 y se asume que los puntajes se distribuyen normalmente.
A pesar de que la prueba aparentemente indica normalidad en los datos,
esta prueba no es concluyente, sobre todo cuando acepta H0 .
Este ejemplo es particularmente importante, porque uno de los supuestos fuertes en la mayora de las aplicaciones estadsticas, es aquel donde
se debe especicar si la muestra (o muestras) aleatoria proviene de unha
distribucion normal.
Entre las propuestas metodologcas se encuentran reportadas en la literatura muchas mas pruebas sobre Normalidad. Algunas de las mas
conocidas son: Kolmogorov-Smirnov, Shapiro-Wilks, Cramer Von Misses, Jarque Bera, de Asimetra y Kurtosis de Mardia, etc.
Usando R, se puede aplicar la prueba de Shapiro-Wilk, para determinar
si estos puntajes se distribuyen de manera normal. En R comander se
muestra el procedimiento en la gura 32
169
Fig. 32: Prueba Shapiro-Wilks
Usando codigo en R:
shapiro.test(puntajes)
Shapiro-Wilk normality test
data: puntajes
W = 0.9521, p-value = 0.04163
El valor p obtenido permite rechazar H0 y se concluye entonces que los
puntajes obtenidos NO se disstribuyen normalmente. En la gura 32
se muestra la densidad ajustada a los puntajes. Observe que su forma
dista mucho de ser simetrica. El codigo en R:
((plot(density(puntajes), xlab=Puntaje, main=Densidad para Puntajes, ylab=))).
170
Fig. 33: Densidad para puntajes
Ejemplo
De la produccion diaria de una empresa se seleccionan de manera aleatoria 4 artculos y se examinan uno a uno para vericar si son defectuosos
o no. A pesar de desconocer la proporcion diaria de defectuosos en la
empresa, se tiene la idea de que el n
umero de artculos defectuosos de los
4 seleccionados es Binomial. Para vericarlo, se repite este experimento
durante 100 das y cada vez se registra el n
umero de defectuosos entre
los 4 seleccionados. Los resultados se muestran en la siguiente tabla.
No exitos 0
Frec Obs 11
1
17
2
42
3
21
4
9
Verique si en efecto el n
umero de defectuosos tiene una distribucion
Binomial, con n = 4.
Soluci
on
Sea X1 , X2 , , X100 una muestra aleatoria que representa el n
umero
de defectuosos para los 100 das observados. Seg
un el enunciado se desea
probar las hipotesis:
H0 : Xi b(4 , p) vs Ha : Xi no se distribuye b(4 , p) .
171
Como p es desconocido, bajo H0 cierta es posible estimar a p usando el
metodo de maxima verosimilitud.
100
100

100
100

Xi
4Xi
4
4
Xi
4Xi
i=1
i=1
L(p) =
p (1 p)
p
=
(1 p)
.
X
X
i
i
i=1
i=1

100
100

(p) = K +
Xi ln(p) + 4 100
Xi .
i=1
i=1
Al derivar esta u
ltima ecuacion e igualar a cero se obtiene que:
100

1
Xi .
p =
4 100 i=1
Para los datos de la tabla anterior se tiene que

100

Xi
i=1
= 12 .
p =
4 100
La hipotesis nula se convierte en:
1
H0 : Xi b(4 , ) H0 : pi =
2
4
4
1
, i = 0, 1, 2, 3, 4 .
2
i
Bajo H0 , las probabilidades pi son:

p0 =
1
1
1
1
1
, p1 = 4
, p2 = 6
, p3 = 4
, p4 =
.
16
16
16
16
16
La tabla resumen con las respectivas frecuencias esperadas es:

No exitos
0
Frec Obs 11
Frec Esp 6.25
1
17
25
2
42
37.5
3
21
25
4
9
6.25
Estadstico de prueba. En este caso la estimacion del parametro p hace

que se pierda un grado de libertad mas.
XC =
4

(Ni n pi )2
i=0
n pi
2 (3) .
172
Para los datos observados se tiene que: XC = 8.567 . El valor p de la
prueba se calcula como: V p = P (2 (3) > 8.567) . Observando la tabla
para la Ji-cuadrado, se tiene que
0.025 < V p < 0.05 . Con esta informacion se rechaza H0 y se concluye que seg
un la informacion registrada, el n
umero de exitos NO se
distribuye Binomial con p = 12 .
Estadstica de Kolmogorov - Smirnov

Suponga que X1 , . . . , Xn es una m.a. de una distribucion desconocida
con c.d.f. F (x) y que los datos se ordenan de menor a mayor. Considere
las hipotesis:
H0 : F (x) = F0 (x) vs H1 : F (x) = F0 (x) .
Para evaluar esta hipotesis, se recurre a la Distribucion emprica de la
muestra, la cual es usualmente denotada Sn (x) y se dene como:
0 , x < x(1)
k
, x(k) x < x(k+1) .
Sn (x) =
n
1 , x x(n)
Ya que bajo H0 , F0 (x) se encuentra completamente especicada, es posible evaluar F0 (x) para cualquier otro valor de x y compararlo con
Sn (x). Si H0 es cierta, se espera que la diferencia entre Sn (x) y F0 (x)
sea peque
na. La estadstica de Kolmogorov-Smirnov se dene como:
Dn = max |Sn (x) F0 (x)| .
x
La distribucion de Dn no depende de la distribucion especicada en H0

y solo debe ser evaluada en funcion del tama
no de la muestra.
Para dado se rechaza H0 si Dn > cn . Esta prueba puede ser usada
para vericar si un conjunto de datos (discretos o continuos) provienen
de una distribucion especca.
Los valores de c se encuentran tabulados y la respectiva tabla se muestra
en la gura 30.
173
Fig. 34: Valores crticos para la prueba K-S
Ejemplo
A partir de una muestra de 215 estudiantes, se recopilo informacion
acerca de 5 variables de interes: Estrato, Horas (dedicadas semanalmente
a estudiar), Edad (en a
nos), Trab(Trabaja 1:Si; 2: No) y Prom (obtenido
en el semestre anterior). Se muestra una parte de los datos:
> ind[1:10,]
Estrato Horas edad trab prom
1
1
28
20
1 3.8
2
1
24
21
1 3.7
3
1
18
19
1 3.9
4
1
20
20
2 3.7
5
1
23
25
2 3.7
6
1
26
18
2 3.6
7
2
12
35
1 3.0
8
2
30
26
1 3.2
9
2
4
32
1 2.9
10
2
9
26
1 3.4
Un histograma para la variable Prom se muestra en la gura 35.
174
Fig. 35: Histograma para Promedio
Se quiere determinar si los promedios se comportan de manera Normal.

Se plantean las siguientes hipotesis:
H0 : Los promedios se distribuyen n (, 2 )
Ha : Los promedios no se distribuyen n (, 2 )
El estadstico de prueba es Dn . debido a que los parametros en el caso de
una Normal, deben ser estimados por maxima verosimilitud, Lilliefors
propone una modicacion a el test K-S. El comando en R para realizar
esta prueba es:
> lillie.test(ind[,5])
Lilliefors (Kolmogorov-Smirnov) normality test
data: ind[, 5]
D = 0.0892, p-value = 0.0002713
Este valor P permite rechazar H0 y concluir que los promedios NO se
distribuyen normalmente.

PH Proporciones y Bondad de Ajuste

Uploaded by

Document Information

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

PH Proporciones y Bondad de Ajuste

Uploaded by

Copyright:

Available Formats

152

n(0, 1) . As, el estadstico de prueba

Para dado, la Region crtica es de la forma:

ZC | |ZC | > z/2

Se desea probar las hipotesis:

se tiene que Z0.05 = 1.645 y as, la region crtica es de la

R.C = {ZC | ZC > Z0.05 } = {ZC | ZC > 1.645} .

un los datos obComo ZC > 1.645 se rechaza H0 y se concluye que seg

ZC < 2.33 , no se puede re-

Esto indica que la conclusion vara dependiendo del valor de escogido.

Fig. 27: Rechazo Prueba de Hipotesis

El area sombreada es P (Z > 2.12) = 1 P (Z 2.12) = 0.017.

Para jo es posible determinar los valores de k, k1 y k2

P (X > k|p = 0.6) = 3.6562 x 10 5

P (X > k|p = 0.6) = 5.2405 x 10 4

P (X > k|p = 0.6) = 0.003611

P (X > k|p = 0.6) = 0.01596

P (X > k|p = 0.6) = 0.05095

El menor valor de k es 16. As R.C. = {X | X > 16} . Como x =

Si = 0.01 se tiene que P (X > k | p = 0.6) 0.01 solo si k = 17 .

Valor p de una Prueba de Hip

Para dado la region crtica o de rechazo esta dad por:

Fig. 28: Valor P

P (Z < 2.08) = 0.0188.

H0 : = 100 vs Ha : > 100 .

El estadstico de prueba es:

Si = 0.05 t 0.05 (19) = 1.729

Si se considera que 0.035 es un error peque

Fig. 29: Valor P

El calculo del Valor p esta ligado al tipo de hipotesis alterna. En el

Caso I: Muestras que provienen de poblaciones normales con varianza

Caso III: Muestras que provienen de poblaciones no-normales.

Caso IV: Tama

P (|Z| > |Zc |)

Para el caso de diferencia de medias, se usan los casos I, II y III para

Vp = P (Z < ZC ) = P (Z < 2.25)

Pruebas de Bondad de Ajuste

Por notacion se escribe: X 2 () . El parametro es conocido como

Los cuantiles para esta distribucion se obtienen al resolver la ecuacion:

Fig. 30: Distribucion 2 ()

Suponga que se desea establecer valores particulares para los p i , es decir

El calculo con la tabla Chi-Cuadrado es similar al calculo con la tabla

Las hipotesis a plantear son:

En este caso se tiene que Xc = 4.82. De esta manera se obtiene:

Vp = P 2 (5) > 4.82 > 0.1 .

Las hipotesis a plantear son:

Para aplicar la prueba Chi-Cuadrado es necesario forzar un esquema

Los intervalos resultantes son:

Fig. 31: Histograma para puntajes

p2 = P (40 X < 50) = P (2.36 < Z < 1.6650)

Como n p1 y n p2 son peque

La razon de que los grados de libertad se reduzcan a 2 y no a 4, es

Vp = P 2 (2) > 2.367 > 0.1 .

En R se tiene: ((1-pchisq(2.367,2) = 0.3062051)). Por lo tanto no se puede

Fig. 32: Prueba Shapiro-Wilks

Fig. 33: Densidad para puntajes

Para los datos de la tabla anterior se tiene que

Bajo H0 , las probabilidades pi son:

La tabla resumen con las respectivas frecuencias esperadas es:

Estadstico de prueba. En este caso la estimacion del parametro p hace

Estadstica de Kolmogorov - Smirnov

La distribucion de Dn no depende de la distribucion especicada en H0

Fig. 34: Valores crticos para la prueba K-S

Un histograma para la variable Prom se muestra en la gura 35.