You are on page 1of 17

A.

PRUEBAS DE BONDAD DE AJUSTE:


Chi cuadrado
Metodo G de Fisher
Kolmogorov-Smirnov para una muestra
Lilliefords
Kolmogorov-Smirnov para dos muestras

B.TABLAS DE CONTINGENCIA

Marta Alperin alperin@fcnym.unlp.edu.ar


Profesora Adjunta de Estadstica http://www.fcnym.unlp.edu.ar/catedras/estadistica
2014
A. PRUEBAS DE BONDAD DE AJUSTE: 1. Chi cuadrado 2

Objetivo
Inferir si la poblacin muestreada, cuyos datos se clasifican en una escala nominal o
son agrupados en intervalos, se ajusta a una cierta distribucin terica.

Hiptesis
Hiptesis nula: frecuencias observadas son iguales a las frecuencias esperadas.
Hiptesis alternativa: frecuencias observadas son diferentes a las frecuencias
esperadas.
H0: fo=fe
H1: fofe

k
( fo fe ) 2

Estadstico de prueba c2 fo: frecuencia observada


fe: frecuencia esperada
i 1 fe k: nmero de categoras
Prueba de hiptesis
La hiptesis nula se acepta
Decisin estadstica
( , )
2
c
Tabla Chi cuadrado
Cuando se acepta la hiptesis nula, se
puede afirmar que la muestra es extrada de
una poblacin cuya distribucin es la del
k n parmetros estimados 1 modelo contrastado con una confianza .
Nmero de parmetros estimados
Modelo Binomial, se estima p
Modelo Poisson, se estima
Modelo Normal, se estima y
Modelo Uniforme no se estima ningn parmetro

Para evitar errores calcular las frecuencias esperadas con 4 decimales


y 2 con 3 decimales.

Restricciones:
Los datos deben ser frecuencias
Las categoras deben ser mutuamente excluyentes
El test da resultados falsos si se aplica a datos que son porcentajes o
proporciones de ocurrencias de estas categoras mutuamente excluyentes.
Las categoras no deben ser muchas.
La frecuencia esperada en cada categora debe ser al menos de 5 (cinco). Si esto
no ocurre se deben combinar las frecuencias de dos o mas categoras hasta que la
frecuencia esperada se >5.
Ejemplo DISTRIBUCIN POISSON

DISTRIBUCIN AL AZAR DISTRIBUCIN REGULAR DISTRIBUCIN CONTAGIOSA

s2 s2 s2
1 1 1
X X X
Ejemplo: Desde el verano de 1976 se realizaron trabajos de investigacion
tendientes a estudiar los meteoritos en la Antrtida. Se analizaron los meteoritos
cados en un rea de 200 km2. El rea fue subdividida con una cuadricula de 1
km2 y se cont el nmero de meteoritos presentes en cada cuadricula.
N
Frecuencia
meteoritos Frecuencia
p (Poisson) esperada Chi cuadrado e x
por observada
(pxn)
P( x)
cuadricula x!
0 10 0,0226 4,4 m
1 14 0,0847 16,9 0,1125 X
2 9 0,1611 32,2 16,7155
n
3 23 0,2044 40,9 7,8340 m=n meteoritos=761
4 65 0,1944 38,9 17,5118 n=n cuadriculas=200
5 74 0,1479 29,6 66,6000
6 5 0,0938 18,8 10,1298 X 3,805 s2=2,17
7 0 0,0509 10,2 10,2000
8 0 0,0406 8,1 8,1000 ((10+14)-(4,4+16,9))2/(4,4+16,9)=0,1125

Los meteoritos se distribuyen al azar? Los meteoritos estn agrupados o se distribuyen unifomemente?
H0: fo=fe s2 s2 =0,05; /2=0,025
H 0 : 1; H a : 1 s 2 2,17
H1: fofe X X 0,57 =n-1=200-1=199
=0,05 2 X 3,805
s t(199; 0,025)=-1,960
=8-1-1=6 1 2
t n1 X S est
2(6; 0,05)=12,59 S est n 1 2,17
1
( fo fe ) 2 3,805
t 2001 4,297
k

2
2
c2 137,20 S est 0,100 0,1
200 1
c
i 1 fe
-1,960>-4,297; se rechaza H0
La distribucin de los meteoritos no es al azar. El signo de t, y el valor
137,20>12,59; se rechaza H0
de la relacin varianza-media permite afirmar que la distribucion es
Los meteoritos no se distribuyen al azar
relativamente uniforme.
Ejemplo PRUEBA DE NORMALIDAD
Para comercializar la merluza se necesita investigar si el largo del cuerpo se
ajusta a un modelo normal.
Se realiza un lanzamiento de red en la plataforma a la latitud de Mar del Plata y
se recuperan 300 peces.
Marca Area Frecuencia
Frecuencia
Intervalo de clase Intervalo Z sup normal esperada
(x)
Observada
p Pxn Se desconocen
35,5-40,5 38 7 Menos de 40,5 -1,8 0,0359 10,77 y
40,5-45,5 43 54 40,5-45,5 -0,8 0,1760 52,8
45,5-50,5 48 120 45,5-50,5 0,2 0,3674 110,22 Se estiman con
50,5-55,5
55,5-60,5
53
58
84
31
50,5-55,5
55,5-60,5
1,2
2,2
0,3056
0,1012
91,68
30,36
X yS
60,5-65,5 63 4 Ms de 60,5 infinito 0,0139 4,17

X 49,5 S=5 N=300


Recordemos
El rea del intervalo (40,5 - 45,5) viene dada por: p((z Zsup.) - p((z Zinf.)

siendo (Zsup.) = (45,5 49,5) / 5 = -0,8 xi X


(Zinf.) = (40,5 49,5) / 5 = -1,8 Z
S
p(z -0,8) p(z -1,8) = 0,4641 0,2881 = 0,1760

El Zsup. de un intervalo ser el Zinf. del siguiente intervalo.


El primer intervalo tiene siempre como Zinf. menos infinito (-)
El ltimo como Zsup. ms infinito (+).

Para obtener las frecuencias esperadas, las reas debajo de la curva normal se
multiplican por el nmero total de observaciones (N).
H0: el largo de la
merluza est Marca Area Frecuencia
Frecuencia
Intervalo de clase Intervalo Z sup normal esperada
normalmente (x)
Observada
p Pxn
distribuido. 35,5-40,5 38 7 Menos de 40,5 -1,8 0,0359 10,77
H1: el largo de la 40,5-45,5 43 54 40,5-45,5 -0,8 0,1760 52,8
merluza no se 45,5-50,5 48 120 45,5-50,5 0,2 0,3674 110,22
distribuye normalmente 50,5-55,5 53 84 50,5-55,5 1,2 0,3056 91,68
H0: fo=fe 55,5-60,5 58 31 55,5-60,5 2,2 0,1012 30,36
60,5-65,5 63 4 Ms de 60,5 infinito 0,0139 4,17
H1: fofe
=0,05
Si las fe son menores que 5; se deben sumar las fe de intervalos contiguos hasta
que todos los intervalos tengan fe 5.
k
( fo fe ) 2 k
fo 2
c2 c2 N
i 1 fe i 1 fe
72 54 2 352

2
c ... 300 2,8645
10,7 52,8 34,53
2,86 < 5,99
Como el valor de 2c no supera el 2 crtico de
k n parmetros estimados 1 tabla al 5%, no se encuentran evidencias
= 5 -2 -1 = 2 suficientes para rechazar la H0

2(2;0,05)=5,99 Se puede afirmar, con un nivel de


significacin del 5%, que el largo de la
merluza sigue una distribucin normal.
A. PRUEBAS DE BONDAD DE AJUSTE:
2. Mtodo G de Fisher
k
fo
G 2 fo ln
i 1 fe
El estadstico G sigue la misma distribucin que 2 c
No es tan sensible como la prueba de Chi las frecuencias esperadas bajas

Ejemplo del largo de la merluza


7 52 4
G 2(7 ln 54 ln ... 4 ln 3,06
10,77 52,8 4,17
Grados de libertad 6 -3 =3
2 (3; 0,05) = 7,81

3,06<7,81
Como el valor de G no supera el 2 crtico de tabla al 5%, no se encuentran
evidencias suficientes para rechazar la H0

Se puede afirmar, con un nivel de significacin del 5%, que el largo de la


merluza sigue una distribucin normal.
A. PRUEBAS DE BONDAD DE AJUSTE:
3. Mtodo de Kolmogorov Smirnov para una muestra con datos agrupados
Diferencia mxima
max O max E
d max O: frecuencia acumulada observada
max E: frecuencia acumulada esperada
N N: numero total de datos
Se necesita conocer la media y el desvo estndar poblacional.
El valor critico se busca en la Tabla Kolmogorv-Smirnov.
4. Mtodo de Lilliefords (1967)
No es necesario conocer la media y el desvo estndar poblacional.
Las estandarizaciones se calculan con los estimadores muestrales.
El valor crtico se busca en la Tabla Lilliefords
Ejemplo del largo de la merluza
Frecuencia Frecuencia 0,024<0,051
Frecuencia Frecuencia Como el valor de d no supera
Intervalo acumulada acumulada d
Observada esperada el d crtico de tabla al 5%, no
observada esperada
35,5-40,5 7 7 10,77 10,77 3,77 se encuentran evidencias
40,5-45,5 54 61 52,8 63,57 2,57 suficientes para rechazar la H0.
45,5-50,5 120 181 110,22 173,79 7,21 Se puede afirmar, con un
50,5-55,5 84 265 91,68 265,47 0,47 nivel de significacin del 5%,
55,5-60,5 31 296 30,36 289,83 6,17 que el largo de la merluza
60,5-65,5 4 300 4,17 300,00 0 sigue una distribucin
normal.
181 173,79 7,21
d 0,024 Valor crtico al 5% d de Lillifords
0,890
0,0514
300 300 300
A. PRUEBA DE Kolmogorov Smirnov para dos muestras
Se usa para comparar dos distribuciones muestrales.
Las variables pueden estar expresadas en cualquier escala: nominal, ordinal,
de razn, continua o discreta.
No se asume ningn tipo de distribucin de la poblacin de donde se extraen
las muestras.

Las hiptesis de la prueba son:


H0: Las muestras provienen de poblaciones que tienen idntica distribucin .
H1: Las muestras provienen de poblaciones que tienen distribuciones diferentes.
H0: faA = faB
H1: faB faA Diferencia mxima
faA: mxima frecuencia relativa
acumulada en A.
faB: mxima frecuencia acumulada
Estadstico de prueba d max faA faB relativa en B.
nA: N datos muestra A.
nB: N datos muestra B.
La hiptesis nula se rechaza cuando d D.
= 0,05 = 0,01
Valores crticos D n A nB
1 cola 1,22 N 1,51 N N'
n A nB
2 colas 1,36 N 1,63 N
Ejemplo: Los procesos de desecacin de suelos arcillosos son similares a
los que forman la disyuncin columnar de los basaltos y el nmero de
lados de los barquillos de fango (F) y de las columnas de basalto (B)
sern iguales pues la contraccin por desecacin o por enfriamiento es
equidistante desde un punto y tiende a formar estructuras hexagonales.
H0: Las dos muestras son tomadas de poblaciones Basalto
con igual nmero de lados de los polgonos.
H1: Las dos muestras son tomadas de poblaciones Suelo arcilloso
con diferente nmero de lados de los polgonos.
H0: faB = faF
H1: faB faF
Nivel de significacin, = 0,05
D(0,05) = 0,241
d max faB faF 0,1364
X=N
lados f(B) f(F) fr(B) fr(F) fa (B) fa (F) |d|
3 1 1 0.0303 0.0278 0.0303 0.0278 0.0025
4 3 7 0.0909 0.1944 0.1212 0.2222 0.1010
5 8 10 0.2424 0.2778 0.3636 0.5000 0.1364
6 15 8 0.4545 0.2222 0.8182 0.7222 0.0960
7 4 6 0.1212 0.1667 0.9394 0.8889 0.0505
8 1 4 0.0303 0.1111 0.9697 1.0000 0.0303
9 0 0 0.0000 0.0000 0.9697 1.0000 0.0303
10 1 0 0.0303 0.0000 1.0000 1.0000 0.0000
nB = 33; nF = 36
Debido a que d < D(0,05) (0,1364 < 0,241), no existen evidencias para rechazar la hiptesis nula.
Los procesos que originan las grietas de desecacin y la disyuncin columnar son similares.
B.TABLAS DE CONTINGENCIA
Objetivo
Inferir si en la poblacin de la que es extrada la muestra, existe alguna relacin V2
entre las frecuencias de ocurrencia simultanea entre dos variables aleatorias. V1
1 ... n
Las variables son atributos categricos, codificados o en escalas nominales. 1
...
x

Cada individuo se clasifica teniendo en cuenta simultneamente las dos variables. m


Se registra la frecuencia de ocurrencia en cada individuo que forma parte de la Tabla de contingencia

muestra.
Hiptesis
Hiptesis nula: las variables son independientes. H0: fo=fe
Hiptesis alternativa: las variables no son independientes. H1: fofe

fo: frecuencia observada en 1 celda


Estadstico de prueba ( fo fe)
k 2 fe: frecuencia esperada en 1 celda

2
c
k: nmero de celdas de la tabla
TF: total de fila
TF TC i 1 fe
fe TC: total de columna
TT TT=N= N de datos

Prueba de hiptesis Decisin estadstica



2 2 Cuando se acepta la hiptesis nula, se
La hiptesis nula
se rechaza c ( , ) puede afirmar que la muestra es extrada de
una poblacin en donde las variables son
(numero de filas 1)(numero de columnas 1) independientes, con una confianza .
Ejemplo: El objetivo del trabajo es investigar si en los humanos el
color del pelo es independiente del sexo.

H0: El color del pelo es independiente del sexo. H0: fo=fe


H1: El color del pelo no es independiente del sexo. H1: fofe
= 0,05 02,05;( 41)( 21) 7,81
Color del pelo TF TC
Sexo
Negro Castao Rubio Pelirrojo
Total Fila
fe
32 43 16 9 TT
Hombres 100
29,0000 36,0000 26,6667 8,3333 200 80
Mujeres
55 65 64 16
200
fe( MR ) 53,3333
58,0000 72,0000 53,3333 16,6667 300
Total columna 87 108 80 25 300
Color del pelo Chi cuadrado
Sexo Total Fila
Negro Castao Rubio Pelirrojo
Hombres 0,3103 1,3611 4,2667 0,0533
Mujeres 0,1552 0,6806 2,1444 0,0267
Total columna 8,987
( fo fe) 2
6

2
c 8,987
i 1 fe
8,987 > 7,81
El valor de 2c es menor al 2 crtico de tabla.
No se encuentran evidencias suficientes para aceptar la H0 de independencia entre el
color del pelo y el sexo trabajando con un nivel de significacin de 5%.
CORRECCIN POR CONTINUIDAD
Cuando los grados de libertad =1 y n<200, el
estadstico de contraste 2 de la prueba de hiptesis se
debe corregir.

La correccin por continuidad de Yates

k ( fo fe 0,5) 2


2
c
i 1 fe
Ejemplo. El sentido de enroscamiento de los caparazones del foraminfero
Globorotalia truncatulinoides, se usa para estimar la paleotemperatura del agua de mar.
Las valvas dextrgiras ocurren en una relacin 9:1 sobre las levgiras en aguas clidas.
El objetivo del estudio es determinar la paleotemperatura del agua en un nivel de un
testigo recogido a la latitud de Buenos Aires en la plataforma.
H0: Los datos provienen de una poblacin con relacin 9:1 de G. truncatulinoides
dextrgiras-levgiras.
HA: Los datos provienen de una poblacin donde la relacin G. truncatulinoides
dextrgiras-levgiras no es 9:1.
N = 100 Dextrgiras Levgiras
fe valvas dextrgiras = (0,9) 100 = 90
fe valvas levgiras = (0,1) 100 = 10 fo 84 16
Grados de libertad = k 1 = 2 1 = 1
Nivel de significacin = 0,05 fe 90 10

= 3,84
k
( fo fe) 2 (84 90) 2 (16 10) 2

2
c 0,4000 3,6000 4,000
i 1 fe 90 10
Utilizando la correccin por continuidad de Yates se obtiene
k ( fo fe 0,5) 2 ( 84 90 0,5) 2 ( 16 10 0,5) 2

2
c 0,3361 3,0250 3,3611
i 1 fe 90 10

Si no se utiliza la correccin de Yates se rechaza la hiptesis nula dado que 4,00 > 3,84.
Si se utiliza la correccin de Yates que no existen evidencias para rechazar la hiptesis
nula puesto que 3,36 < 3,84.
Se puede concluir que los ejemplares provienen de una poblacin donde la relacin de G.
truncatulinoides dextrgiras-levgiras es 9:1 lo que indicara que se trata de aguas clidas.
GRACIAS

You might also like