Ajuste

Pruebas de bondad de ajuste
Las pruebas de bondad de ajuste tienen por objetivo determinar si los datos se ajustan a una de-
terminada distribución, esta distribución puede estar completamente especificada (hipótesis simple) o
perteneciente a una clase paramétrica (hipótesis compuesta).
• Test χ2 Están diseñados para variables aleatorias discretas con un número finito de valores, si
esto no ocurriese los valores de la variable se agrupan en un número finito de clases.
1. Hipótesis nula simple H0 : X ≡ F0

Dada una muestra aleatoria simple de una variable aleatoria X que toma valores en las clases
C1 , . . . , Ck ,sea Oi = no de individuos de la muestra en la clase Ci y sea pi = P (X ∈ Ci ).
Con esta formulación lo que se contrasta es
H0 : pi = PF0 (X ∈ Ci ) = p0i ∀i
y se puede hacer por dos procedimientos: mediante el estadı́stico de la razón de verosimi-

litudes o mediante el estadı́stico de Pearson.
Ambos procedimientos se basan en la comparación de la frecuencia observada en cada clase
Oi con la frecuencia esperada bajo la hipótesis nula Ei = np0i = no de individuos esperados
en la clase Ci , bajo H0 ; si esta fuese cierta no deberı́an presentarse grandes discrepancias.
El test de la razón de verosimilitudes

Q se basa en la verosimilitud de los datos agrupados
es L(O1 , . . . , Ok , −
→
p ) = h ki=1 pO
i
i
que alcanza su máximo cuando pbi = Oi /n y si la hipótesis
Q
nula fuese cierta la verosimilitud de los datos serı́a L(O1 , . . . , Ok , −→
po ) = h ki=1 (p0i )Oi de
µ 0 ¶Oi
Qk pi
donde el estadı́stico de la razón de verosimilitudes es Λ(O1 , . . . , Ok ) = i=1 ,y
Oi /n
se obtiene el siguiente estadı́stico
k
X Oi
G = −2 ln Λ = 2 Oi ln
Ei
i=1
que como se observa se basa en la comparación por cociente de las frecuencias observadas
y esperadas de cada clase.
En base a este estadı́stico se define la región crı́tica RC = {G > c} y para determinar
c se utiliza la distribución asintótica de G = −2 ln Λ que es χ2k−1 , los grados de libertad
corresponden al número de pi que es necesario estimar.
La aplicación de este procedimiento requiere muestras de tamaño grande para poder utilizar
la aproximación asintótica, es reconocido el criterio de que Ei ≥ 5 en al menos un 80% de
las clases admitiéndose que en lo sumo un 20% de las clase se tenga 1.5 ≤ Ei ≤ 5.
El test de Pearson se basa en la comparación por diferencia e las frecuencias observadas

y esperadas de cada clase a partir del estadı́stico
k
X (Oi − Ei )2
D=
Ei
i=1
En base a este estadı́stico se define la región crı́tica RC = {D > c} y para determinar c se

utiliza la distribución asintótica de D que es χ2k−1 , al igual que en el caso anterior.
Puede comprobarse que los dos estadı́sticos utilizados son asintóticamente equivalentes y
ambos utilizan el mismo criterio para la aproximación asintótica.
2. Hipótesis nula compuesta H0 : X ≡ Fθ , θ ∈ Θ ∈ Rq
En este caso para aplicar cualquiera de los dos procedimientos anteriores necesito la es-
timación máximo verosı́mil del parámetro con los datos agrupados θb para luego calcular
E b se construyen entonces los estadı́sticos :
bi = nPi (θ),
k
X Oi
G = −2 ln Λ = 2 Oi ln
bi
E
i=1
k
X bi )2
(Oi − E
D=
bi
E
i=1
cuya distribución asintótica, bajo condiciones de regularidad y si es cierto la hipótesis nula,

es χ2k−1−q .
Como la estimación del parámetro con los datos agrupados suele ser bastante complicado,
puede utilizarse la estimación con los datos de la variable pero en este caso la distribución
de los estadı́sticos anteriores se encuentra entre la de una χ2k−1−q y una χ2k−1 .
Para la aplicación de estos test se requieren las mismas condiciones asintóticas expuestas
anteriormente.
• Test de Kolmogorov -Smirnov

Se basa en el concepto de la función de distribución empı́rica y sus propiedades como aproxima-
ción de la función de distribución teórica. Dada una muestra a.s. de una variable aleatoria conti-
nua (X1 , . . . Xn ) y una hipótesis simple sobre el comportamiento de esa variable H0 : X ≡ F0
considera el estadı́stico
Dn = supx∈R | Fn (x) − F0 (x) |

y rechaza la hipótesis nula cuando el valor de este estadı́stico es ’alto’. Para estudiar el comporta-
miento de Dn , que claramente toma valores en el intervalo (0,1) y que a medida que el tamaño de
muestra aumenta tiende a tomar valores más próximos a cero (Teorema de Glivenko-Canteli),se
utilizan los estadı́sticos
Dn+ = supx∈R (Fn (x) − F0 (x)) Dn− = supx∈R (F0 (x) − Fn (x))
que me permiten comprobar que Dn = max( ni − F0 (x(i) ), F0 (x(i) ) − i−1

n i = 1, . . . , n)
La distribución de Dn es independiente de la distribución formulada en la hipótesis nula, ya
que la transformación de los estadı́sticos ordenados de una variable continua por su función de
distribución da lugar a los estadı́sticos ordenados de una U(0,1).
En consecuencia Dn está tabulado para muestras de tamaño pequeño y para muestras de tamaño
grande se utiliza la aproximación asintótica
µ ¶ ∞
X
z 2 2
limn→∞ P r Dn ≤ √ =1− (−1)i−1 exp−2i z
n
i=1
La distribución de Dn sirve para buscar bandas de confianza para la función de distribución

teórica de una variable.
• Pruebas de normalidad
Comprueban la hipótesis compuesta H0 : X ≡ N ormal
1. pruebas gráficas basadas en los P-P plots y Q-Q plots

2. Lillefors: Dn = supx∈R | Fn (x) − F̂x̄,s (x) | es una modificación del test de Kolmogorov
Smirnov, como busca los parámetros de la normal a partir de la muestra ya se está ajustando
a la muestra por tanto este estadı́stico toma valores en general menores que el de K-S y
posee unas tablas propias para este caso. Existen tablas especiales para el caso exponencial.
¡ ¢
3. Shapiro-Wilks: W = R2 (X(i) , E(i) ) i = 1, . . . n con E(i) =Esperanza del estadı́stico or-
denado de orden i de una m.a.s de tamaño n de N(0,1).
otras expresiones para este estadı́stico son:
³P ´2 ³P ´2
[n/2] (n) n (n)
i=1 an−i+1 (x(n−i+1) − x(i) ) i=1 ai (x(i) − x)
W = =
ns2 ns2
(n) (n)
donde los coeficientes ai = −an−i+1 dependen del tamaño de muestra y se buscan en las
tablas de Shapiro-Wilks .
la región crı́tica de este test es RC = {W < c}, donde el valor c se obtiene buscando el
comportamiento de W en el caso de que la distribución de partida sea normal.
4. Agostino:se basa en el estadı́stico
Pn Pn P[n/2]
i=1 i(x(i) − x) i=1 (i − n+1
2 )x(i) i=1 ( n+1
2 − i)(x(n−i+1) − x(i) )
D= = = =
n2 s 2
n s n2 s
se suele utilizar para n > 50 y tiene como región crı́tica RC = {D < c1 o D > c2 }, donde
los lı́mites de la región crı́tica se encuentran tabulados bajo la hipótesis de normalidad.Para
tamaños de muestra muy grandes mayores de 250 se utiliza una aproximación asintótica
del estadı́stico D a una normal.

Ajuste

Uploaded by

Document Information

Original Title

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

Ajuste

Uploaded by

Copyright:

Available Formats

Pruebas de bondad de ajuste

1. Hipótesis nula simple H0 : X ≡ F0

y se puede hacer por dos procedimientos: mediante el estadı́stico de la razón de verosimi-

El test de la razón de verosimilitudes

El test de Pearson se basa en la comparación por diferencia e las frecuencias observadas

En base a este estadı́stico se define la región crı́tica RC = {D > c} y para determinar c se

cuya distribución asintótica, bajo condiciones de regularidad y si es cierto la hipótesis nula,

• Test de Kolmogorov -Smirnov

Dn = supx∈R | Fn (x) − F0 (x) |

que me permiten comprobar que Dn = max( ni − F0 (x(i) ), F0 (x(i) ) − i−1

La distribución de Dn sirve para buscar bandas de confianza para la función de distribución

1. pruebas gráficas basadas en los P-P plots y Q-Q plots

You might also like