You are on page 1of 29

Pruebas de bondad de ajuste para distribuciones

con parmetro de forma


Jos A. Villaseor Alva
Colegio de Postgraduados, Mxico
ITESM, Monterrey, N.L.
2 de septiembre de 2011

Conferencia Bimestral de la AME

Pruebas para distribuciones con parmetro de forma

1/29

Introduccin

Una parte importante de la inferencia estadstica es obtener informacin


acerca de la poblacin de la cual una muestra aleatoria (m.a.) ha sido
extrada.
Por ejemplo, mucha metodologa estadstica est basada en el supuesto de
que la poblacin es normal; sin embargo, este supuesto debe de ser
verificado antes de continuar con otros aspectos relacionados con la
inferencia estadstica.

Conferencia Bimestral de la AME

Pruebas para distribuciones con parmetro de forma

2/29

Introduccin (cont.)
El problema clsico de bondad de ajuste se presenta cuando suponemos que
la hiptesis nula est completamente especificada. As, con base en una m.a.
X1 , X2 , ..., Xn de F (x) se desea probar la hiptesis nula:
H0 : F (x) = F0 (x), para toda x

(1)

contra la hiptesis alternativa


H1 : F (x) 6= F0 (x), para alguna x,

(2)

donde F0 est completamente especificada (no hay parmetros


desconocidos).
En este caso se dice que H0 es una hiptesis simple.
Algunas pruebas clsicas de bondad de ajuste para este problema son:
la prueba de Chi-cuadrada propuesta por Karl Pearson (1900), que ha
sido reconocida como uno de los avances cientficos ms importantes
del siglo XX.
la prueba de Kolmogorov-Smirnov (Kolmogorov, 1933).
la prueba de Anderson-Darling (1952).
Conferencia Bimestral de la AME

Pruebas para distribuciones con parmetro de forma

3/29

Introduccin (cont.)
El problema en que estamos interesados es cuando la hiptesis nula es
compuesta, esto es,
H0 : F (x) = F (x; )

(3)

donde es un vector de parmetros desconocidos, que puede tomar dos o


ms valores distintos.
Por ejemplo, cuando F (x; ) es la distribucin normal con parmetros
desconocidos.
Una prueba clsica en esta situacin es la prueba A2 de Anderson-Darling
(1952) en donde la media y la varianza son estimadas por mxima
verosimilitud.
A2 es invariante bajo transformaciones de escala y localidad.
Esto implica que la distribucin bajo H0 de A2 para probar normalidad no
depende de los parmetros de escala y localidad. As, la distribucin nula
puede ser obtenida por simulacin para cualquier tamao de muestra n, de
donde se obtiene la constante crtica que define la prueba.
Conferencia Bimestral de la AME

Pruebas para distribuciones con parmetro de forma

4/29

Algunos conceptos relevantes


Una prueba de hiptesis basada en una estadstica de pruebaT es una
particin del conjunto de los valores posibles de T en dos regiones, la regin
de rechazo y la regin de aceptacin (no rechazo).
La distribucin de T bajo H0 es llamada la distribucin nula de T .
Al usar una prueba se tiene:
Error de tipo I: rechazar H0 cuando es verdadera.
Error de tipo II: aceptar (no rechazar) H0 cuando es falsa.
Tamao de una prueba: una prueba es de tamao si
= supH0 P(Error de tipo I).
Potencia de una prueba: es 1 P(Error de tipo II) que es igual a la
probabilidad de rechazar H0 cuando H0 es falsa.

Conferencia Bimestral de la AME

Pruebas para distribuciones con parmetro de forma

5/29

Prueba de Shapiro-Wilk
Sean x(1) < x(2) < ... < x(n) las estadsticas de orden de una m.a. de tamao
n de una funcin de distribucin F .
Sea (.) la funcin de distribucin normal estndar. Para probar la hiptesis
de normalidad univariada:


x
H0 : F (x) =
, donde < y > 0 son desconocidos,

Shapiro y Wilk (1965) proponen la estadstica de prueba



W =

n
P

i=1
n
P

2
ai x(i)
(4)

(xi x)

i=1

donde x =

n
1P
xi y
n i=1
Conferencia Bimestral de la AME

Pruebas para distribuciones con parmetro de forma

6/29

Prueba de Shapiro-Wilk (cont.)

ai es el isimo elemento del vector


0

a = (a1 , ..., an ) =

m0 V1
(m0 V1 V1 m)

1/2

con m0 = E [Z] y V = cov (Z) donde Z denota al vector de estadsticas de


orden de una m.a. normal estndar de tamao n.
La prueba de Shapiro-Wilk rechaza la hiptesis de normalidad con un tamao
de prueba si W < k , donde k es tal que la prueba es de tamao .

Conferencia Bimestral de la AME

Pruebas para distribuciones con parmetro de forma

7/29

Prueba de Shapiro-Wilk (cont.)

La estadstica W resulta ser una razn de dos estimadores de la varianza y


se puede verificar que es invariante bajo transformaciones de escala y
localidad. Por lo tanto, para dada, k es tal que
= P(W < k |H0 es verdadera).

(5)

Es decir, k es el percentil 100 % de la distribucin nula de W .


Es importante notar que en general, cuando el vector de parmetros es
estimado, la distribucin nula de la estadstica de prueba depende de , del
tipo de estimador de y de la forma de F .

Conferencia Bimestral de la AME

Pruebas para distribuciones con parmetro de forma

8/29

Pruebas para distribuciones con parmetro de forma


Aqu estamos interesados en probar H0 en (3) cuando el vector de
parmetros incluye un parmetro de forma.
En esta situacin, la distribucin nula de la estadstica de prueba de cada una
de las pruebas clsicas de bondad de ajuste depende del parmetro de
forma, de su estimador y de la F misma.
Ejemplos: Las distribuciones
Weibull, lognormal, Pareto clsica
Gamma,
Pareto generalizada,
Normal asimtrica,
Alfa-estables,
con cola de variacin regular.

Conferencia Bimestral de la AME

Pruebas para distribuciones con parmetro de forma

9/29

1. La distribucin Weibull
Sea X una v.a. exponencial(). Para > 0, la v.a. Y = X 1/ tiene distribucin
Weibull(, ) con funcin de distribucin

F (y ; , ) = 1 ey , y > 0,
donde es el parmetro de forma.
Se desea probar H0 : F (y ) = F (y ; , ) con base en una m.a. Y1 , Y2 , ..., Yn de
F (y ).
Para esto note que Z = log Y tiene distribucin Gumbel con parmetro de
localidad (log )/ y parmetro de escala 1/.
Debido a que la distribucin Gumbel es de localidad y escala, la prueba de
Anderson-Darling puede ser utilizada para probar H0 con base en los datos
transformados y estimando los parmetros por mxima verosimilitud.
Stephens (1977) obtuvo los valores crticos para la distribucin Gumbel.

Conferencia Bimestral de la AME

Pruebas para distribuciones con parmetro de forma

10/29

2. La distribucin Pareto clsica

Se dice que la v.a. X tiene distribucin Pareto clsica con parmetro de forma
si tiene funcin de distribucin
F (x; ) = 1 1/x , x > 1, > 0.

(6)

Se desea probar H0 : F (x) = F (x; ) con base en una m.a. X1 , X2 , ..., Xn de


F (x).
Para esto note que Y = log X tiene distribucin Exponencial con parmetro
de escala .
Por lo tanto, para probar H0 se puede emplear por ejemplo la prueba de
exponencialidad de Cox y Oakes (1984) con base en los datos transformados.

Conferencia Bimestral de la AME

Pruebas para distribuciones con parmetro de forma

11/29

3. Distribucin Pareto generalizada


Se dice que la v.a. X tiene distribucin Pareto Generalizada (PG) si su
funcin de distribucin est dada por

1/
F (x; , ) = 1 1 + x
,

(7)

donde > 0, y R tal que x > 0 para 0 y 0 < x < / cuando < 0.
Cuando 0+ , F (x; , ) 1 exp (x/) , la cual es la distribucin
Exponencial().
Cuando = 1, F (x; , ) = x/, la cual es la distribucin Uniforme(0, ).
La familia PG contiene distribuciones de cola pesada, la familia de
distribuciones exponencial, as como una subclase de distribuciones Beta y
otras de soporte acotado.

Conferencia Bimestral de la AME

Pruebas para distribuciones con parmetro de forma

12/29

Distribucin Pareto generalizada (cont.)

Debido a su riqueza, la familia de distribuciones PG ha sido usada para


modelar probabilidades en diferentes campos como Finanzas, Ecologa e
Hidrologa entre otras (ver Reiss y Thomas, 2007).
Por lo tanto, se requiere contar con una prueba de bondad de ajuste para
H0 : F es una distribucin PG(, ), , desconocidos.

(8)

con base en una m.a. X1 , ..., Xn de F .

Conferencia Bimestral de la AME

Pruebas para distribuciones con parmetro de forma

13/29

Estimador de Hill: caso 0


La distribucin Pareto con parmetro de forma se define como
F (x; ) = 1 x 1/ , x > 1. Entonces
 1/
F (x; )
x 1/

lm
= lm
.
1/ =

x F (x; , )
x
1+ x

(9)

donde F (x) = 1 F (x). Es decir, la distribucin PG(, ) es equivalente en la


cola a la distribucin Pareto().
Por lo tanto, el estimador de Hill (1975) para es

k
X
1

bN = Wnk +1
Wnj+1 ,
k

(10)

j=1

donde
Wj = log Y(j) , j = n k + 1, n k + 2, ..., n.

(11)

y Y(1) < Y(2) < ... < Y(n) son las estadsticas de orden correspondientes a
una m.a. Y1 , Y2 , ..., Yn de la distribucin PG(, ) .
Conferencia Bimestral de la AME

Pruebas para distribuciones con parmetro de forma

14/29

Mtodo combinado: caso < 0


Sea U = F (X )
, esto es, U = 1 + X . Note que U tiene distribucin
Beta(1/, 1).
Proponemos el siguiente procedimiento en dos etapas para estimar el
parmetro .

Conferencia Bimestral de la AME

Pruebas para distribuciones con parmetro de forma

15/29

Mtodo combinado: caso < 0 (cont.)


Etapa 1: Mtodo de Momentos
Sean X1 , X2 , ..., Xn una m.a. de tamao n de la distribucin PG(, ).
El momento muestral de primer orden de U es
n

m=

1 X


1 + Xi = 1 + X
n

(12)

i=1

= Pn Xi /n.
donde X
i=1
Por otro lado, el valor esperado de U es E{U} = 1/(1 ).
Entonces, por el mtodo de momentos,

Resolviendo para ,

=1+ X
.
1

(13)

=1 .
X

(14)

Conferencia Bimestral de la AME

Pruebas para distribuciones con parmetro de forma

16/29

Mtodo combinado: caso < 0 (cont.)


Etapa 2: Mxima Verosimilitud
De la definicin de la distribucin PG(, ), se tiene que 0 < x <

, cuando

< 0.

Entonces, el EMV de
es X(n) = ma
x {X1 , X2 , ..., Xn }.

Un estimador
de es:

= X(n) .

(15)

Por lo tanto, sustituyendo


arriba por se tiene:

X
=
.
X X(n)

Conferencia Bimestral de la AME

Pruebas para distribuciones con parmetro de forma

(16)

17/29

Prueba de bondad de ajuste para la distribucin


Pareto generalizada
Con base en el parmetro de forma , se definen dos subclases de
distribuciones PG:
A+ = {todas las distribuciones PG con parmetro de forma 0}
y
A = {todas las distribuciones PG con parmetro de forma < 0} .
La hiptesis H0 en (8) es equivalente a H0 : F A+ A .
Se presenta una prueba de interseccin-unin para H0 (Casella y Berger,
1990), la cual considera una prueba para H0+ : F A+ y una prueba para
H0 : F A .

Conferencia Bimestral de la AME

Pruebas para distribuciones con parmetro de forma

18/29

Prueba para H0+ ( 0)


Sea F (x) = 1 F (x). La definicin de la distribucin PG dada en (7) es
equivalente a


F (x; , )
(17)
= 1 + x, > 0, <.

Adems, sumando 1 y tomando logaritmos en ambos lados de (17), se tiene


 

log( F (x; , )
+ log(x), > 0, <.
(18)
1) = log


Por (17), bajo H0 se tiene una relacin lineal entre Y = F (X ; , )
y X.
Adems, por (18), existe una relacin lineal entre las v.a.

Y = log F (X ; , )
1 y X = log(X ).

Conferencia Bimestral de la AME

Pruebas para distribuciones con parmetro de forma

19/29

Prueba para H0+ ( 0) (cont.)


Sea Yi = F n (Xi )
, i = 1, 2, ..., n, donde Fn es la funcin de distribucin
emprica de la m.a. y = k es el estimador dado de Hill.
El coeficiente de correlacin muestral de Xi y Yi , denotado como R1 , es un
estimador de la correlacin lineal entre Y y X cuando 0 < 0.5, donde
__
__
Pn
Yj Y
j=1 Xj X
q
,
(19)
R1 =
n SX2 SY2
__

__

donde X , SX2 y Y , SY2 son la media y varianza muestrales de X1 , ..., Xn y


Y1 , ..., Yn .

Conferencia Bimestral de la AME

Pruebas para distribuciones con parmetro de forma

20/29

Prueba para H0+ ( 0) (cont.)





1 , i = 1, 2, ..., n. El coeficiente
Sea Xi = log(Xi ) y Yi = log F n (Xi )
de correlacin muestral de Yi y Xi , i = 1, 2, ..., n, denotado como R2 , es un
estimador de la correlacin lineal de Y y X cuando 0.5.
Para probar H0+ , se propone la estadstica de prueba:

R1 , if 0 < 0.5,
+
R =
R2 , if 0.5.
Bajo H0 se espera que el valor de R + est cerca de 1, entonces la prueba
rechaza H0+ si R + < c+ donde c+ es el cuantil del 100 % de la distribucin
de R + bajo H0+ .

Conferencia Bimestral de la AME

Pruebas para distribuciones con parmetro de forma

21/29

Prueba para H0+ ( 0) (cont.)

Como la distibucin nula de R + depende de , usamos bootstrap paramtrico


para aproximar el valor crtico c+ como sigue.
1

Calcular con base en la m.a. y generar B muestras bootstrap de la


distribucin PG(, ) = (1, ).

Calcular el valor de R + para cada muestra bootstrap.

+
Sean R(j)
los valores ordenados Rj+ , j = 1, ..., B.

+
c+ = R(B)
.

Note que usamos = 1 ya que R + es una estadstica escala-invariante.

Conferencia Bimestral de la AME

Pruebas para distribuciones con parmetro de forma

22/29

Prueba para H0 ( < 0)


Con base en la relacin



F (x; , )
= 1 + x, > 0, <,

(20)

una estadstica de prueba para H0 es el coeficiente de correlacin muestral



de Xi y Zi = F n (Xi )
, i = 1, 2, ..., n, donde es el estimador combinado.
Sea |R | el valor absoluto del coeficiente de correlacin muestral de Xi y Zi ,
i = 1, ..., n.
Por lo tanto, se rechaza H0 si |R | < c donde c es el cuantil del 100 %
de la distribucin de |R | bajo H0 .
Para obtener c usamos bootstrap paramtrico.

Conferencia Bimestral de la AME

Pruebas para distribuciones con parmetro de forma

23/29

Prueba de Interseccin-Unin

Una prueba para la hiptesis


H0 : F es una distribucin PG

(21)

rechaza cuando ambas pruebas R + y |R | rechazan.


Para que la prueba sea de nivel se requiere que cada una de las pruebas
R + y |R | sea de tamao .

Conferencia Bimestral de la AME

Pruebas para distribuciones con parmetro de forma

24/29

Tamao estimado de la prueba, n = 50

.05
.10

-10
.01
.03

-5
.01
.02

-2
.01
.02

-1
.01
.03

Conferencia Bimestral de la AME

0
.04
.09

1
.04
.09

2
.02
.05

5
.02
.04

10
.03
.08

Pruebas para distribuciones con parmetro de forma

25/29

Potencia estimada de la prueba ( = 0.05)


Alternativa
Beta(1,2)
Beta(2,1)
Beta(5,5)
Weibull(2,1)
Weibull(3,1)
Gama(5,1)
Gama(8,1)
Gen-Gama(2,1/3)
Gen-Gama(2,1/2)
Gen-Gama(1,1/2)
Abs(norm(2,2))
Abs(norm(2,1))
Abs(norm(3,1))
Chisq(6)
Abs(Gumbel(5,2))
Abs(Gumbel(5,5))
Conferencia Bimestral de la AME

n = 50
.02
.11
.67
.21
.52
.40
.64
.87
.61
.21
.04
.35
.70
.15
.41
.85

n = 100
.03
.31
.97
.54
.90
.84
.94
1
.93
.54
.11
.76
.97
.55
.88
.99

Pruebas para distribuciones con parmetro de forma

26/29

Aplicacin
Osterman (1993) (Reiss y Thomas, 2001) estudi un conjunto de datos que
contiene 135 registros en horas por semana de televidentes. La Tabla 1
presenta los registros que exceden las 20 horas.
Tabla: Horas de TV / semana

20.00
24.00
28.50

20.00
24.75
29.00

20.00
25.00
29.50

20.50
25.00
30.00

20.50
26.00
31.50

22.00
26.00
33.00

22.00
27.00
37.00

22.00
27.00
40.00

23.00
27.50
45.00

23.0
27.5
49.0

Al aplicar la prueba propuesta, no se rechaza la hiptesis nula de la


distribucin PG a un nivel de significancia del 10 % ya que R + no rechaza
H0+ . Por lo tanto, los datos no presentan evidencia contra la hiptesis nula
cuando 0. La estimacin de es = 0.5839.

Conferencia Bimestral de la AME

Pruebas para distribuciones con parmetro de forma

27/29

Referencias
Anderson, T.W. y Darling, D.A. (1952). Asymptotic theory of certain
goodness of fit criteria based on stochastic processes. Ann. Math.
Statist., 23, 193-212.
Casella, G. y Berger, J. (1990). Statistical Inference. Brooks/Cole, USA.
Cox D. y Oakes D. (1984). Analysis of Survival Data. Chapman and Hall.
USA.
Kolmogorov, A.N. (1933). Sulla determinasione empirica di una legge di
distribuzione. Giornale dell Istituto Italiano degli Attuari, 4, 83-91.
Reiss, R.D. y Thomas, M. (2007). Statistical Analysis of Extreme
Values with Applications to Insurance, Finance, Hydrology and Other
Fields. 3a Ed. Birkhuser.
Stephens, M.A. (1977). Goodness of Fit for the Extreme Value
Distribution, Biometrika, 64, 583-588.
Shapiro, S.S. y Wilk, M. B. (1965). An analysis of variance test for
normality: complete samples. Biometrika, 52, No. 3/4, 591-611.
Conferencia Bimestral
de la AME
Pruebas para
distribuciones con parmetro
de forma
Wand M. 2010. SemiPar:
Semiparametic
Regression.
R package
version28/29

Referencias

Villaseor, J.A. y Gonzlez, E. 2009. A bootstrap goodness of fit test for


the generalized Pareto distribution. Comp. Stat. and Data Analysis, 53,
3835-3841.
Villaseor, J.A. y Prez, P. 2010. On testing the skew normal hypothesis.
J. of Statistical Planning and Inference, 140, 3148-3159.

Conferencia Bimestral de la AME

Pruebas para distribuciones con parmetro de forma

29/29

You might also like