You are on page 1of 154

Universidad Central de Venezuela

Facultad de Ciencias
Postgrado en Matematicas

Estimaci
on en procesos autorregresivos
con r
egimen de Markov

Autor: Luis Rodrguez


Tutor: Dr. Ricardo Ros

Tesis Doctoral
presentada ante la ilustre
Universidad Central de Venezuela
para optar al ttulo de
Doctor en Ciencias
Menci on Matem aticas

Caracas, 25 de junio de 2007


2
Resumen

La presente tesis estudia algunos problemas relacionados con la inferencia


estadstica para procesos autorregresivos con regimen de Markov. Esta compuesta
de cuatro captulos.

En el primer captulo establecemos la consistencia del metodo de maxima


verosimilitud penalizada, para estimar el n
umero de estados de la cadena de Markov
no observada en procesos autorregresivos con regimen de Markov (AR-RM). Los
parametros de este modelo son estimados con una version estocastica del algoritmo
EM (SAEM). Dise
namos una prueba de hipotesis para la hipotesis nula de un modelo
de cadena de Markov oculta (CMO), contra la alternativa de un proceso autorregresivo
con regimen de Markov.

En el segundo captulo estimamos la distribucion posterior de un proceso


autorregresivo con regimen de Markov (AR-RM), en el caso cuando las funciones
de regresion en cada regimen son polinomios, utilizando un algoritmo MCMC mezcla
de los algoritmos de Gibbs y Metropolis. Obtenemos as estimados Monte Carlo de los
estimadores de Bayes para los parametros de los polinomios, su grado y la varianza
asociada al ruido en cada regimen.

En el tercer captulo se considera la estimacion semiparametrica de los parametros

3
4

en procesos autorregresivos controlados por un regimen de Markov. Se estudia un


estimador de mnimos cuadrados condicional modificado, demostrando la consistencia
en probabilidad. Establecemos la velocidad de convergencia del estimador.

En el cuarto captulo se estudia la prevision del trafico de las carreteras sobre


las autopistas y las vas rapidas. El trafico se describe con las velocidades de los
vehculos. Proponemos para la prevision dos metodologas una basada sobre un
metodo de clasificacion emprica y la otra por un modelo de mezcla de distribuciones
de probabilidad. El algoritmo SAEM es utilizado para estimar los parametros de estas
distribuciones. Validamos nuestras metodologas estimando los tiempos de viaje en
perodos cortos.
Dedicatoria

A mi madre.
A Daniela ese angel que inspira mi vida.
A la memoria de mi ta Nelida.
A la memoria de la profesora E. Ricabarra.

5
6
Agradecimientos

La realizacion de este trabajo fue posible gracias a muchas personas. Las que sean
omitidas mil disculpas.

Deseo agradecer al profesor Ricardo Ros por su constante asesoramiento y por


nuestro trabajo conjunto en la tematica de Cadenas de Markov relacionadas al estudio
de series temporales. Su seminario sobre estimacion no parametrica de la regresion fue
fundamental en el cuarto captulo de este trabajo. A Rafael Rosales quien me inicio
en la estadstica Bayesiana y dirigio la investigacion del tercer captulo. Al profesor
Jose Rafael Leon quien nos motivo el estudio de estos temas y por siempre estar
atento a colaborar.

Muchas de las ideas fundamentales contenidas en este trabajo se gestaron en


una pasanta dirigida por el profesor Marc Lavielle la cual realice en el laboratorio
de Probabilidad y Estadstica de la Universidad de Paris XI en Orsay. A los
investigadores que impulsan este trabajo conjunto muchas gracias.

Agradezco a las profesoras Lelys Bravo y Glaisar Castro y a los profesores


Jose Rafael Leon y Adolfo Quiroz por aceptar ser parte del jurado. Sus sugerencias
mejoraron significativamente el presente trabajo.

7
8

Alvamir muchas gracias por tu apoyo constante en el logro de este objetivo.

A mi Familia (chiquita y grande) por siempre estar a mi lado.

A mis compa
neros y amigos del departamento de Matematica de la Universidad
de Carabobo sin omisiones por su apoyo. A Roberto por las discusiones relacionadas
con temas de este trabajo.
Indice general

Resumen 3

Dedicatoria 5

Agradecimientos 7

Introducci
on general 13

Bibliografa 19

1. Estimaci
on penalizada del n
umero de estados 23
1.1. Introduccion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24
1.2. Definiciones y preliminares . . . . . . . . . . . . . . . . . . . . . . . . 29
1.2.1. La funcion de verosimilitud . . . . . . . . . . . . . . . . . . . 31
1.3. Estimacion penalizada del n
umero de estados . . . . . . . . . . . . . 36
1.4. El algoritmo SAEM . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45
1.4.1. Paso ES . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47
1.4.2. Paso EA . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48
1.4.3. Convergencia . . . . . . . . . . . . . . . . . . . . . . . . . . . 49
1.5. Prueba de hipotesis . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50
1.6. Simulaciones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51

9
10

1.6.1. HMMs . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52
1.6.2. AR-RM . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54

Bibliografa 59

2. Estimaci
on Bayesiana 63
2.1. Introduccion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 64
2.2. Modelo e hipotesis . . . . . . . . . . . . . . . . . . . . . . . . . . . . 65
2.2.1. Estabilidad del proceso AR-RM . . . . . . . . . . . . . . . . . 66
2.2.2. Inferencia Bayesiana . . . . . . . . . . . . . . . . . . . . . . . 67
2.2.3. Metodos MCMC . . . . . . . . . . . . . . . . . . . . . . . . . 70
2.3. AR-RM polinomial con k conocido . . . . . . . . . . . . . . . . . . . 71
2.3.1. El muestreador de Gibbs . . . . . . . . . . . . . . . . . . . . . 71
2.3.2. Muestreo de (|x, y) . . . . . . . . . . . . . . . . . . . . . . 72
2.3.3. Muestreo de (x|, y) . . . . . . . . . . . . . . . . . . . . . . 73
2.3.4. Ejemplo numerico . . . . . . . . . . . . . . . . . . . . . . . . . 73
2.3.5. El algoritmo Metropolis-Hastings . . . . . . . . . . . . . . . . 75
2.3.6. Muestreando desde la region S . . . . . . . . . . . . . . . . . 77
2.4. AR-RM con k desconocido . . . . . . . . . . . . . . . . . . . . . . . . 79
2.4.1. Muestreador de saltos reversibles . . . . . . . . . . . . . . . . 79
2.4.2. Calculo de p(k|A, 2 , x, y) . . . . . . . . . . . . . . . . . . . . 81
2.5. Convergencia del muestreador de Gibbs . . . . . . . . . . . . . . . . . 83

Bibliografa 90

3. Estimaci
on semiparam
etrica 95
3.1. Introduccion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 96
3.2. Hipotesis generales . . . . . . . . . . . . . . . . . . . . . . . . . . . . 98
3.2.1. Hipotesis sobre el modelo . . . . . . . . . . . . . . . . . . . . . 98
11

3.2.2. Hipotesis sobre la densidad y los estimadores . . . . . . . . . . 100


3.3. Mnimos cuadrados condicional modificado (MCCM) . . . . . . . . . 101
n |Y n1 ) . . . . . . . . . . . . . 101
3.3.1. Construccion del estimador E(Y 0

3.3.2. Propiedades asintoticas de n . . . . . . . . . . . . . . . . . . 102


3.3.3. Propiedades asintoticas del estimador preliminar . . . . . . 103
3.3.4. Consistencia y velocidad de convergencia del estimador . . . 108

Bibliografa 114

4. Mezcla de distribuciones normales 117


4.1. Introduccion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 118
4.2. Los datos y la metodologa . . . . . . . . . . . . . . . . . . . . . . . . 121
4.2.1. Descripcion . . . . . . . . . . . . . . . . . . . . . . . . . . . . 121
4.2.2. Calidad de los datos . . . . . . . . . . . . . . . . . . . . . . . 123
4.2.3. Metodo de prevision . . . . . . . . . . . . . . . . . . . . . . . 125
4.3. Modelo de mezcla . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 125
4.3.1. Descripcion del modelo . . . . . . . . . . . . . . . . . . . . . . 126
4.3.2. Estimacion del n
umero de componentes de la mezcla . . . . . 130
4.4. Metodo de clasificacion jerarquica . . . . . . . . . . . . . . . . . . . . 132
4.4.1. Eleccion del n
umero optimo de clases . . . . . . . . . . . . . . 134
4.5. Patrones para el comportamiento del trafico . . . . . . . . . . . . . . 135
4.6. Prevision de los tiempos de viaje . . . . . . . . . . . . . . . . . . . . 137
4.7. Conclusiones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 144

Bibliografa 146

Conclusiones generales 151

A. Existencia de la densidad del proceso Y 153


12
Introducci
on general

En este trabajo proponemos algunos metodos de estimacion para series temporales


que siguen un proceso autorregresivo con regimen de Markov. Los metodos estaran
relacionados con estimacion por maxima verosimilitud, inferencia Bayesiana y
estimacion por mnimos cuadrados en un marco semiparametrico.

Un proceso autorregresivo con regimen de Markov (AR-RM) es una sucesion


de variables aleatorias Y = {Yn }n0 que se obtiene generando, en primer lugar,
una realizacion de la cadena de Markov X = {Xn }n1 . Luego, las variables Y son
generadas con distribucion condicional a X. La cadena X se llama regimen y no
es observada, por lo tanto la inferencia estadstica se efect
ua solamente a partir del
proceso Y . La dependencia que tiene Yn de Y, X se puede hacer explcita porque se
puede suponer sin perder generalidad que Yn = f (Yn1 , Xn , en ) para alguna funcion
medible f y una sucesion de variables aleatorias e = {en }n1 independientes de Y0
y de X. A lo largo de este trabajo solo consideramos como espacio de estados de la
cadena de Markov X, al conjunto finito {1, . . . , m} y denotamos por A = [aij ] su
matriz de transicion.

En general el proceso Y no es una cadena de Markov. Sin embargo el proceso


conjunto Z = (Y, X) es una cadena de Markov. En la Figura 1 se observa un esquema
del mecanismo de generacion para un proceso AR-RM.

13
14

aXn1 ,
-
X1 ....... Xn1 Xn Xn+1 .......

f (Yn1 , Xn , en )
?
Y0 - Y1 ....... Yn1 - Yn Yn+1 .......

Figura 1: Esquema descriptivo de un proceso AR-RM

Cuando la funcion f solo depende de X y e se obtiene la subclase de procesos


conocidos como cadenas de Markov ocultas (CMO).

Los modelos de CMO son usados en distintas areas de las ciencias basicas y
aplicadas, as como en la industria, las finanzas y la economa, desde el analisis
de rutina hasta la resolucion de problemas de alta envergadura: reconstruccion de
imagenes, reconocimiento de patrones, tomografa, resolucion de problemas inversos,
etc. ver Cappe [8] y McDonald y Zucchini [26] para referencias mas completas.

Los modelos de CMO fueron introducidos por Blackwell and Koopmans [5] como
funciones probabilsticas de una cadena de Markov. Ellos se ocupan del siguiente
problema probabilstico: para todos los procesos estacionarios Y = {Yn }n0 con
valores en un conjunto discreto caracterizar cuales de ellos admiten la representacion
Yn = f (Xn ) y caracterizar sus propiedades. Heller [19] resuelve este problema, aunque
su prueba no es constructiva. Utilizando algunos aspectos de la teora de realizacion
estocastica se pueden dar algoritmos que permitan, dado un proceso Y = {Yn }n0 ,
que se puede representar como un modelo de CMO, construir una cadena de Markov
15

{Xn }n0 y una funcion f tal que el proceso Yn = f (Xn ) o al menos Yn y f (Xn ) tengan
la misma distribucion, ver Finesso [15].

Las primeras contribuciones relacionadas con la estimacion por maxima


verosimilitud (consistencia y normalidad asintotica) se deben a Baum, Petrie y sus
colaboradores, los cuales a mediados de los sesenta las desarrollaron en una serie de
artculos, ver [2, 3] y sus referencias. Ellos proponen un algoritmo de calculo numerico
de la verosimilitud. Estos autores, basicamente, inventan el algoritmo EM el cual se
ha hecho muy popular con la aparicion del trabajo de Dempster et al. [11]. Despues
de mediados de los setenta los modelos de CMO hacen una aparicion muy esporadica
en la literatura estadstica. En 1975 Baker [4] propone un CMO como modelo de
reconocimiento automatico de patrones y siendo hoy da muy utilizado en este campo.
Los aspectos computacionales del algoritmo de Baum y el reconocimiento de patrones
estan recogidos en Levison et al. [25].

La consistencia y la normalidad asintotica para el estimador de maxima


verosimilitud (EMV) desarrolladas por Baum y Petrie [2] son extendidas al considerar
espacios mas generales para el proceso Y (por ejemplo Rd ). Tenemos que Leroux
[24] establece la consistencia del EMV, mientras que la normalidad asintotica es
establecida por Bickel et al. en [6, 7]. Las propiedades asintoticas del EMV cuando el
espacio de estados de la cadena X es compacto son establecidas por Jensen y Petersen
[28], Douc y Matias [13].

Regresando a nuestro planteamiento general Yn = f (Yn1 , Xn , en ), podemos


suponer que la funcion f tiene una forma aditiva conveniente que permite escribir
Yn en la forma,

Yn = f (Yn1 , Xn ) + en , (1)
16

o de manera equivalente,
Yn = fXn (Yn1 ) + en . (2)

La ecuacion (2) nos permite entender el modelo AR-RM como la combinacion


de m modelos de autorregresion seleccionados seg
un la realizacion de la cadena de
Markov X. Sin embargo, a lo largo de todo el trabajo se presenta el modelo de la
forma (1). Goldfeld and Quand [17] los introducen como una generalizacion de los
modelos de regresion switching donde el cambio de regimen es aleatorio.

El interes en este tipo de procesos es amplio tanto teoricamente como en las


aplicaciones. Los procesos AR-RM son usados en muchas areas porque representan
modelos heterogeneos no independientes. Hamilton [18] estudia, en el contexto
econometrico, un proceso AR lineal con regimen de Markov para el analisis de la serie
temporal del producto interno bruto de los Estados Unidos, con dos regmenes: uno
de contraccion y otro de expansion. Los modelos autorregresivos lineales con regimen
de Markov tambien han sido usados en varios problemas surgidos de la ingeniera
electrica: deteccion de fallas, control automatico, ver Douc et al. [14].

Los aspectos probabilsticos de los AR-RM relacionados con la estabilidad del


modelo son desarrollados en Yao y Attali [33]. La consistencia y la normalidad
asintotica del estimador de maxima verosimilitud en el contexto de los procesos AR-
RM son estudiadas por: Francq y Roussignol [16] (consistencia), Douc et al. [14]
(consistencia y normalidad asintotica). Estos u
ltimos lo establecen tanto para el caso
estacionario como para el caso no estacionario, utilizando una tecnica de acoplamiento
introducida por Bakry et al. [1] para el modelo CMO con espacio para Y finito.

Nuestros objetivos en esta tesis son:

Estimar, usando el metodo de maxima verosimilitud (MV), los parametros que


17

definen las funciones de regresion, las probabilidades de transicion de la cadena


de Markov oculta y la varianza del ruido, los estimados son calculados utilizando
el algoritmo SAEM, una version estocastica del algoritmo EM [12], para un
n
umero fijo de estados de la cadena de Markov oculta y suponiendo funciones
de regresion constantes y lineales.

Aplicar la metodologa anterior para la prevision de los tiempos de viaje sobre


la red de carreteras de Pars.

Establecer la consistencia del metodo de maxima verosimilitud penalizada para


el n
umero de estados.

Estimar la distribucion posterior de un proceso autorregresivo con regimen


de Markov, en el caso cuando las funciones de regresion en cada regimen
son polinomios, utilizando un algoritmo de muestreo por cadenas de Markov
(MCMC).

Demostrar la consistencia en probabilidad de un estimador de mnimos


cuadrados condicional modificado de los parametros y calculamos la velocidad
de convergencia del estimador.

Este trabajo se estructura en cuatro captulos, cada uno de los cuales se basa
en un artculo. En el primero establecemos la consistencia del metodo de maxima
verosimilitud penalizada para estimar el n
umero de estados de la cadena de Markov no
observada en procesos autorregresivos lineales con regimen de Markov (AR-RM). Los
parametros de este modelo son estimados con una version estocastica del algoritmo
EM (SAEM). Dise
namos una prueba de hipotesis para la hipotesis nula de un modelo
de cadena de Markov oculta (CMO) contra la alternativa de un proceso autorregresivo
con regimen de Markov, ver [31].
18

En el segundo captulo se estima la distribucion posterior de un proceso


autorregresivo con regimen de Markov (AR-RM), en el caso cuando las funciones
de regresion en cada regimen son polinomios, utilizando un algoritmo de muestreo
por cadenas de Markov (MCMC). El metodo propuesto combina los algoritmos
de Gibbs y Metropolis con la finalidad de obtener simulaciones Monte Carlo de
la distribucion posterior y a partir de all, estimadores de Bayes de los siguientes
parametros: coeficientes de los polinomios, su grado y la varianza del ruido en cada
regimen, ver [29].

En el tercer captulo se considera la estimacion semiparametrica de los parametros


en procesos autorregresivos controlados por un regimen de Markov. Se estudia un
estimador de mnimos cuadrados condicional modificado, demostrando la consistencia
en probabilidad. Se calcula la velocidad de convergencia del estimador, ver [30].

En el captulo cuatro proponemos metodologas tanto para la prevision de los


tiempos de viaje sobre la red de carreteras Parisinas, como para la descripcion de los
comportamientos futuros del trafico. Se caracteriza el trafico de carretera por medio
de las velocidades de los vehculos. Proponemos dos metodologas para la prevision,
una basada en un metodo de clasificacion emprica y la otra en un modelo de mezcla
de distribuciones de probabilidad. El algoritmo SAEM (una aproximacion estocastica
del algoritmo EM) es utilizado para estimar los parametros de estas distribuciones.
En ambos casos validamos nuestras metodologas comparando los estimados de los
tiempos de viaje en perodos cortos, ver [23].
Bibliografa

[1] D. Bakry, X. Milhaud y P. Vandekerkhove. Statistique de chanes de Markov


cachees `a espaces detats fini. Le cas non stationnarie. note C.R. Acad. Sci.
Paris, 325-I:203-206, 1997.

[2] L. E. Baum y T. Petrie. Statistical Inference for Probabilistic Functions of Finite


State Markov Chains. Ann. Math. Stat., 37:1554-1553, 1966.

[3] L. E. Baum, T. Petrie, G. Soules y N. Weiss. A maximization tecnique occuring


in the statistical analysis of a probabilistic functions of Markov chains. Ann.
Math. Stat., 41:164171, 1970.

[4] J. K. Baker. Stochastic Modeling for automatic Speech Understanding. Speech


Recognition, Reddy, R. ed., New York: Academic Press, 1975.

[5] D. Blackwell y L. Koopmans. On the Identifability Problem for Functions of


Finite Markov Chains. Ann. Math. Stat., 28:1011-1015, 1957.

[6] P. Bickel y J. Ritov. Inference in hidden Markov models I: Local asymptotic


normality in the stationary case. Bernoulli, 2:199-228, 1996.

[7] P. Bickel, J. Ritov y Ryden. Asymptotic normality of the maximum likelihood


estimator for general hidden Markov models. Ann. Statist., 26:1614-1635, 1998.

19
20

[8] O. Cappe. Ten years of HMMs. Preprint (online). Available: http://www-


sig.enst.fr/cappe, 2001.

[9] C. K Carter y R. Kohn. On Gibbs sampling for state space model. Biometrika
3-81:541-553, 1994.

[10] S. Dey, V. Krishnamurthy y T. Salmon-Lagagnuer. Estimation of Markov


modulated time- series via the EM algorithm. IEEE signal processing 1:153-
155, 1994.

[11] A. Dempster, N. Laird, y D. Rubin. Maximum-likelihood from incomplete data


via the EM algorithm. J. Roy. Statist. Soc. Ser. B, 39:138, 1977.

[12] B. Delyon, M. Lavielle, y E. Moulines. Convergence of a stochastic approximation


version of EM algorithm. The Annals of Statistics, 27(1):94128, 1999.

[13] R. Douc y C. Matias. Asymptotics of the maximum likelihood estimator for


general hidden Markov models. Bernoulli, Bernoulli:7:381-420, 2001.

[14] R. Douc, E. Moulines, y T. Ryden. Asymptotic properties of the maximum


likelihood estimator in autoregressive models with Markov regime. Ann. Statist.
32 no. 5, 22542304, 2004.

[15] L. Finesso. Estimation of the order a finite Markov chain. Tesis Doctoral,
University of Maryland, 1990.

[16] C. Francq y M. Roussignol. Ergodicity of autoregressive process with Markov-


switching and consistency of the maximum likelihood estimator. Statistics,
32:151-173, 1998.

[17] S. M. Goldfeld y R. E. Quandt. A Markov model for switching regressions.


Journal of Econometrics, 1:3-16, 1973.
21

[18] J.D. Hamilton. A new approach to the economic analysis of non stationary time
series and the business cycle. Econometrica, pages 357384, 1989.

[19] A. Heller. On Stochastic Process Derived form Markov Chains. Ann. Math.
Stat., 36:1286-1291, 1965.

[20] U. Holst, G. Lindgren, J. Holst y M. Thuvesholmen. Recursive estimation in


switching autoregresions with a Markov regime. Time Series Anal. 15:7489-506
1991.

[21] J. G. Kemeny y J. L. Snell. Finite Markov Chains. Van Nostrand, Princenton,


New Jersey 1960.

[22] V. Krishnamurthy y G. Yin. Recursive Algorithms for estimation of hidden


Markov Models with markov regime. IEEE Trans. Information theory 48-2:458-
476 2002.

[23] J.M. Loubes, E. Maza, M. Lavielle y L. Rodrguez. Road trafficking description


and short term travel time forecasting, with a classification method. The
Canadian Journal of Statistics, Vol. 34(3): 475-491, 2006.

[24] B. G. Leroux. Maximum Likelihood Estimation for Hidden Markov Models.


Stoch. Proc. Appl., 40:127-143, 1992.

[25] S.E. Levinson, L. R. Rabiner y M. M. Sondhi, An Introduction to the Application


of the Theory of Probabilistic of a Markov Process to Automatic Speech
Recognition . Bell. Syst. Tech. J., 62:1035-1074, 1983.

[26] I.L. MacDonald y W. Zucchini. Hidden Markov and Other Models for discrete-
valued Time Series. Chapman and Hall, 1997.
22

[27] L. Mevel. Statistique asymptotique pour les mod`eles de Markov cachees. Tesis
Doctoral. Universite Rennes I, 1997.

[28] J. L. Jensen y N. V. Petersen. Asymptotic normality of the maximum likelihood


estimator in state models. Ann. Statist, 27:514-535, 1999.

[29] R. Ros, L. Rodrguez y R. Rosales. Aplicacion de MCMC para procesos AR-


polinomiales con regimen de Markov. Revista Faraute de Ciencias y Tegnologa,
por aparecer 2007.

[30] R. Ros y L. Rodrguez Estimacion semiparametrica en procesos autorregresivos


con regimen de Markov. Divulgaciones Matematicas, por aparecer 2007.

[31] R. Ros y L. Rodrguez. Estimacion penalizada del n


umero de estados en AR-
lineales gaussianos con regimen de Markov. Trabajo en preparaci
on.

[32] J. Rynkiewicz. Mod`eles hybrides integrant des resaux de neurones artificiels


a des mood`eles de chanes de Markov cachees: application a la prediction de

series temporelles. Tesis Doctoral. Universite Pars I, 2000.

[33] J. Yao y J. G. Attali. On stability of nonlinear AR process with Markov switching.


Adv. Applied Probab, 1999.
Captulo 1

Estimaci
on penalizada del n
umero
de estados

Estimacion en procesos autorregresivos lineales con regimen de


Markov
Ricardo Ros1 y Luis Rodrguez2

Resumen

En este trabajo establecemos la consistencia del metodo de maxima verosimilitud


penalizada para estimar el n
umero de estados de la cadena de Markov no observada
en procesos autorregresivos con regimen de Markov (AR-RM). Los parametros de
este modelo son estimados con una version estocastica del algoritmo EM (SAEM).
Dise
namos una prueba de hipotesis para la hipotesis nula de un modelo de cadena de
1
Universidad Central de Venezuela, Facultad de Ciencias, Escuela de Matematicas, Caracas 1040,
Venezuela. Email: rrios@euler.ciens.ucv.ve.
2
Universidad de Carabobo, Facultad de Ciencias y Tecnologa, Departamento de Matematicas,
Valencia, Venezuela. Email: larodri@uc.edu.ve.

23
24

Markov oculta (CMO) contra la alternativa de un proceso autorregresivo con regimen


de Markov.
Palabras Claves: procesos autorregresivos, cadenas de Markov ocultas, algoritmo
SAEM, maxima verosimilitud penalizada.

1.1. Introducci
on

Estudiaremos algunos aspectos del problema de estimacion en procesos


autorregresivos lineales con regimen de Markov. Nuestros objetivos en este artculo
son:

Establecer la consistencia del metodo de maxima verosimilitud penalizada para


el n
umero de estados.

Estimar usando el metodo de maxima verosimilitud (MV), los parametros


que definen las funciones de regresion, las probabilidades de transicion de la
cadena de Markov oculta y la varianza del ruido. Los estimados son calculados
utilizando el algoritmo SAEM, una version estocastica del algoritmo EM [11],
para un n
umero fijo de estados de la cadena de Markov oculta.

Dise
nar una prueba de hipotesis para la hipotesis nula de un modelo CMO
contra la alternativa de un AR-RM.

Los procesos de regresion con regimen de Markov pueden ser vistos como una
combinacion de los modelos de cadenas de Markov ocultas (CMO) y los modelos de
regresion con umbrales. Los AR-RM son introducidos en el contexto econometrico
por Goldfeld y Quandt [22] y se han vuelto muy populares en la literatura al ser
considerados por Hamilton [23] para el analisis de la serie temporal del producto
interno bruto de los Estados Unidos, con dos regmenes: uno de contraccion y otro de
25

expansion.

Estimaci
on del n
umero de estados. Cuando el n
umero de estados de la cadena de
Markov oculta es conocido a priori los problemas de estimacion pueden ser resueltos,
en principio, por tecnicas de estimacion por maxima verosimilitud ver McDonald y
Zucchini [29] y Cappe et al. [4]. Pero en muchas aplicaciones un problema clave es
como determinar el n
umero de estados de manera que se describa adecuadamente
los datos, pero manteniendo un compromiso entre el ajuste y la capacidad de
generalizacion del modelo. El problema de estimacion de la cadena de Markov oculta
en AR-RM es un ejemplo tpico donde la familia de modelos esta anidada: los modelos
con m parametros constituyen una subclase de los modelos de m + 1 parametros.
Entonces el problema de seleccion del modelo consiste en determinar el modelo
mas peque
no que contiene la distribucion que genera los datos. En muchos casos
la estimacion del modelo dependera de como la identificabilidad influya o no en la
especificacion del modelo correcto.

Una primera aproximacion para la determinacion de la dimension del modelo


es una prueba estadstica basada en el cociente de verosimilitud (ver Dacunha y
Duflo [10], pag 227). Para la estimacion del n
umero de estados de la cadena oculta
la prueba de hipotesis por cociente de verosimilitud falla, porque las hipotesis de
regularidad no se cumplen. Particularmente el modelo no es identificable, algunos
parametros no aparecen bajo la hipotesis nula y la matriz de informacion es singular,
en consecuencia la distribucion asintotica del cociente de verosimilitud no es 2 .
Una alternativa es construir pruebas generalizadas de cociente de verosimilitud que
trabajen bajo condiciones no estandar. Para el problema de la determinacion del
n
umero de estados en AR-RM Hansen [24] propone una prueba que funciona bajo
perdida de identificabilidad, sin embargo, para su procedimiento es necesario calcular
26

los p-valores de manera aproximada lo cual conduce a calculos computacionalmente


pesados, que producen p-valores aproximados que subestiman los verdaderos. Garcia
[17] propone alternativas computacionalmente mas atractivas, pero sin la rigurosidad
tecnica de Hansen.

Para modelos CMO el cociente de verosimilitud no es acotado. Gassiat y Keribin


lo estudian en [20] y muestran su divergencia a infinito. Conocer la velocidad
de crecimiento de la verosimilitud a medida que se incrementan los parametros
esta relacionado, en alg
un sentido, con la complejidad del modelo. Lo que lleva
a la consideracion de estimadores penalizados de la funcion de verosimilitud que
permiten compensar la no comparabilidad entre modelos con dimensiones distintas.
La especficacion de penalizaciones peque
nas depende de la determinacion de la
velocidad de divergencia al infinito del cociente de verosimilitud, pero hasta donde
conocemos este es un problema abierto para modelos de CMO con datos en conjuntos
infinitos.

En general los criterios de verosimilitud penalizada son obtenidos por


aproximacion de la divergencia de Kullback-Leibler, por ejemplo estan los muy
populares criterios de informacion de Akaike (AIC) y Bayesiano (BIC). En modelos
de CMO, estos criterios, han sido utilizados por muchos autores en las aplicaciones
sin considerar su validez, como observan McDonald y Zucchini [29].

Distinguiremos dos casos de acuerdo a si las variables observadas estan en un


conjunto finito o no. En el caso de modelos de CMO, con datos pertenecientes a un
conjunto finito, la investigacion esta muy desarrollada a partir de la consideracion del
problema por Finesso [16], en su tesis doctoral. Este autor establece la consistencia
fuerte de un estimador penalizado del n
umero de estados suponiendo que el n
umero
27

verdadero de estados pertenece a un conjunto acotado de enteros. Liu y Narayan


[28], suponiendo esta condicion de acotacion, proponen un estimador fuertemente
consistente, basado en mezclas estadsticas del tipo Krischevsky-Trofimov. El
estimador permite normalizar la verosimilitud de forma tal que se puede controlar su
crecimiento, cuando se incrementa el n
umero de estados. Ellos estudian la eficiencia
de su estimador, especficamente demuestran que la probabilidad de subestimacion
decae con velocidad exponencial con el n
umero de datos, mientras que la probabilidad
de sobrestimacion no excede un polinomio de tercer grado en el n
umero de datos.
Siguiendo los trabajos anteriores Gassiat y Boucheron [19] presentan considerables
avances. Prueban la consistencia fuerte del estimador penalizado sin suponer cotas
por arriba a priori para el n
umero de estados, ademas demuestran que la probabilidad
de subestimacion y sobrestimacion decaen con velocidad exponencial en el n
umero de
datos. Para procesos AR-RM con observaciones pertenecientes a un conjunto finito
las tecnicas introducidas por Gassiat y Boucheron son utilizadas por Chambaz y
Matias [7], para demostrar simultaneamente la consistencia del n
umero de estados de
la cadena oculta y la memoria del proceso observado.

En el caso no finito para modelos CMO Ryden [32] demuestra la consistencia de un


estimador penalizado de la verosimilitud que en el lmite no subestima el n
umero de
estados. Dortet-Bernadet [13], bajo algunas condiciones de regularidad, demuestra que
el estimador de Ryden en efecto es consistente. En Gassiat [18] se estudia un estimador
penalizado de la verosimilitud marginal obteniendo la consistencia en probabilidad
al verdadero n
umero de estados. Su tecnica es extendida por Olteanu y Rynkiewicz
[31] para seleccionar el n
umero de funciones de regresion en procesos autorregresivos,
donde el regimen es controlado por una sucesion independiente. En el mismo trabajo
los autores dan cuenta de que no puede ser aplicada una generalizacion directa a
AR-RM, del criterio de verosimilitud marginal penalizada. En Smith et al. [34] se
28

propone un nuevo criterio de informacion para aproximar la divergencia de Kullback-


Leibler y seleccionar el n
umero de estados en AR-RM y las variables. El criterio
impone una penalizacion que reduce la sobrestimacion de los estados y la tendencia
al sobre ajuste en el n
umero de variables. Siguiendo los trabajos para alfabetos
finitos presentados en [16, 28, 19] Chambaz et al. [6] demuestran la consistencia
fuerte de estimadores penalizados y Bayesianos del n
umero de estados para CMO
con observaciones pertenecientes a conjuntos infinitos (discreto y continuo), ellos
trabajan con observaciones condicionalmente Poisson y gaussianas. Como en los
trabajos anteriores no suponen cotas a priori para el n
umero de estados.
En este trabajo demostramos la consistencia fuerte de un estimador del n
umero de
estados en un proceso autorregresivo con regimen de Markov, cuando las funciones
de regresion son funciones lineales y el ruido es gaussiano. Siguiendo el trabajo de
Chambaz et al. [6] demostramos una desigualdad de tipo mezcla (ver Seccion 1.2)
que permite normalizar la verosimilitud y probar en la Seccion 1.3, sin suponer cotas
a priori del n
umero de estados de la cadena de Markov oculta, que el estimador
penalizado es consistente.

El algoritmo SAEM. La ventaja de utilizar el algoritmo SAEM reside en la facilidad


de movimiento en diferentes areas modales, lo que reduce la posibilidad de estimar
maximos locales. Las particularidades de nuestro problema nos permiten la simulacion
exacta de la distribucion de la cadena oculta condicional a las observaciones, usando
el algoritmo de Carter y Kohn [5]. En la Seccion 1.4 describimos el algoritmo SAEM
para el proceso ARF-RM, y presentamos en detalle el metodo de simulacion de la
cadena oculta y sus propiedades de convergencia.

Prueba de hip
otesis. Para la prueba de hipotesis de un modelo de CMO contra
un proceso AR-RM seguimos las ideas de Giudici et al. [21] que nos permite obtener
nuestra prueba de cociente de verosimilitud. Ellos usan el cociente de verosimilitud
29

para CMO con probabilidades de emision gaussianas en modelos graficos. La


demostracion es presentada en la seccion 1.5.

En la Seccion 1.2 introducimos el modelo y presentamos explcitamente la funcion


de verosimilitud del modelo. Por u
ltimo en la Seccion 1.6 ilustramos los resultados
con algunas simulaciones.

1.2. Definiciones y preliminares


Un proceso autorregresivo lineal con regimen de Markov (AR-RM) se define por:

Yn = Xn Yn1 + bXn + Xn en (1.1)

donde {en } son v.a i.i.d (variables aleatorias independientes e identicamente


distribuidas), i2 es la varianza del modelo en cada regimen y 2 = (12 , . . . , 12 ).
La sucesion de v.a {Xn } es una cadena de Markov con espacio de estados {1, . . . , m}.
Denotamos por A su matriz de transicion, es decir, A = [aij ] donde aij = P(Xn =
j|Xn1 = i). Para cada i m denotamos por i = (bi , i )T y

b1 b2 bm
= .
1 2 m

Supondremos que:

La cadena de Markov {Xn } es recurrente positiva. En consecuencia admite


distribucion invariante que denotamos por = (1 , . . . , m ).

La v.a Y0 , la cadena de Markov {Xn } y la sucesion {en } son conjuntamente


independientes. Esta condicion permite demostrar bajo algunas hipotesis la
existencia de la ley conjunta del proceso {Yn }, ver Apendice A.

La v.a. en se distribuye normal N (0, 1).


30

E (log ) < 0 (condicion de estabilidad).

El parametro i pertenece a un subconjunto compacto i R2 .

Para cada i m, i2 [c, d].

El espacio de parametros es el conjunto


( m m
)
O X
m = = (, 2 , A) : i , 2 [c, d]m , aij = 1 .
i=1 j=1

Notaciones:

V1n representa el vector (V1 , . . . , Vn ).

El smbolo 1IB (x) denota la funcion que asigna el valor 1 si x B y 0 en caso


contrario.

Las distribuciones y densidades son denotadas por p.

Para cada i m,
Pn
ni = 1Ij (Xk ) el n
k=1 umero de visitas de la cadena de Markov {Xn } al estado
P
i en los primeros n pasos y nij = n1 k=1 1Ii,j (Xk1 , Xk ) el n
umero de transiciones
de i a j en n pasos.

Ii := {k n : Xk = i} = {k1i , . . . , kni }

Yi := (Yk1i , . . . , Ykni )t , Yi1 := (Yk1i 1 , . . . , Ykni 1 )t y Ei := {ek1i , . . . , ekni }.

El smbolo 1i denotara el vector transpuesto que tiene 1 en todas sus posiciones


y tiene talla ni , Wi = [1i Yi1 ].

Observemos que el proceso {Yn } no es una cadena de Markov pero si definimos


el proceso conjunto {(Yn , Xn )} este es una cadena de Markov con espacio de estados
R {1, . . . , m}. En lo que sigue introducimos algunas propiedades relacionadas con
la funcion de verosimilitud del modelo que seran utilizadas a lo largo del trabajo.
31

1.2.1. La funci
on de verosimilitud

Consideramos como funcion de verosimilitud para el conjunto de observaciones y0n


y el parametro a la distribucion condicional p (y1n |y0 ). En virtud de la regla de la
probabilidad total, la funcion de verosimilitud del modelo se representa como
X X
p (y1n |y0 ) = p (y1n , xn1 |y0 ) = p,2 (y1n |y0 , xn1 )pA (xn1 ). (1.2)
xn
1 xn
1

De acuerdo con la notacion establecida podemos representar el proceso AR-RM


definido por la ecuacion (3.1) por m modelos lineales, para cada i m

Yi = Wi i + i Ei ,

por lo tanto la distribucion de las observaciones y0n condicional a xn1 se escribe de la


manera siguiente
m
Y
1 1
p (y1n |y0 , xn1 ) = p T
exp 2 (Yi Wi i ) (Yi Wi i ) .
i=1 ( 2i2 )ni 2i

A continuacion definimos la mezcla de distribuciones que nos permitira obtener


la consistencia del estimador de maxima verosimilitud penalizado.

Introducimos una distribucion previa (a priori) p() en el conjunto de parametros


. Elegimos las distribuciones previas para las componentes de de manera que
resulten conjugadas para la funcion de verosimilitud. Por la escritura del proceso como
modelo lineal consideramos las previas pertenecientes a la familia Normal-Gamma
para (, 2 ) (ver Broemiling [2], 1, pag. 3).

Suponemos que
m
Y
2 2
p() = p(A)p(| )p( ) = p(Ai )p(i |i2 )p(i2 ),
i=1

donde Ai denota la i-esima fila de A. Para cada i = 1 . . . , m tenemos:


32

1. 1 , . . . , m son independientes con



1 1
i N (i |0, i2 2 I) = T
exp 2 2 i i
2i2 2 2i

2. 12 , . . . , m
2
son independientes con

u v0 /2 u0
0
v0
i2 IG(v0 /2, u0 /2) = 2
(i2 )( 2 +1) e 2 2
i .
(v0 /2)

3. Suponemos que Ai D(ei ). D denota un densidad Dirichlet con vector de


parametros ei = (1/2, . . . , 1/2),

m
(m/2) Y 1/2
D(ei ) = a .
(1/2)m j=1 ij

Definimos la mezcla estadstica de distribuciones con la que trabajaremos por


Z
qm (y1n ) = p (y1n |y0 )p()d.

El resultado principal de esta seccion es estudiar el cociente entre la funcion de


verosimilitud y la mezcla estadstica.

Teorema 1.1 La distribucion previa p() satisface para todo m 1 y todo y1n Rn
la siguiente desigualdad

p (y1n |y0 ) m(m + 1) nm YkT Pk Yk


log log(n) + cm (n) + d(n) + log + em (n),
qm (y1n ) 2 2 Ykt Bk Yk

donde
YkT Pk Yk YiT Pi Yi
= m a x
Ykt Bk Yk i=1,...,m Y t Bi Yi
i
33

y para n 4,

(m/2) m(m 1) 1
cm (n) = log m m log + , (1.3)
(1/2) 4n 12n
n 1 n
d(n) = + log , (1.4)
2 2 2
m 1 4 m log(2)
em (n) = log + C (1.5)
2 n2 m 2
Pi = I Wi Mi WiT (1.6)

Mi = (WiT Wi + 2 I)1 (1.7)

Bi = I Wi (WiT Wi )1 WiT . (1.8)

Demostraci
on: Observamos que
Z XZ Z Z
p (y1n |y0 )p()d = p,2 (y1n |y0 , xn1 )pA (xn1 )p(A)p()p( 2 )dAdd 2
xn P
1
XZ Z Z
= p (y1n |y0 , xn1 )p()dd 2 pA (xn1 )p(A)dA
xn P
1
X
= qm (y1n |y0 , xn1 )qm (xn1 ). (1.9)
xn
1

Por lo tanto la demostracion del teorema se obtiene encontrando constantes C1 , C2


tales que

p (y1n |y0 ) C1 qm (y1n |y0 , xn1 ) (1.10)

pA (xn1 ) C2 qm (xn1 ). (1.11)

En efecto, en virtud de las ecuaciones (1.9) y (1.2),


X
p (y1n |y0 ) = p,2 (y1n |y0 , xn1 )pA (xn1 )
xn
1
X
C1 C2 qm (y1n |xn1 )qm (xn1 )
xn
1

= C1 C2 qm (y1n ).
34

Evaluemos qm (xn1 ) siguiendo la prueba del apendice de [28]. Sea


m
" m !#
Y (m/2) Y (nij + 1/2)
n
qm (x1 ) =
i=1
(ni + 1/2) i=1 (1/2)

y Qm Qm n n ij
j=1 ( ni )
ij
pA (xn1 ) i=1
Q h Qm (nij +1/2) i . (1.12)
qm (xn1 ) m (m/2)
i=1 (ni +1/2) i=1 (1/2)

El lado derecho de la ecuacion (1.12) no excede,


m
(n + m/2)(1/2)
.
(m/2)(n + 1/2)

En Gassiat y Boucheron [19], se demuestra que,



(n + m/2)(1/2) m(m 1)
m log log n + cm (n),
(m/2)(n + 1/2) 2

para N 4, cm (n) se elige como:



(m/2) m(m 1) 1
log m m log + .
(1/2) 4n 12n

Entonces:
pA (xn1 )
nm(m1)/2 exp cm (n). (1.13)
qm (xn1 )
Queda evaluar el cociente entre p,2 (y1n |y0 , xn1 , , 2 ) y qm (y1n |y0 , xn1 ). Comencemos
evaluando qm .
Z Y
m
1
q(y1n |y0 , xn1 ) = (2i2 )ni /2 T
exp 2 (Y Wi i ) (Yi Wi i )
i=1
2i

1 iT i u0 v0 /2 (i2 )(1+v0 /2) 2
u0

di di2 .
2
exp 2 2 e i
2 2 i2 2 i 2 (v0 /2)

El calculo de la evaluacion de la mezcla queda, despues de integrar con respecto


a y 2 , as
p
det(Mi ) u0 v0 /2 2(v0 +ni )/2 T
m
Y
qm (y1n |y0 , xn1 ) = (Yi Pi Yi +u0 )(v0 +ni )/2 ((v0 +ni )/2)
i=1
(2)ni 2 2 (u0 /2)
35

Ahora, haciendo u0 0 y v0 0 (lo que significa que en el lmite consideramos


previas no informativas para 2 aunque impropias) la parte derecha de la igualdad
nos queda como
m p
Y det(Mi )2ni /2 T ni /2
qm (y1n |y0 , xn1 ) = n 2
Yi Pi Yi (ni /2).
i=1
(2) i

Nuevamente, condicionando respecto a xn1 , como el modelo es lineal y gaussiano,


los estimadores MV son, para 1 i m

bi = (WiT Wi )1 WiT Yi
1
bi2 =
(YT Yi biT WiT Yi ).
ni i

Como p,2 (y1n |y0 , xn1 ) p,b n n


b 2 (y1 |y0 , x1 ) y el lado derecho de la desigualdad

satisface
m
Y
n n
p,b
b 2 (y1 |y0 , x1 ) = i2 )ni /2 eni /2
(2b
i=1
m
Y n /2
= (2)ni /2 eni /2 ni i (YiT Bi Yi )ni /2 .
i=1

Entonces el cociente de las densidades nos queda como


m ni /2 q
p,2 (y1n |y0 , xn1 ) Y ni i ni /2
n /2
YiT Pi Yi
2 det(Mi1 ).
qm (y1n |y0 , xn1 ) i=1
eni /2 (ni /2) Yit Bi Yi

Aplicando logaritmo a ambos lados de la desigualdad anterior se tiene que


m m m q
p,2 (y1n |y0 , xn1 ) X X ni YiT Pi Yi X
log log(di ) + log + log 2 det(Mi1 ).
qm (y1n |y0 , xn1 ) i=1 i=1
2 Y t
B Y
i i i i=1

Ahora bien, el lado derecho de la desigualdad anterior se acota de la siguiente


manera: Para el primer termino se tiene
!
Xm n /2
ni i ni /2 n 1 n m log(2)
log ni /2 (n /2)
+ log .
i=1
e i 2 2 2 2
36

Para el segundo
m
X ni YiT Pi Yi nm YkT Pk Yk
log log .
i=1
2 Yit Bi Yi 2 Ykt Bk Yk
Para el tercer termino
!2
X X X
4
det(Mi1 ) = 1 + ni 4 2
yk1 4
yk1 + 2 + 2 yk1 ,
kIi kIi kIi

escribimos el primer termino de la desigualdad


Xm q
log 2 det(Mi1 )
i=1
v !2
m u
X u X X X
= log t1 + 4 ni 2
yk1 4 yk1 + 2 + 2 yk1
i=1 kIi kIi kIi
m
X p
= log 1 + Vi .
i=1

Por convexidad y el teorema ergodico se satisface que


m
m
!m/2 m/2
X p 1 X 4 n2
log 1 + Vi log 1 + Vi = log 1 + C c.s.
i=1
m i=1
m
Sustituyendo las cotas obtenidas
p,2 (y1n |y0 , xn1 )
log
qm (y1n |y0 , xn1 )
m log 2 n Y T Pk Y k
(log(2) + log(2) + log(n)) + n + log kt
2 2 2 Yk Bk Yk
m/2
4 n2
+ log 1 + C
m

1.3. Estimaci
on penalizada del n
umero de estados
El objetivo de esta seccion es presentar un metodo de estimacion por maxima
verosimilitud penalizada para seleccionar el n
umero de estados m de la cadena de
37

Markov oculta {Xn }. Para cada entero m 1, consideramos los conjuntos m y


S
M = m1 m la familia de todos los modelos. Definimos el n
umero de estados m0
por la propiedad

p0 {p : m0 } \ {p : m0 1 }. (1.14)

Observacion: (Identificabilidad) Suponemos que bajo el verdadero modelo m0 las


componentes del vector {(i , bi , i )}m
i=1 son distintas, as
0
para cada n, existe un punto
Yn1 R tal que {(i Yn1 + bi , i )}m
i=1 son distintos. Entonces de acuerdo con la
0

observacion 2.10 en Krishnamurthy y Yin [26] el modelo es identificable en el sentido


siguiente: Si K denota la divergencia de Kullback-Leibler K(, m0 ) = 0 implica que
= m0 . En consecuencia la identificabilidad implica que m0 definido por la ecuacion
(1.14) es u
nico.

Sea pen(n, m) un termino de penalizacion el cual es una funcion positiva, creciente


en n y m. Definimos el estimador de maxima verosimilitud penalizada (MVP) de m0
por
= argmin{ sup log p (y1n |y0 ) + pen(n, m)}.
m
m1

Decimos que m
sobre estima el n
umero de estados m0 si m
> m0 y subestima el
n
umero de estados m
< m0 .

En el siguiente teorema demostramos que el estimador MVP para m0 , sobre estima


el n
umero de estados.

pen(n,m)
Teorema 1.2 Supongamos que lmn n
= 0 para todo m entonces

m(n)
m0 . c.s.

Para la demostracion del teorema 1.2 los siguientes dos lemas seran necesarios.
38

1
Lema 1.1 (Finesso [16]) El conjunto de funciones fn () = n
log p (y1n |y0 ) es una
sucesi
on equicontinua c.s-P0 .

Demostraci
on: Trabajaremos directamente con la cadena de Markov extendida
1
{(Yn , Xn )}. Definimos h() = n
log p (y0n , xn1 ) y sean , 0 , demostraremos que,
> 0 existe () > 0 tal que

n |hn () hn ( 0 )| si k 0 k < ().

La verosimilitud completa queda escrita como


n Y
Y m m
1Ii,j (xk ,xk+1 ) Y 1 1
p (y0n , xn1 ) = aij T
exp 2 (Yi Wi i ) (Yi Wi i ) ,
k=1 i,j=1 i=1
(2i2 )ni /2 2i

de donde

e
|hn () hn ()|
!
1 X 1 X
m m m
1 X 1 1
nij | log aij log eaij | + ni log i2 log ei2 + Y T
i Y i
n i,j=1 2n i=1 n i=1 2i2 2e2
i
m !
m !T !
1 X T i ei 1 X i ei T i ei
+ Y Wi + Wi Wi . (1.15)
n i=1 i i2 e2 n i=1 i2 e2 i2 e2
i i i

El lado derecho de la desigualdad (1.15) se acota de la siguiente manera:

aij , i2 , ei2 son acotados por


Como nij /n 1, ni /n 1 y los parametros aij , e
debajo, existe una constante C1 tal que los dos primeros terminos del lado
e
derecho de (1.15) estan acotados por C1 k k.

En el tercer sumando observamos que debido a la compacidad del espacio de


parametros, existe una constante C2 tal que
m !
1 X n
1 1 T 2 e2
1X
Yi Yi C2 k k Yk .
n i=1 2i2 2e2 n k=1
i
39

La condicion de estabilidad y la existencia de momentos de e1 (Yao y Atalli


[35]) garantizan que podamos utilizar el teorema ergodico para controlar los
P
terminos de la forma 1/n nk=1 g(Yk ). Por lo tanto
n
X
1
C2 k e2 k
2 e c.s.
Yk C3 k k
n k=1

Por el mismo argumento de compacidad


!
1 Xm
i e
i Xn Xm X n
T e 1 1
Yi Wi C4 k k Yk + Yk Yk1
e2
2
n i=1 i n
k=1
n i=1 kI
i i

y nuevamente, de acuerdo al teorema ergodico, el lado derecho de la desigualdad


e c.s.
anterior es menor que C4 k k

En virtud de la desigualdad de Cauchy-Schwarz


!
m !T m
!
1 X i e
i e
1 X ei

W T
W
i

i
i
W T
W
n i=1 i2 e2 i2 e2
i i i i
n i=1 i2 e2
i i i
m
e 1 X
WiT Wi .
C5 k k
n i=1

Ahora bien, la norma de la matriz simetrica WiT Wi viene dada por el modulo
del autovalor real mas grande, el cual en nuestro caso es
p
tr(WiT Wi ) + tr(WiT Wi )2 4 det WiT Wi
.
2
Como det WiT Wi es positivo,
p
tr(WiT Wi ) + tr(WiT Wi )2 4 det WiT Wi
tr(WiT Wi ).
2
P
Tenemos que tr(WiT Wi ) = ni + kIi Yk2 , entonces
m n
1 X
WiT Wi 1 + 1
X
Y 2.
n i=1 n k=1 k

As el u e
ltimo termino de (1.15) es menor que C5 k k.
40

Podemos concluir que existe una constante C tal que

|hn () hn ( 0 )| Ck 0 k, c.s.

lo que implica que hn es una sucesion equicontinua. Para regresar a {Yn } observamos
que
1 p (y n
, x n
)
log 0 1 ,
n p0 (y0n , xn1 )
de donde
p0 (y1n , xn1 ) exp(n)p (y1n , xn1 )

y sumando sobre xn1


X X
p0 (y1n |y0 ) = p0 (y0n , xn1 ) exp(n) p (y0n , xn1 ) = p (y1n |y0 )
xn
1 xn
1

por lo tanto
1 p 0 (y |y0 )
n
log 1 .
n p (y1n |y0 )

El resultado siguiente es usual cuando se esta en un contexto de seleccion del orden


y se tiene una familia anidada de modelos, ver [4], 15, pag 577-578. Para modelos de
CMO, resultados analogos son enunciados por ejemplo en [19, 6].

Lema 1.2 Para un proceso AR-RM tenemos:

1. Para cada m 1, , 0 m existe K(, 0 ) < tal que:

lm [log p0 (y1n |y0 ) log p (y1n |y0 )] = K(, 0 ).


n

2. Para cada m0 \ m0 1 ,

mn nf K(m0 , ) > 0
m<m0 m
41

3. Para cada m , y1n Rn existen i = 1, . . . I,m ,



log pi (y1n , y0 ) log p (y1n , y0 )
.
n

Demostraci
on: La primera parte es una consecuencia de la proposicion 2.9 en [26].

Para la segunda parte seguimos el lema de Leroux (ver [6], Lema 8, pag. 21),
para cada m0 tal que p 6= pm0 , existe una vecindad O y > 0 tal que
nf O K(mo , ) > . Pero m0 1 es compacto, el esta cubierto por una union
finita O1 , . . . , OI (cada uno de ellos asociado a un i > 0) y por lo tanto,

nf K(, 0 ) mn nf K(, 0 ) mn i > 0.


m0 1 iI Oi iI

Para la tercera parte de la demostracion sea {B () : m } un cubrimiento


de m por bolas abiertas. Por la compacidad de m existe un subcubrimiento finito
B (1 ), . . . , B (I ). As para cada m existe i {1, . . . , I} tal que por el lema
1.1,
log pi (y1n , y0 ) log p (y1n , y0 )
.
n
42

Demostraci
on del teorema 2:

Pm0 1
Utilizando que P(m
n > m0 i.o) m=1 P(m
n = m). Demostraremos que
P(m
n = m) = 0. En efecto,

P(m
n = m) P sup log p pen(n, m) log pm0 pen(n, m0 )
m

P sup log p log pm0 pen(n, m0 ) + pen(n, m) ,
m

como m por lema 1.2 existe i I tal que log pm < n + log pi , por lo tanto
de la u
ltima desigualdad,

P(m
n = m) P max log pi log pm0 pen(n, m0 ) n
iI
I
X
log pi log pm0 pen(n, m0 )
P ,
i=1
n n

de nuevo por lema 1.2,

log pi log pm0


lm = K(i , 0 )
n n
pen(n,m0 )
y por hipotesis lmn n
= 0 de donde,
I
X
P(m
n = m) P ( < K(i , 0 ) ) = 0.
i=1

En el siguiente teorema demostramos que el estimador m


subestima el n
umero de
estados m0 . Como funcion de penalizacion seleccionamos
m
X m
X m
X
l(l + 1) +
pen(n, m) = log n + cl (n) + el (n) + m(m + 1)(n) log n,
l=1
2 l=1 l=1

donde (n) = o(n) y > 2.


43

Teorema 1.3 Para cada m m0 se satisface m


m m0 c.s P0 .

Demostraci
on: Definimos el conjunto
T
Yk Pk Yk
An = tn
Ykt Bk Yk
y
nm Y T Pk Y k
n,m = cm (n) + dm (n) + em (n) + log kt + pen(n, m0 ) pen(n, m).
2 Yk Bk Yk
Observamos que
X
P (m
n > m 0 , An ) = P0 (m
0 = m)
m>m0
y

Pm0 (m
= m, An )
(a)
n n
Pm0 log pm0 (y1 |y0 ) sup log pm (y1 |y0 ) + pen(n, m0 ) pen(n, m), An
m

(b)
pm0 (y1n |y0 )
Pm0 log m,n , An
qm (y1n )
Z
pm0 (y1n |y0 ) pm0 (y1n |y0 )
= 1I log n
m,n , A n n
qm (y1n )dy1n
n
y1 q (y
m 1 ) q (y
m 1 )

m(m + 1)
exp log(n) + cm (n) + d(n) + em (n)
2

n log(tn )
+ + pen(n, m0 ) pen(n, m)
2
donde (a) es una consecuencia de la definicion de estimador de MVP y (b) del teorema
1.1.

En lo que sigue estudiamos el cociente YkT Pk Yk /Ykt Bk Yk . Se tiene que


YkT Pk Yk se distribuye 2 (nk , ) donde = (1/2)kT WT Pk Wk es el parametro
de no centralidad y estamos suponiendo que Pk tiene rango maximo. Ademas
2 (nk , 1/2kT WT Pk Wk ) puede ser aproximada por una distribucion 2r que tenga
44

igual media e igual varianza, con r = (nk + 2)2 /(nk + 4). Mientras que Ykt Bk Yk se
distribuye 2nk , si suponemos que Bk tiene rango maximo, (ver Searle [33],2, pags.
49-53).

Por otra parte,


1 1
= 2 YkT Wk (WkT Wk )1 Mk WkT Yk 2 kYkT Wk k2 ,
2 2
sustituyendo en r tenemos

(nk + 2)2 (nk + 2 kYkT Wk k2 )2 n2
r= = = ocs .
(nk + 4) (nk + 2 2 kYkT Wk k2 ) 2 2
Observando que nk /n k c.s,
T
Yk Pk Yk 1
P tn P Fnk ,r
Ykt Bk Yk tn
nk +r Z 1/t
2 n

= nk r unk /21 (1 + u)(nk +r)/2 du


2 2 0

nk2+r 2
= n r n
2k 2 n tn2k
k
1

3n22 nk
n 4 k tn 2
3
y eligiendo tn = n 2k 2 tenemos que
T
Yk Pk Yk 1
P t
tn 3(n2 +n)
.
Yk Bk Yk k n 4 2

Hemos demostrado que YkT Pk Yk /Ykt Bk Yk es acotado en probabilidad con


3
velocidad n 2k 2 . Nos resta acotar
3m(n) log(n)
nm = cm (n) + d(n) + em (n) + + pen(n, m0 ) pen(n, m).
4k 2
Por la definicion de la funcion pen(n, m) sustituyendo en el termino anterior resulta
m1
X l(l + 1) m1
X m1
X

nm (m m0 ) log(n) log n cl (n) el (n)+
2 l=m +1
2 l=m +1 l=m +1
0 0 0

3m(n) log(n) m0 (m0 + 1) m(m + 1)


+ mn log n + + (n) log n (n) log n
4k 2 2 2
45

Pm1 l(l+1) Pm1 Pm1


para m = m0 + 1 se tiene que l=m0 +1 2
log n l=m0 +1 cl (n) l=m0 1 el (n) =
0.

3
Escogiendo 2 = 4k

3m
nm (m m0 ) log(n) + (m0 m)(m0 + m) + m0 + (n) log n
2 4k 2

(m m0 ) log(n).
2

Por lo tanto

= m, An ) exp (m m0 ) log(n) = O(n/2 ).
Pm0 (m
2

As en virtud del lema de Borel-Cantelli m


m0 c.s.

1.4. El algoritmo SAEM


El estimador de maxima verosimilitud es una solucion de la ecuacion

log p (y1n |y0 ) = 0.

Debido a que esta ecuacion no tiene una solucion analtica cerrada, al calcular
numericamente una solucion aproximada se deben considerar los mn terminos que
aparecen en la ecuacion (1.2). Esto restringe el modelo a un n
umero limitado de
observaciones y a cadenas con pocos estados. Como una alternativa, para modelos de
cadenas de Markov oculta Baum et al. [1] introducen el algoritmo forward-backward,
el cual es una version temprana del algoritmo EM. El algoritmo EM propuesto en
su forma general por Dempster et al. [12] maximiza la funcion log-verosimilitud
en problemas con presencia de variables no observadas. Dicho algoritmo es un
metodo recursivo que permite cambiar la maximizacion de la funcion de verosimilitud
46

observada por un problema de maximizacion de la verosimilitud completa p (y0n , xn1 ),


la cual viene dada por

n Y m n Y m
" #1Ii (xk )
Y 1I (x ,x ) Y 1 (yk y
i k1 b i )2
aij i,j k k+1 p exp 2
. (1.16)
k=1 i,j=1 k=1 i=1
2 2
i
i

Para describir el paso t + 1 de este algoritmo, consideramos

Q(, (t) ) = E(log p (Y0n , X1n )|Y0n = y0n , (t) )


N
X 1 X
m
= E(1Ii,j (Xn , Xn+1 )|Y1n = y1n , (t) ) log(aij )
n=1 i,j=1
N
X 1 X
m
log(2i2 ) (yk i yk1 bi )2
+ E(1Ii (Xn )|Y0n = y0n , (t) ) .
n=1 i=1
2 i2

ua la funcion Q(, (t) )


El algoritmo EM se desarrolla en dos pasos, en el paso E se eval
y en el paso M calculamos

(t+1) = argmax Q(, (t) ).


Nuestro modelo pertenece a la familia exponencial, por lo que satisface las hipotesis
que garantizan la convergencia del algoritmo EM.

Para reducir la posibilidad de estimar maximos locales, utilizamos el algoritmo


SAEM el cual es una version estocastica del algoritmo EM. La convergencia del
algoritmo SAEM es demostrada por Delyon et al. [11]. La ventaja de utilizar el
algoritmo SAEM y no el EM se explica por la sensibilidad del u
ltimo a la eleccion del
parametro de partida del algoritmo. Para una buena eleccion del parametro de partida
las salidas de los dos algoritmos son las mismas. Mientras que sucesivas aplicaciones
del algoritmo EM para malas elecciones de los puntos de partida nos llevan a salidas
lejanas a las obtenidas con buenas elecciones de los puntos de partida. Por el contrario
el algoritmo SAEM, arroja los mismos resultados. Para comparaciones entre versiones
47

estocasticas del algoritmo EM referimos a Celeux et al. en [3, 9, 8].

El algoritmo EM se modifica reemplazando el paso de esperanza (E) por: un paso


de simulacion (ES) y un paso de aproximacion estocastica (EA):
n,(t)
ES Simulamos una realizacion x1 del vector oculto con distribucion pt1 (xn1 |y1n ).

EA Actualizamos la aproximacion del EM por la cantidad:



t+1 = Q
Q t + t log pt1 y0n , xn,(t)
1
Q t

donde (t ) satisface la condicion:


P P
(RM) Para todo t N, t [0, 1], t=1 t = y t=1 t2 < .

1.4.1. Paso ES

En esta seccion describimos el metodo de simulacion que usamos en el algoritmo


SAEM. Para muestrear de la distribucion condicional

p (xn1 |y0n ) = x1 p(y1 |y0 , x1 ) . . . axn1 xn p(yn |yn1 , xn )/p (y1n |y0 ),

para todo xn1 {1, . . . , m}N . Carter y Kohn en [5] proponen una metodo de muestreo
que es una version estocastica del algoritmo forward-backward propuesto por Baum
et al. [1]. Esto se tiene observando que p (xn1 |y0n ) admite la descomposicion,
n1
Y
p (xn1 |y1n ) = p (xn |y0n ) p (xk |xk+1 , y0n ).
k=1

Dado Xk+1 conocido, p (Xk |Xk+1 , y0n ) es una distribucion discreta, lo cual nos sugie-
re la siguiente estrategia de muestreo. Para k = 2, . . . , n, i {1, . . . , m}, calculamos
recursivamente el filtro optimo p(Xk |y0k , ) como
m
X
p(Xn = i|y0k , ) p (yk |yk1 , Xk = i) aij p(Xk1 = j|y1k1 , ).
i=1
48

Entonces, muestreamos Xn de p(Xn |y0n , ) y para k = n1, . . . , 1, Xk se muestrea


de
aix p(Xk = i|y0k , )
p(Xk = i|Xk+1 = xk+1 , y0k , ) = Pmk+1 k
.
l=1 ail p(Xk = l|y0 , )
n,(t)
En consecuencia este procedimiento genera una cadena de Markov {x1 }t1
ergodica en el espacio de estados finito {1, . . . , m}N , tal que p(xn1 |y0 n, ) es su
distribucion estacionaria. La ergodicidad sigue demostrando irreducibilidad y la
aperiodicidad, para esto observamos que el n
ucleo de transicion es positivo,

n,(t) n,(t1) (t) QN 1 (t) (t)


K(x1 |x1 , ) p(xn |y0n , ) n=1 p(xn |xn+1 , y0n , ) > 0.

En este caso por teoremas clasicos de cadenas de Markov finitas (Kemeny y Snell
[25]) se satisface que,

n,(t+1) n,(t)
kK(x1 , x1 , ) p(X1n |y0n , )k Ct1 ,

con C = card({1, . . . , m}N ), = (1 2Kx ) y K = nf K(x0 |x, ), para x, x0


{1, . . . , m}N .

1.4.2. Paso EA

La verosimilitud completa del modelo (4.5), pertenece a la familia exponecial de


distribuciones. En este caso, el paso EA se sustituye por una aproximacion de tipo
Robins-Monro (ver Duflo [15]) para estadsticos suficientes S(X1n ) de la cadena de
Markov oculta, definido por

S(t) = S(t1) + t (S(x1 ) S(t1) ).


n,(t)
(1.17)

En nuestro caso S = (S1 , S2 , S3 ), donde:

S1 (X1n ) = [1Ii (Xk )]1im,1kn .

S2 (X1n ) = (n1 (X1n ), . . . , nm (X1n )).


49

S1 (X1n ) = [nij (X1n )]1i,jm .

El paso de maximizacion, cuando i = 0, esta dado por,


(t+1)
(t+1) S3 [i, j]
b
aij = (t+1)
S2 (i)
Pn (t+1)
bb(t+1) = k=1 S1 [i, k]yn
i (t+1)
S2 (i)
(t+1)
n
1 X (t+1) 2
b2 i
(t+1)
= S1 [i, k] yn bi ,
n k=1

y para i 6= 0,
(t+1)
(t+1) S3 [i, j]
b
aij = (t+1)
S2 (i)
Pn1 (t+1) Pn1
(t+1) P (t+1)
(t+1) k=1 S1 [i, n]yk yk1 S1 [i, k]yk N
k=1 k=1 S1 [i, k]yk1

bi = Pn1 (t+1) Pn1 (t+1) 2
2
k=1 S1 [i, k]yk1 k=1 S1 [i, k]yk
n1
X n
X
bb(t+1) = (t+1)
S1 [i, k]yk
bi S1
(t+1)
[i, k]yk1
i
k=1 k=1
(t+1)
n
1 X (t+1) 2
b2 i
(t+1)
= S1 [i, k] yn i yn1 bi
n k=1

Al considerar fijas las observaciones y1n las expresiones anteriores definen de forma
explcita en cada uno de los dos casos de estudio la aplicacion b = (S) entre los
estadsticos suficientes y el espacio de parametros la cual es necesaria para el algoritmo
SAEM.

1.4.3. Convergencia
n,(t)
El procedimiento de simulacion genera una cadena de Markov finita {x1 }. Las
hipotesis de Delyon et al. [11] que garantizan la convergencia del algoritmo SAEM
en este caso no son validas pero podemos utilizar una extension de este resultado de
Kuhn y Lavielle en [27]:
50

Teorema 1.4 Suponemos las condiciones que garantizan la convergencia del


algoritmo EM, la condici
on (RM) y las siguientes hipotesis:

SAEM1 Las funciones p (y1n |y0 ) y = (S) son l veces diferenciables.

SAEM2 La funcion K = K(|, ) es continuamente diferenciable en . El


n
ucleo de transici
on K genera una cadena de Markov erg
odica con distribucion
n,(t)
invariante p (xn1 |y0n ). La cadena {x1 } toma valores en un conjunto compacto.
La funcion S es acotada.

Entonces, w.p 1, limt d( (t) , L) = 0 donde L = { : log p (y1n |y0 ) = 0} es


el conjunto de puntos estacionarios.

En nuestro caso las hipotesis del teorema se verifican, en efecto la condicion (RM)
es satisfecha si elegimos t = 1/t, SAEM1 es cierta porque 1 se distribuye normal y
SAEM2 es una consecuencia de los discusion en 1.4.1. Esto garantiza que el teorema
anterior aplica y de aqu obtenemos la convergencia.

1.5. Prueba de hip


otesis
En esta seccion estudiamos el comportamiento del cociente de verosimilitud (CV)
para probar la hipotesis nula de identificar un modelo CMO contra la alternativa
de un proceso AR-RM. Demostramos que la teora asintotica del CV es valida. Sea
= (A, , b, 2 ) y 0 = (A, 0, b, 2 ), consideramos la prueba

H0 : = 0

contra

H1 : 6= 0.
51

l(0 )) 2 , bajo P .
Teorema 1.5 2(l() m 0

Demostraci
on: Expandimos l() por Taylor alrededor de ,

= (0 )
l(0 ) l() + 1 (0 )
l() t 2 l()(
0 )


2
donde = 0 + (1 ),
(0, 1). Tambien l()
= 0. As

= [N 1/2 (0 )
2(l(0 ) l()) t ][N 1 2 l()][N
1/2
(0 )].

Ahora, como N 0 P0 c.s. tambien N , y por resultados estandar (por


ejemplo ver [14, 26]),

N 1/2 (N 0 ) N (0, I(0 )1 ) P0 debil

y
I(0 ) P c.s.
N 1/2 2 l() 0

Demostrando el teorema.

El teorema garantiza que podemos emplear la prueba CV para rechazar H0 si:

2
2(l(0 ) l()) m,

donde 2m, es el -cuartil de la distribucion 2m .

1.6. Simulaciones
En esta seccion aplicamos nuestros resultados a algunos datos simulados.
log(N )
Trabajamos con un CMO y dos AR-RM. Usamos pen = 2
dim(m ) (BIC).
Evaluamos la verosimilitud para cualquier parametro calculando
m
X
p(y1:N |y0 ) = N (i),
i=1
52

donde n (i) = p(y1:n , Xn = i) se eval


ua recursivamente con la siguiente formula
forward de Baum,
m
X
n (j) = n1 (i)aij p(yn |yn1 , Xn = i)
i=1

ver D. Le Nhu et ali. [30].

1.6.1. HMMs

En la simulacion del modelo CMO tenemos los siguiente parametros: dim(m ) =


m2 + 1 N = 500, m = 3, 2 = 1,5, = (2, 1, 4),

0.9 0.05 0.05


A = 0.05 0.9 0.05 ,

0.05 0.05 0.9

la serie observada es graficada en la Figura 1.1.

El Cuadro 1.1 contiene los valores al evaluar el maximo de la verosimilitud


= 3. En este caso lo
penalizada para m = 2, . . . , 7, observemos que m
estimamos utilizando SAEM, donde los valores obtenidos son, 2 = 1,49, =
(1,98, 4,09, 0,91),

0,8650 0,0274 0,1076


A = 0,0404 0,8943 0,0653 ,

0,0658 0,0648 0,8694

en la Figura 2 graficamos la sucesion { (t) }, t = 1, . . . , 4000 y observamos la


convergencia de los estimados.
53

m l() pen l() + pen


2 802.32 15.53 817.85
3 419.09 31.07 450.16
4 417.70 52.82 470.52
5 464.70 80.78 545.48
6 445.89 114.97 560.86
7 436.26 155.36 591.62

Cuadro 1.1: Evaluacion de MVP

8
0 50 100 150 200 250 300 350 400 450 500

Figura 1.1: Serie observada y1 , . . . , y500 en el caso CMO


.
54

7 5 0.9

0.8
4
6
0.7

3
5 0.6

2
0.5

4
0.4
1

3 0.3
0

0.2
2
1
0.1
1.5

1 2 0
0 500 1000 1500 2000 2500 3000 3500 4000 0 500 1000 1500 2000 2500 3000 3500 4000 0 500 1000 1500 2000 2500 3000 3500 4000

Figura 1.2: Convergencia de los estimados, 2 , y A.

1.6.2. AR-RM

En el primer proceso AR-RM que simulamos elegimos los parametros: dim(m ) =


m(m + 1) + 1, N = 500, m = 2, 2 = 1.5,

1 1 0.9 0.1
= , A= ,
0.5 0.5 0.1 0.9
la serie observada es graficada en la Figura 1.3.

El Cuadro 1.2 contiene los valores para el MVP para m = 2, . . . , 6, observemos que
= 2. En este caso fue estimado utilizando SAEM, cuyos valores son, 2 = 1,42,
m

1.07 0.96 0,8650 0,1350
= A = ,
0.5 0.5 0,1130 0,8870

en la Figura 1.4 graficamos la sucesion { (t) }, t = 1, . . . , 1000 y observamos la


convergencia de los estimados.

En la segunda simulacion del AR-RM elegimos los parametros: N = 500, m = 2,


2 = 1.5,

1 2 0.9 0.1
= A=
0.7 1.08 0.1 0.9
55

6
0 50 100 150 200 250 300 350 400 450 500

Figura 1.3: Serie observada y1 , . . . , y500 para el proceso AR-RM

m l() pen l() + pen


2 351.14 18.64 369.78
3 346.64 37.28 383.92
4 355.10 64.14 417.24
5 354.52 93.21 447.73
6 384.50 130.50 515.00

Cuadro 1.2: Evaluacion de MVP


56

0.6
1.1 0.5
1 0.4

0.8
0.2

0.6
0

0.4
0.2
0.2

0.4
0

0.6
0.2

0.4 0.8

0.5
0.6 1
0 100 200 300 400 500 600 700 800 900 1000 0 100 200 300 400 500 600 700 800 900 1000

3 0.9

2.8 0.8

2.6
0.7

2.4
0.6

2.2
0.5
2

0.4
1.8

0.3
1.6
1.5
1.4 0.2

1.2 0.1
0 100 200 300 400 500 600 700 800 900 1000 0 100 200 300 400 500 600 700 800 900 1000

Figura 1.4: Convergencia de los estimados, 1 , 2 , 2 , y A.


57

300

200

100

100

200

300

400
0 50 100 150 200 250 300 350 400 450 500

Figura 1.5: Serie observada y1 , . . . , y500 para el AR-RM.

la grafica de la serie se observa en la Figura 1.5. En este caso m = 2 es fijo y es


estimado usando SAEM, los valores son, 2 = 1,42,

0.85 2.01 0,9093 0,0907
= A = ,
0,69 1,08 0,019 0,9181

en la Figura 1.6 graficamos la sucesion { (t) }, t = 1, . . . , 1000 y observamos la


convergencia de los estimados.

Agradecimiento A Marc Lavielle y Jean Michel Loubes. A Rafael Rosales por sus
observaciones a una version preliminar de este trabajo.
58

1.5
0.9
0.8 1.08
0.9

0.6
0.5

0.4
0

0.2
0.5
0

1
0.2

1.5
0.4

0.6 2

0.7
0.8 2.5
0 20 40 60 80 100 120 140 160 180 200 0 20 40 60 80 100 120 140 160 180 200

2.1 1

0.9
2
0.8

1.9 0.7

0.6
1.8

0.5

1.7
0.4

0.3
1.6

0.2

1.5
0.1

1.4 0
0 20 40 60 80 100 120 140 160 180 200 0 20 40 60 80 100 120 140 160 180 200

Figura 1.6: Convergencia de los estimados, 1 , 2 , 2 , and A.


Bibliografa

[1] L. E. Baum, T. Petrie, G. Soules y N. Weiss. A maximization tecnique occuring


in the statistical analysis of a probabilistic functions of Markov chains. Ann.
Math. Stat., 41:164171, 1970.

[2] L. Broemiling. Bayesian analysis of linear Models. Marcel Dekker, New York,
1985.

[3] M Broniatowski, G. Celeux y J. Diebolt. Reconnaissance de melanges de densites


par un algorithme dapprentissage probabiliste. Data Analysis and Informatics.
North Holland, 1983.

[4] O. Cappe, E. Moulines y T. Ryden. Inference in Hidden Markov Models.


Springer-Verlag, 2005.

[5] C. K Carter y R. Kohn. On Gibbs sampling for state space model. Biometrika,
81:541553, 1994.

[6] A. Chambaz, A. Garivier y E. Gassiat. A MDL approach to HMM with Poisson


and Gaussian emissions. Application to order identification. Prepublicacion de
MAP5 no 2005-21, 2005.

[7] Chambaz, A. y Matias, C. Number of hidden states and memory: a joint order
estimation problem for Markov chain with Markov regime. Preprint 2006.

59
60

[8] G. Celeux, D. Chauveau, y G. Diebolt. On stochastic version of the em algorithm.


Rapport de recherche INRIA, 2514, 1995.

[9] G. Celeux y J. Diebolt. A stochastic approximation type em algorithm for the


mixture problems. Stochastics Reports, 41:119134, 1992.

[10] D. Dacunha-Castelle y M. Duflo. Probability and Statistics. Volume I. Springer-


Verlag, Berlin, 1986.

[11] B. Delyon, M. Lavielle y E. Moulines. Convergence of a stochastic approximation


version of EM algorithm. The Annals of Statistics, 27(1):94128, 1999.

[12] A. Dempster, N. Laird y D. Rubin. Maximum-likelihood from incomplete data


via the EM algorithm. J. Roy. Statist. Soc. Ser. B, 39:138, 1977.

[13] V. Dortet-Bernadet. Choix de mod`ele pour des chaines de Markov cachees.


Comptes Rendus. Serie 1, 332, 469-472, 2001.

[14] R. Douc, E. Moulines y T. Ryden. Asymptotic properties of the maximum


likelihood estimator in autoregressive models with Markov regime. Ann. Statist.
32 no. 5, 22542304, 2004.

[15] M. Duflo. Algorithmes Stochastiques. Springer-Verlag, Berlin, 1996.

[16] L. Finesso. Estimation of the order a finite Markov chain. Tesis Doctoral,
University of Maryland, 1990.

[17] R. Garcia. Asymptotic null distribution of the likelihood ratio test in Markov
switching models. International Economic Review, 39, 763-788, 1998.

[18] E. Gassiat. Likelihood ratio inequalites with aplications applications a various


mixture. Ann. Inst.Henri Poincare, 38, 897-906, 2002.
61

[19] E. Gassiat y S. Boucheron. Optimal Error in exponents in hidden Markov models


order estimation. IEEE Trans. Info. th., 48, 964-980, 2003.

[20] E. Gassiat y C. Keribin. Likelihood ratio test for the number the components in
a number mixture with Markov regimen. ESAIM Prob. and Stat, 2000.

[21] P. Giudici, T. Ryden y P. Vandekerkhove. Likelihood-ratio test for hidden markov


models. Biometrics, pages 742751, 2000.

[22] S. M. Goldfeld y R. Quandt. A Markov Model for Switching Regressions. Journal


of Econometrics 1, 3-16, 1973.

[23] J.D. Hamilton. A new approach to the economic analysis of non stationary time
series and the business cycle. Econometrica, pages 357384, 1989.

[24] P. B. Hansen. The likelihood ratio test under nonstandar conditions: Testing the
Markov Switching model of GNB. Journal of Applied Econometrics, 7, S61-S82
1992. (Erratum 11, 195-198).

[25] J. G. Kemeny y J. L. Snell. Finite Markov Chains. Van Nostrand, Princenton,


New Jersey, 1960.

[26] V. Krishnamurthy y G. G. Yin. Recursive Algorithms for estimation of hidden


Markov Models with markov regime. IEEE Trans. Information theory, 48(2):458
476, 2002.

[27] E. Kuhn y M. Lavielle. Coupling a stochastic approximation version of EM with


MCMC procedure. ESAIM P&S, vol. 8, pp 115131, 2004.

[28] C. Liu y P. Narayan. Order estimation and sequential universal data compression
of a hidden Markov source by method the mixtures. IEEE Trans. Inform. Theory,
40:11671180, 1994.
62

[29] I.L. MacDonald y W. Zucchini. Hidden Markov and Other Models for discrete-
valued Time Series. Chapman and Hall, 1997.

[30] D. Le Nhu, B. G. Leroux y M. L. Puterman. Exact Likelihood Evaluation in a


Markov Mixture Model for Time Series of Seizure Counts. Biometrics, 48:317
323, 1992.

[31] M. Olteanu y J. Rynkiewicz. Estimating the number of regimes in a switching


autoregresive model. Preprint SAMOS, 2006.

[32] T. Ryden. Estimating the order of hidden Markov models. Statistics, 26, 345-354,
1995.

[33] S. R. Searle. Linear Models. John Wiley & Sons, Inc. New York-London-Sydney-
Toronto, 1970.

[34] A. Smith, P. A. Naik y C-L. Tsai. Markov-swintching model selection using


Kullback-Leibler divergence. Journal of Econometrics. En prensa. 2006.

[35] J. Yao y J. G. Attali. On stability of nonlinear AR process with Markov switching.


Adv. Applied Probab, 1999.
Captulo 2

Estimaci
on Bayesiana

Aplicacion de MCMC para procesos autorregresivos


polinomiales con regimen de Markov
Luis Rodrguez1 , Rafael Rosales2 y Ricardo Ros3

Resumen

En este trabajo estimamos la distribucion posterior de un proceso autorregresivo con


regimen de Markov (AR-RM), en el caso cuando las funciones de regresion en cada
regimen son polinomios, utilizando un algoritmo de muestreo por cadenas de Markov
(MCMC). El metodo propuesto combina los algoritmos de Gibbs y Metropolis con
la finalidad de obtener simulaciones Monte Carlo de la distribucion posterior y a
partir de all, estimadores de Bayes de los siguientes parametros: coeficientes de los
polinomios, su grado y la varianza del ruido en cada regimen.
1
Universidad de Carabobo, Facultad de Ciencias y Tecnologa, Departamento de Matematicas,
Valencia, Venezuela. Email: larodri@uc.edu.ve.
2
Universidade de Sao Paulo, Faculdade de Filosofia, Ciencias e Letras, Ribeirao Preto,
Departamento de Fsica e Matematica, SP-Brasil. Email: rrosales@ffclrp.usp.br.
3
Universidad Central de Venezuela, Facultad de Ciencias, Escuela de Matematicas, Caracas 1040,
Venezuela. Email: rrios@euler.ciens.ucv.ve.

63
64

Palabras claves: Procesos autorregresivos, muestreador de Gibbs, algoritmo de


Metropolis-Hastings, cadenas de Markov ocultas, regresion de estructura variable,
MCMC.

2.1. Introducci
on

En este trabajo consideramos el problema de estimacion para procesos


autorregresivos con regimen de Markov (AR-RM), considerando funciones de
regresion polinomiales y suponiendo un contexto Bayesiano. En este caso el problema
de inferencia consiste en estimar la distribucion posterior de los parametros de los
polinomios, su grado y la varianza asociada al ruido en cada regimen. Se utiliza un
metodo Monte Carlo por cadenas de Markov (MCMC siglas en ingles) para realizar
simulaciones de la distribucion posterior. El metodo MCMC que presentamos es una
mezcla de los algoritmos de Gibbs y Metropolis-Hastings.

Los AR-RM pueden ser vistos como una combinacion de los modelos de estructura
variable (ver [3] 1.2 y sus referencias) y los modelos de cadenas de Markov ocultas
(CMO), ver [13] y sus referencias. Los procesos AR-RM son usados en muchas areas
porque representan modelos heterogeneos no independientes. Hamilton [12] los utiliza,
en un contexto econometrico, en el analisis de la serie temporal del producto interno
bruto (GNP) de los Estados Unidos, considerando dos estados (regmenes) de la
economa: uno de contraccion y otro de expansion. Los procesos AR-RM tambien
han sido usados en varios problemas de la ingeniera electrica: deteccion de fallas,
control automatico, manipulacion de objetivos, ver [7]. Por otro lado, las cadenas de
Markov oculta son aplicadas en distintas areas, por ejemplo: finanzas, econometra,
genetica, reconocimiento de patrones, biofsica. Referimos al lector a [4, 13, 18].
65

La estimacion Bayesiana de modelos CMO con un n


umero conocido de estados
es estudiada por Robert et al. [16], la regresion de estructura variable es considerada
por Ferreira [8], mientras que la suposicion de funciones de regresion polinomicas es
desarrollada por Gallant y Fuller [10]. Si el n
umero de estados de la cadena oculta es
desconocido podemos citar el trabajo de Robert et al. [17].

Este artculo esta estructurado de la manera siguiente. El modelo y sus hipotesis


generales son presentados en la seccion 2.2. En la seccion 2.3 detallamos lo relacionado
con los pasos del muestreador de Gibbs cuando el grado de las funciones de regresion
es conocido y para garantizar la estabilidad del modelo se introduce un algoritmo
hbrido mezcla de los pasos de Gibbs y Metropolis. En la seccion 2.4 suponemos
que el grado de las funciones polinomicas es desconocido y realizamos la inferencia a
traves del muestreador de saltos reversibles. Las demostraciones de consistencia son
postergadas al captulo 2.5.

2.2. Modelo e hip


otesis

Un proceso autorregresivo con regimen de Markov (AR-RM) se define por

yn = f (xn , yn1 ) + xn en , (2.1)

donde {xn } es una cadena de Markov no observada, homogenea y ergodica con


valores en el conjunto finito {1, . . . , m}, con probabilidades de transicion aij =
P(xn = j|xn1 = i). Las probabilidades aij forman la matriz de transicion A = [aij ].
Denotamos por = (1 , . . . , m ) la distribucion invariante de la cadena de Markov
{xn }.
66

La funcion f : {1, . . . , m} R R tiene la forma

f (i, y) = (ik y k + . . . + i1 y + i0 )1I[1,1] (y),

el parametro i = (i0 , . . . , ik ) pertenece al subconjunto compacto Rk+1 y

= (10 , . . . , 1k , . . . , m0 , . . . , mk )T ,

T
donde el smbolo denota la operacion transpuesta de un vector o matriz.

La sucesion {en } es una sucesion de variables aleatorias gaussianas N (0, 1),


independientes e identicamente distribuidas. Denotamos por = (1 , . . . , m ) y por
y = y0 , . . . , yN las observaciones del proceso AR-RM. Usaremos p como un smbolo
generico para distribuciones y densidades.

El problema de inferencia que estudiamos se centra en el parametro = (A, , )


2
el cual pertenece al espacio de parametros definido por = [0, 1]m m (R+ ).

Cuando se modelan series temporales utilizando procesos autorregresivos es


necesario imponer condiciones de estabilidad, por esta razon en la siguiente seccion
introduciremos este concepto para los procesos AR-RM.

2.2.1. Estabilidad del proceso AR-RM

Un modelo AR-RM es estable si para el proceso {yn } definido por (2.1) existe una
solucion estacionaria y ergodica. Esto significa que existe una u
nica medida tal que
N
X Z
lm 1/N h(yn ) = h(y)(dy), c.s.
N
n=1

En Yao y Attali [20] se garantiza la estabilidad del proceso {yn } bajo las siguientes
condiciones
67

i. La funcion de regresion f satisface para cada i = 1, . . . , m la condicion de


sublinealidad
|f (i, y)|
i |y| + bi

donde
i , bi son constantes positivas.

ii. Condicion tipo radio espectral:


m
X
E (log(
)) = log(
i )i < 0.
i=1

iii. La variable e1 tiene densidad positiva con respecto a la medida de Lebesgue.

iv. Existe p > 0 tal que E(|e1 |p ) < .

Observemos estas hipotesis en nuestro caso. La normalidad de e1 implica que las


condiciones (ii) y (iv) son validas. Para el modelo polinomial (2.1) notemos que

|(ik y k + + i1 y + i0 )1I[1,1] (y)|


i |y| + |i0 |

donde
i = k max{|il | : l = 1, . . . , k}. Entonces la region de estabilidad se define
por
S = {
: E (log(
)) < 0}.

En la proxima seccion presentaremos alguna terminologa Bayesiana que


requerimos para realizar la inferencia.

2.2.2. Inferencia Bayesiana

La inferencia Bayesiana comienza con la consideracion del vector de parametros


como una variables aleatoria y con el estudio de la distribucion condicional (y|), la
cual se conoce como distribucion posterior. Para determinarla se requiere la definicion
68

de la distribucion p(), la cual es llamada distribucion previa. El teorema de Bayes


permite escribir la distribucion posterior como
L()p()
(|y) = R (2.2)

L()p()d
donde L() = p(y|) es la funcion de verosimilitud.

Si suponemos que y0 , {xn } y {en } son mutuamente independientes, entonces se


satisface

p(yn |xN , . . . , x0 , yN , . . . , yn+1 , yn1 , . . . , y0 ) = p(yn |xn , yn1 ).

Esta propiedad y la propiedad de Markov sobre {xn } nos permite escribir la funcion
de verosimilitud como
X
L() = p(y, x|)
x{1,...,m}N
X
= p(y|, x)p(x|)
x{1,...,m}N
m
X m
X
= ... i1 pi1 (y1 , y0 ) aiN 1 iN pi1 (yN , yN 1 )
i1 =1 im =1
con

(yn+1 f (i, yn ))2
pi (yn+1 , yn ) exp .
2i2
Se consideran previas conjugadas que sean debilmente informativas sobre .
Una previa que pertenece a una familia parametrica es conjugada a una funcion
de verosimilitud dada, si la distribucion posterior resultante tambien pertenece a la
familia (ver Bernardo y Smith [2]).

Denotemos por Ai la i-esima fila de A. Supongamos que las componentes de


son independientes, esto es
Y k
Y
p() = p(Ai )p(i2 ) p(il ).
iE l=0
69

En el caso de una verosimilitud con {en } normal y una multinomial para x, las
familias de previas conjugadas para estan dadas por las siguientes densidades:

1. Para i {1, . . . , m}, l = 0, . . . , k,



1 il2
il N (0, 2 ) = exp 2 .
2 2

2. Para i2 se escoge una densidad gamma inversa,



2 viui vi 1
i IG(ui , vi ) = exp 2 ,
(ui ) i i2
R
i {1, . . . , m}, (u) = 0 su es ds.

3. Ai D(ei ), donde D es una densidad Dirichlet con parametro ei , es decir,


P
( mj=1 eij )
Ym
e 1
D(ei ) = Qm aijij .
j=1 (eij ) j=1

La evaluacion de estimadores h() para alguna funcion de riesgo L(g, ), donde


g es un estimador de , conduce a minimizar el riesgo posterior en g,
Z
L(g, )(|y)d.

En particular consideramos el riesgo cuadratico L(g, ) = kh() gk2 , para el


cual el estimador de Bayes de h() es
Z
I (h) = E (h()|y) = h()(|y)d.

La mayor dificultad de la inferencia Bayesiana es que muchas veces no se conoce


(|y) en forma explcita, o bien no se puede efectuar en forma analtica la integracion
de h() conociendo (|y). Ese es nuestro caso debido a la complejidad inherente a
la estructura de L() en (2.3), por esta razon resulta mas apropiado considerar el
posterior conjunto (, x|y), lo cual evita la integracion sobre {1, . . . , m}N en (2.3).
De ahora en adelante escribimos = (, x), y nos concentraremos en (|y).
70

2.2.3. M
etodos MCMC

Una alternativa al tratamiento de la integracion E (h()|y) es utilizar metodos


de aproximacion de Monte Carlo con muestreo por cadenas de Markov (MCMC)
los cuales proveen una solucion. Las tecnicas MCMC consisten en la construccion
de una cadena de Markov ergodica {(t) } con valores en E = {1, . . . , m}N ,
E = B() ({1, . . . , m}N ) e invariante , tal que la distribucion emprica

T
X

b(d|y) = 1/T (t) (d)
t=1

umeros a T = p((T ) |y) cuando


converge casi seguramente por ley de los grandes n
T , y por lo tanto

Z T
X
IbT (h) = h()b
(d|y) = 1/T h((t) )
E t=1

converge c.s a ET (h()|y). Por ergodicidad

lm ET (h()|y) = E (h()|y),
T

entonces IbT (h) es un estimador consistente de E (h()|y).

Dos algoritmos que permiten construir cadenas de Markov que tengan como
invariante a (|y), son el muestreador de Gibbs y el algoritmo de Metropolis-
Hastings.

A continuacion mencionamos brevemente las propiedades basicas de estas tecnicas


y su implementacion al modelo (2.1) cuando k es fijo, 2.3, y cuando k es desconocido,
2.4.
71

2.3. AR-RM polinomial con k conocido


Introducimos el muestreador de Gibbs, en principio, sin considerar las restricciones
impuestas por la condicion de estabilidad 2.2.1. Posteriormente presentamos una
modificacion de estos metodos con el proposito de incorporar estas restricciones.

2.3.1. El muestreador de Gibbs

El muestreador de Gibbs es un metodo para construir una cadena de Markov


con distribucion estacionaria (|y), cuando E puede ser descompuesto en
componentes (1 , . . . , d ) E1 Ed = E y no se puede muestrear directamente
de (|y), pero si de las distribuciones condicionales (condicionales completos)

p(1 |y, 2 , . . . , d ), . . . , p(d |y, 1 , . . . , d1 ).

(t) (t)
Dado el estado (t) = (1 , . . . , d ), simulamos (t+1) mediante el siguiente
esquema:
(t) (t) (t)
1 p(1 |y, 2 , . . . , d )
(t+1) (t) (t) (t)
2 p(2 |y, 1 , 3 . . . , d )
..
.
(t) (t) (t)
d p(d |1 , . . . , d1 ).

El algoritmo de Gibbs define una cadena de Markov con distribucion estacionaria


(1 , . . . , d |y), la cual es irreducible si el condicional completo de j tiene
probabilidad positiva para cualquier subconjunto de Ej , j = 1, . . . , d, lo cual es
consecuencia del Teorema de Hammersly Clifford, (ver Robert y Casella [15], Teorema
7.1.20, p. 298) que garantiza la unicidad de la descomposicion en condicionales
completos.

Implementaremos este esquema para el modelo de AR-RM. Escribimos el posterior


72

conjunto como
p(y|, x)p(x|)p()
(, x|y) = Z ,
p(y|, x)p(x|)p()d
E

lo cual implica que muestrearemos de los condicionales (|x, y) y (x|, y). En los
siguientes dos apartados explicamos el muestreo para cada uno de los condicionales
completos.

2.3.2. Muestreo de (|x, y)

Observemos que se descompone naturalmente como:

(A1 , . . . , Am , 1 , . . . , m , 1 , . . . , m ).

En este caso, hechas las elecciones de las previas, todas las densidades completas
tienen una expresion analtica cerrada ya que solo involucran una realizacion de x
(Robert et al [16]). Las densidades condicionales en este caso son

p(Ai | ) = D(Ni1 + ei1 , . . . , Ni1 + eim ), (2.3)

p(i2 | ) = IG(C1 , C2 ), (2.4)

p(il | ) = N (C3 ; C4 ), (2.5)

donde
( N
)
C1 = Ni /2 + ui 1X
C2 = (yn f (i, yn1 ))2 + vi
N
X 2 n=1
2 Uni (yn1 )l 1Ii (xn )
i2 2 .
C3 = n=1 C4 = N
N
X X
2 2l
(yn1 ) 1Ii (xn ) + i2 2 (yn1 )2l 1Ii (xn ) + i2
n=1
n=1

Para muestrear de las densidades (2.3),(2.4) y (2.5) seguimos los metodos descritos
en Fishman [9].
73

2.3.3. Muestreo de (x|, y)

Para muestrear del condicional completo

i1 pi1 (y1 , y0 ) . . . aiN 1 iN pi1 (yN , yN 1 )


(x|, y) = ,
p(y|)

definido para todo (i1 , . . . , iN ) {1, . . . , m}N , Carter y Kohn [5] proponen una
metodologa de muestreo que es una version estocastica del algoritmo forward-
backward propuesto por Baum et al. [1]. Notemos que p(x|, y) admite la descom-
posicion
N
Y 1
(x|, y) = p(xN |y, ) p(xn |xn+1 , y, )
n=1

y por lo tanto es suficiente muestrear de las distribuciones discretas p(xN |y, ) y


p(xn |xn+1 , y, ) xn+1 , y, ), para n = 1, . . . , N 1. Para ello, sea y1n = y1 , . . . , yn ,
entonces dada xn+1 , se define el filtro p(xn |y1n , ) recursivamente por
m
X
p(xn = i|y1n , ) p(yn |xn = i, yn1 , ) aij p(xn1 |y1n1 ),
i=1

con
(yn f (i, yn1 ))2
p(yn |xn = i, yn1 , ) exp .
2i2
Entonces muestreamos xN p(xN |y, ) y para n = N 1, . . . , n

aij p(xn = i|y1n , )


xn p(xn |xn+1 , y1n , ) = Pm n
.
l=1 ail p(xn = l|y1 , )

En la siguiente seccion se desarrolla un ejemplo numerico para ilustrar una


aplicacion del algoritmo.

2.3.4. Ejemplo num


erico

En este apartado presentamos el desempe


no del muestreador de Gibbs para
observaciones simuladas de un AR-RM, las cuales mostramos en la figura 2.1. Para
74

una muestra de talla N = 500, los parametros que se usaron para generar la simulacion
son: k = 2, T = (1, 0, 0.5, 2, 0, 0.5), 2 = (0.5, 0.2) y

0.99 0.01
A= .
0.01 0.99

Observaciones
3

4
0 50 100 150 200 250 300 350 400 450 500
iteraciones

Frecuencia empirica de visitas al estado 1

0.8

0.6

0.4

0.2

0 50 100 150 200 250 300 350 400 450 500


iteraciones

Figura 2.1: Observaciones simuladas y frecuencia emprica de las visitas de {x(t) } al


estado i = 1.

En la figura 2.2 se observa el comportamiento de los iterados de los parametros


(t)
A(t) , (t) y 2 .

En la seccion 5 mostramos que el algoritmo de Gibbs satisface propiedades de


consistencia y que los estimados de los parametros satisfacen un Teorema del lmite
central (TCL, siglas en ingles) lo que justifica su uso, aunque es difcil incorporar
las restricciones de estabilidad 2.2.1 en este caso. Por lo tanto implementaremos
un algoritmo hbrido donde se sustituye el paso de Gibbs para , con un paso de
Metropolis-Hastings. Esto se describe con mayor detalle en la proxima seccion.
75

Coeficientes del polinomilio estado 1 Coeficientes polinomio estado 2


1.5 1.5
1 1
0.5
0
0
0.5 1

1 2
1.5
0 100 200 300 400 500 0 100 200 300 400 500
Varianza estado 1 Varianza estado 2
1.5 1.5

1 1

0.5 0.5
0.2
0 0
0 100 200 300 400 500 0 100 200 300 400 500
Transiciones estado 1 Transiciones estado 2

0.99 0.99

0.01 0.01
0 200 400 600 0 100 200 300 400 500
iteraciones iteraciones

Figura 2.2: Comportamiento de los iterados de los parametros.

2.3.5. El algoritmo Metropolis-Hastings

Estimaremos la densidad posterior del proceso AR-RM imponiendo condiciones de


estabilidad para el modelo. Reemplazamos el muestreo de los condicionales completos
p(i | ) por un paso de Metropolis-Hastins tal que la condicion tipo radio espectral
se preserve.

El algoritmo Metropolis-Hastings (Robert y Casella [15]) asociado a la densidad


objetivo p(i | . . .) (ver (2.5)) y la densidad condicional q(|i ), consiste en la
(t) (t)
construccion de la cadena {i } siguiendo el siguiente algoritmo. Dado i i ,

1. Para cada, i = 1, . . . , m, generamos i q(|i ).

2. Aceptamos con probabilidad



p(i | )q(i |i )
(i , i ) = mn 1, ,
p(i | )q(i |i )
76

(t+1)
Si (i , i ) > 1, entonces i = i . Si no, generamos u U [0, 1] y


i si u < (i , i ),
(t+1)
i =

i en otro caso.

ucleo de la cadena {(t) }, dado por


Sea K , el n

K (, ) = (, )q( |) + (1 r()) ( )
R
donde r() = (, )q( |)d . El primer termino representa la probabilidad de
cambiar de valor y el otro la probabilidad de permanecer en el mismo . Para
(t)
ucleo es sencillo observar que efectivamente {i } tiene como invariante el
este n
(t)
condicional deseado si la cadena de Markov {i }, con n
ucleo de transicion K,
satisface la condicion de detalle balanceado. Esto es, si existe una probabilidad
tal que
e
()K( e ) = ()K(, )
, e , ,
e

Robert y Casella [15], Teorema 6.2.3, p. 235.

El algoritmo hbrido que se propone a continuacion, mezcla el procedimiento de


Gibbs 2.3.1 con el paso de Metropolis descrito anteriormente

2 p( 2 | ).

A p(A| ).

x, p(x| ).

Para i = 1, . . . , m
i0 p(i0 | ).

Para i = 1, . . . , m, l = 1, . . . , k, se muestrea il con el procedimiento de M-H.

Se detalla el procedimiento en la siguiente seccion.


77

2.3.6. Muestreando desde la regi


on S

Para muestrear valores que esten en la region de estabilidad S Rm , debemos


definir una densidad q que tenga como soporte este conjunto. Si observamos que la
condicion de tipo radio espectral puede ser escrita en la forma

1

m < / /m
, (2.6)
1 1 m

m1
m1

entonces para i = 1, . . . , m 1 nos basta muestrear los i de manera independiente,


de una distribucion con soporte en R. Luego muestreamos
m de una distribucion
con soporte en el intervalo
!
1
Sm = 0, /m /m
.

1 1
m1
m1

En el apartado 2.2.1 definimos


i = k|ili | para i = 1, . . . , m, donde li
{1, . . . , k} denota la posicion en la cual se alcanza el coeficiente il con modulo
maximo. Para determinar el coeficiente ili nos resta: muestrear la posicion li de una
distribucion discreta uniforme en {1, . . . , k} y su signo de una distribucion Bernoulli
de parametro p = 1/2. Los parametros restantes il los muestreamos de distribuciones
con soporte en los intervalos (
i , i ).

En la implementacion, utilizamos la densidad normal truncada en cada uno de


los intervalos soporte. Para generar los valores desde la densidad Normal truncada,
empleamos un metodo descrito por Demian y Walker [6] el cual consiste en la
introduccion de una variable latente que reduce el problema a muestrear desde una
dupla de variables uniformes.

En las figuras 2.3 y 2.4 vemos los resultados de las salidas del algoritmo, para el
ejemplo descrito en la seccion 2.3.4.
78

Coeficientes del polinomilio estado 1 Coeficientes polinomio estado 2


1
1 0.5
0

0
1

1 2

0 100 200 300 400 500 0 100 200 300 400 500
Varianza estado 1 Varianza estado 2
1.5 1.5

1 1

0.5 0.5
0.2
0 0
0 100 200 300 400 500 0 100 200 300 400 500
Transiciones estado 1 Transiciones estado 2

0.99 0.99

0.01 0.01
0 100 200 300 400 500 0 100 200 300 400 500
iteraciones iteraciones

Figura 2.3: Comportamiento de los iterados de los parametros al muestrear desde


N (0, v 2 )1ISm .

Coeficientes del polinomilio estado 1 Coeficientes polinomio estado 2


1
1 0.5
0

0
1

1 2

0 100 200 300 400 500 0 100 200 300 400 500
Varianza estado 1 Varianza estado 2
1.5 1.5

1 1

0.5 0.5
0.2
0 0
0 100 200 300 400 500 0 100 200 300 400 500
Transiciones estado 1 Transiciones estado 2

0.99 0.99

0.01 0.01
0 100 200 300 400 500 0 100 200 300 400 500
iteraciones iteraciones

Figura 2.4: Comportamiento de los iterados de los parametros al muestrear desde


(t1)
N (1,m , v 2 )1ISm .
79

2.4. AR-RM con k desconocido


Consideramos el caso donde el grado k de los polinomios de regresion en el modelo
(2.1) es desconocido. Desde el punto de vista Bayesiano, k es una v.a. y la inferencia
es basada en la distribucion posterior conjunta de y k, dada por

(k, |y) p(y|, k)p(|k)p(k).

Para k = 1, . . . , kmax , denotamos por k = |k, Ek = {k } y Mk = Ek {k}. Sea


S max
M = kk=1 Mk la coleccion finita de todos los modelos. Construiremos una cadena
(t)
de Markov {k } con valores en M que tenga invariante (k, |y), haciendo uso de
un metodo MCMC llamado muestreador de saltos reversibles, el cual describimos a
continuacion.

2.4.1. Muestreador de saltos reversibles

El muestreador de saltos reversibles introducido por Green [11] es un algoritmo


que construye una cadena de Markov la cual puede saltar entre los modelos Mk ,
garantizando se satisfagan las ecuaciones de detalle balanceado descritas en 2.3.5. El
algoritmo es el siguiente: si la cadena se encuentra en el estado (k, k ), entonces

1. Proponemos un nuevo modelo Mk , con distribucion de probabilidad s(k|k ).

2. Generamos u de una distribucion q(u|k , k, k ).

3. Sea (k , u ) = gk,k (k , u), donde gk,k es una biyeccion entre (k , u) y (k , u ).


Las dimensiones de los vectores u, u satisfacen dk + dim(u) = dk + dim(u ).

4. Aceptamos el movimiento propuesto (k , u ), con probabilidad


" #!

(k , k |y)s(k|k )q(u |k , k , k) gk,k (k , u)

= min 1, det . (2.7)

(k, k |y)s(k |k)q(u|k , k, k ) ((k) , u)
80

La muestra {kt , t = 1, . . . , T } generada por este algoritmo permite estimar el


ndice de la densidad posterior p(k|y), bajo perdida cuadratica, por
T
1X
pb(k|y) = 1Ik (kt ),
T t=1

(t)
y la muestra {k , t = 1, . . . , T } permite estimar E(k |y, k), bajo perdida cuadratica,
mediante PT (t)
b k |y, k) = t=1 k 1Ik (kt )
E( PT .
t=1 1Ik (kt )

Para la implementacion particular del modelo (2.1) proponemos los cambios


directamente en el nuevo espacio de parametros, es decir, gk,k (k , u) = u. De esta
manera el termino jacobiano que aparece en (2.7) es 1 y en la formulacion general del
algoritmo de Green la probabilidad de aceptacion resulta

(k , k |y)s(k|k )q(u |k , k , k)
= min 1, . (2.8)
(k, k |y)s(k |k)q(u|k , k, k )

Elegimos para k una previa uniforme sobre el conjunto {1, . . . , kmax }. Si estamos
en un modelo que tiene ndice k, proponemos un nuevo modelo con ndice k de la
distribucion condicional s(k|k ) cuya dimension este muy cerca del modelo anterior,
pero que eventualmente nos permita saltos grandes de dimension, es decir, queremos
una distribucion condicional s que a los saltos de dimension peque
nos les de alta
probabilidad y a los saltos grandes, baja probabilidad. Para este fin seguimos a
Troughton y Godsill [19] que utilizan la distribucion Laplaciana

s(k |k) exp( |k k |), k {1, . . . , kmax },

donde es un parametro de escala.

La implementacion del procedimiento MCMC es la siguiente

a) (|x, y).
81

b) x (x|, y).

c) (k, ) (k , ).

Los pasos a) y b) son basicamente los pasos de Gibbs descritos en 2.3.2 y 2.3.3.
El paso c) involucra un paso de Metropolis con probabilidad de aceptacion (2.8), el
cual se simplifica si solo consideramos en este el parametro directamente involucrado
con k, en este caso

p(k , k |A, 2 , x, y)s(k|k )q(u |k , k , k)
= min 1, .
p(k, k |A, 2 , x, y)s(k |k)q(u|k , k, k )

Si elegimos q(u|k , k, k) = p(k |A, 2 , x, y), de acuerdo a la identidad de Besag

p(k, k |A, 2 , x, y)
= p(k|A, 2 , x, y),
p(k |A, 2 , x, y)

entonces la probabilidad de aceptacion para el paso c) resulta



p(k |A, 2 , x, y) s(k |k)
= min 1, .
p(k|A, 2 , x, y) s(k |k)

Este es el punto de vista considerado en Troughton y Godsill [19]. A continuacion


obtenemos la distribucion p(k|A, 2 , x, y) para realizar la evaluacion de .

2.4.2. alculo de p(k|A, 2 , x, y)


C

Comenzaremos escribiendo el modelo (2.1) en la forma vectorial

y = W + e,

con y = (y1 , . . . , yN )T , e = (x1 e1 , . . . , xN eN )T y W es una matriz de dimension


(N 1) m(k + 1), cuyos elementos estan dados por

Wn(il) = 1I[1,1] (yn )1Ii (xn )(yn )l1 .


82

Sea x = (x1 , . . . , xN ). De acuerdo al teorema de Bayes

p(k|A, 2 , x, y) p(k)p(y|k, A, 2 , x)
Z
= p(k) p(y|, k, A, 2 , x)p(|k, )d.

Ahora bien

p(y|k, , A, 2 , x)p(|k, )

= N (e|0, D)N (|0, 2 Id )


Ym
N/2 Ni d /2 1 T 1 2 T
= (2) i (2) exp e De
i=1
2 2

con D1 = diag(x ), y

et De + 2 T = (y W)T D(y W) + 2 T

= yT Dy + ( )T C 1 ( ) T C 1

con C 1 = WT DW + 2 I, = CWT Dy.

Por lo tanto

p(y|k, , A, 2 , x)p(|k, )
Ym
1
= (2)N/2 iNi N (| , C) det(C 1/2 ) exp( yT Dy T C 1 ).
i=1
2
Al integrar con respecto a se tiene
m
Y 1
2
p(k|A, , x, y) p(k)(2) N/2
iNi det(C 1/2 ) exp( yT Dy T C 1 ).
i=1
2
Finalmente, la probabilidad de aceptacion se escribe como
( 1/2
)
det(Ck ) exp( 12 k T Ck 1 k ) s(k |k)
min 1, 1/2
.
det(Ck ) exp( 12 T Ck1 ) s(k|k )
En las figuras 2.5 y 2.6 se observa el comportamiento de las salidas del algoritmo
para el ejemplo descrito en la seccion 2.3.4.
83

Valores muestrales del grado


6

k
2

0
0 100 200 300 400 500 600 700 800 900 1000
iteraciones

Figura 2.5: Comportamiento de los iterados de k.

Densidad posterior p(k|y)


700

600

500

400

300

200

100

0
0.5 1 1.5 2 2.5 3 3.5 4

Figura 2.6: Distribucion posterior p(k|y) estimada.

2.5. Convergencia del muestreador de Gibbs

En esta seccion demostramos la convergencia de la cadena { (t) , x(t) }. Siguiendo


a Rosales [18], se demuestra que la cadena es ergodica y que converge uniformemente
sobre E al posterior conjunto (, x|y). El muestreador descrito en la seccion 2.3.1
genera la sucesion { (t) , x(t) }, t = 1, . . . , T , por la composicion de los n
ucleos

Z
(t) (t1)
Kx (x |x )= x (x(t) |, y) (|x(t1) , y)d

84

Z
(t) (t1)
K ( | )) = ( (t1) |, x, y)x (x| (t1) , y)dx.
{1,...,m}N

La manera como cada n


ucleo act
ua sobre el respectivo condicional de la iteracion
previa viene dada por

Z
(t) (t) (t1)
x (x |y) = Kx (x(t) |x(t1) ))x (x(t1) |y)dx
{1,...,m}N
Z
(t) (t) (t1)
( |y) = K ( (t) | (t1) )) ( (t1) |y)d

(t) (t)
donde x (x(t) |y), ( (t) |y) corresponden a los marginales de la distribucion
conjunta ( (t) , x(t) ) condicionado a y en la t-esima iteracion.

Para demostrar la ergodicidad de { (t) , x(t) }, procedemos mostrando que cada


sucesion { (t) } y {x(t) } es ergodica y por lo tanto tiene como invariante la
correspondiente densidad marginal posterior (x|y) y (|y). A continuacion
demostramos que los marginales posteriores de { (t) } y {x(t) } son densidades
invariantes para los n
ucleos K y Kx , esto es,

Z
Kx (x(t) |x(t1) )(x(t1) |y)dx(t1) = x (x(t) |y)
{1,...,m}N
Z
K ( (t) | (t1) )( (t1) |y)d (t1) = ( (t) |y).

85

En efecto,
Z
Kx (x(t) |x(t1) )x (x(t1) |, y)dx(t1)
{1,...,m}N
Z Z
= x (x(t) |, y) (|x(t1) , y)dx (x(t1) |, y)dx(t1)
{1,...,m}N
Z Z
= x (x(t) |, y) (|x(t1) , y)x( x(t1) |, y)dx(t1) d
N
Z {1,...,m} Z
(t)
= x (x |, y) (, x(t1) |y)dx(t1) d
{1,...,m}N
Z
= x (x(t) |, y)(|y)d
Z
= x (x(t) , |y)d

= x (x(t) |y)

para ( (t) |y) la demostracion es analoga.


86

Teorema 2.1 Sea { (t) , x(t) } generada por el procedimiento de Gibbs para el AR-RM
entonces

i. Existen , 0 < 1 y c > 0 tales que t N,

kx(t) k ct1 .

ii. Existen r, 0 r < 1 y R > 0 tales que t N,

(t)
k k Rrt1 .

on de i. Como la cadena {x(t) } esta definida en un espacio de estado


Demostraci
discreto {1, . . . , m}N , solo hay que demostrar que es irreducible y aperiodica, para
esto nos basta con ver que el n
ucleo de transicion es positivo. En efecto, por el
procedimiento de Carter y Kohn descrito en 2.3.3, el n
ucleo de transicion satisface
N
Y 1
(t) (t1) (t) (t)
Kx (x |x ) p(xN |, y) p(x(t)
n |xn+1 , y) > 0
n=1

y por teoremas clasicos de cadenas de Markov finitas, se satisface el resultado con


c = card({1, . . . , m}N ), = (1 2Kx ) y Kx = nf Kx (x0 |x), para cualesquieras
realizaciones x0 y x.

Para demostrar la segunda parte del teorema, es necesario demostrar que K


satisface una condicion de minorizacion, ya que los valores de la sucesion { (t) } estan
en el conjunto no discreto .

Lema 2.1 Existe una constante 0 < h 1 y una densidad sobre , tal que

K ( 0 , ) h ( 0 )

para todo .
87

on: por la definicion de K ( 0 , ) se tiene


Demostraci
Z
0
K ( , ) = ( 0 |x, y)x (x|, y)dx
{1,...,m}N
Z
nf ( 0 |x, y)x (x|, y)dx
{1,...,m}N x
0
( )

donde ( 0 ) = nf ( 0 |x, y). Para cada x vemos que


x
Z Z
0 0
( )d ( 0 |x, y)d 0 = 1.


Ademas existe tal que para cada x {1, . . . , m}N , p(y|x, )
> 0, en efecto,

N
Y
=
p(y|x, ) pin (yn , yn1 )
n=1
YN
= N (yn f (in , yn1 ), i2n ) > 0
n=1


> 0, para , de aqu
y por la eleccion de la previa, p()

nf p(y|x, )p(
() ) > 0.
x

De la forma de la verosimilitud y las densidades previas, se ve que es diferenciable


y por lo tanto continua, de aqu
Z
c= ( 0 )d 0 > 0.

Tomando ( 0 ) = ( 0 )/c se obtiene el resultado.

Demostraci
on de ii. La condicion de minorizacion sobre K implica que la cadena
{ (t) } es -irreducible. Ademas, debido a la invarianza de (|y) ella es tambien
(|y)-irreducible y como { (t) } es recurrente y positiva, se deduce que (|y) es
88

u
nica. La condicion de minorizacion de K implica que la cadena es aperiodica (Meyn
y Tweedie [14], p. 118). Por u
ltimo, la condicion de minorizacion tambien nos dice
que todo el espacio es un conjunto peque
no y en concordancia con el teorema 16.2.4
de Meyn y Tweedie [14], p. 392 se obtiene el resultado.

Como una consecuencia de la relacion de dualidad, tenemos una cota explcita de


la velocidad de convergencia de { (t) } a (|y) dada por
Z
(t)
(|y) = (|x, y) (t) (x|y)dx,
{1,...,m}N

lo cual, como observa Robert et al. [16] (teorema 1, (i)), implica

(t)
k k kx(t) k c(t1) .

Esto nos indica que la velocidad de convergencia de { (t) } al invariante


esta mayorada por la velocidad de convergencia de {x(t) }. Ademas, tenemos una
cota del n
umero de iteraciones I necesario para garantizar un umbral de tolerancia
(t)
tol, para la diferencia k k. En efecto, si escogemos

log(tol) log(c)
I= + 1,
log(1 2Kx )

como log(1 2Kx ) 2Kx y c mN , se infiere que la cota para el n


umero de
iteraciones es
log(tol) N log(m)
I + 1.
2Kx
Ahora bien, Kx depende del estado inicial x(0) , y en la practica (0) , x(0) son
conocidos y fijos, de all que Kx solo depende de x0 . En este caso la minimizacion puede
ser realizada directamente utilizando, por ejemplo, el algoritmo de programacion
dinamica de Viterbi (ver MacDonald y Zucchini [13]).
89

Un TCL para los parametros estimados de la muestra { (t) } se obtiene a partir


de la cadena {x(t) } observando que esta es -mixing, es decir, que existe una funcion
monotona decreciente t , tal que t 0 cuando t , y
Z
|x(t) (x|y) (x|y)|dx t .
{1,...,m}N

En nuestro caso esta condicion es satisfecha con t = Ct1 , y se traslada por la


dualidad a { (t) }, de donde el TCL aplica para esta sucesion.

Agradecimiento L. R. agradece al Departamento de Matematicas del IVIC por su


hospitalidad durante la realizacion de este trabajo y al CDCH de la UC por su apoyo
financiero a traves del proyecto de ayuda menor 0504-06.
90
Bibliografa

[1] L. E. Baum, T. Petrie, G. Soules y N. Weiss. A maximization tecnique occuring


in the statistical analysis of a probabilistic functions of Markov chains. Ann.
Math. Stat., 41:164171, 1970.

[2] J. Bernardo y A. Smith. Bayesian Theory. Wiley, New York, 1994.

[3] H. Bunke y O. Bunke. Nonlinear Regression, Functional Relations and Robust


Methods. Wiley, New York, 1989.

[4] O. Cappe. Ten years of HMMs. Available: http://www-sig.enst.fr/cappe, 2001.

[5] C. K Carter y R. Kohn. On Gibbs sampling for state space model. Biometrika,
81:541553, 1994.

[6] P. Demian y S. G. Walker. Sampling Truncated Normal, Beta, and Gamma


Densities. Journal of Computational and Graphical Statistics, 10(2):206215,
2001.

[7] R. Douc, E. Moulines y T. Ryden. Asymptotic properties of the maximum


likelihood estimator in autoregressive models with Markov regime. Ann. Statist.
32 no. 5, 22542304, 2004.

[8] Ferreira P. E. A Bayesian analysis of de switching regresion model: know number


of regimes. J. Amer. Statist. Assoc., 70:370374, 1975.

91
92

[9] G. S. Fishman. Monte Carlo, Concepts, Algorithms, and Applications. Springer


Verlag, New York, 1996.

[10] A. R. Gallant y Fuller W. A. Fitting segmented polynomial regression models


whose join points have to be estimated. J. Amer. Statist. Assoc., 68:144147,
1973.

[11] P.J. Green. Reversible jump Markov chain Monte Carlo computation and
Bayesian model determination. Biometrika, 82(4):711732, 1995.

[12] J.D. Hamilton. A new approach to the economic analysis of non stationary time
series and the business cycle. Econometrica, pages 357384, 1989.

[13] I.L. MacDonald y W. Zucchini. Hidden Markov and Other Models for discrete-
valued Time Series. Chapman and Hall, 1997.

[14] S. P. Meyn y R. L. Tweedie. Markov Chains and Stochastic Stability. Springer-


Verlag, London, 1993.

[15] C. P. Robert y G. Casella. Monte Carlo statistical methods. Springer-Verlag,


New York, 1999.

[16] C. P. Robert, G. Celeux y J. Diebolt. Bayesian estimation of hidden Markov


models: a stochastic implementation. Statist. Prob. Lett., 83:1677, 1993.

[17] C. P. Robert, T. Ryden y D. M. Titterington. Bayesian inference in hidden


markov models trough the reversible jump markov chain monte carlo method.
Journal of the Royal Statistical Society B, 62(1): 5775, 2000.

[18] R. Rosales. MCMC for hidden Markov models incorporating aggregation of


states and filtering. Bull. Math. Biol. 66: 1173-99, 2004.
93

[19] P. Troughton y S. Godsill. A Reversible Jump Sampler for Autoregressive Time


Series. Proceedings of the IEEE International Conference on Acoustics, Speech
and Signal Processing, IV:22572260, 1998.

[20] J. Yao y J. G. Attali. On stability of nonlinear AR process with Markov switching.


Adv. Applied Probab, 1999.
94
Captulo 3

Estimaci
on semiparam
etrica

Estimacion semiparametrica en procesos autorregresivos con


regimen de Markov
Ricardo Ros1 y Luis Rodrguez2

Resumen

En este trabajo se considera la estimacion semiparametrica de los parametros en


procesos autorregresivos controlados por un regimen de Markov. Se estudia un
estimador de mnimos cuadrados condicional modificado, demostrando la consistencia
en probabilidad. Se calcula la velocidad de convergencia del estimador.
Palabras y frases claves: Procesos autorregresivos, cadenas de Markov ocultas,
regresion de estructura variable, estimacion por n
ucleos, mnimos cuadrados
condicional.
1
Universidad Central de Venezuela, Facultad de Ciencias, Escuela de Matematicas, Caracas 1040,
Venezuela. Email: rrios@euler.ciens.ucv.ve.
2
Universidad de Carabobo, Facultad de Ciencias y Tecnologa, Departamento de Matematicas,
Valencia, Venezuela. Email: larodri@uc.edu.ve.

95
96

3.1. Introducci
on
En este trabajo se establece, para procesos autorregresivos con regimen de Markov,
la consistencia y la velocidad de convergencia en probabilidad de un estimador de
mnimos cuadrados modificado de los parametros del proceso. Una ventaja practica
de realizar la inferencia estadstica por un criterio de mnimos cuadrados frente a
estimacion por maxima verosimilitud es que no se requiere especificar una distribucion
para el proceso de ruido, contemplando la estimacion no parametrica de la densidad
del ruido usando n
ucleos de convolucion con los resduos de la estimacion a cada paso.

Un proceso autorregresivo con regimen de Markov (AR-RM) es un proceso a


tiempo discreto definido por:

Yn = f (Yn1 , Xn ) + en (3.1)

donde {Xn , n N} es una cadena de Markov no observada, homogenea, con valores


en el conjunto finito {1, . . . , m}, matriz de transicion A = [aij ] y siendo aij = P(Xn =
j|Xn1 = i). La familia de funciones F = {f (, ) : } esta parametrizada por
el parametro y un subconjunto compacto de Rd . Las variables aleatorias
{en } se suponen centradas, independientes e identicamente distribuidas con funcion
de densidad . Suponemos que {en }, {Xn } y Y0 son conjuntamente independientes.
El proceso {Xn } no es observado y por lo tanto la inferencia se centra en el proceso
observado {Yn }.

El uso de un regimen de Markov oculto ofrece la posibilidad de modelar series


temporales que cambian su comportamiento en el tiempo de manera marcada.
Hamilton [6] utiliza un proceso AR-RM en el contexto econometrico, para el analisis
anual de la serie del producto interno bruto de los Estados Unidos, con dos regmenes:
contraccion y expansion. Procesos autorregresivos lineales con regimen de Markov son
97

usados en varias areas de la ingeniera electrica, incluidas deteccion de fallas y control


estocastico adaptativo, ver Douc et al. [4] y sus referencias.

Entre los trabajos mas recientes en los que se desarrolla la estimacion de los
parametros por el metodo de maxima verosimilitud para los procesos autorregresivos
con regimen de Markov tenemos: Francq y Roussignol [5], Jensen y Petersen [7] y Douc
et al. Sobre el problema del calculo numerico del estimador de maxima verosimilitud
consultar Ros y Rodrguez [10] y sus referencias.

En Mevel [8] se considera, para un modelo de cadenas de Markov ocultas, el


siguiente contraste
N
1 X
SN () = (Yn E (Yn |Y0n1 ))2 . (3.2)
N n=1

El estimador por mnimos cuadrados condicional (MCC) se define como

= argminSN (). (3.3)


Mevel demuestra la consistencia debil y la normalidad asintotica del estimador


MCC. Para la estimacion por MCC es necesario conocer la esperanza condicional
E (Yn |Y0n1 ), en nuestro caso la esperanza condicional del contraste depende de {Yn },
, {Xn } y de la funcion de densidad y como esta es desconocida, E(Yn |Y0n1 )
tambien lo es, por lo que el estimador no puede ser obtenido por minimizacion
de SN (). Nosotros reemplazaremos en la ecuacion (3.2) la esperanza condicional
por un estimador no parametrico basado en la muestra y0 , . . . , yN y estimaremos
minimizando este nuevo contraste.

El criterio de Mnimos Cuadrados Condicional Modificado (MCCM) se define


98

entonces por
N
1 X n |Y n1 ))2
SN () = (Yn E(Y 0 (3.4)
N n=1

n |Y n1 ) es un estimador no parametrico de E(Yn |Y n1 ) basado en


donde E(Y 0 0

y0 , . . . , yN . El estimador de es

= argminSN (). (3.5)


Este estimador es considerado en [12, 11] para el modelo no lineal de errores


estructurales en las variables. Las tecnicas all utilizadas son adaptadas en nuestro
trabajo para demostrar la consistencia debil y obtener las velocidades de convergencia
en probabilidad de los estimadores.

El artculo esta organizado de la manera siguiente. El modelo y las hipotesis


generales son presentados en la seccion 3.2. En la seccion 3.3 se presentan los
resultados principales.

3.2. Hip
otesis generales

A lo largo de todo el captulo la letra C podra cambiar para representar distintas


constantes.

3.2.1. Hip
otesis sobre el modelo

Las condiciones (E1-E3) que definimos a continuacion garantizan la existencia de


una medida invariante para la cadena de Markov vectorial {(Yn , Xn )}.

E1 La matriz de transicion A es positiva, esto es, aij , para todo i, j {1, . . . , m}


y para alg
un > 0. Esta condicion implica que la cadena es irreducible y
99

aperiodica por lo tanto existe una u


nica medida invariante = (1 , . . . , m )
para la cadena oculta {Xn }.

E2 (Sublinealidad) Para i = 1, ..., m, existen constantes positivas i y bi tales que

|f (y, i )| i |y| + bi .

Pm
E3 (Condicion tipo radio espectral) Suponemos que i=1 log i i < 0.

E3 Existe p > 0 tal que E(|e1 |p ) < .

Las condiciones anteriores garantizan que la cadena de Markov extendida es


geometricamente ergodica en el espacio de estados R {1, . . . , m} (ver Yao y Attali
[13]).

El parametro = (, A, ) pertenece al espacio de parametros definido por


2
= [0, 1]m [0, 1]m m .

Para el estudio de teoremas lmites, supondremos que los elementos de la familia


de funciones F satisfacen las siguientes condiciones de Lipschitz (LP) y de acotacion
(AC)

LP Para i = 1, ..., m,
|f (y, i ) f (y, i0 )| K1 |i i0 |.

AC Para i = 1, ..., m, existen constantes C1 , C2 tales que

|f (y, i )| C1 y k f (yn , i )k C2 ,

donde es el operador gradiente.


100

3.2.2. Hip
otesis sobre la densidad y los estimadores

Suponemos que la funcion de densidad es acotada y que existe > 0 tal que,

D1 tiene derivadas continuas en un conjunto compacto C.

D2 Existe r > 0 tal que nf eC (e) > r.

Para la estimacion no parametrica utilizaremos n


ucleos de convolucion K : R R
acotados y con soporte compacto. Ademas supondremos que
R
K1 K(t)dt = 1
R R
K2 0 < t K(t)dt < y ts K(t)dt = 0, s = 1, . . . , 1.

K3 Existen constantes > 0, C < , tales que

e, e0 C, |K(e) K(e0 )| < C|e e0 | .

La literatura sobre n ucleos de convolucion es extensa, dos ejemplos muy utilizados



son el gaussiano Kg (t) = 1/ 2 exp(t2 /2) y el de Epanechnikov Ke (t) =

(3/(4 5 2 ))[1 t2 /5 2 ]I{t2 52 } .

Sobre el parametro de suavizado h = h(N ) impondremos la condicion

PS lmN h(N ) = 0 y lmN N h(N )/ log N = .

Suponemos que,

C1 La funcion E (E (Y1 |Y0 ) E (Y1 |Y0 ))2 admite un u


nico mnimo en
= ,

C2 Se aceptan como ciertas las siguientes condiciones de momento

E|Y1 E(Y1 |Y0 )|4+2 <

Ek E(Y1 |Y0 )k4+2 < .


101

3.3. Mnimos cuadrados condicional modificado


(MCCM)
En esta seccion se demuestra la consistencia del estimador MCCM. Se comienza
n |Y n1 ), se establece
construyendo el estimador de la esperanza condicional E(Y 0

la consistencia en probabilidad y la normalidad asintotica del estimador preli-


Por u
minar . ltimo se demuestra la consistencia en probabilidad del estimador
semiparametrico y se establece su velocidad de convergencia.

3.3.1. Construcci n |Y n1 )
on del estimador E(Y 0

En esta seccion se construye un estimador de la esperanza condicional E(Yn |Y0n1 ).


Esta esperanza condicional se calcula mediante la formula
m
X
E(Yn |Y0n1 ) = f (yn1 , i )n (i), (3.6)
i=1

y n (i) = p(Xn = i|Y0n1 ) es evaluada recursivamente por la formula forward de Baum


(ver [8]),
N
X
n (j) = n1 (i)aij (yn f (yn1 , i )). (3.7)
i=1

Para la funcion de densidad , elegimos el estimador de n


ucleo:
N
1 X e en
(e) = K
N h n=1 h

donde K satisface [K1-K3]. Como se observa en la ecuacion (3.6) la esperanza


condicional E(Yn |Y0n1 ) solo depende de a traves de las probabilidades {k (i)}.
Estimaremo s E(Yn |Y0n1 ) por
m
X
n |Y n1 ) =
E(Y f (yn1 , i )
n (i)
0
i=1
102

y
N
X
n (j) = n f (yn1 , i )).
n1 (i)aij (y
i=1

En la seccion siguiente demostramos algunas propiedades asintoticas de este


estimador.

3.3.2. Propiedades asint


oticas de n

El siguiente teorema nos permite establecer el comportamiento asintotico del


estimador del filtro n .

Proposici
on 3.1 Para el proceso AR-RM definido en (3.1) bajo las hipotesis de
estabilidad [E1-E3], las condiciones sobre el n
ucleo K [K1-K3] y la condici
on [PS],
se verifica que
k
n (j) n (j)k = Op (vn ) ,

con vn = (log n/n)v , v = /(2 + 1). La norma infinita k k se entiende como el


supremo de una funcion, calculado sobre un compacto.

Demostraci
on: Como la sucesion {en } es i.i.d es conocido que:

k = Op (vn ),
k

por ejemplo ver Ango-Nze y Ros [1].

En lo que sigue demostramos que la norma k


n (j) n (j)k esta acotada por
k , para esto procedemos por induccion en n. Para n = 2,
Ck
m
X
|
2 (j) 2 (j)| = | i,1 ) (ei,1 ))i |
aij ((e
i=1
k .
mk
103

Suponiendo cierto el resultado para n 1 tenemos,


m
X
|
n (j) n (j)| = | i,n )
aij (e n1 (i) (ei,n )n1 (i) |
i=1
Xm
= | aij ( i,n ) + ((e
n1 (i) n1 (i))(e i,n ) (ei,n ))n1 (i) |
i=1

m(M2 k k ).
n1 n1 k + k

En la proxima seccion demostramos la consistencia y la velocidad de convergencia



del estimador .

3.3.3. oticas del estimador preliminar


Propiedades asint

El estimador preliminar es consistente y asintoticamente normal como se


demuestra en la siguiente proposicion.

on 3.2 Para el proceso AR-RM definido en (3.1) bajo las hipotesis de


Proposici
estabilidad [E1-E3], las condiciones [C1-C2], tenemos que definido en (3.3)
satisface,

i El estimado converge en probabilidad a .



ii Se tiene que n( ) N (0, ) donde es una matriz definida positiva.

En el siguiente lema se verifican que las hipotesis necesarias para la convergencia


debil de un estimador de mnimo contraste (ver [3], 3, pag. 93) se satisfacen en este
caso.

Lema 3.1 Para el proceso AR-RM definido en (3.1) bajo las hipotesis de estabilidad
[E1-E3], las condiciones [C1-C2], tenemos que:
104

) tal que SN () S(,


i. Para todo , existe una funcion S(, ).

) admite un u
ii. La funcion S(, nico mnimo en = .

iii. Existen sucesiones {k } y {k } tales que


n o
0 0
lm P sup |SN () SN ( )|, | | k k = 0.
N

Demostraci
on de (i).

Aplicando el teorema ergodico a la cadena de Markov estacionaria {(Yn , Xn , n )},


N
1 X ) := E (Y1 E (Y1 |Y0 ))2 .
(Yn E (Yn |Y0n1 ))2 S(,
N n=1

Demostraci
on de (ii).

Tenemos que

E(Y1 E (Y1 |Y0 ))2 = E(Y1 E (Y1 |Y0 ))2 + E(E (Y1 |Y0 ) E (Y1 |Y0 ))2

potesis (C1) la funcion E(E (Y1 |Y0 ) E (Y1 |Y0 ))2 admite un u
y por hi nico mnimo
).
en = y as S(,

Demostraci
on de (iii).

SN () SN ( 0 )
" N #
1 X
= (Yn E (Yn |Y0n1 ))2 (Yn E0 (Yn |Y0n1 ))2
N n=1
N
1 X
= [E0 (Yn |Y0n1 ) E (Yn |Y0n1 )][2Yn (E0 (Yn |Y0n1 ) + E (Yn |Y0n1 ))]
N n=1
105

Como la esperanza de 2Yn (E0 (Yn |Y0n1 ) + E0 (Yn |Y0n1 )) es acotada nos basta
demostrar que el termino E0 (Yn |Y0n1 ) E (Yn |Y0n1 ) esta acotado por Ck 0 k
y as el punto (iii) es cierto. En efecto,

|E0 (Yn |Y0n1 ) E (Yn |Y0n1 )|


X m
= | (f (yn1 , i )n (i) f (yn1 , i0 )n0 (i))|
i=1
m
X
= | (f (yn1 , i ) f (yn1 , i0 ))n (i) + f (yn1 , i0 )(n (i) n0 (i))|
i=1
m
X
| K1 (i i0 ) + C(n (i) n0 (i))|
i=1
= m (K1 k 0 k + Ckn n0 k)

para controlar el termino kn n0 k procedemos por induccion en n. Para n = 2,


m
X
|2 (j) 20 (j)| = | aij (y1 f (y0 , i ))i a0ij (y1 f (y0 , i0 ))0i |
i=1
m
X
| ((y1 f (y0 , i )) (y1 f (y0 , i )))i + (y1 f (y0 , i0 ))(i 0i )|
i=1
m
X
K2 |f (y0 , i0 ) f (y0 , i )| + M2 |i 0i |
i=1
Xm
K2 K1 |i0 i | + M2 |i 0i |
i=1
m(K2 K1 k 0 k + M2 k 0 k).

Si suponemos cierto para n 1 entonces para n tenemos,


m
X
|n (j) n0 (j)| = | aij (yn f (yn1 , i ))n1 (i) a0ij (yn f (yn1 , i0 ))n1
0
(i)|
i=1
m
X
K2 K1 |i0 i | + M2 |n1 (i) n0 (i)|
i=1
m(K2 K1 k 0 k + M2 kn n0 k).
106

El siguiente lema sera necesario para establecer la parte (ii) de la proposicion 3.2.

Lema 3.2 Bajo las hipotesis de estabilidad [E1-E3] suponiendo las las condiciones
[C1-C2] el proceso AR-RM definido en (3.1) satisface las siguientes propiedades,

i N SN ( ) N (0, 1 ).
h i
E (Yn |Y0n1 ) E (Yn |Y0n1 )
ii 2 SN ( ) 2E 0 k
k

iii RN = op (1) con


Z 1
RN = {2 SN (s + (1 s)) 2 SN ( )}ds.
0

Demostraci
on:

Para demostrar (i) observemos que


N
X
2
SN () = (Yn E (Yn |Y0N 1 )) E (Yn |Y0n1 ).
N n=1

Si definimos las variables Zn = (Yn E (Yn |Y0N 1 )) E (Yn |Y0n1 ) podemos


probar que

E(Zn ) = 0.

E(Zn |(Y0N )) = 0.

de donde la sucesion {Zn } es una diferencia de martingalas que satisface,

1
Pn 1
Pn
lmn n k=1 Zk Zkt = lmn n k=1 cov(Zk ) = 1 .

1
Pn Zk 2+
lmn n k=1 Ek n
k = 0.
107

estas afirmaciones las obtenemos observando que por Cauchy-Schwarz,


q q
k1 4+2
EkZk k 2+
E|Yk E (Yk |Y0 )| Ek E (Yk |Y0k1 )k4+2

y las cantidades de la derecha estan acotadas por la hipotesis (C2). Entonces


satisfechas las condiciones para el TCL para diferencia de martingalas (ver [2] 6,
teorema 6.16, pag. 116) se tiene que
n
1 X
Zk N (0, 1 ).
n k=1

Para demostrar (ii) tenemos que


N
SN () 2 X N 1 E (Yn |Y0
n1
)
= (Yn E (Yn |Y0 ))
k0 k N n=1 k0 k
N
2 X E (Yn |Y0n1 ) E (Yn |Y0n1 )
+ (3.8)
N n=1 k0 k

y aplicando el teorema ergodico obtenemos


PN E (Yn |Y0n1 )
N2 n=1 (Yn E (Yn |Y0N 1 )) k0 k
0
PN
2 E (Yn |Y0n1 ) E (Yn |Y0n1 ) E (Yn |Y0n1 ) E (Yn |Y0n1 )
N n=1 k0 k
2E k0 k
.

Para la demostracion de (iii), en virtud de la ecuacion (3.8)

SN ((s)) SN ( )
= F1 + F2 + F3 ,
k0 k k0 k

donde (s) = s + (1 s),

2
PN E(s) (Yn |Y0n1 ) E(s) (Yn |Y0n1 ) E (Yn |Y0n1 ) E (Yn |Y0n1 )
F1 (s) = N n=1 k0 k0
k0 k0

PN
2 2 E(s) (Yn |Y0n1 ) 2 E (Yn |Y0n1 )
F2 (s) = N n=1 Yn k0 k
k0 k
,

PN E(s) (Yn |Y0n1 ) E (Yn |Y0n1 )


F3 (s) = 2
N n=1 E(s) (Yn |Y0n1 ) k0
E (Yn |Y0n1 ) k0
.
108

Escribimos
E(s) (Yn |Y0n1 ) E(s) (Yn |Y0n1 ) 2 E (Yn |Y0n1 )
= s( ),
k0 k k0 k
donde es un punto en el segmento que une a (s) con , lo que nos permite
expresar F1 (s) como

2 E (Yn |Y0n1 ) E(s) (Yn |Y0n1 ) E (Yn |Y0n1 )
s ( ) + .
k0 k k0 k
la compacidad de y la condicion de regularidad [AC]
La consistencia de ,
R1
permiten demostrar que 0 F1 (s)ds = op (1). Analogamente para F2 y F3 .

Demostraci
on proposici
on 3.2

La parte (i) de la proposicion es una consecuencia directa del Lema 3.2.

Para la demostracion de la parte (ii), construimos el desarrollo de Taylor de SN


alrededor de ,

= SN ( ) + ( )2 SN (s + (1 s))
SN ()

de la definicion de se tiene que Sn ()


= 0, por lo tanto la ecuacion anterior es

equivalente a la expresion,

N ( ) = N SN ( )[2 SN ( ) + RN ]1 ,

como una consecuencia del Lema 3.2 obtenemos el resultado.

3.3.4. Consistencia y velocidad de convergencia del


estimador

En el teorema siguiente demostramos la convergencia en probabilidad del


estimador global a .
109

Teorema 3.1 Para el proceso AR-RM definido en (3.1) bajo las hipotesis de
estabilidad [E1-E3], las condiciones sobre el n
ucleo K [K1-K4], las condiciones [C1-
on [PS], se verifica que el estimador en probabilidad.
C2] y la condici

on: Para demostrar la consistencia de comenzaremos demostrando


Demostraci
que SN () SN () = op (1).

SN () SN ()
" N #
1 X (Yn |Y n1 ))2 (Yn E (Yn |Y n1 ))2
= (Yn E 0 0
N n=1
N
1 X (Yn |Y n1 )][2Yn (E
(Yn |Y n1 ) + E (Yn |Y n1 ))].
= [E (Yn |Y0n1 ) E 0 0 0
N n=1

(Yn |Y n1 )| = op (1) y como


Como vimos en la proposicion 2 |E (Yn |Y0n1 ) E 0
(Yn |Y n1 ) + E (Yn |Y n1 )) es acotada entonces se
la esperanza del termino 2Yn (E 0 0

obtiene que |SN () SN ()| = op (1), como Sn () es un contraste de acuerdo con la



proposicion 1 entonces Sn () tambien es un contraste y argumentando como para ,
deducimos que es consistente.

Teorema 3.2 Para el proceso AR-RM definido en (3.1) bajo las hipotesis de
estabilidad [E1-E3], las condiciones sobre el n
ucleo K [K1-K4], las condiciones [C1-
C2] y la condici
on [PS], tenemos que

= Op (vN )

con vN = (log N/N )v y v = 1/(2 + 2)(2 + 1).


110

Para la demostracion de este teorema establecemos el siguiente lema.

Lema 3.3 Para el proceso AR-RM definido en (3.1) bajo las hipotesis de estabilidad
[E1-E3], las condiciones sobre el n
ucleo K [K1-K4], las condiciones [C1-C2] y la
condici
on [PS], se satisfacen las propiedades siguientes:

i. La velocidad de convergencia de

k SN ( ) SN ( )k = Op (vN )

con vN (log N/N )v y v = 1/(2 + 2)(2 + 1).


h (Yn |Y n1 )
i
E (Yn |Y0n1 ) E
ii. 2 SN ( ) 2E 0 k
0
.
k

iii. Rn = op (1) con


Z 1
RN = 2 SN (s + (1 s)) 2 SN ( )ds.
0

Demostraci
on (i).

Escribimos
SN ( ) SN ( ) = T1 + T2 + T3

donde
PN n |Y n1 ) E(Yn |Y n1 ))
T1 = 2/N n=1 (Yn E(Yn |Y0n1 ))( E(Y 0 0

PN n1 n |Y n1 ) E(Yn |Y n1 ))
T2 = 2/N n=1 (E(Yn |Y0 ) E(Yn |Y0n1 ))( E(Y 0 0

PN n1
T3 = 2/N n=1 (E(Yn |Y0 ) E(Yn |Y0n1 )) E(Yn |Y0n1 ).

De las expresiones que definen los terminos T1 , T2 y T3 observamos que la velocidad


de convergencia esta gobernada por el comportamiento de las expresiones,
111

n |Y n1 ) E(Yn |Y n1 ).
E(Y 0 0

n |Y n1 ) E(Yn |Y n1 ).
E(Y 0 0

En la seccion 3.3.2 demostramos que

n n k = Op ((log N/N )v1 ) ,


k

v1 = /(2 + 1) y como
m
X
n |Y n1 ) E(Yn |Y n1 ) =
E(Y f (Yn , i )(
n (i) n (i))
0 0
i=1

y estamos suponiendo que las funciones de regresion son acotadas entonces

v1
k = Op log N
k .
N
Por otra parte,
m
X
n |Y n1 ) E(Yn |Y n1 ) =
E(Y n (i) n (i))
f (yn , i )(
0 0
i=1
m
X
+ f (yn , i )( n (i) n (i))
i=1

y como k f (yn , i )k C2 entonces


m
X
k n (i) n (i))k mC2 k
f (yn , i )( n n k.
i=1

Tenemos que n (j) esta compuesto de las siguientes derivadas parciales:


n (j) (j) f (yn1 , l )
= n1 alj (yn f (yn1 , l )) + n1 (l)alj 0 (yn f (yn1 , l ))
l l l
y



n1 (j)
als (yn f (yn1 , l )) + n (l)(yn f (yn1 , l )) j = s

als
n (j)
=
als


0 j 6= s
112

y por
Las formulas son analogas para n sustituyendo por 0 . Al sustituir
n |Y n1 ) E(Yn |Y n1 ) aparecen expresiones con terminos del tipo
en E(Y
0 0
0 0 . Es conocido (ver por ejemplo [9], 3) que
y
v
0 0 log N 2
k k = Op ,
N

con v2 = ( 1)/(2 + 1). Por lo tanto obtenemos que:


v
log N 1
T3 = Op
N

y v3
log N
T1 = Op
N
con v3 = 1/(2 + 2)(2 + 1) y para T2 tenemos
v
log N 3
T2 = Op .
N

Demostraci
on de (ii).

Para demostrar (ii) procedemos como en la parte (ii) del Lema 3.2.

Demostraci
on del teorema 3.2: Expandiendo Sn alrededor de y se obtiene
que
( ) = SN ( )[2 SN ( ) + RN ]1 ,

donde RN = 2 SN (s + (1 s) ) 2 SN ( ). La ecuacion anterior se puede


reescribir como

= SN ( )[2 SN ( ) + RN ]1 + ( SN ( ) SN ( ))[2 SN ( ) + RN ]1

= Op (N 1/2 ) + ( SN ( ) SN ( ))[2 SN ( ) + RN ]1
113

para concluir utilizamos el Lema 3.3 se obtiene que,


v
log N
= Op .
N

eligiendo v = v3 .

Agradecimiento: Los autores quieren expresar su agradecimiento a los arbitros


por sus precisas orientaciones y sugerencias, as como a los organizadores del XXX
aniversario del Postgrado en Matematicas de la Universidad Central de Venezuela.
114
Bibliografa

[1] P. Ango-Nze y R. Ros. Density estimation in L norm for mixing process. J.


Statist. Plann. Inference. 7590 2000.

[2] H. J. Bierens. Topics advanced econometrics. Cambridge University press 1994.

[3] D. Dacunha-Castelle y M. Duflo. Probability and Statistics. Volume I. Springer-


Verlag, Berlin 1986.

[4] R. Douc, E. Moulines y T. Ryden. Asymptotic properties of the maximum


likelihood estimator in autoregressive models with Markov regime. Ann. Statist.
32, 22542304 2004.

[5] C. Francq y M. Roussignol. Ergocity of autoregressive process with Markov-


switching and consitency of the maximum likelihood estimator. Statistics.32,
151173 1998.

[6] J.D. Hamilton. A new approach to the economic analysis of non stationary time
series and the business cycle. Econometrica 357384 1989.

[7] J. L Jensen y N. V. Petersen. Asymptotic normality of the maximum likelihood


estimator in state space models. Ann. Statist. 27, 514535 1999.

[8] L. Mevel. Statistique asymtotique pour les modeles Markov caches. Tesis doctoral,
Universite Rennes I 1997.

115
116

[9] R. Ros. Utilisation de techniques non parametriques et semi parametriques en


statistique de donnees dependantes. Tesis doctoral, Universite Pars IX 2006.

[10] R. Ros y L. A. Rodrguez. Estimation in autoregressive models with markov


regime. Preprint, math.ST/0505081 2005.

[11] F. Conte y M.-L. Taupin. Semi-parametric estimation in (auto)-regressive -


mixing model with errors-in-variables. Math. Methods Statist. 10(2), 121-160,
2001.

[12] Marie-Luce Taupin. Semi-parametric estimation in the nolinear structural errors-


in-variable model. Ann. Statist. 6693 2001.

[13] J. Yao y J. G. Attali. On stability of nonlinear AR process with Markov switching.


Adv. Applied Probab 1999.
Captulo 4

Mezcla de distribuciones normales

Prevision del trafico de carretera a traves de los tiempos de


viaje
Jean-Michel Loubes,1 Elie Maza2 Marc Lavielle3 Luis Rodrguez4

Resumen

En este trabajo proponemos metodologas tanto para la prevision de los tiempos


de viaje sobre la red de carreteras parisinas, como para la descripcion de los
comportamientos futuros del trafico. Se caracteriza el trafico de carretera por medio
de las velocidades de los vehculos. Proponemos dos metodologas para la prevision:
una basada en un metodo de clasificacion emprica y la otra en un modelo de mezcla
1
Laboratoire de Probabilites et Statistique, de lUniversite Montpellier 2. Montpellier, 34000.
France. Email: Jean-Michel.Loubes@math.u-psud.fr
2
Laboratoire de Statistique et de Probabilites, UMR C5583. Universite Paul Sabatier. 118 Route
de Narbonne. F-31062 Toulouse cedex 4. Email: Elie.Maza@math.ups-tlse.fr
3
Laboratoire de Mathematiques, Equipe de Probabilites, Statistique et Modelisation. UMR 8628
- batiment 425, Universite Paris Sud. 91405 Orsay Cedex.
4
Universidad de Carabobo, Facultad de Ciencias y Tecnologa, Departamento de Matematicas,
Valencia, Venezuela. Email: larodri@uc.edu.ve.

117
118

de distribuciones de probabilidad. El algoritmo SAEM (una aproximacion estocastica


del algoritmo EM) es utilizado para estimar los parametros de estas distribuciones.
En ambos casos validamos nuestras metodologas comparando los estimados de los
tiempos de viaje en perodos cortos.
Palabras claves: Clasificacion, algoritmo EM, SAEM, mezcla de distribuciones.
Clasificaci
on: Primaria: 60G17, Secundaria:62G07

4.1. Introducci
on

En este trabajo desarrollamos un metodo para la prevision de los tiempos de viaje


en la red de autopistas parisinas. Para este proposito construimos patrones de los
diferentes comportamientos del trafico de carretera, utilizando una metodologa de
seleccion de modelos. Los patrones representan las curvas de evolucion diaria de la
velocidad de los vehculos. Tales rasgos son utilizados para una mejor comprension
de los eventos que aparecen cuando realizamos mediciones del trafico de carretera.
Entonces estos rasgos son comparados con los datos entrantes y nos proveen de una
poderosa herramienta, para predecir el tiempo necesario para conducir desde un punto
de la red a otro.

La originalidad de este trabajo subyace en dos hechos fundamentales. El primero


de ellos consiste en considerar la prevision del trafico de carretera a corto plazo
contrario a la prevision del trafico de carretera desarrollada desde hace alg
un tiempo
la cual es a largo plazo (por ejemplo, http:/bison-fute.equipement.gouv.fr). Cabe
destacar ademas que consideramos los datos como variables cuantitativas (mediciones
de velocidad, flujo y tasas de ocupacion) y no solo como variables cualitativas que
describen el estado de un vehculo en marcha, como por ejemplo en Couton et al.
[14]. El segundo hecho fundamental es que nosotros estimamos la velocidad en todos
119

los puntos de observacion de la red, es decir, en todas las estaciones de medida y no


en un punto especfico de la red como se puede apreciar en los trabajos previos Van
Grol et al. [34] o Danech-Pajouh y Aron [15].

Los datos utilizados en nuestro estudio satisfacen dos hipotesis com


unmente
aceptadas por los profesionales del trafico de carreteras, por ejemplo el INRETS en
Francia (Instituts National de Recherche sur les Transports et leur Securite). Dichas
hipotesis son:

en un perodo corto, 0 a 2 horas, el trafico depende de su pasado cercano.

existe un n
umero fijo de patrones del trafico, y cada nuevo da de observacion
puede ser comparable con uno de estos.

En consecuencia la prevision de los tiempos de viaje se divide en dos etapas:


Primero estimamos los comportamientos representativos o patrones del trafico, y luego
comparamos la observacion entrante con estos patrones y elegimos a cual clase esta
pertenece.

En a
nos recientes, diversos metodos de analisis de datos funcionales han sido
estudiados ampliamente y se han relacionado con la prevision de fenomenos en los
cuales los datos que observamos son curvas o funciones. Tales tecnicas permiten
ajustar un modelo no lineal a los datos y utilizarlo para predecir los valores posteriores.
Para una referencia general de esta tematica vease Ferraty y Vieu [20]. Nosotros no
empleamos suposiciones muy rigurosas sobre los datos y por esta razon nos enfocamos
en metodos de clasificacion funcionales. Dejamos claro que no consideramos metodos
de series de tiempo, como en Belomestny et al. [4], ya que nuestros datos impiden el
uso de estas tecnicas. Esta afirmacion sera discutida en la seccion 4.6.
120

En este trabajo, estudiamos dos formas diferentes de caracterizar el trafico de


carretera. Por una parte suponemos que la evolucion diaria de la curva de velocidad de
los vehculos es regida por una mezcla de distribuciones lo cual hace necesario estimar
las componentes de la mezcla, as como tambien el n
umero optimo de componentes
(ver por ejemplo Chen [11], Lindsay y Lesperance [29] o Cheng y Liu [12]). Las
componentes de la mezcla son los patrones que queremos determinar. Las mezclas de
distribuciones han sido ampliamente utilizadas en el estudio del trafico de carretera,
pero solamente cuando las variables involucradas son cualitativas, como es el caso
en Couton et al. [14]. Por otra parte utilizamos metodos estandar de clasificacion,
que consisten en repartir los datos en un cierto n
umero de clases representativas.
En cada clase se agrupan los datos seg
un sean similares o distintos. Para lo cual
se debe introducir un ndice apropiado de distancia para las curvas de velocidad
(distancia, ndice de no similaridad, variacion, ultra-metrica de variacion, etc.) que
permite cuantificar el significado de los terminos similar y distinto (para referencias
generales de este tipo de clasificacion ver Gordon [24], Celeux [8], Breiman et al. [6] o
Jambu [25]). Gran parte de este trabajo consiste en encontrar una distancia apropiada
y el n
umero optimo de clases usadas para resumir la informacion contenida en los
datos.

Este captulo se estructura de la manera siguiente. En la primera parte,


Seccion 4.2, presentamos los datos con los que trabajamos, su tratamiento preliminar
y la deteccion de datos atpicos. En la seccion 4.3 proponemos un modelo de mezcla
de distribuciones para las curvas de las velocidades promedios de los vehculos y
utilizamos un algoritmo de tipo SAEM para estimar las componentes de la mezcla.
En la seccion 4.4 estudiamos un procedimiento de clasificacion automatica para
construir las clases que representan cada uno de los comportamientos tpicos del
trafico. Finalmente, en la seccion 4.6 comparamos las dos metodologas propuestas
121

para la prevision de los tiempos de viaje en cada uno de los casos.

4.2. Los datos y la metodologa

4.2.1. Descripci
on

La mayor parte de la red de carreteras de Pars y sus suburbios estan equipadas


con una infraestructura para la medicion del estado del trafico. El elemento primario
de esta infraestructura es un sensor ubicado cada 500 metros a lo largo de la red
de carreteras. El sensor esta acoplado a un dispositivo de medida que cuantifica
el fenomeno detectado. El par sensor/dispositivo de medidase llama estacion de
c
alculo. Las principapes variables que miden las estaciones de calculo son:

el flujo, indica el n
umero de vehculos detectados por el sensor en perodos fijos
de tiempo,

la tasa de ocupacion, medida sin dimension, definida a partir de la proporcion


de tiempo durante el cual el sensor esta ocupado,

la velocidad media, definida como la media aritmetica de velocidades medidas


en perodos fijos de tiempo. En nuestro estudio utilizamos exclusivamente estas
medidas.

El lector interesado en la forma en que trabajan los diferentes sensores utilizados


en el estudio del trafico de carreteras, as como una descripcion detallada de las
variables medidas puede referirse a Cohen [13]. Los datos fueron suministrados por el
Service Interdepartemental dExploitation Routi`ere (SIER), el cual es un organismo
adscrito a la Direction Regionale de lEquipement y controla la infraestructura de
medicion del trafico de carretera sobre el area de Pars.
122

Denotamos por:

Cs la estacion de calculo n
umero s, con s = 1, . . . , S (S es el n
umero total de
estaciones de calculo sobre la red, para este estudio S 2000),

Jn representa el da n
umero n, con n = 1, . . . , N (N es el n
umero total de das
considerados en el estudio).

Existe un registro de varios a


nos de los datos medidos por las estaciones de calculo,
lo que permite seleccionar el tama
no optimo de los datos utilizados en nuestro estudio.
nos desde 1ro de julio de 2000 hasta el 30 de junio
Consideramos un perodo de dos a
de 2002 (N 709). La eleccion de este perodo de estudio es realizada teniendo en
cuenta, por una parte, que un perodo muy largo tendera a subestimar los u
ltimos
cambios en el contexto del trafico de carretera (modificacion de la infraestructura,
nuevos comportamientos de los usuarios). Por otra parte, un perodo muy reducido
no aportara informacion suficiente.

Para cada estacion Cs y cada da Jn , conocemos las medidas de velocidad en


perodos de 6 minutos, de 5 AM a las 11 PM. Son 180 medidas de velocidad por
estacion y por da. Denotamos por Yns (t) las medidas de velocidad, para el da Jn y
la estacion Cs , para t = 1, . . . , T con T = 180. Ver la Figura 4.1 para un ejemplo de
una tal curva de velocidad.

Nuestro estudio es realizado sobre un tramo de la red parisina (llamado A4W), el


cual es representativo del congestionamiento del trafico de carretera. En el es difcil
prever los tiempo de viaje. Dicho tramo posee una longitud de 21.82 kilometros a lo
largo de los cuales estan distribuidas 38 estaciones de calculo.
123

4.2.2. Calidad de los datos

El historico utilizado para nuestro estudio es de dos a


nos. Los datos brutos
utilizados no pueden ser tratados directamente. En efecto, los datos atpicos y los
datos perdidos son numerosos. Tales errores de medicion se deben, por una parte, a
errores de medicion en las estaciones de calculo, y por otra parte, a una gran dificultad
en el mantenimiento de las estaciones.

Para resolver este problema, elaboramos un protocolo de filtraje y completacion


de las medidas atpicas y perdidas. Este protocolo esta compuesto de dos partes: la
deteccion de datos atpicos y la completacion de datos perdidos. La estructura del
protocolo de calidad es la siguiente:

1. La deteccion de las medidas atpicas esta basada en los tres puntos siguientes

deteccion de velocidades muy altas, mas altas que 160 km/h.

deteccion de velocidades muy bajas, mas bajas que 5 km/h durante mas
de 3.6 horas.

deteccion de velocidades constantes, que se mantienen igual por mas de


0.5 horas.

Estos tres puntos corresponden a salidas de errores conocidos por los encargados
del trafico de carreteras, por ejemplo, las medidas de velocidad constante son
debidas a estaciones que no se re-inicializaron despues de cierta medida y
automaticamente repiten la medida sobre varios perodos consecutivos.

2. La completacion de medidas perdidas es efectuada por un promedio espacio-


temporal:
P P
u{s1,s+1} Ynu (t)1IR+ (Ynu (t)) + Yns (v)1IR+ (Yns (v))
Yns (t) = P Pv{t1,t+1}
u{s1,s+1} 1IR+ (Ynu (t)) + v{t1,t+1} 1IR+ (Yns (v))
124

Si todas las medidas estan perdidas no hay completacion. Este paso se repite
hasta que el 80 % de los datos hayan sido completados.

Despues de la aplicacion de este protocolo de calidad, el n


umero de das utilizados
para algunas estaciones se reduce considerablemente porque persisten curvas Yns que
tienen medidas perdidas. Utilizaremos exclusivamente curvas Yns completas despues
del protocolo.

Figura 4.1: Grafico de una curva de velocidad para la estacion de calculo 19, antes
de aplicar el algoritmo de completacion (lnea punteada) y despues del algoritmo de
completacion (lnea continua). En este ejemplo, los valores perdidos son completados.
125

4.2.3. M
etodo de previsi
on
t
0 +49
Para un da nuevo Jn0 , en el tiempo H 10
, t010
+50
que corresponde a los
diferentes tiempos t0 = 1, . . . , 180, observamos las medidas de velocidad Yns0 (t),
t < t0 , s = 1, . . . , S. Queremos estimar Yns0 (t), t t0 y para todas las estaciones
de calculo Cs , s = 1, . . . , S, con la finalidad de prever los tiempos de viaje para un
itinerario dado.

Suponemos que para cada estacion de calculo Cs , existe un n


umero ms de
comportamientos representativos del trafico de carretera, denotados por f1 , . . . , fms .
El metodo de prevision se divide en:

1. Estimamos los patrones f1 , . . . , fms y el n


umero ms , para cada estacion de
calculo Cs , s = 1, . . . , S.

2. Asignamos las observaciones entrantes a estos patrones y estimamos la velocidad


en todas las estaciones de calculo as como los tiempos de viaje.

Por razones de simplicidad eliminamos el ndice s y denotamos el n


umero de
patrones por m y los comportamientos por f1 , . . . , fm . Para estimar los patrones
f1 , . . . , fm se utilizaron dos metodos diferentes: un modelo de mezcla de distribuciones
que presentaremos en la Seccion 4.3, y un metodo de clasificacion emprica en la
Seccion 4.4. Tambien comparamos ambas metodologas calculando los tiempos de
viajes en ambos casos, para una muestra de validacion de NT = 19 das. Esta muestra
de validacion es utilizada en la Seccion 4.6 para prever los tiempos de viaje simulados.

4.3. Modelo de mezcla


En esta parte suponemos que la curva de velocidad diaria de los vehculos es un
modelo de mezcla de distribuciones normales. Estimamos los parametros de cada una
126

de las componentes y el n
umero optimo de componentes.

4.3.1. Descripci
on del modelo

Consideremos una estacion de calculo Cs . Para esta estacion y cada da Jn ,


n {1, . . . , N }, observamos la velocidad de los vehculos en los tiempos discretos
t = 1, . . . , T con T = 180. Denotamos, para cada n {1, . . . , N }, por yn =
0 0
(yn (1), . . . , yn (T )) RT , el vector de velocidades diarias e Yn = (Yn (1), . . . , Yn (T ))
el correspondiente vector aleatorio. Suponemos, como en la seccion anterior, que
existen m patrones de velocidades f1 , . . . , fm donde para todo j {1, . . . , m}, fj =
0
(fj (1), . . . , fj (T )) RT . Suponemos ademas que existen variables exogenas indicando
a cual patron pertenece cada da observado y que la curva de velocidad observada
proviene de alguno de los patrones mas un ruido gaussiano. El modelo se escribe
como:

Yn = fXn + en , n = 1, . . . , N (4.1)

donde Xn , n = 1, . . . , N son variables aleatorias no observables, i.i.d y con valores en


el conjunto discreto {1, . . . , m}. El vector aleatorio en , n = 1, . . . , N es gaussiano e
independiente de las observaciones, con varianza 2 IT , donde IT es la matriz identidad
de orden T . Las observaciones provienen de estaciones de calculo las cuales tienen
caractersticas similares y satisfacen los mismos controles de calidad, de aqu que
podemos suponer que la varianza es constante e igual a 2 .

Los parametros desconocidos son el n


umero de componentes m, los patrones
fj , j = 1, . . . , m, la varianza del ruido 2 y la distribucion de Xn . Esta distribucion
se define por las probabilidades j = P(Xn = j), para todo j = 1, . . . , m.

En esta parte suponemos conocido el n


umero de componentes m, ya que esto es
127

el objeto de estudio de la seccion 4.3.2. Los parametros a estimar son:

0
= (1 , . . . , m , f1 , . . . , fm , ) . (4.2)

Sea x = (x1 , . . . , xN ) una realizacion de las variables aleatorias no observadas


(X1 , . . . , XN ).

Para estimar empleamos el metodo de maxima verosimilitud. La funcion log-


verosimilitud del modelo se escribe en nuestro caso como:
N
m !
X X
L(, y) = log j (yn ; fj , ) (4.3)
n=1 j=1

donde (Y ; , ) designa la densidad de un vector gaussiano de media RT y


varianza 2 IT . El estimador de maxima verosimilitud es una raz de la ecuacion

L() = 0,

donde representa el operador gradiente con respecto a la variable .

Para un modelo de mezcla, como el estudiado por McLeish y Small en [31], la


solucion de la ecuacion anterior se puede obtener de forma eficiente utilizando el
algoritmo EM, como en los trabajos de Basford y McLachlan [3] o McLachlan [30]. El
algoritmo EM fue propuesto en su forma general por Dempster, Laird y Rubin en [18]
para maximizar la verosimilitud bajo hipotesis de datos incompletos. El algoritmo
es un metodo recursivo que permite cambiar la maximizacion de la verosimilitud
observada por un problema de maximizacion de la verosimilitud completa del modelo:
N X
X m
LC (y, x, ) = 1Ij (Xn ) log (j (Yn ; fj , )) . (4.4)
n=1 j=1

Sea Zn = (Znj ) = (1Ij (Xn ))j=1,...,m . Esta variable completa el modelo en la medida que
indica a cual clase pertenece la observacion Yn . Esta variable tiene una distribucion
128

0
multinomial con parametro desconocido = (1 , . . . , m ) .

Describamos el paso p + 1 del algoritmo EM. Denotemos por

Q(, (p) ) = E[log(Y, X, )|Y = y, (p) ] (4.5)

la esperanza de la funcion de log-verosimilitud de los datos completos condicional a


los datos observados y al valor del parametro obtenido en el paso p, denotado por
(p) . Se tiene entonces
N X
X m
(p)
Q(, ) = E(Znj |Yn = yn , (p) ) log (j (yn ; fj , )) .
n=1 j=1

El algoritmo se divide en dos pasos, el paso E y el paso M. El paso E consiste en


reemplazar Znj por su esperanza condicional a las observaciones y al parametro (p) :

(p)
k (yn ) = E(Znk |Yn = yn , (p) )

= P(Znk = 1|Yn = yn , (p) )


(p) (p)
(yn ; fk , (p) )
= Pm k (p) (p)
.
(y ; f , (p) )
j=1 j n j

En el paso M se elige que maximiza Q(, (p) ). Los estimadores obtenidos se


escriben en la forma siguiente:
N
(p+1) 1 X (p)
j = (yn )
N n=1 j
PN (p)
(p+1) n=1 j (yn )yn
fj = PN (p)
n=1 j (yn )
!
N m
1 X X X (p)
T 2 1/2
(p)
(p+1) = (yn ) yn (t) fj (t)
N T n=1 j=1 t=1 j

Nuestro modelo pertenece a la familia exponencial por lo que satisface las hipotesis
que garantizan la convergencia del algoritmo EM.
129

Para reducir la posibilidad de estimar maximos locales, utilizamos una version


estocastica del algoritmo EM, el algoritmo SAEM. La convergencia de este algoritmo
es demostrada por Delyon et al, [17]. La ventaja de utilizar el algoritmo SAEM y no
el EM se explica por la sensibilidad del u
ltimo a la eleccion del parametro de partida
del algoritmo. Para una buena eleccion del parametro de partida las salidas de los
dos algoritmos son las mismas. Mientras que sucesivas aplicaciones del algoritmo
EM para malas elecciones de los puntos de partida nos llevan a salidas lejanas a
las obtenidas con las buenas elecciones de los puntos de partida. Por el contrario el
algoritmo SAEM, arroja los mismos resultados. Para comparaciones entre versiones
estocasticas del algoritmo EM referimos a Celeux et al. en [7, 10, 9].

El algoritmo EM se modifica en la forma siguiente: el paso E se reemplaza por


un paso de simulacion S y otro de aproximacion. En el paso S se simulan K(p + 1)
realizaciones de la variable multinomial Znj . Sean estas realizaciones denotadas por
k
znj , k = 1, . . . , K(p + 1) , las cuales siguen la distribucion dada por el valor del
parametro (p) en la iteracion p. La funcion de log-verosimilitud se modifica utilizando
la aproximacion estocastica:

p+1
Q

1
K(p+1)
X X
p + p+1
= Q k
znj
(p1)
log j
(p1)
(yn ; fj p ,
, (p1) ) Q
K(p + 1) k=1 n,j

donde p , p 1 es una sucesion decreciente de n


umeros reales positivos. Esto
constituye el paso A.

El paso de maximizacion M se realiza como se explico anteriormente. Utilizamos


este algoritmo en nuestro trabajo, con una eleccion particular de la sucesion (p )p1
y K(p + 1) = 1 para todo p, los resultado son presentados en la seccion 4.6.
130

4.3.2. Estimaci
on del n
umero de componentes de la mezcla

El objetivo de este apartado sera determinar el n


umero m optimo de componentes
de la mezcla (4.1). Esto se logra a traves de una tecnica similar a la empleada en la
seleccion de modelos desarrollada por Baraud [1], Birge y Massart [5, 2].

Para cada valor m 1, consideramos los conjuntos

Fm = {f1 , . . . , fm , fi RT , 1 , . . . , m , }

y F = m1 Fm la coleccion de todos los modelos. Para un m fijo, vimos en la seccion


(m) del modelo y con estos
4.3.1 que es posible estimar los parametros desconocidos
(m) , y, m) del modelo. La idea de la
valores evaluar la funcion log-verosimilitud L(
metodologa se resume en la siguiente criterio.

umero de modelos, digamos m , es el valor para


Criterio: La mejor eleccion del n
(m) , y, m) no crece significativamente para valores mas
el cual la funcion m L(
grandes que m .

Sea J(, y) = log (L(y, )). Utilizamos las notaciones:

(m) = arg mn J(, y)



Fm
(m) , y).
Jm = J(

Para todo > 0 y para todo 1 m mmax , donde mmax es una cota superior del
n
umero de componentes, definimos

m()
= arg mn (Jm + m) .
1mmmax

La siguiente proposicion, contenida en Lavielle [28], nos provee una tecnica para
escoger un valor adecuado de , y de esta manera estimar m .
131

Proposici
on 4.1 Existen sucesiones m1 = 1 < m2 < . . . , y 0 = > 1 > . . . con

Jmi Jmi+1
i = , i 1
mi+1 mi

tal que para cada (i , i1 )


m()
= mi .

Un peque
no cambio en no debera determinar un cambio marcado en la
eleccion del n
umero de componentes. La estabilidad de la escogencia del n
umero de
componentes respecto a la eleccion de , nos sugiere retener u
nicamente los intervalos
(i , i1 ) de longitudes mas grandes. Proponemos el siguiente procedimiento para
calcular el n
umero de componentes de la mezcla:

(m) y Jm .
1. para m = 1, . . . , mmax , calcular

2. calcular la sucesion (i )i=1,...,mmax y las longitudes (li ) de los intervalos (i , i1 ).

3. guardar los valores mas grandes de mi tales que li >> lj , para j > i.

Este procedimiento no calcula un u


nico n
umero de componentes. Si dos n
umeros
distintos de componentes mi y mj satisfacen el paso 3 del procedimiento anterior,
remover una de ellas sin ning
un criterio podra ser arbitrario.

Una manera natural de seleccionar el n


umero optimo de componentes esta
relacionada con el criterio antes mencionado, es decir, examinamos como decrece
Jm con respecto a m y paramos cuando Jm cese de decrecer significativamente. Si
representamos los puntos (m, Jm ), 1 m mmax , entonces como consecuencia de la
proposicion tenemos que i es la pendiente entre los puntos (mi , Jmi ) y (mi+1 , Jmi+1 ).
Mirar donde Jm deja de decrecer es mirar una ruptura en la pendiente de esta curva.
La variacion de la pendiente es precisamente la longitud li del intervalo. A partir del
analisis anterior se infiere que el criterio y la proposicion son equivalentes. Este metodo
132

es una tecnica de seleccion de modelos con un criterio de estabilidad que reemplaza


el compromiso entre el sesgo y la varianza como el que emplean Birge y Massart en
[5, 2]. La Figura 4.2 presenta un ejemplo de este procedimiento de estimacion para la
estacion 19.

Figura 4.2: Procedimiento de estimacion del n


umero de componentes optimo en el
modelo para la estacion de calculo 19.

En la seccion 4.4 proponemos un metodo alternativo basado en la tecnica de


clasificacion automatica de datos.

4.4. M
etodo de clasificaci
on jer
arquica
La salida de un metodo de clasificacion jerarquica depende fuertemente tanto de
la eleccion de la distancia entre los individuos, como de la eleccion de la distancia
entre las clases. Las distancias usualmente definidas en la literatura (vease por
ejemplo Gordon [24]) no son apropiadas para el contexto de datos temporales como
los utilizados en este trabajo. El estudio del trafico de carretera nos conlleva a
133

tener en cuenta el aspecto temporal de nuestras curvas de velocidad. Por ejemplo,


consideremos tres curvas de velocidad simplificadas, X, Y y Z, obtenidas una de
la otra por traslacion. Esas tres curvas estan caracterizadas por una velocidad
constante de 90 km/h desde las 5 am hasta las 11 pm, excepto durante perodos
de dos horas, a partir de las 8 am, 11 am y 2 pm respectivamente, en los cuales la
velocidad se reduce a 30 km/h. Si consideramos la distancia euclidiana d se tiene que
d(X, Y ) = d(Y, Z) = d(X, Z) = 389. En este calculo no se evidencia la diferencia
en las horas de desaceleracion. Esto hace necesario que se defina una distancia de
clasificacion que de cuenta de este efecto de traslacion.

on 4.1 Sean x, y Rn y : Rn Rn R+ dada por


Definici

p
(x, y) = (x y)0 W (x y)

n|ij|
con W una matriz n n definida por Wij = n
, para todo i, j = 1, . . . , n.

Notese que es una distancia sobre Rn . Para el ejemplo precedente los resultados
de las distancias al utilizar son los siguientes: (X, Y ) = (Y, Z) = 637 y
(X, Z) = 967. De esta manera, permite diferenciar las curvas de velocidad
trasladadas. Por lo tanto elegimos como la distancia entre individuos y definimos
el ndice de distancia entre clases como la variacion maxima de la distancia entre
individuos. Esto es, sean A y B dos clases, tenemos que

D(A, B) = max (x, y).


xA,yB

Este criterio de variacion maxima nos lleva a obtener clases homogeneas, mirando
entre clases heterogeneas. La clasificacion jerarquica se realiza utilizando el algoritmo
aglomerativo de Johnson, el cual agrupa, en cada paso, las clases cercanas (ver Gordon
[24]).
134

4.4.1. Elecci
on del n
umero
optimo de clases

Una vez que la clasificacion jerarquica es realizada, se busca mirar que n


umero
de clases m es significativo para cada estacion de calculo Cs . Esto implica cortar el
arbol de clasificacion a una altura que depende de la precision de la descripcion de los
datos que uno quiere obtener (ver Milligan y Cooper [32]). En nuestro caso este nivel
se obtiene de los datos y se elige de forma que se minimice el error de prevision para
las observaciones. En esta parte enfocamos nuestro metodo de clasificacion como una
metodologa de aprendizaje estadstico. Para cada estacion de calculo dividimos las
observaciones en dos:

una muestra modelo, utilizada para estimar los patrones, con NM das completos
(80 % de los datos).

una muestra de aprendizaje, usada para estimar el n


umero optimo de patrones,
con NL das completos (20 % de los datos).

Por lo tanto prevemos los tiempos de viaje a partir de la muestra de aprendizaje


con m = 1, . . . , mmax donde mmax un entero fijo suficientemente grande, y entonces
elegimos el n
umero de clases que minimiza el error de prevision. El n
umero optimo
de clases m de una estacion de calculo, minimiza el error absoluto de prevision sobre
un perodo de dos horas. Por lo tanto

X 161 p+19
Nl X X

m = arg mn |Yn (p) fm,j(n,t) (p)|,
m=1,...,mmax
n=1 t=11 p=t

con
fm,j(n,t) = arg mn 0 ((Yn )t1 t1
)1 ),
1 , (fm,m
fm,m
,m=1,...,m

donde fm,1 , . . . , fm,m son los patrones obtenidos para m clases y fm,j(n,t) es el patron
mas cercano a Yn , entendiendo la nocion de cercano en terminos de la distancia 0
135

introducida en la seccion 4.6.

La Figura 4.3 muestra el error absoluto calculado para la estacion 19, con
m = 1, . . . , 20. Se observa que el error de prevision decrece cuando m crece, es decir,
existe un fenomeno de sobre ajuste cuando el n
umero de patrones crece despues de un
cierto valor. Por lo tanto es posible estimar un n
umero optimo de clases. Se destaca
que la mayora de las estaciones de calculo exhiben el mismo comportamiento.

Figura 4.3: Error absoluto de prevision para la estacion 19, con m patrones estandar,
m = 1, . . . , 20. El valor optimo es alcanzado en m = 11.

4.5. Patrones para el comportamiento del tr


afico
El n
umero de patrones o clases en ambos modelos depende de la estacion de calculo
que se este considerando. En este estudio, el n
umero de patrones esta comprendido
entre 5 y 15 para un 80 % de la estaciones de calculo.
136

Para el modelo de mezcla, usando el criterio presentado en la Seccion 4.3.2 en


y) no decrecen de forma significativa
la estacion de calculo 19, los valores de J(,
para valores mayores que m = 11. El comportamiento del negativo de la funcion
log-verosimilitud es presentado en la Figura 4.2. En la Figura 4.4 se presentan los
11 patrones de la estacion 19. Entonces para cada Cs , s = 1, . . . , S seleccionamos el
n
umero optimo de patrones usando este criterio de parada.

Figura 4.4: Patrones estandar para la estacion 19. La grafica superior utiliza el
modelo de clasificacion. La grafica inferior utiliza el modelo de mezcla. El eje vertical
representa la velocidad de los vehculos mientras que el horizontal el eje del tiempo.

Con respecto al modelo de clasificacion, el proceso de aprendizaje que se explico en


la Seccion 4.4 nos provee las clases representativas. Antes de dividir los datos en
m clases representativas, para cada estacion Cs extraemos los patrones estandar de
137

comportamiento f1 , . . . , fm dentro de clase, obteniendo as una curva representativa


del comportamiento de la velocidad en cada clase. La Figura 4.4, presenta los m = 11
patrones estandar obtenidos para la estacion 19.

Los dos metodos, para esta estacion en particular, seleccionan el mismo n


umero de
patrones. En general, el n
umero optimo de funciones representativas seleccionado por
el modelo de mezcla es ligeramente mas peque
no que el n
umero obtenido por el metodo
de clasificacion. En ambos modelos aparecen algunos comportamientos conocidos del
trafico; atascamientos en horas picos y fluidez del trafico en otras. Nunca se observa
una diferencia importante entre los dos modelos. La clasificacion jerarquica origina
rasgos que vienen a ser eventos raros o comportamientos atpicos. Para la estacion
19 existen curvas con profundos atascamientos del trafico como se puede observar en
grafica superior de la Figura 4.4. En efecto, el algoritmo EM al promediar las curvas
las suaviza hasta tal punto que no toma en cuenta los eventos raros, los cuales juegan
un papel importante en la descripcion del trafico de carretera.

4.6. Previsi
on de los tiempos de viaje

En las dos secciones previas construimos, utilizando dos metodos diferentes para
(i)
cada estacion observada Cs , s = 1, . . . , S, los patrones estandar fj F i, i
{1, 2}, j = 1, . . . , mi . Los conjuntos F 1 y F 2 representan los patrones diarios de
la curva de velocidad de los vehculos, respectivamente para el modelo de mezcla
(i = 1) y para el metodo de clasificacion emprica (i = 2). La idea que sigue consiste
en usar los patrones para prever los tiempos de viaje de un usuario cualquiera, en
un trayecto seleccionado en el tiempo H + h, con h (en minutos) en el conjunto
{18, 30, 48, 60, 78, 90, 108}.
138

t
0 +49
Denotamos por Jn0 la observacion del da y sea t0 tal que H 10
, t010
+50
.
Realizamos la prevision estimando, a partir de las observaciones para todas las
estaciones del itinerario, las velocidades media f s (t), s S, t t0 , donde S es el
conjunto de todas las estaciones de calculo que se encuentran en el itinerario. Una
vez obtenidas estas velocidades, la estimacion de los tiempos de viaje es inmediata.
El procedimiento consiste en comparar los datos entrantes Yns0 (t), s S, t < t0 ,
del da Jn0 , con todas las curvas de velocidad de F 1 o F 2 y elegimos la mas cercana,
es decir, para cada i {1, 2} y para cada g F i definimos

g1t0 1 = (g(1), . . . , g(t0 1))t

Y1t0 1 = (Yns0 (1), . . . , Yns0 (t0 1))t .

Sea 0 una restriccion modificada de la distancia al subconjunto Rt0 1 Rt0 1 ,


definida mediante
t0 1 t0 1
P Y 1 , P (gj )
0 Y1t0 1 , (gj )t10 1 =
1
,
j

donde j , j = 1, . . . , m, es el tama
no de la clase j y P es una matriz (t0 1) (t0 1),
definida por
1
si i = j y i t0 10,
t0 i
Pij = .
0 en otro caso
En consecuencia, despues de elegir uno de los dos modelos F 1 o F 2 , el estimador
f(t) para cada t t0 esta dado por

0
f = arg mn g1t0 1 , Y1t0 1 .
gF

Por razones de simplicidad en la notacion, hemos omitido los ndices de la estacion y


el da. Para la muestra de aprendizaje utilizamos lo antes expuesto en la prevision de
los tiempos de viaje del tramo A4W.
139

Comparamos los resultados con los estimados obtenidos por el modelo


ltima velocidad observada Yns0 (t0 1).
estacionario, el cual queda definido por la u
A este lo llamaremos modelo simple. Este modelo juega un papel esencial; por un
lado es la u
nica referencia que tenemos y por otro lado, la prevision resultante con
este modelo es un indicador directo del comportamiento del trafico para el tramo de
camino considerado. En efecto, buenas previsiones con el modelo estacionario dicen
que el trafico no cambia muy rapido, mientras que malas previsiones muestran que el
itinerario esta a menudo congestionado debido a numerosos cambios en la velocidad.

Los cuadros 4.1 y 4.2 presentan los errores mnimo y maximo, respectivamente,
de los tiempos de viaje, los cuales fueron obtenidos con aproximadamente 3000
simulaciones de la muestra de aprendizaje para cada uno de los tres modelos. El
error, en minutos, es definido como
tiempo de viaje real tiempo de viaje estimado
error = .
tiempo de viaje real

Horizonte Clasificacion Mezcla Estacionario


18 min. -0.62 -1.13 -2.21
30 min. -0.67 -0.79 -2.53
48 min. -0.79 -1.02 -3.37
60 min. -0.88 -1.10 -3.82
78 min. -0.96 -1.13 -5.26
90 min. -0.95 -1.14 -6.17
108 min. -1.18 -1.13 -7.30

Cuadro 4.1: Evolucion del error mnimo para diferentes valores del horizonte de
prediccion.
140

Horizonte Clasificacion Mezcla Estacionario


18 min. 0.67 0.71 0.67
30 min. 0.67 0.72 0.68
48 min. 0.66 0.71 0.73
60 min. 0.66 0.72 0.77
78 min. 0.66 0.71 0.83
90 min. 0.67 0.71 0.90
108 min. 0.68 0.71 0.95

Cuadro 4.2: Evolucion del error maximo para diferentes valores del horizonte de
prediccion.

La Figura 4.5 muestra la evolucion de los errores de prevision de


los tiempos (media y desviacion estandar) en un rango de dos horas.

Figura 4.5: Evolucion de la errores de prevision para los tiempos de viaje (media y
desviacion estandar)
141

Observamos en la Figura 4.6 un ejemplo de la evolucion del tiempo de viaje


predicho para la muestra de aprendizaje del da 4 de abril de 2001, para h = 60.

Figura 4.6: Prevision de los tiempos de viaje en la muestra de aprendizaje para el 4


de abril de 2001.

Mas precisamente, para cada da de la muestra de aprendizaje y un itinerario fijo,


se calculan los tiempos de viaje reales y predichos para un viaje que comienza en cada
uno de los perodos.

Estos resultados permiten una comparacion entre los tres procedimientos.


Observamos que tanto el modelo de mezcla como el de clasificacion mejoran los
estimados obtenidos con el modelo estacionario, teniendo peque
nas varianzas de
prediccion (Figura 4.5) y un rango de errores peque
no (Cuadro 4.1 y Cuadro 4.2).
142

Las mejoras en las estimaciones y las diferencias marcadas que encontramos en el


comportamiento del trafico, dependen del tramo de carretera que estudiamos. Esto
se explica porque el modelo estacionario encuentra un patron de comportamiento
lejano de las caractersticas reales cuando existen muchos cambios en las velocidades.
Mas a
un, el n
umero de patrones es una medida de la complejidad de la carretera,
establecido por su variabilidad, con respecto a cambios da por da.

Afirmamos que ambos modelos subestiman los tiempos de viajes reales. Para
aplicaciones practicas este sesgo debe ser considerado en cuenta.

Cuando comparamos el desempe


no de nuestros estimadores, vemos que el
estimador por maxima verosimilitud tiene un rendimiento ligeramente menor que
el estimador tipo clasificacion. En efecto, el error medio con el modelo de clasificacion
es cercano a 0, y la varianza es peque
na (Figura 4.5). Mas a
un, el rango de error es
peque
no para el modelo de clasificacion (Cuadro 1.1 y Cuadro 1.2). Las razones para
estas diferencias son las siguientes:

la distancia seleccionada para evaluar el desempe


no del estimador es la misma
utilizada para clasificar los datos en la metodologa descrita en la Seccion 4.4.
Ademas la seleccion optima de los modelos se realiza mediante un procedimiento
de aprendizaje, por minimizacion de la distancia de prediccion sobre una
muestra de aprendizaje. De aqu que esta eleccion induzca un sesgo en favor
del metodo de clasificacion.

los datos atpicos o eventos raros tambien juegan un papel importante en


este estudio. Por una parte, el modelo de mezcla es muy susceptible a los
datos atpicos, ya que el estimador de maxima verosimilitud utiliza todos
los datos con los mismos pesos para construir un promedio representativo,
143

mientras que el metodo de clasificacion tiende a aislar los datos atpicos en


clases especiales. Es por ello que los datos atpicos producen un efecto fuerte de
empa
namiento para el modelo de mezcla, al agregar un termino de desviacion a
los estimados. Por otra parte, los eventos raros son mas faciles de capturar por
el metodo de clasificacion. En efecto, vimos en la seccion 4.5 que los patrones
estandar dados por el metodo de clasificacion poseen mas eventos raros. Se
observa en la Figura 4.6 que el fenomeno de congestionamiento es ligeramente
mejor detectado: los tiempos de viaje con el trafico atascado en las ma
nanas
resultan mejor estimados. Contrariamente nuestro estudio teorico por seleccion
de modelos, encuentra el n
umero optimo de modelos por minimizacion del error
de prediccion pero sin agregar un termino de penalizacion. En realidad, no
queremos descartar los eventos raros que representan un comportamiento real
del trafico de carreteras. En consecuencia, en la prediccion basada en el metodo
de clasificacion, podemos mantener en mente los eventos diferentes y dar una
adecuada respuesta cuando las observaciones realizadas no sigan un patron
tpico.

sin embargo, existen dos ventajas para usar el modelo de verosimilitud. La


primera de ellas se basa en el hecho de que el metodo es muy eficiente desde
el punto de vista computacional, en comparacion con el metodo de seleccion
de modelos. Mas a
un, para valores peque
nos en el n
umero de modelos, los
estimadores de maxima verosimilitud proveen una mejor descripcion de los
datos, aunque al crecer el n
umero de modelos para la verosimilitud no se
mejora la estimacion del error. En efecto, la seleccion adicional de parametros es
redundante, porque como mencionamos, el estimador de maxima verosimilitud
no pone carga en los eventos raros, mientras que el predictor tipo clasificacion
asla tales rasgos en clases sencillas.
144

4.7. Conclusiones

Nuestros resultados son mas favorables que los resultados dados por los metodos
de prevision globales usuales (por ejemplo Sytadin, http://www.sytadin.tm.fr, o
Bison Fute), los cuales se basan u
nicamente en modelos aproximados. Los modelos
que proponemos son interesantes: El modelo de mezcla por su simplicidad y buen
desempe
no, y el modelo de clasificacion por ser mas preciso, pero al mismo tiempo,
mas complicado desde un punto de vista computacional.

Es posible mejorar el desempe


no de los metodos estudiados, por ejemplo, en la
eleccion de los patrones que pertenecen a una clase. En cada clase las funciones son
similares, aunque ellas pueden ser traslaciones unas de otras. Como una consecuencia,
al elegir la mediana de todas las funciones como el representante de la clase,
frecuentemente ocasiona un efecto de sobre suavizamiento. Algunos metodos para
mantener la estructura del grupo de funciones, como los introducidos por Kneip y
Gasser [27, 26] o Ramsay y Dazell [33], son desarrollados por Gamboa, Loubes y
Maza [23] en el contexto de datos multidimensionales.

Se pueden ser realizar otras modificaciones en el modelaje del trafico. Es natural


tener en cuenta la dependencia de todas las estaciones de calculo, las cuales son
consideradas en este trabajo independientes. Una posible solucion es considerar
metodos en los que se utilice una conexion espacial entre las estaciones de calculo.

Finalmente, en este trabajo se considera separadamente la prediccion obtenida


por cada metodologa. Para mejorar el procedimiento se puede usar una combinacion
lineal de los predictores (agregacion) y evaluar los resultados.
145

Agradecimiento Estamos agradecidos a J-M. Azais y F. Gamboa por sus


discusiones. Agradecemos a los arbitros por sus u
tiles sugerencias.
146
Bibliografa

[1] Y. Baraud. Model selection for regression on a fixed design. Probab. Theory
Related Fields, 117(4):467493, 2000.

[2] A. Barron, L. Birge y P. Massart. Risk bounds for model selection via
penalization. Probab. Theory Related Fields, 113(3):301413, 1999.

[3] K. E. Basford y G. J. McLachlan. Estimation of allocation rates in a cluster


analysis context. J. Amer. Statist. Assoc., 80(390):286293, 1985.

[4] V. Belomestny, Jentsch y M. Schreckenberg. Completion and continuation of


nonlinear traffic time series: a probabilistic approach. J.Phys.A:Math. Gen., 36,
1136911383, 2003.

[5] L. Birge y P. Massart. Minimum contrast estimators on sieves: exponential


bounds and rates of convergence. Bernoulli, 4(3):329375, 1998.

[6] L. Breiman, J. Friedman, R. Olshen y Charles J. Stone. Classification and


regression trees. Wadsworth Statistics/Probability Series. Wadsworth Advanced
Books and Software, Belmont, CA, 1984.

[7] M Broniatowski, G. Celeux y J. Diebolt. Reconnaissance de melanges de densites


par un algorithme dapprentissage probabiliste. Data Analysis and Informatics.
North Holland, 1983.

147
148

[8] G. Celeux. Classification et mod`eles. Rev. Statist. Appl., 36(4):4357, 1988.

[9] G. Celeux, D. Chauveau y G. Diebol. On stochastic version of the EM algorithm.


Rapport de recherche INRIA, 2514, 1995.

[10] G. Celeux y J. Diebolt. A stochastic approximation type EM algorithm for the


mixture problems. Stochastics Reports, 41:119134, 1992.

[11] J. Chen. Optimal rate of convergence for finite mixture models. Ann. Statist.,
23(1):221233, 1995.

[12] R. C. H. Cheng y W. B. Liu. The consistency of estimators in finite mixture


models. Scand. J. Statist., 28(4):603616, 2001.

[13] S. Cohen. Ingenierie du trafic routier. Presses de lEcole Nationale des Ponts et
Chaussees, Institut National de Recherche sur les Transports et leur Securite -
INRETS, France, 1990.

[14] F. Couton, M. Danech-Pajouh y M. Broniatowski. Application des melanges de


lois de probabilite `a la reconnaissance de regimes de trafic routier. Recherche
Transports Securite, 53:4958, 1996.

[15] M. Danech-Pajouh y M. Aron. Athena: Prevision `a court terme du trafic sur


une section de route. Technical report, Institut National de Recherche sur les
Transports et leur Securite - INRETS, 1994.

[16] F. Dazy y J.-F. Le Barzic. Lanalyse de donnees evolutives. Editions Technip,


1996.

[17] B. Delyon, M. Lavielle y E. Moulines. Convergence of a stochastic approximation


version of the EM algorithm. Ann. Statist., 27(1):94128, 1999.
149

[18] A.P. Dempster, N.M. Laird y D.B. Rubin. Maximum likelihood from incomplete
data via the em algorithm. J. Roy. Statist. Soc. Ser. B, 39(1):138, 1977. With
discussion.

[19] T. Dochy. Arbres de regression et resaux de neurones applique `a la prevision de


trafic routier. Tesis Doctoral, Universite Paris Dauphine, 1995.

[20] F. Ferraty, V. Nu
nez y P. Vieu Regresi
on No parametrica: desde la dimension
uno hasta la dimension infinita Universidad del pas Vasco, 2001.

[21] F. Gamboa y J-M. Loubes. Wavelet estimation of multifractal function.


Bernoulli, 11(2), 221-246, 2005.

[22] F. Gamboa y J-M. Loubes. Estimation of parameters of a multifractal process.


Test, En prensa, 2007.

[23] F. Gamboa, J-M. Loubes y E. Maza. Structural estimation for high dimensional
data. Enviado a Ann. Statist.

[24] A.D. Gordon. Classification 2nd Edition. CHAPMAN & HALL/CRC,


University of St. Andrews, UK, 1999.

[25] M. Jambu. Classification automatique pour lanalyse des donnees. I. Dunod,


Paris, 1978. Methodes et algorithmes. [Methods and algorithms], Dunod
Decision.

[26] A. Kneip. Nonparametric estimation of common regressors for similar curve


data. Ann. Statist., 22(3):13861427, 1994.

[27] A. Kneip y T. Gasser. Statistical tools to analyze data representing a sample of


curves. Ann. Statist., 20(3):12661305, 1992.
150

[28] M. Lavielle. Using of penalized contrasts for change-point problem. Signal


processing,, 85(8), 1501-1510, 2005.

[29] B. Lindsay y M. Lesperance. A review of semiparametric mixture models. J.


Statist. Plann. Inference, 47(1-2):2939, 1995. Statistical modelling (Leuven,
1993).

[30] G. J. McLachlan. On the bias and variance of some proportion estimators.


Comm. Statist. BSimulation Comput., 11(6):715726, 1982.

[31] D. L. McLeish y C. G. Small. Likelihood methods for the discrimination problem.


Biometrika, 73(2):397403, 1986.

[32] G. W. Milligan y M. C. Cooper. An examination of procedures for determining


the number of cluster in a data set. Psychometrika, 50:397403, 1985.

[33] J.O. Ramsay y C.J. Dalzell. Some tools for functional data analysis. J. Roy.
Statist. Soc. Ser. B, 53(3):539572, 1991. With discussion and a reply by the
authors.

[34] H.J.M. Van Grol, M. Danech-Pajouh, S. Manfredi y J. Whittaker. Daccord:


on-line travel time prediction. In 8th WCTR 1998, volume 2, 1998.

[35] R. Vojak. Analyse et modelisation multifractales de signaux complexes.


applications au trafic routier. Tesis Doctoral, Universite Paris Dauphine, 1996.
Conclusiones generales

En este trabajo se demostro la consistencia fuerte de un estimador penalizado del


n
umero de estados en un proceso autorregresivo con regimen de Markov, cuando las
funciones de regresion son funciones lineales y el ruido es gaussiano. Se demostro una
desigualdad de tipo mezcla la cual permite normalizar la verosimilitud y probar, sin
suponer cotas a priori del n
umero de estados de la cadena de Markov oculta, que el
estimador es consistente. Esto constituye uno de los principales aportes del trabajo.

La demostracion de este hecho y el algoritmo SAEM nos permitieron estimar,


para algunas observaciones simuladas, el n
umero de estados de la cadena de Markov
oculta utilizando ciertas funciones de penalizacion.

Como una alternativa a la estimacion por maxima verosimilitud tambien se


considero la estimacion en un contexto Bayesiano. Suponiendo que las funciones de
regresion eran polinomios se realizo la inferencia de todos los parametros de interes.

Por otra parte extendimos la estimacion para este tipo de procesos a un


cuadro semiparametrico utilizando una funcion de contraste de mnimos cuadrados
condicional modificado. Se demostro la consistencia en probabilidad y se calculo la
velocidad de convergencia del estimador. Este resultado constituye otro aporte
fundamental de este trabajo.

151
152

Finalmente aplicamos dos metodologas para la prevision del trafico de carretera.


Caracterizamos el trafico por medio de las velocidades promedio de los vehculos. La
primera metodologa que utilizamos propone un modelo de mezcla de distribuciones
de probabilidad para el estudio de las curvas de velocidad. La segunda se baso en un
metodo de clasificacion emprica. Los modelos que propusimos son interesantes: El
modelo de mezcla por su simplicidad y buen desempe
no, y el modelo de clasificacion
por ser mas preciso, pero al mismo tiempo, mas complicado desde un punto de vista
computacional.
Ap
endice A

Existencia de la densidad del


proceso Y

En lo que sigue demostramos la existencia de la densidad conjunta de las variables


Y0 , Y1 , . . . , Yn , X1 . . . , Xn , para un proceso autorregresivo con regimen de Markov,
definido por
Yn = fXn (Yn1 ) + en .

Suponemos que e1 y Y0 tienen densidad y g respectivamente y que las v.a. {en },


{Xn } y Y0 son conjuntamente independientes.

T
Definimos el cambio de variables (e1 , . . . , en , X1n , Y0 ) (Y1 , . . . , Yn , X1n , Y0 ) por
ek = Yk fXk , para k=1,. . . ,n. As por el teorema del cambio de variables y utilizando
la independencia conjunta se tiene

E(h(Y1 , . . . , Yn , X1n , Y0 ))
Z X
= h(T 1 (e1 , . . . , en , in1 , u))L(e1 , . . . , en )L(in1 )g(u)den1 du
in
1
Z X n
Y n
Y
= h(T 1 (e1 , . . . , en , in1 , u)) (Yk fik (Yk1 )) aik1 ik i1 g(u)den1 du.
in
1 k=1 k=2

153
154

Por lo tanto la v.a (Y1 , . . . , Yn , X1n , Y0 ) admiten densidad conjunta con respecto a
la medida de Lebesgue producto y la medida de contar,

(yn fxn (yn1 )) (y1 fx1 (y0 ))axn1 xn ax1 x2 x1 g(y0 ).

Entonces cualquier otra distribucion marginal de interes se obtiene por integracion


de la densidad conjunta anterior.

You might also like