Métodos de Regresión No Paramétricos para El Análisis de Datos Longitudinales

Mster Universitario en Estadstica Aplicada - Curso 2010/2011 Universidad de Granada
MTODOS DE REGRESIN NO PARAMTRICOS PARA EL ANLISIS DE DATOS LONGITUDINALES

Trabajo Fin de Mster Lnea de Investigacin: Estimacin no paramtrica de curvas en R
Realizado por: Jos Antonio Linero Morante D.N.I.: 74912127-T Tutora: Dra. D. Mara Dolores Martnez Miranda Fecha: Diciembre 2011
ndice de contenidos
Captulo 1: Introduccin 1.1. Motivacin de ejemplos de datos longitudinales 1.1.1. Datos de progesterona 1.2. Modelizacin de efectos mixtos: de paramtrico a no paramtrico 1.2.1. Modelos paramtricos de efectos mixtos 1.2.2. Regresin no paramtrica y suavizacin 1.2.3. Modelos no paramtricos de efectos mixtos Captulo 2: Modelos paramtricos de efectos mixtos 2.1. Introduccin 2.2. Modelo lineal de efectos mixtos 2.2.1. Especificacin del modelo 2.2.2. Estimacin de los efectos fijos y aleatorios 2.2.3. Interpretacin bayesiana 2.2.4. Estimacin de los componentes de varianza 2.2.5. Los algoritmos EM Captulo 3: Suavizadores en regresin no paramtrica 3.1. Introduccin 3.2. Suavizador del ncleo polinomial local 3.2.1. Grado general del suavizador LPK 3.2.2. Suavizadores lineal y constante local 3.2.3. Funcin del ncleo 3.2.4. Seleccin del ancho de banda 3.2.5. Un ejemplo ilustrativo Captulo 4: Mtodos localmente polinomiales 4.1. Introduccin 4.2. Modelo no paramtrico para la media poblacional 4.2.1. Mtodo del ncleo polinomial local 4.2.2. Mtodo del ncleo polinomial local GEE 4.3. Modelo no paramtrico de efectos mixtos 4.4. Modelado de efectos mixtos polinomial local 4.4.1. Aproximacin polinomial local 4.4.2. Estimacin por mxima verosimilitud local 1 1 2 6 6 7 10 12 12 12 12 15 16 18 20 24 24 27 27 29 31 32 34 35 35 36 37 40 44 45 45 46
4.4.3. Estimacin a partir de la verosimilitud local marginal 4.4.4. Estimacin a partir de la verosimilitud local conjunta 4.4.5. Estimacin de los componentes 4.5. Eleccin de buenos anchos de banda 4.5.1. Validacin cruzada dejar-un-sujeto-fuera 4.5.2. Validacin cruzada dejar-un-punto-fuera 4.6. Aplicacin a los datos de progesterona Apndice: Cdigo en R generado para las aplicaciones Referencias
48 50 53 54 55 56 56 60 74
Trabajo Fin de Mster en Estadstica Aplicada 2010/2011
Captulo 1: Introduccin Los datos longitudinales tales como mediciones repetidas tomadas en cada uno de una serie de sujetos a travs del tiempo surgen con frecuencia de muchos estudios biomdicos y clnicos as como de otras reas cientficas. Estudios actualizados sobre anlisis de datos longitudinales se pueden encontrar en Demidenko (2004) y Diggle, Heagerty, Liang y Zeger (2002), entre otros. Los modelos paramtricos de efectos mixtos son una herramienta poderosa para modelar la relacin entre una variable respuesta y las covariables en estudios longitudinales. Los modelos lineales de efectos mixtos (linear mixed-effects (LME)) y los modelos no lineales de efectos mixtos (nonlinear mixed-effects (NLME)) son los dos ejemplos ms populares. Varios libros se han publicado para resumir los logros en estas reas (Jones 1993, Davidian y Giltinan 1995, Vonesh y Chinchilli 1996, Pinheiro y Bates 2000, Verbeke y Molenberghs 2000, Diggle, Heagerty, Liang y Zeger 2002, y Demidenko 2004, entre otros). Sin embargo, para muchas aplicaciones, los modelos paramtricos pueden ser demasiado restrictivos o limitados, y a veces no estn disponibles al menos para el anlisis de los datos preliminares. Para superar esta dificultad, las tcnicas de regresin no paramtricas se han desarrollado para el anlisis de datos longitudinales en los ltimos aos. Con este trabajo se tiene la intencin de estudiar los mtodos existentes e introducir tcnicas de reciente desarrollo que combinan ideas de modelado de efectos mixtos y tcnicas de regresin no paramtricas para el anlisis de datos longitudinales. 1.1. Motivacin de ejemplos de datos longitudinales En los estudios longitudinales, los datos de los individuos se coleccionan varias veces a travs del tiempo mientras que en los estudios de corte transversal slo se obtiene un dato puntual para cada sujeto individual (es decir, un solo punto en el tiempo por sujeto). Por lo tanto, la diferencia clave entre los datos longitudinales y los datos de corte transversal es que los datos longitudinales estn generalmente correlacionados en un sujeto y son independientes entre sujetos, mientras que los datos de corte transversal a menudo son independientes. Un desafo para el anlisis de datos longitudinales es cmo dar cuenta de las correlaciones intra-sujeto. Los modelos LME y NLME son herramientas poderosas para el manejo de un problema cuando adecuados modelos paramtricos estn disponibles para relacionar una variable de respuesta longitudinal a sus covariables. Muchos 1
Trabajo Fin de Mster en Estadstica Aplicada 2010/2011 ejemplos de datos de la vida real han sido presentados en la literatura que emplea tcnicas de modelado LME y NLME (Jones 1993, Davidian y Giltinan 1995, Vonesh y Chinchilli 1996, Pinheiro y Bates 2000, Verbeke y Molenberghs 2000, Diggle, Heagerty, Liang y Zeger 2002, y Demidenko 2004, entre otros). Sin embargo, para muchos otros ejemplos de datos prcticos, adecuados modelos paramtricos pueden no existir o son difciles de encontrar. Ejemplos de estudios biomdicos y clnicos se presentarn y se utilizarn en este trabajo a modo de ilustracin. En estos ejemplos, los modelos LME y NLME ya no son aplicables, y tcnicas de modelado de efectos mixtos no paramtricos (nonparametric mixed-effects (NPME)), que son los temas centrales de este trabajo, son una opcin natural al menos en la fase inicial de anlisis exploratorios. Aunque los ejemplos de datos longitudinales en este trabajo son de estudios biomdicos y clnicos, las metodologas propuestas en este trabajo son tambin aplicables a datos de panel o datos agrupados de otros campos cientficos. Todos los conjuntos de datos y los correspondientes anlisis de cdigos a travs del ordenador en este trabajo son de libre acceso en la siguiente pgina web: (Adems, debemos notar que dicho cdigo est escrito mediante el programa Matlab y nosotros en este trabajo escribimos el cdigo mediante R, nuestro cdigo escrito en R se puede ver en el apndice titulado Cdigo en R generado para las aplicaciones que se encuentra al final del trabajo.) http://www.urmc.rochester.edu/smd/biostat/people/faculty/WuSite/publications.htm. 1.1.1. Datos de progesterona Los datos de progesterona fueron recogidos en un estudio de la prdida temprana del embarazo realizado por el Instituto de Toxicologa y Salud Ambiental en la Seccin de Epidemiologa Reproductiva del Departamento de Servicios de Salud de California, Berkeley, EE.UU. Las Figuras 1.1 y 1.2 muestran los niveles de progesterona en el metabolito urinario en el transcurso de los ciclos menstruales de las mujeres (das). Las observaciones procedan de pacientes con la funcin reproductiva sana inscritos en una clnica de inseminacin artificial donde los intentos de inseminacin fueron oportunos para cada ciclo menstrual. Los datos haban sido alineados por el da de la ovulacin (Da 0), determinado por la hormona luteinizante en suero, y truncado en cada extremo para presentar curvas de igual longitud. Las mediciones se registran una vez al da por cada ciclo de 8 das antes del da de la ovulacin y hasta 15 das despus de la ovulacin. Una mujer puede tener uno o varios ciclos. La duracin del perodo de observacin es de 24 das. Algunas mediciones de algunos sujetos estaban perdidas por 2
Trabajo Fin de Mster en Estadstica Aplicada 2010/2011 diversas razones. El conjunto de datos consiste en dos grupos: las curvas de progesterona conceptiva (22 ciclos menstruales) y las curvas de progesterona no conceptiva (69 ciclos menstruales). Para ms detalles sobre este conjunto de datos, ver Yen y Jaffe (1991), Brumback y Rice (1998), y Fan y Zhang (2000), entre otros. La Figura 1.1 (a) presenta un diagrama espagueti de las 22 curvas en bruto de progesterona conceptiva. Los puntos indican el nivel de progesterona observados en cada ciclo, y estn conectados con segmentos de lnea recta. El problema de los valores perdidos no es muy serio aqu ya que cada curva de ciclo tiene por lo menos 17 de las 24 mediciones. En general, las curvas en bruto presentan un patrn similar: antes del da de la ovulacin (Da 0), las curvas en bruto son planas, pero despus del da de la ovulacin, por lo general se mueven hacia arriba. Sin embargo, es fcil ver que en una curva de ciclo, las mediciones varan en torno a alguna curva subyacente que parece ser suave, y para ciclos diferentes, las curvas suaves subyacentes son diferentes unas de otras. La Figura 1.1 (b) presenta las medias punto a punto (curva de color negro con puntos en la traza) con banda de desviacin estndar (standard deviation (SD)) punto a punto del 95% (curvas de color rojo con puntos en la traza). Fueron obtenidos de una manera sencilla: en cada punto de tiempo distinto , la media y la desviacin estndar se calculan utilizando los datos de corte transversal en . Se puede observar que la curva media punto a punto es bastante suave, aunque no es difcil descubrir que todava hay algo de ruido aparecido en la curva media punto a punto.
Figura 1.1 (a) Grupo conceptivo
log (prog)
-4
-2
-5
0 dias
10
15
Figura 1.1 (b) Grupo conceptivo
log (prog)
-2
-1
-5
5 dias
10
15
La Figura 1.2 (a) presenta un diagrama espagueti de las 69 curvas en bruto de progesterona no conceptiva. Comparada con las curvas de progesterona conceptiva, estas curvas se comportan muy similares antes del da de la ovulacin, pero por lo general muestran una tendencia diferente despus del da de la ovulacin. Es fcil ver que, al igual que en las curvas de progesterona conceptiva, los ciclos individuales subyacentes de las curvas de progesterona no conceptiva parecen ser suaves, y tambin lo es su curva media subyacente. Una estimacin ingenua de la curva media subyacente es la curva media punto a punto, que se muestra como curva de color negro con puntos en la traza en la Figura 1.2 (b). La banda del 95% SD punto a punto (curvas de color rojo con puntos en la traza) proporciona una estimacin aproximada de la exactitud de la estimacin ingenua.
Figura 1.2 (a) Grupo no conceptivo
log (prog)
-4
-2
-5
0 dias
10
15
Figura 1.2 (b) Grupo no conceptivo
log (prog)
-2
-1
-5
5 dias
10
15
Los datos de progesterona se han utilizado para ilustraciones de los mtodos de regresin no paramtricos por varios autores. Por ejemplo, Fan y Zhang (2000) los utiliz para ilustrar su mtodo de dos pasos para estimar la funcin media subyacente de los datos longitudinales o de los datos funcionales, Brumback y Rice (1998) los utiliz para ilustrar una tcnica de modelado de efectos mixtos con alisamiento spline para estimar ambas funciones media e individual, mientras que Wu y Zhang (2002a) los utiliz para ilustrar un enfoque de modelado de efectos mixtos polinomial local. 5
Trabajo Fin de Mster en Estadstica Aplicada 2010/2011 1.2. Modelizacin de efectos mixtos: de paramtrico a no paramtrico 1.2.1. Modelos paramtricos de efectos mixtos Para la modelizacin de datos longitudinales, los modelos paramtricos de efectos mixtos, tales como modelos lineales y no lineales de efectos mixtos, son una herramienta natural. Los modelos lineales o no lineales de efectos mixtos se pueden especificar como modelos lineales y no lineales jerrquicos, desde una perspectiva bayesiana. Los modelos lineales de efectos mixtos (linear mixed-effects (LME)) se utilizan cuando la relacin entre una variable respuesta longitudinal y sus covariables se puede expresar a travs de un modelo lineal. El modelo LME introducido por Harville (1976, 1977), y Laird y Ware (1982) en general se puede escribir como
donde
son, respectivamente, los vectores de respuestas y los errores de medicin y son, respectivamente, los vectores de efectos fijos y
para el -simo sujeto,
(parmetros de la poblacin) y efectos aleatorios (parmetros individuales), y
son las matrices de diseo asociadas a los efectos fijos y a los efectos aleatorios. Es fcil notar que la media y la matriz de covarianza de est dada por
Los modelos no lineales de efectos mixtos (nonlinear mixed-effects (NLME)) se utilizan cuando la relacin entre una variable respuesta longitudinal y sus covariables se puede expresar a travs de un modelo no lineal, el cual es conocido a excepcin de algunos parmetros. Un modelo no lineal jerrquico general o modelo NLME se puede escribir como (Davidian y Giltinan 1995, Vonesh y Chinchilli 1996):
donde una matriz de diseo y 6
con
siendo una funcin conocida,
un parmetro especifico de sujeto para el
Trabajo Fin de Mster en Estadstica Aplicada 2010/2011 -simo sujeto. En el anterior modelo NLME, la matrices de diseo y , el vector de efectos fijos es una funcin conocida de las y el vector de efectos aleatorios
. Como ejemplo, un modelo lineal simple para
puede escribirse como no puede ser
. La media marginal y la varianza-covarianza de
dada para un modelo NLME general. Se pueden aproximar utilizando tcnicas de linealizacin (Sheiner, Rosenberg y Melmon 1972, Sheiner y Beal 1980, y Lindstrom y Bates 1990, entre otros). Definiciones ms detalladas de los modelos LME y NLME se darn en el Captulo 2. Ya sea en un modelo LME o en un modelo NLME, las variaciones entresujeto e intra-sujeto se cuantifican separadamente por los componentes de varianza y
. En un estudio longitudinal, los datos de sujetos diferentes se suponen por lo general que son independientes, pero los datos del mismo sujeto pueden estar correlacionados. Las correlaciones pueden ser causadas por la variacin entre-sujeto (heterogeneidad entre los sujetos) y/o la correlacin serial del error de medicin. Hacer caso omiso de la correlacin existente de los datos longitudinales puede llevar a conclusiones incorrectas e ineficientes. Por lo tanto, un requisito clave para el anlisis de datos longitudinales es un modelo apropiado y estimar con precisin los componentes de varianza as que las funciones media e individual subyacente deben ser modeladas de manera eficiente. Esta es la razn por la cual el anlisis de datos longitudinales es ms difcil tanto en el desarrollo terico y aplicacin prctica en comparacin con el anlisis de datos de corte transversal. La aplicacin con xito de un modelo LME o un modelo NLME al anlisis de datos longitudinales depende en gran medida de la suposicin (hiptesis) de un modelo lineal o no lineal adecuado para la relacin entre la variable respuesta y las covariables. A veces esta hiptesis puede ser no vlida para un conjunto de datos longitudinales dado. En este caso, la relacin entre la variable respuesta y las covariables tiene que ser modelada no paramtricamente. Por lo tanto, tenemos que extender los modelos paramtricos de efectos mixtos a los modelos no paramtricos de efectos mixtos. 1.2.2. Regresin no paramtrica y suavizacin Un modelo paramtrico de regresin requiere el supuesto de que la forma de la funcin de regresin subyacente se conoce a excepcin de los valores de un nmero finito de parmetros. La seleccin de un modelo paramtrico depende en gran medida 7
Trabajo Fin de Mster en Estadstica Aplicada 2010/2011 del problema en cuestin. A veces el modelo paramtrico se puede derivar de las teoras mecanicistas detrs del problema cientfico, mientras que en otras ocasiones el modelo se basa en la experiencia o es simplemente deducido de los grficos de dispersin de los datos. Un grave inconveniente del modelado paramtrico es que un modelo paramtrico puede ser demasiado restrictivo en algunas aplicaciones. Si un modelo paramtrico inadecuado es utilizado, es posible producir conclusiones errneas a partir del anlisis de regresin. En otras situaciones, un modelo paramtrico no puede estar disponible para su uso. Para superar las dificultades causadas por el supuesto restrictivo de una forma paramtrica de la funcin de regresin, se puede quitar la restriccin de que la funcin de regresin pertenece a una familia paramtrica. Este enfoque conduce a la llamada regresin no paramtrica. Existen muchos mtodos de regresin no paramtrica y suavizacin. Los mtodos ms populares incluyen suavizacin del ncleo, ajuste polinomial local, regresin (polinomial) splines, suavizacin splines, y penalizado splines. Algunos otros enfoques, tales como grfico de dispersin localmente ponderado suavizado (locally weighted scatter plot smoothing (LOWESS)), mtodos basados en wavelet y otros enfoques basados en series ortogonales tambin son de uso frecuente en la prctica. La idea bsica de estos enfoques no paramtricos es dejar que los datos determinen la forma ms adecuada de las funciones. Hay uno o dos llamados parmetros de suavizacin en cada uno de estos mtodos para controlar la complejidad del modelo y la compensacin entre el sesgo y la varianza del estimador. Por ejemplo, el ancho de banda en la suavizacin del ncleo local determina la suavidad de la funcin de , el modelo , la
regresin y la bondad de ajuste del modelo a los datos as que cuando
no paramtrico local se convierte en un modelo paramtrico global, y cuando
estimacin que resulta esencialmente interpola los puntos de datos. Por lo tanto, la frontera entre el modelado paramtrico y no paramtrico no puede estar bien definida si se toma el parmetro de suavizacin en cuenta. Los mtodos no paramtricos y paramtricos de regresin no deben considerarse como competidores, sino que se complementan entre s. En algunas situaciones, las tcnicas no paramtricas se pueden utilizar para validar o sugerir un modelo paramtrico. Una combinacin de ambos mtodos no paramtricos y paramtricos es ms poderoso que un nico mtodo en muchas aplicaciones prcticas.
Trabajo Fin de Mster en Estadstica Aplicada 2010/2011 Existe una vasta literatura sobre la suavizacin y los mtodos no paramtricos de regresin para datos de corte transversal. Buenos estudios sobre estos mtodos se pueden encontrar en los libros de de Boor (1978), Eubank (1988), Hrdle (1990), Wahba (1990), Green y Silverman (1994), Wand y Jones (1995), Fan y Gijbels (1996), y Ruppert, Wand y Carroll (2003), entre otros. Sin embargo, muy poco se ha hecho para desarrollar los mtodos no paramtricos de regresin para el anlisis de datos longitudinales hasta los ltimos aos. Mller (1988) fue el primero en abordar el anlisis de datos longitudinales con los mtodos no paramtricos de regresin. Sin embargo, en esta monografa anterior, el enfoque bsico es el de estimar la curva de cada individuo por separado, por lo tanto, la correlacin intra-sujeto de los datos longitudinales no se consider en el modelaje. Las metodologas de Mller (1988) son esencialmente similares a los mtodos no paramtricos de regresin para datos de corte transversal. En aos recientes, ha habido un auge en el desarrollo de mtodos no paramtricos de regresin para el anlisis de datos longitudinales que incluyen la utilizacin de mtodos de suavizacin tipo-ncleo (Hoover, Rice, Wu y Yang 1998, Wu y Chiang 2000, Wu, Chiang y Hoover 1998, Fan y Zhang 2000, Lin y Carroll 2001a, b, Wu y Zhang 2002a, Welsh, Lin y Carroll 2002, Cai, Li y Wu 2003, Wang 2003, Wang, Carroll y Lin 2005), mtodos de suavizacin spline (Brumback y Rice 1998, Wang 1998a, b, Zhang, Lin, Raz y Sowers 1998, Lin y Zhang 1999, Guo 2002a, b) y mtodos de regresin (polinomial) spline (Shi, Weiss y Taylor 1996, Rice y Wu 2001, Huang, Wu y Zhou 2002, Wu y Zhang 2002b, Liang, Wu y Carroll 2003). Hay una gran cantidad de literatura reciente en esta rea de investigacin, y es imposible tener una lista completa aqu. La importancia de los mtodos no paramtricos de modelado ha sido reconocido en el anlisis de datos longitudinales y para las aplicaciones prcticas, ya que los mtodos no paramtricos son flexibles y robustos frente a supuestos paramtricos. Dicha flexibilidad es til para la exploracin y anlisis de datos longitudinales, cuando apropiados modelos paramtricos no estn disponibles. En este trabajo, no tenemos la intencin de cubrir todas las tcnicas no paramtricas de regresin. En cambio, nos vamos a centrar en el mtodo de suavizacin polinomial local. Incorporamos este procedimiento no paramtrico de suavizacin en los modelos de efectos mixtos para proponer tcnicas no paramtricas de modelado de efectos mixtos para el anlisis de datos longitudinales. 9
Trabajo Fin de Mster en Estadstica Aplicada 2010/2011 1.2.3. Modelos no paramtricos de efectos mixtos Un conjunto de datos longitudinales tal como los datos de progesterona presentados en la Seccin 1.1, pueden expresarse en una forma comn como
donde
indican los puntos de tiempo de diseo (por ejemplo, das en los datos de la respuesta observada en (por ejemplo, log(prog) en los datos es el
progesterona), de progesterona),
el nmero de observaciones para el -simo sujeto, y
nmero de sujetos. Para tal conjunto de datos longitudinales, no asumimos un modelo paramtrico para la relacin entre la variable respuesta y la covariable en el tiempo. En cambio, justamente asumimos que las funciones individual y de media poblacional son funciones sin problemas en el tiempo , y dejamos que los propios datos determinen la forma de las funciones subyacentes. Siguiendo Wu y Zhang (2002a), introducimos un modelo no paramtrico de efectos mixtos (nonparametric mixed-effects (NPME)) como
donde
modela la funcin de media poblacional del conjunto de datos modela la salida de la -sima , llamada la -sima funcin
longitudinales, llamada funcin de efecto fijo, funcin individual de la funcin de media poblacional de efecto aleatorio, y
son los errores de medicin que no se pueden explicar por
las funciones de efecto fijo y las funciones de efecto aleatorio. En general se supone que proceso suave (smooth process (SP)) subyacente, funcin de covarianza blanco no correlacionado, ,y son realizaciones i.i.d. de un , con funcin de media 0 y
son realizaciones i.i.d. de un proceso de ruido
, con funcin de media 0 y funcin de covarianza y . Aqu cuantifica la variacin intra-
. Esto es, cuantifica la variacin entre-sujeto mientras que
sujeto. Cuando se habla de las inferencias basadas en la verosimilitud o la interpretacin Bayesiana, por simplicidad, generalmente asumimos que los procesos asociados son Gausianos, es decir, ,y .
En el marco de modelado NPME, necesitamos llevar a cabo las siguientes tareas: (1) estimar la funcin (media poblacional) de efecto fijo 10 ; (2) predecir las funciones
Trabajo Fin de Mster en Estadstica Aplicada 2010/2011 de efecto aleatorio y las funciones individuales ; y (4) estimar la funcin de
; (3) estimar la funcin de covarianza varianza de ruido La , . y
caracterizan las caractersticas de la poblacin de una y capturan las caractersticas y las funciones
respuesta longitudinal mientras que
individuales. Para simplificar, la funcin media poblacional individuales
se refieren a veces como las curvas de poblacin y las curvas
individuales, respectivamente. Debido a que en el modelo NPME (1.4), las cantidades de destino , , y son todas no paramtricas, la combinacin de
tcnicas de suavizacin y enfoques de modelado de efectos mixtos es necesario para la estimacin de estas cantidades desconocidas.
11
Trabajo Fin de Mster en Estadstica Aplicada 2010/2011 Captulo 2: Modelos paramtricos de efectos mixtos 2.1. Introduccin Los modelos paramtricos de efectos mixtos o los modelos de efectos aleatorios son herramientas poderosas para el anlisis de datos longitudinales. Los modelos lineales o no lineales de efectos mixtos (incluyendo los modelos lineales o no lineales generalizados de efectos mixtos) han sido ampliamente utilizados en muchos estudios longitudinales. Buenos estudios sobre estos enfoques se pueden encontrar en los libros de Searle, Casella y McCulloch (1992), Davidian y Giltinan (1995), Vonesh y Chinchilli (1996), Verbeke y Molenberghs (2000), Pinheiro y Bates (2000), Diggle, Heagerty, Liang y Zeger (2002), y Demidenko (2004), entre otros. En este captulo, vamos a revisar los modelos lineales de efectos mixtos y haremos hincapi en los mtodos que vamos a utilizar en captulos posteriores. El enfoque de este trabajo es presentar las ideas de modelado de efectos mixtos en suavizacin y regresin no paramtrica para el anlisis de datos longitudinales, es importante entender los conceptos bsicos y las propiedades clave de los modelos paramtricos de efectos mixtos. 2.2. Modelo lineal de efectos mixtos 2.2.1. Especificacin del modelo Harville (1976, 1977) y Laird y Ware (1982) propusieron por primera vez el siguiente modelo general lineal de efectos mixtos (linear mixed-effects (LME)):
donde
denotan la respuesta y el error de medicin de la y
sima medicin del -simo sujeto, los parmetros desconocidos
generalmente se llaman el vector de efectos fijos y los vectores de efectos aleatorios, respectivamente (para simplificar, a menudo se refieren como parmetros de efectos fijos y efectos aleatorios del modelo LME), y y son los asociados a los vectores y ,
covariables de efectos fijos y efectos aleatorios. En la expresin anterior,
son conocidas como las componentes de varianza del modelo LME. En el 12
Trabajo Fin de Mster en Estadstica Aplicada 2010/2011 modelo LME anterior, para simplificar, asumimos que y son independientes con
distribuciones normales, y las mediciones entre-sujeto son independientes. El modelo LME (2.1) se escribe a menudo en la forma siguiente:
donde
,y
El modelo LME anterior incluye modelos lineales de coeficientes aleatorios (Longford 1993) y modelos para mediciones repetidas como casos especiales. Por ejemplo, un modelo de dos etapas lineal de coeficiente aleatorio para curvas de crecimiento (Longford 1993) se puede escribir como
donde
se definen de manera similar como en (2.2),
es un vector que
de coeficientes aleatorios del -simo sujeto, y
es una matriz de diseo
contiene las covariables entre sujetos. Es fcil ver que el modelo lineal de coeficiente aleatorio (2.3) puede escribirse en la forma del modelo general LME (2.2) una vez que se establece .
De hecho, se puede escribir un modelo general de dos etapas lineal de coeficiente aleatorio en la forma del modelo general LME (2.2). Un modelo general de dos etapas de coeficiente aleatorio se puede escribir como (Davidian y Giltinan 1995, Vonesh y Chinchilli 1996)
13
Trabajo Fin de Mster en Estadstica Aplicada 2010/2011 donde es una matriz de diseo con elementos de 0 y 1 organizados para que son al azar, y es el asociado al vector de
determinar los componentes de efectos aleatorios
-dimensional. Este modelo general de dos etapas de coeficiente
aleatorio se puede escribir en la forma del modelo general LME (2.2): una vez que se establece y . De hecho, es
fcil demostrar que el modelo general de dos etapas de coeficiente aleatorio (2.4) es equivalente al modelo general LME (2.2). En particular, cuando , el modelo
general de dos etapas de coeficiente aleatorio (2.4) se reduce al modelo de coeficiente aleatorio (2.3) para curvas de crecimiento. Ntese que el modelo general de dos etapas de coeficiente aleatorio (2.4) tambin se conoce como modelo de efectos mixtos de dos etapas y el modelo general LME (2.2) tambin se llama modelo lineal jerrquico. En notacin matricial, el modelo general LME (2.2) se puede escribir adems como
donde
Por lo general se asume que las mediciones repetidas de sujetos diferentes son independientes y estn correlacionadas solamente cuando vienen del mismo sujeto. Basado en el modelo general LME (2.5), tenemos
donde la matriz de covarianza del vector de mediciones repetidas para el -simo sujeto es . Podemos ver
que la correlacin entre las mediciones repetidas puede ser inducida o a travs del trmino de variacin entre-sujeto sujeto 14 o a travs de la matriz de covarianza intra)
. Por lo tanto, incluso si los errores de medicin intra-sujeto (
Trabajo Fin de Mster en Estadstica Aplicada 2010/2011 son independientes, las mediciones repetidas pueden estar an correlacionadas
debido a la variacin entre-sujeto. En algunos problemas, la correlacin puede provenir de dos fuentes. Sin embargo, para simplificar, podemos asumir que la correlacin es inducida nicamente a travs de la variacin entre-sujeto o asumir que el desarrollo de metodologas. 2.2.2. Estimacin de los efectos fijos y aleatorios Las inferencias de y para el modelo general LME (2.2) es diagonal en
pueden basarse en el mtodo de verosimilitud o el mtodo de mnimos cuadrados generalizados. Conocidas y , las estimaciones de y
se pueden obtener minimizando el siguiente logaritmo dos veces negativas de la funcin de densidad conjunta de constante): y (hasta una
Puesto que
son los vectores de parmetros de efectos
aleatorios, la expresin (2.7) no es un logaritmo de verosimilitud (log-likelihood) convencional. Para mayor comodidad, a partir de ahora y a lo largo de este trabajo, llamamos a (2.7) un logaritmo de verosimilitud generalizado (generalized log-likelihood (GLL)) de los parmetros de efectos mixtos ( , ). Tenga en cuenta que
el primer trmino del lado derecho de (2.7) es un residuo ponderado tomando la variacin intra-sujeto en cuenta, y el trmino efectos aleatorios es una penalizacin debido a los
tomando la variacin entre-sujeto en cuenta. y , minimizar el criterio GLL (2.7) es
Para determinadas
equivalente a resolver las denominadas ecuaciones del modelo mixto (Harville 1976, Robinson 1991):
donde
se definen en (2.6). Utilizando el algebra matricial, las
ecuaciones de rendimiento del modelo mixto 15
donde covarianzas de y son:
. Las matrices de
2.2.3. Interpretacin bayesiana Es conocido que el modelo general LME (2.2) tiene una estrecha relacin con un modelo Bayesiano en el sentido de que las soluciones (2.8) y (2.9) son las expectativas a posteriori de los parmetros de un modelo Bayesiano en virtud de no informativas probabilidades (distribuciones) a priori. Antes de seguir adelante, manifestamos los siguientes dos lemas tiles cuyas demostraciones se pueden encontrar en algunos libros de texto estndar multivariante, por ejemplo, Anderson (1984). Lema 2.1 Sean , invertibles. Entonces y matrices , y tales que y son
En particular, cuando
donde
es un vector
, tenemos
Lema 2.2 Sea
donde 16
es invertible. Entonces
Definimos ahora el siguiente problema Bayesiano:
con distribucin a priori para
y :
donde (2.6).
son independientes unas de otras, y
se define en
Ntese que la especificacin de
es flexible. Por ejemplo, podemos dejar que son independientes unos de otros. . Esto indica que el lmite a priori
. Esto indica que los componentes de Adems, cuando en no es informativo. , tenemos
Teorema 2.1 Los mejores predictores imparciales lineales (2.8) y (2.9) que minimizan el criterio GLL (2.7) son los mismos que las expectativas del lmite a posteriori del problema Bayesiano definido en (2.14) y (2.15) con . Esto es,
Adems, como
, tenemos las siguientes distribuciones a posteriori:
donde
Ntese que
implican los parmetros desconocidos y
. Si sustituimos
las estimaciones puntuales de
(vamos a discutir cmo estimarlos en las siguientes y se refieren generalmente como
subsecciones), las estimaciones Bayesianas,
17
Trabajo Fin de Mster en Estadstica Aplicada 2010/2011 estimaciones empricas de Bayes, aunque la estimacin emprica de Bayes se aplica convencionalmente slo a los efectos aleatorios . , y en el no es cuando
El Teorema 2.1 da las distribuciones del lmite a posteriori de marco Bayesiano (2.14) y (2.15) cuando
o cuando lo a priori en y
informativo. A veces, es interesante conocer la distribucin a posteriori de est dada, por ejemplo, cuando
. En realidad, este conocimiento es la base para
el algoritmo EM basado en la mxima verosimilitud que vamos a revisar en el siguiente apartado. El siguiente teorema da los resultados relacionados. Teorema 2.2 Bajo el marco Bayesiano (2.14) y (2.15), tenemos
Vale la pena notar que, segn el Teorema 2.2, tenemos . 2.2.4. Estimacin de los componentes de varianza Si las matrices de covarianza, puntuales, por ejemplo, y y
, son desconocidas, pero sus estimaciones
, estn disponibles, entonces podemos tener y por lo tanto pueden ser obtenidas por
. Las estimaciones de sustitucin de y
en (2.8) y (2.9). Sus correspondientes errores estndar estn dados y por sus estimaciones. Sin embargo, estos y no se
por (2.10) y (2.12) despus de sustituir
errores estndar estn subestimados ya que los errores de estimacin de contabilizan.
Bajo el supuesto de normalidad, el mtodo de mxima verosimilitud (maximum likelihood (ML)) y el mtodo de mxima verosimilitud restringida (restricted maximum likelihood (REML)) son dos tcnicas populares para estimar los componentes desconocidos de y , aunque esto puede no ser adecuado si la hiptesis de
normalidad es cuestionable. Bajo los supuestos de normalidad siguientes, , 18 , ,
Trabajo Fin de Mster en Estadstica Aplicada 2010/2011 la funcin de verosimilitud generalizada se puede escribir como
donde
es la dimensin de
. Si el vector de efectos aleatorios
es
integrable, podemos obtener la siguiente funcin de verosimilitud convencional:
El mtodo ML para la estimacin de componentes de varianza es maximizar la siguiente funcin de log-verosimilitud:
con respecto a los componentes de varianza para un determinado maximizacin conjunta con respecto a los componentes de varianza parmetros de efectos fijos tambin da lugar a la estimacin de y de
. Sin embargo, la , y el vector de
en (2.8). con el fin de del mtodo ML, es
El mtodo REML se utiliza para integrar a
ajustar la prdida de grados de libertad debido a la estimacin de decir, para maximizar
Se puede demostrar que
donde tenemos que
como se define en (2.18). Por lo tanto,
19
Las estimaciones REML de componentes de varianza se pueden obtener a travs de la maximizacin
Derivaciones ms detalladas de estos resultados se pueden encontrar en Davidian y Giltinan (1995). 2.2.5. Los algoritmos EM La implementacin de los mtodos ML y REML no es trivial. Para superar esta dificultad de implementacin, los mtodos de algoritmo EM y de Newton-Raphson han sido propuestos (Laird y Ware 1982, Dempster, Rubin y Tsutakawa 1981, Laird, Lange y Stram 1987, Jenrich y Schluchter 1986, Lindstrom y Bates 1990). Los libros de Searle, Casella y McCulloch (1992), Davidian y Giltinan (1995), Vonesh y Chinchilli (1996) y Pinheiro y Bates (2000) tambin proporcionan una buena revisin de estos mtodos de implementacin. El paquete estndar de software estadstico tal como R ofrece funciones convenientes para implementar estos mtodos (por ejemplo, la funcin lme de R). Haremos una breve revisin del algoritmo EM aqu. Recordemos que por lo general asumimos que siguiente: tiene la forma simple
Cuando naturales ML de
y y
se conocen, bajo el supuesto de normalidad, las estimaciones sern
Este es el paso M del algoritmo EM. Debido a que
no se conocen, las
estimaciones anteriores no son computables. Hay dos maneras de superar esta dificultad, asociadas, respectivamente, con el algoritmo EM basado en el ML o REML. Ntese que las estimaciones ML de 20 y se obtienen a travs de la
maximizacin de la funcin de log-verosimilitud (2.20) con el vector de parmetros de
Trabajo Fin de Mster en Estadstica Aplicada 2010/2011 efectos fijos es sustituir la y dado. Por lo tanto, la clave para el algoritmo EM basado en el ML en (2.23) con
respectivamente. El razonamiento subyacente es que los componentes de varianza
se estiman sobre la base de los residuos despus de que la componente de efectos fijos estimada variacin de se elimina de los datos en bruto, y la estimacin no tomar la en cuenta. Este es el paso E del algoritmo EM basado en el ML.
Usando el Teorema 2.2, podemos demostrar el siguiente teorema. Teorema 2.3 Supongamos que el modelo Bayesiano definido en (2.14) y (2.15) se cumple, y supongamos que satisface (2.22). Entonces tenemos que
En el lado derecho de las expresiones (2.25), los componentes de varianza
an son desconocidas. Sin embargo, cuando se sustituyen por los valores actuales disponibles, los valores actualizados de y se pueden obtener. En otras palabras, y , se pueden actualizar y
proporcionando algunos valores iniciales de
utilizando (2.25) hasta la convergencia. Esta es la idea principal del algoritmo EM. Para simplificar, los valores iniciales pueden tomarse como principal para el algoritmo EM basado en el ML es el siguiente: (a) Dados (b) Dados y y , calcular , actualizar y y utilizando (2.8) y (2.9). utilizando (2.25). y . El ciclo
(c) Alternar entre (a) y (b) hasta la convergencia. Sea valores estimados de y el ndice de secuencia de las iteraciones, y en la iteracin . Otras notaciones tales como , , los se
definen de forma similar. A continuacin, ms formalmente, el algoritmo EM basado en el ML puede ser escrito como sigue: 21
Trabajo Fin de Mster en Estadstica Aplicada 2010/2011 Algoritmo EM basado en el ML Paso 0. Establecer Paso 1. Establecer . Sea ,y y . utilizando
. Actualizar
donde
Paso 2. Actualizar
utilizando
donde
Paso 3. Repetir los pasos 1 y 2 hasta la convergencia. El algoritmo EM basado en el REML puede ser igualmente descrito. Las principales diferencias son: (a) El algoritmo EM basado en el REML se ha desarrollado para encontrar las estimaciones REML de y que maximizan (2.21). y en y
(b) La clave para el algoritmo EM basado en el REML es reemplazar (2.23) por y
en lugar de sus expectativas condicionadas a
como se indica en (2.24). Estas expectativas condicionales se pueden obtener fcilmente utilizando el Teorema 2.1 y las presentaremos en el Teorema 2.4 a continuacin para facilitar su consulta. 22
Trabajo Fin de Mster en Estadstica Aplicada 2010/2011 (c) El algoritmo EM basado en el REML puede ser obtenido simplemente a travs de sustituir todos los anterior con , donde en el Paso 2 del algoritmo EM basado en el ML
El Teorema 2.4 a continuacin es similar al Teorema 2.3 pero se basa en el Teorema 2.1. Teorema 2.4 Supongamos que el modelo Bayesiano definido en (2.14) y (2.15) se cumple, y supongamos que satisface (2.22). Entonces como ,
donde
23
Trabajo Fin de Mster en Estadstica Aplicada 2010/2011 Captulo 3: Suavizadores en regresin no paramtrica 3.1. Introduccin En el Captulo 2, hemos revisado los modelos paramtricos de efectos mixtos para datos longitudinales, en particular hemos visto los modelos lineales de efectos mixtos. Estos modelos paramtricos de efectos mixtos han sido ampliamente estudiados y aplicados para analizar datos longitudinales en la literatura (Lindsey 1993, Diggle, Liang y Zeger 1994, Davidian y Giltinan 1995, Vonesh y Chinchilli 1996, Pinheiro y Bates 2000, Verbeke y Molenberghs 2000). Uno de los supuestos bsicos de estos modelos es que la variable de respuesta (o a travs de una funcin de enlace conocida) es una funcin paramtrica conocida de ambos efectos fijos y efectos aleatorios. Es decir, para cada individuo, la relacin subyacente entre la respuesta y las covariables de efectos mixtos es paramtrica. Sin embargo, esta suposicin no siempre se cumple en las aplicaciones prcticas. Tomamos los datos de progesterona, introducidos en la Seccin 1.1.1 del Captulo 1, como un ejemplo. La Figura 3.1 muestra la grfica de los datos con puntos (crculos) individuales de progesterona de un sujeto seleccionado (hemos seleccionado el sujeto nmero 2 del ciclo 5 del grupo no conceptivo). Se presentan ejemplos de algn polinomio de menor grado ajustado (curvas continuas de color negro) a los datos. El panel (a) representa un ajuste del modelo lineal, que no se ajusta adecuadamente a los datos. Esta dificultad puede ser superada por el aumento del grado de los polinomios, por ejemplo de lineal a cuadrtico, cbico o cuartico como se muestran en los paneles (b), (c) y (d), respectivamente. Se ve que cuanto mayor sea el grado del polinomio, ms adecuadamente se ajustan los datos. Se ve que tanto los modelos polinomiales cbico y cuartico son generalmente bien ajustados a los datos, pero los ajustes siguen siendo pobres antes del Da 0.
24
Figura 3.1 (a) Lineal

3
3
Figura 3.1 (b) Cuadrtico
log (prog)
log (prog)
-1
-1
-5
5 dias
10
15
-5
5 dias
10
15
Figura 3.1 (c) Cbico

3
3
Figura 3.1 (d) Cuartico
log (prog)
log (prog)
-1
-1
-5
5 dias
10
15
-5
5 dias
10
15
Se obtuvieron resultados similares cuando reemplazamos el sujeto seleccionado por algunos otros sujetos elegidos. Por lo tanto, un modelo polinomial de menor grado puede no ajustarse bien a los datos de progesterona. Estos datos son slo un ejemplo de conjuntos de datos prcticos que no pueden ser bien ajustados por polinomios de grado menor. Hrdle (1990), Fan y Gijbels (1996), Green y Silverman (1994), y Ramsay y Silverman (1997, 2002), entre otros, proporcionaron ejemplos de datos donde no es posible ajustar adecuadamente los datos mediante polinomios de cualquier grado o cualquiera de los modelos paramtricos. En estos casos, las tcnicas no paramtricas de modelado son necesarias. Los datos de progesterona para el sujeto seleccionado, presentados como crculos en la Figura 3.1, se pueden denotar como 25
donde
son conocidos como puntos en tiempo de diseo, y son las respuestas a los puntos en tiempo de diseo. Los puntos en tiempo de
diseo pueden ser igualmente espaciados en un intervalo de inters, o ser considerado como una muestra aleatoria de una densidad de diseo continua, concretamente, Para simplificar, vamos a denotar el intervalo de inters, o el soporte de que puede ser un intervalo finito, por ejemplo, respuestas o toda la recta real como . ,
. Las
se observan a menudo con errores.
Para un conjunto de datos como el anterior, un modelo de regresin no paramtrica simple se suele escribir como
donde
modela la funcin de regresin subyacente que queremos estimar, pero no
puede ser aproximada utilizando un modelo paramtrico adecuado, y denota los errores de medicin que no pueden ser explicados por la funcin de regresin . Matemticamente, es la esperanza condicionada de , dado , es decir,
Para los datos longitudinales, el conjunto de datos (3.1) describe la estructura de datos para un sujeto individual donde es la funcin de los individuos, y mediciones.
son los puntos en tiempo de diseo de los individuos con
Hay muchos suavizadores existentes que pueden ser utilizados para estimar la en (3.2). Diferentes suavizadores tienen diferentes puntos fuertes en uno u otro aspecto. Por ejemplo, la suavizacin splines puede ser buena para el manejo de la escasez de datos, mientras que los suavizadores polinomial local pueden ser computacionalmente ventajosos para el manejo de diseos densos. En este captulo, revisaremos los suavizadores polinomial local (Wand y Jones 1995, Fan y Gijbels 1996) en la Seccin 3.2. En captulos posteriores, se desarrollan la media de la poblacin no paramtrica y modelos de efectos mixtos para datos longitudinales basados en estos suavizadores.
26
Trabajo Fin de Mster en Estadstica Aplicada 2010/2011 3.2. Suavizador del ncleo polinomial local 3.2.1. Grado general del suavizador LPK La idea principal del suavizado del ncleo polinomial local (local polynomial kernel (LPK)) es aproximar localmente la en (3.2) por un polinomio de menor grado.
Su fundamento es la expansin de Taylor, que establece que cualquier funcin suave puede ser localmente aproximada por un polinomio de menor grado. En concreto, sea un punto arbitrario en un tiempo fijo donde la funcin tiene en
(3.2) ser estimada. Supongamos que algn entero en
-primera derivada continua para puede ser localmente
. Por la expansin de Taylor,
aproximada por un polinomio de grado . Es decir,
en una zona de -sima de Fijamos
que permita la expansin anterior donde en . , . Sea
denota la derivada
los
minimizadores del siguiente criterio de mnimos cuadrados ponderados (weighted least squares (WLS)):
donde con una constante ancho de banda concretamente,
, que se obtiene a travs de re-escalar una funcin del ncleo , llamado el ancho de banda o parmetro de suavizado. El
se utiliza principalmente para especificar el tamao de la zona local,
donde el ajuste local se lleva a cabo. La funcin del ncleo, observaciones dentro de contribuyen al ajuste en
, determina cmo las
. Discutiremos las funciones
del ncleo en la Seccin 3.2.3. Denotemos la estimacin de la derivada -sima como . Entonces
27
Trabajo Fin de Mster en Estadstica Aplicada 2010/2011 En particular, el resultado del -simo grado del estimador LPK de . Una expresin explcita para notacin de matrices. Sea es til y puede hacerse a travs de la es
la matriz de diseo y la matriz de pesos para el ajuste LPK alrededor de criterio WLS (3.3) se puede reescribir como
. Entonces el
donde
. Resulta que
donde
denota un vector unitario
-dimensional cuya
-primera
entrada es 1 y las otras entradas son 0, y
Cuando
se ejecuta sobre todo el soporte
de los puntos en tiempo de diseo, se obtiene. El estimador derivado
una estimacin de todo el rango de
se suele llamar suavizador LPK de la funcin derivada subyacente . El suavizador derivado se suele calcular en una cuadrcula de s en .
En este captulo, slo nos centramos en la curva ms suave
a menos que discutamos la estimacin derivada. Fijamos ajustado de . Por (3.6), se observa que
para ser el valor
28
donde
es
despus de sustituir
con
. Sea
que se puede
denota el valor ajustado en todos los puntos en tiempo de diseo. Entonces expresar como
donde
se conoce como la matriz suavizadora del suavizador LPK. Puesto que del vector de respuesta , el suavizador LPK 3.2.2. Suavizadores lineal y constante local
no depende
se conoce como suavizador lineal.
Los suavizadores lineal y constante local son los dos ms simples y ms tiles suavizadores LPK. El suavizador constante local se conoce como el estimador Nadaraya-Watson (Nadaraya 1964, Watson 1964). Este suavizador resulta del suavizador LPK (3.6) simplemente tomando :
Dentro de una zona local constante. Es decir, es el minimizador
, se ajusta a los datos con una del siguiente criterio WLS:
El estimador Nadaraya-Watson es fcil de entender y fcil de calcular. Sea que denota la funcin indicadora de un conjunto . Cuando la funcin del ncleo el ncleo Uniforme es
el estimador Nadaraya-Watson (3.9) es exactamente la media local de dentro de la zona local 29 (3.4):
s que estn
donde
denota el nmero de observaciones que caen dentro de la zona local . Sin embargo, cuando est en la frontera de , menos puntos de diseo estn
dentro de la zona que el caso cuando
de modo que est en el interior de
tiene una tasa de convergencia ms lenta . Para una explicacin detallada de este
efecto frontera, se remite al lector a Fan y Gijbels (1996) y Cheng, Fan y Marron (1997). El suavizador lineal local (Stone 1984, Fan 1992, 1993) se obtiene a travs de ajustar un conjunto de datos a nivel local con una funcin lineal. Sea minimiza el siguiente criterio WLS: que
Entonces el suavizador lineal local es del suavizador LPK (3.6) simplemente tomando
. Se puede obtener fcilmente . Se le conoce como un
suavizador con un efecto de frontera libre (Cheng, Fan y Marron 1997). Es decir, tiene la misma tasa de convergencia en cualquier punto de . Tambin exhibe muchas buenas propiedades que los otros suavizadores lineales pueden carecer. Buenas discusiones sobre estas propiedades se pueden encontrar en Fan (1992, 1993), Hastie y Loader (1993), y Fan y Gijbels (1996, Captulo 2), entre otros. Un suavizador lineal local puede ser simplemente expresado como
donde
Por lo general, la eleccin del grado de ajuste LPK,
, no es tan importante o lineal
como la eleccin del ancho de banda, . Un suavizador constante local 30
Trabajo Fin de Mster en Estadstica Aplicada 2010/2011 local a menudo es lo suficientemente bueno para la mayora de los problemas y el ancho de banda son adecuadamente
de aplicacin si la funcin del ncleo
determinados. Fan y Gijbels (1996, Captulo 3) seal que para la estimacin de la curva (no vlido para la estimacin derivada) un porque un ajuste LPK con comparacin con un ajuste LPK con impar es preferible. Esto es as
, introduce un parmetro adicional en , pero no aumenta la varianza del estimador
asociado LPK. Sin embargo, el sesgo asociado puede ser reducido significativamente, especialmente en las regiones de frontera (Fan 1992, 1993, Hastie y Loader 1993, Fan y Gijbels 1996, Cheng, Fan y Marron 1997). Por lo tanto, el suavizador lineal local es altamente recomendable para la mayora de los problemas en la prctica. 3.2.3. Funcin del ncleo La funcin del ncleo utilizada en el suavizador LPK (3.6) es generalmente
una funcin de densidad de probabilidad simtrica. Mientras que el ancho de banda especifica el tamao de la zona local observaciones contribuyen al ajuste LPK en . , el ncleo especifica cmo las
Hemos visto anteriormente el ncleo Uniforme (3.10) y ahora vemos el ncleo Gaussiano (funcin de densidad de probabilidad normal estndar)
Cuando el ncleo Uniforme se utiliza, todos los
s dentro de la zona local ,
contribuyen igualmente (los pesos son los mismos) en el ajuste LPK en mientras que todos los
s fuera de la zona no contribuyen en nada. Cuando el ncleo s se determina por la , mayor es la
Gaussiano se utiliza, sin embargo, la contribucin de los distancia de a , es decir, cuanto menor es la distancia
contribucin. Esto es porque el ncleo Gaussiano es con forma de campana y alcanza su punto mximo en el origen. El ncleo Uniforme tiene un soporte limitado que permite al ajuste LPK utilizar los datos slo en la zona . Esto hace una implementacin
rpida del posible ajuste LPK, lo cual es ventajoso sobre todo para grandes conjuntos de datos. El uso del ncleo Gaussiano a menudo resulta en buenos efectos visuales de los suavizadores LPK, pero paga un precio de requerir ms esfuerzo computacional. Los ncleos Uniforme y Gaussiano son dos miembros especiales de la siguiente bien conocida familia Beta simtrica (Marron y Nolan 1989): 31
donde La eleccin de
denota una funcin beta con parmetros
y .
conducen a las funciones ncleo Uniforme,
Epanechnikov, Biweight y Triweight, respectivamente. El ncleo Gaussiano es el lmite de la familia (3.13) cuando . El ncleo Epanechnikov se conoce como el ncleo
ptimo (Fan y Gijbels 1996) para la suavizacin LPK. La eleccin de un ncleo no suele ser tan importante, ya que no determina la tasa de convergencia del suavizador LPK (3.6) a la curva subyacente. Sin embargo, determina la eficiencia relativa del suavizador LPK. Para ms discusin sobre la eleccin del ncleo, consulte Gasser, Mller y Mammitzsch (1985), Fan y Gijbels (1996), Zhang y Fan (2000) y sus referencias. 3.2.4. Seleccin del ancho de banda Un suavizador se considera que es bueno si produce un pequeo error de prediccin, por lo general medido por el Error Cuadrtico Medio (Mean Squared Error (MSE)) o el Error Cuadrtico Medio Integrado (Mean Integrated Squared Error (MISE)) del suavizador. Para el suavizador LPK como , sus MSE y MISE se definen
donde
se conocen como el sesgo y la varianza de
,y
es una funcin de peso, a
menudo utilizada para especificar un rango concreto de inters. Bajo ciertas condiciones de regularidad como que podemos demostrar que como 32 , es un punto interior,
donde
significa
est acotada en la probabilidad. Vase, por ejemplo,
Fan y Gijbels (1996, Captulo 3) para ms detalles. De esto, podemos ver que el ancho de banda LPK controla el equilibrio entre el sesgo al cuadrado y la varianza del suavizador . Cuando es pequeo, el sesgo al cuadrado es pequeo pero la varianza es es grande, el sesgo al cuadrado es grande mientras que por lo general compensar estos dos
grande. Por otro lado, cuando
la varianza es pequea. Una buena eleccin de
trminos para que el MSE o MISE asociado se reduzca al mnimo. El papel desempeado por el ancho de banda tambin se puede ver especifica el
intuitivamente. Como se mencion anteriormente, el ancho de banda tamao de la zona local . Cuando
es pequeo,
contiene slo unas pocas observaciones de modo que en base al criterio WLS (3.3) para aproximarse cerca de sesgo de
puede estar bien ajustado . Esto implica un pequeo
. Sin embargo, ya que slo unas pocas observaciones estn involucradas
en el ajuste LPK, la varianza del estimador es muy grande. Con un razonamiento similar, cuando es grande, contiene muchas observaciones de modo que
tiene un sesgo grande pero una varianza pequea. Es entonces natural seleccionar un ancho de banda global (MSE para un ancho de banda local) de para que el MISE
se reduzca al mnimo. es, despus de todo,
Desafortunadamente, el MISE (3.14) no es calculable ya que
desconocido y es el objetivo que se estima. Este problema se puede superar mediante la seleccin de para minimizar algn estimador del MISE. Un estimador del MISE se
puede obtener a travs de la estimacin de las cantidades desconocidas en la expresin asinttica MISE usando algn grado superior del ajuste LPK, dando como resultado el llamado complemento de los selectores de ancho de banda (Fan y Gijbels 1992, Ruppert, Sheather y Wand 1995). El MISE tambin se puede estimar mediante validacin cruzada o sus versiones modificadas: validacin cruzada generalizada (Wahba 1985), criterio de informacin Akaike (Akaike 1973) y criterio de informacin Bayesiano (Schwarz 1978), entre otros. 33
Trabajo Fin de Mster en Estadstica Aplicada 2010/2011 3.2.5. Un ejemplo ilustrativo Para una rpida implementacin del suavizador LPK, referimos a los lectores a Fan y Marron (1994) donde una tcnica de agrupacin se propone para el manejo de grandes conjuntos de datos. Ahora aplicamos el suavizador LPK (3.6) a los datos presentados en la Figura 3.1. Como ejemplo ilustrativo, se emple el ajuste lineal local con tres diferentes anchos de banda. En la Figura 3.2, los tres ajustes lineales locales se presentan. La curva continua de color rojo casi interpola los datos ya que utiliza un ancho de banda , que es demasiado
pequeo. Este es el caso de infra-suavizado. La curva continua de color azul no se ajusta bien a los datos ya que utiliza un ancho de banda ,
que es demasiado grande. Este es el caso de sobre-suavizado. La curva continua de color negro produce un buen ajuste a los datos ya que utiliza un ancho de banda seleccionado por GCV, que no es demasiado pequeo o demasiado grande.
Figura 3.2 Ajustes lineales locales
log (prog)
-1
-5
5 dias
10
15
34
Trabajo Fin de Mster en Estadstica Aplicada 2010/2011 Captulo 4: Mtodos localmente polinomiales 4.1. Introduccin Las tcnicas de suavizado localmente polinomiales han sido bien desarrolladas para datos i.i.d. o transversales (Wand y Jones 1995, Fan y Gijbels 1996). Con el fin de aplicar estas tcnicas al anlisis de datos longitudinales, los esfuerzos se han hecho considerables para incorporar las caractersticas de los datos longitudinales en los mtodos de suavizado del ncleo (Hoover, Rice, Wu y Yang 1998, Wu, Chiang y Hoover 1998, Fan y Zhang 2000, Lin y Carroll 2000, Wu y Chiang 2000, Wu y Zhang 2002a, Welsh, Lin y Carroll 2002, Wang 2003, Park y Wu 2005). En los estudios longitudinales, los datos recogidos del mismo sujeto en el tiempo tienden a estar correlacionados, aunque los datos de diferentes sujetos se supone que son independientes. Las variaciones intra-sujeto y entre-sujeto son diferentes y necesitan ser modeladas apropiadamente. Hoover, Rice, Wu y Yang (1998), Wu, Chiang y Hoover (1998) y Wu y Chiang (2000) propusieron por primera vez el mtodo de estimacin del ncleo para modelos con coeficientes variando en el tiempo con datos longitudinales. Sin embargo, las caractersticas de los datos longitudinales no se incorporan directamente en sus mtodos, aunque el criterio de validacin-cruzada dejar-un-sujeto-fuera se propone para la seleccin del parmetro de suavizado en el que los datos de sujeto-basados en clusters son reconocidos. Para los datos correlacionados del modelo no paramtrico, tales como datos longitudinales, Diggle y Hutchinson (1989), Altman (1991), Hart (1991), Rice y Silverman (1991) y otros han propuesto modificaciones para el criterio de seleccin del parmetro de suavizado tales como la validacin-cruzada (crossvalidation (CV)) o la validacin-cruzada generalizada (generalized cross-validation (GCV)) o el uso de CV o GCV dejar-un-sujeto-fuera de forma indirecta en cuenta de las correlaciones entre los datos. Lin y Carroll (2000) propusieron un mtodo de ecuacin de estimacin generalizada del ncleo polinomial local (local polynomial kernel generalized estimating equation (LPK-GEE)) para clustered (agrupados) o datos longitudinales. Ellos mostraron que la mejor estrategia es ignorar la estructura de correlacin de los datos longitudinales (fingir como si los datos dentro de un grupo o sujeto son independientes) en el estimador LPK-GEE. Sin embargo, sus conclusiones se basan en los resultados asintticos a condicin de que el nmero de sujetos o grupos tiende a infinito y el nmero de mediciones de cada sujeto es finito. El estimador 35
Trabajo Fin de Mster en Estadstica Aplicada 2010/2011 working-independence de Lin y Carroll no puede ser el mejor para los casos de muestra finita. De hecho, algunos nuevos resultados han demostrado que es necesaria la incorporacin de las correlaciones de datos longitudinales en el estimador con el fin de lograr una mayor eficacia en situaciones de muestras finitas (Wu y Zhang 2002a, Welsh, Lin y Carroll 2002, Wang 2003). Fan y Zhang (2000) sugiere un enfoque en dos etapas (primero con un promedio local o de regresin, luego suavizado) de forma indirecta en cuenta de la correlacin de datos. Un enfoque de modelado de efectos mixtos localmente polinomial, el cual ms apropiadamente modela las correlaciones intra-sujeto, fue propuesto por Wu y Zhang (2002a). Este mtodo ser uno de los temas centrales de este captulo. Se amplan los modelos lineales de efectos mixtos (Captulo 2) a una configuracin de modelo no paramtrico ms general en este captulo. El resto de este captulo est organizado de la siguiente manera. En primer lugar se revisan los mtodos para la estimacin de la funcin de media poblacional para datos longitudinales en la Seccin 4.2. Un mtodo polinomial local simple y un mtodo LPK-GEE se describen brevemente. La Seccin 4.3 introduce un modelo no paramtrico de efectos mixtos (nonparametric mixed-effects (NPME)) y la Seccin 4.4 presenta la tcnica de modelado de efectos mixtos localmente polinomial. Se discuten diferentes estrategias de seleccin del ancho de banda en la Seccin 4.5. Para ilustrar las metodologas, una aplicacin a los datos de progesterona se presenta en la Seccin 4.6. La mayora de los materiales de las Secciones 4.3~4.6 provienen de dos artculos de Wu y Zhang (2002a) y Park y Wu (2005). 4.2. Modelo no paramtrico para la media poblacional Un conjunto de datos longitudinales, por ejemplo, los datos de progesterona introducidos en la Seccin 1.1.1 del Captulo 1, son normalmente coleccionados mediante mediciones repetidas de una serie de sujetos durante un perodo de tiempo. Los puntos en tiempo de diseo pueden ser diferentes para sujetos diferentes y tambin lo son el nmero de mediciones. Sea el nmero de sujetos, y sea el -simo
punto en tiempo de diseo del -simo sujeto y la respuesta asociada donde con denotando el nmero de mediciones del -simo sujeto. Tal conjunto
de datos longitudinales puede ser simblicamente expresado como
36
Trabajo Fin de Mster en Estadstica Aplicada 2010/2011 Si un modelo paramtrico no est disponible para el modelado de la funcin de media poblacional de los anteriores datos longitudinales, es natural modelar en no paramtrica. Es decir, asumimos justamente que la funcin de media poblacional es suave. Tal modelo no paramtrico de media poblacional (nonparametric population mean (NPM)) se puede escribir como
donde
es la funcin suave de media poblacional, y
son las salidas de las
mediciones longitudinales de la funcin de media poblacional. Este modelo es comparable con el modelo de regresin no paramtrica estndar (3.2) del Captulo 3, pero difiere en que los errores en el modelo NPM (4.2) son por lo general no independientes. Dado que no est disponible la forma paramtrica para el modelado de , las
tcnicas de suavizado no paramtricas son necesarias para ser utilizadas. De hecho, varias tcnicas no paramtricas se han propuesto para los modelos de coeficientes variando en el tiempo que incluyen el modelo NPM (4.2) como un caso especial. En esta seccin, se revisan dos tcnicas: un mtodo del ncleo polinomial local (local polynomial kernel (LPK)) (Hoover, Rice, Wu y Yang 1998); y un mtodo LPK-GEE (Lin y Carroll 2000). 4.2.1. Mtodo del ncleo polinomial local El mtodo LPK para los modelos de coeficientes variando en el tiempo para datos longitudinales fue propuesto y estudiado por primera vez por Hoover, Rice, Wu y Yang (1998). Como fue el caso del suavizado LPK de datos independientes revisado en la Seccin 3.2 del Captulo 3, la idea principal de este mtodo LPK es ajustar un polinomio de cierto grado a localmente. tiene un mximo en . Entonces por la
Sea un punto arbitrario en tiempo fijo. Supongamos que de -primeras derivadas continuas para algn entero
expansin de Taylor, . Es decir,
se puede aproximar localmente por un polinomio de grado
37
Trabajo Fin de Mster en Estadstica Aplicada 2010/2011 donde . Sea y el estimador de con ,
obtenido al minimizar el
siguiente criterio de mnimos cuadrados ponderados (weighted least squared (WLS)):
donde
con
una funcin del ncleo y
un ancho de banda. Al igual
que con el suavizado de datos independientes descrito en la Seccin 3.2, el ancho de banda se utiliza para especificar el tamao de la zonal local y el ncleo
se utiliza para especificar el efecto de los puntos de datos de acuerdo a la distancia entre es. Para dar una expresin explcita para en la notacin de matrices, sea y . Por lo general, mientras ms cerca la distancia est, ms grande el efecto
la matriz de diseo y la matriz de peso para el -simo sujeto, respectivamente. Adems, se denota se puede reescribir como y . Entonces el criterio WLS (4.4)
donde
con
siendo el vector respuesta del -simo que
sujeto. Se deduce de minimizar (4.5) con respecto a
Sea
un vector unitario
-dimensional cuya -sima entrada es 1 y las
dems son 0. Entonces es fcil ver que a partir de las definiciones de que los estimadores de las derivadas son
En particular, el estimador LPK para la funcin de media poblacional es . 38
Trabajo Fin de Mster en Estadstica Aplicada 2010/2011 Al igual que con suavizado en datos i.i.d. que se describe en la Seccin 3.2, puede ser tomado como 0 y 1 por simplicidad. Por ejemplo, cuando , un vector de , tenemos es -dimensiones de s y el estimador LPK resultante
generalmente conocido como el denominado estimador del ncleo constante local de donde es el nmero de mediciones totales para todos los sujetos. A tiene la siguiente
partir de (4.6), el estimador del ncleo constante local de expresin sencilla:
Cuando
, es decir, hay solo una medicin por sujeto, el estimador (4.8) se
reduce al estimador de datos i.i.d. en (3.9). El estimador (4.8) se llama un estimador del ncleo constante local ya que es igual al minimizador, , del siguiente criterio WLS:
En otras palabras,
es la mejor constante que se aproxima a
en la zona local
en lo que respecta a la minimizacin (4.9). Cuando , el estimador LPK asociado es generalmente conocido como
el estimador del ncleo lineal local de lineal local puede ser expresado como
. A partir de (4.6), el estimador del ncleo
donde
Del mismo modo, el estimador (4.10) se llama un estimador del ncleo lineal local ya que se obtiene mediante aproximacin de funcin lineal en una zona local utilizando una
, es decir, minimizando el siguiente criterio WLS:
39
Basado en los resultados de Hoover, Rice, Wu y Yang (1998), es fcil demostrar que cuando , bajo ciertas condiciones de regularidad, tenemos
donde el trmino de primer orden
en la expresin de
se
relaciona con la variacin intra-sujeto solamente, mientras que el trmino de segundo orden se asocia con la variacin entre-sujeto. De ello se desprende que son diferentes cuando es limitada, en son
las propiedades asintticas de comparacin a cuando limitados, la
no es acotado (limitado). De hecho, cuando todos los
en (4.12) est dominada por el trmino de primer orden para que ; cuando todos los tienden a infinito, la para que entonces como es -consistente. est
dominada por el trmino de segundo orden . En particular, supongamos , tenemos . En este caso,
A partir de (4.12), el ancho de banda ptimo terico que minimiza es del orden de cuando es limitada. Rice y
Silverman (1991) propusieron un mtodo de validacin cruzada dejar-un-sujeto-fuera para la seleccin de un ancho de banda adecuado para datos longitudinales. Esta estrategia de seleccin de ancho de banda fue empleada por Hoover, Rice, Wu y Yang (1998). 4.2.2. Mtodo del ncleo polinomial local GEE El mtodo LPK-GEE fue propuesto y estudiado por Lin y Carroll (2000). Para el modelo NPM (4.2), basado en la notacin como anterior, el asociado LPK-GEE es , , y definido en el apartado
donde
con
siendo una matriz de correlacin de , el LPK-GEE (4.13) se puede
trabajo especificado por el usuario. Cuando 40
Trabajo Fin de Mster en Estadstica Aplicada 2010/2011 obtener a travs de diferenciar el criterio WLS (4.5) con respecto a igual a 0. La solucin del anterior LPK-GEE con respecto a estimador LPK-GEE y se establece lleva al llamado
Los estimadores para utilizando (4.7).
y sus derivadas se pueden obtener fcilmente
La matriz de correlacin de trabajo
en la formulacin LPK-GEE (4.13) se
utiliza para tener en cuenta parcialmente la estructura de correlacin subyacente de . En particular, cuando tomamos , tenemos de manera
que la estructura de correlacin verdadera se tiene en cuenta aunque esto es casi imposible en aplicaciones reales. El resultado contrario a la intuicin de Lin y Carroll (2000) es que el ms eficiente estimador LPK-GEE se obtiene haciendo caso omiso de la correlacin intrasujeto en lugar de especificar correctamente la correlacin intra-sujeto, es decir, suponiendo . Argumentaron que, asintticamente, no hay necesidad de tomar en
cuenta la correlacin porque cuando el ancho de banda es reducido a 0 como el tamao de la muestra , la posibilidad de que ms de dos observaciones sean del mismo
sujeto es pequea y por lo tanto los datos utilizados en la estimacin local son de sujetos diferentes que se supone que son independientes. Esto implica que la matriz de covarianza verdadera para los datos que contribuyen a la estimacin local es asintticamente diagonal. Por lo tanto, el estimador LPK-GEE working independence es asintticamente ptimo (Lin y Carroll 2000). Esto est en contraste con la paramtrica habitual GEE (Liang y Zeger 1986) en que la mejor estrategia es utilizar la verdadera correlacin de los datos. Como se mencion en Hoover, Rice, Wu y Yang (1998), debemos interpretar los resultados asintticos con precaucin ya que en aplicaciones de datos reales, el ancho de banda adecuado seleccionado por un selector de ancho de banda no suele ser tan pequeo y los resultados asintticos pueden no ser aplicables. En otras palabras, tomando adecuadamente en cuenta la correlacin puede ser necesaria para anlisis de datos de muestras finitas. Se puede observar que el mtodo LPK-GEE utiliza el peso del ncleo para controlar los sesgos. Con el fin de reducir los sesgos, todos los datos localizados lejos 41
Trabajo Fin de Mster en Estadstica Aplicada 2010/2011 del punto de estimacin se ponderan hacia abajo aunque estos datos pueden contener informacin til debido a la correlacin con los datos cerca del punto de estimacin del mismo sujeto. Por lo tanto, la eficiencia de la estimacin se puede perder ya que es difcil controlar los sesgos y reducir la varianza de forma simultnea. Para hacer frente a este problema, Wang (2003) propuso un procedimiento de dos pasos. La idea bsica es la siguiente: Para utilizar de manera eficiente toda la informacin relacionada a un sujeto, una vez que un punto de datos de un sujeto o grupo se encuentra cerca del punto de estimacin (por ejemplo, a ) y contribuye significativamente a la estimacin local,
todos los puntos de datos de este sujeto o grupo se utilizarn. Para evitar sesgos, las contribuciones de todos estos puntos de datos excepto el punto de datos cerca del punto de estimacin local son a travs de sus residuos. Se define con la -sima fila como una matriz y 0 en otro caso. El
procedimiento de dos pasos para el modelo NPM (4.2) puede ser descrito de la siguiente manera (Wang 2003): Paso 1. Obtener un estimador inicial consistente de , por ejemplo . , resolviendo la . Por
ejemplo, el estimador working independence puede ser tomado como Paso 2. Obtener la estimacin final de ecuacin estimada del ncleo ponderado , por ejemplo
donde el -simo elemento de
es
cuando
con es
estando a un margen cuando .
del punto de tiempo ; y el -simo elemento de La estructura de medicin
est diseada de manera que, para un de , el residuo
cuyo tiempo de , en lugar de ,
no est a un margen
contribuye a la estimacin local
. Esto garantizar el estimador propuesto
para ser asintticamente insesgado en el peor caso. Para el modelo NPM (4.2), podemos expresar el estimador de dos pasos como
42
Trabajo Fin de Mster en Estadstica Aplicada 2010/2011 donde denota la -sima entrada de con siendo la matriz de covarianza
de trabajo para el independence
-simo sujeto. Comparando (4.16) al estimador working
, es decir,
vemos que los datos correlacionados pero no en un margen
de
se incorporan en el
estimador de dos pasos mediante la adicin de sus residuos ponderados obtenidos a partir del primer paso, y el peso es su correlacin (covarianza) hasta el -simo punto de datos que est en un margen de . La ventaja del estimador en dos pasos es una
reduccin de la varianza sin la ampliacin de los sesgos al menos asintticamente. El anterior mtodo de dos pasos puede ser mejorado mediante la iteracin de los dos pasos. Sin embargo, las investigaciones tericas muestran, a la primera orden, que el estimador de dos pasos alcanza las mismas propiedades asintticas que el estimador totalmente reiterado. Wang (2003) muestra que el estimador de dos pasos supera de manera uniforme el estimador working independence (Lin y Carroll 2000) en trminos de la varianza asinttica si la covarianza verdadera se ha especificado correctamente. El mtodo de dos pasos de Wang proporciona una forma inteligente de incorporar correlaciones intra-sujeto de datos longitudinales con el fin de utilizar eficientemente los datos disponibles para mejorar el estimador working independence. Sin embargo, el uso de un margen de residuos deben ser utilizados para estimar de para determinar si los datos o sus es totalmente arbitrario. No sabemos
cmo esto afecta a la seleccin del ancho de banda. Con el fin de implementar el mtodo de Wang, la covarianza de trabajo tiene que ser estimada separadamente. En la Seccin 4.4, presentaremos el enfoque de modelado de efecto mixto para incorporar las correlaciones intra-sujeto de una manera ms natural. Chen y Jin (2005) recientemente propusieron utilizar simplemente el mtodo local de mnimos cuadrados generalizado (generalized least squares (GLS)) para explicar las correlaciones de datos longitudinales. Su mtodo no es nada nuevo y se puede considerar como un caso especial del modelo de efectos mixtos localmente polinomial descrito en la Seccin 4.4. Adems, su mtodo tambin requiere determinar
43
Trabajo Fin de Mster en Estadstica Aplicada 2010/2011 o estimar la matriz de covarianza separadamente, y una estimacin precisa de la matriz de covarianza es generalmente difcil de obtener. 4.3. Modelo no paramtrico de efectos mixtos En la seccin anterior, se revisaron dos populares tcnicas no paramtricas para el ajuste del modelo NPM (4.2) para datos longitudinales. Un problema crtico de las tcnicas anteriores es que las caractersticas de los datos longitudinales no se incorporan directamente en los estimadores y estimaciones de las funciones individuales no son consideradas. En muchos estudios longitudinales, estimacin e inferencia de las funciones individuales son tan importantes como la funcin de media poblacional. En esta seccin, extendemos el modelo NPM (4.2) a un modelo que incorpora la funcin de media poblacional y las funciones individuales de los datos longitudinales de forma simultnea. El nuevo modelo se puede expresar como
donde como en el modelo NPM (4.2),
modela la funcin de media poblacional modela ,
suave de los datos longitudinales, tambin llamada funcin de efecto fijo;
la salida de la -sima funcin individual de la funcin de media poblacional
llamada la -sima funcin de efectos individual (sujeto-especificado) o funcin de efecto aleatorio; y la funcin de error de medicin que no se puede explicar ni por
las funciones de efecto fijo o de efecto aleatorio. Es fcil ver que el trmino de error, , del modelo (4.2), ahora se convierte en dos trminos, y , del nuevo
modelo (4.18). El modelo (4.18) se le llama modelo no paramtrico de efectos mixtos (nonparametric mixed-effects (NPME)) ya que tanto las funciones de efecto fijo y efecto aleatorio son no paramtricas. Por conveniencia, a menudo asumimos que las funciones de efecto aleatorio no observables (SP)) subyacente son copias i.i.d. de un proceso suave (smooth process con funcin media 0 y funcin covarianza , y que los
procesos de error de medicin no observables ruido blanco incorrelado . Esto es,
son copias i.i.d. de un proceso de
con funcin media 0 y funcin covarianza y . En este trabajo, cuando se trata
44
Trabajo Fin de Mster en Estadstica Aplicada 2010/2011 con inferencias bayesianas o basadas en la probabilidad, por lo general asumimos que los procesos asociados son Gausianos, es decir,
Ntese que
caracterizan los rasgos generales de una
poblacin longitudinal de modo que son caractersticas de la poblacin, mientras que las funciones de efecto aleatorio y las funciones individuales son especificas de sujeto de modo que son caractersticas de los individuos. El objetivo principal del modelado NPME es estimar el efecto de la poblacin y predecir los efectos individuales para un estudio longitudinal. Para simplificar, la funcin de media poblacional y las funciones individuales
tambin se les conoce como curvas de la poblacin e individual. Debido a que las cantidades objetivo , y son todas no paramtricas, el modelado NPME
requiere una combinacin de una tcnica de suavizado y un enfoque de modelado de efectos mixtos. 4.4. Modelado de efectos mixtos polinomial local En el resto de este captulo, se aplican tcnicas de suavizado del ncleo polinomial local (local polynomial kernel (LPK)) al modelo NPME (4.18) para analizar datos longitudinales. Los principios de probabilidad local (Tibshirani y Hastie 1987) se utilizan para guiar el desarrollo de las metodologas. 4.4.1. Aproximacin polinomial local Las cantidades objetivo , y se pueden estimar a travs de la
aproximacin a nivel local en el modelo NPME (4.18) por un polinomio basado en el modelo LME. Esto se puede lograr a travs de la expansin de Taylor de en torno a una zona de inters. Supongamos que tienen un mximo de intervalo de inters, llamado Taylor, para cualquier y en el modelo NPME (4.18) es suave, por ejemplo, y
-veces derivadas continuas en cada punto dentro de algn , donde fijo, es un entero no negativo. Por la expansin de y en se puede aproximar por un
polinomio de grado -simo dentro de una zona de :
45
donde
De ello se sigue que, dentro de una zona de , el modelo NPME (4.18) puede ser razonablemente aproximado por un modelo LME:
donde
denota las medicin y errores en el modelo de aproximacin, y
denota los
efectos aleatorios. Bajo el supuesto Gausiano (4.19),
Basado en el modelo NPME (4.18), los componentes de varianza y vector de efectos fijos y la matriz de covarianza . Ntese que como el son las funciones de la ubicacin
local , por conveniencia, las llamamos la versin localizada del vector de efectos fijos y la versin localizada de la matriz de covarianza, respectivamente, o en general los parmetros localizados. 4.4.2. Estimacin por mxima verosimilitud local Tibshirani y Hastie (1987) propusieron por primera vez el mtodo de mxima verosimilitud local. Staniswalis (1989) y Fan, Farmen y Gijbels (1998) estudiaron ms a fondo las propiedades de los estimadores de mxima verosimilitud local del ncleo ponderado. En esta subseccin, aplicamos el mtodo de mxima verosimilitud local a 46
Trabajo Fin de Mster en Estadstica Aplicada 2010/2011 datos longitudinales en los que las correlaciones entre-sujeto normalmente existen (Park y Wu 2005). Supongamos que es un vector de observaciones y tiene una funcin de
obtenido del -simo sujeto en los puntos de tiempo densidad de probabilidad para
. Entonces la contribucin del -simo
sujeto al total del logaritmo de verosimilitud (log-likelihood) es , donde son vectores de parmetros desconocidos a estimar. El sujetos
logaritmo de verosimilitud (log-likelihood) de las observaciones de todos los es entonces dado por
Cuando
son parmetros localizados, por ejemplo, la versin localizada del y la versin localizada de la matriz de covarianza descritos
vector de efectos fijos
en la subseccin anterior, es ms natural definir el logaritmo de verosimilitud (loglikelihood) local. Una forma de hacerlo es utilizar el logaritmo de verosimilitud (loglikelihood) del ncleo ponderado como se discute en Staniswalis (1989) y Fan, Farmen y Gijbels (1998), entre otros. Sea banda. Sea ncleo en la zona de para el -simo sujeto donde donde es una funcin del ncleo y es un ancho de
la matriz diagonal de pesos del . Entonces el logaritmo
de verosimilitud (log-likelihood) del ncleo ponderado se define por
que es una funcin de A modo de ejemplo, si
donde y
. , entonces el
logaritmo de verosimilitud (log-likelihood) del ncleo ponderado se puede escribir como
47
que es una funcin de logaritmo de verosimilitud (log-likelihood) local estndar para datos independientes como se discute en Staniswalis (1989) y Fan, Farmen y Gijbels (1998). En el caso de no correlacin intra-sujeto, el logaritmo de verosimilitud (loglikelihood) local ponderado (4.23) se puede escribir como
Esto coincide con los casos considerados por Hoover, Rice, Wu y Yang (1998) y Lin y Carroll (2000). En general, la forma del logaritmo de verosimilitud (log-likelihood) local es un problema especfico. La aplicacin del peso del ncleo de diferentes maneras puede dar lugar a diferentes estimadores. En las subsecciones siguientes se muestran las aplicaciones del logaritmo de verosimilitud (log-likelihood) del ncleo ponderado (4.23) en diferentes escenarios para modelos NPME. 4.4.3. Estimacin a partir de la verosimilitud local marginal En esta subseccin, introducimos un mtodo de verosimilitud local marginal para estimar la funcin de media poblacional aproximacin del modelo LME (4.22), sea (Park y Wu 2005). Para la y supongamos que el en la
supuesto Gausiano (4.19) se cumple. Entonces, la distribucin marginal local de aproximacin del modelo LME (4.22) es normal con una media de
y varianza de
. Por tanto se obtiene la funcin logaritmo de verosimilitud (loglikelihood) para :
donde
. Basndose en la expresin anterior y aplicando
(4.23), podemos escribir la funcin logaritmo de verosimilitud (log-likelihood) marginal local para estimar como
48
donde de residuos
con la matriz de pesos del ncleo simtricamente.
ponderando el vector
Para las matrices de varianza dadas con respecto a
, la diferenciacin de (4.25)
obtiene la estimacin de la ecuacin para :
donde
,y es
Por tanto, un estimador de forma cerrada para
Cuando ajustando el modelo siguiente:
son conocidas, el estimador (4.27) se puede obtener
usando la funcin lm de R, donde tienen media 0 y varianza estndar con la variable respuesta
,y
. El modelo (4.28) es un modelo de regresin lineal y la covariable .
El estimador local de probabilidad marginal de
se puede encontrar como
donde lugar.
es un vector
-dimensional con el primer elemento siendo 1 y 0 en otro
Las matrices de covarianza
se han supuesto que se conocen con
el fin de obtener el estimador de forma cerrada (4.27). En la prctica, se suelen encontrar ejemplos reales donde las matrices de covarianza son desconocidas y deben estimarse. La estimacin de las matrices de covarianza as como de las curvas de efecto aleatorio se introducir en las siguientes secciones. Cuando son
49
Trabajo Fin de Mster en Estadstica Aplicada 2010/2011 matrices diagonales conocidas, el estimador propuesto por Lin y Carroll (2000). 4.4.4. Estimacin a partir de la verosimilitud local conjunta En esta seccin, un enfoque de estimacin alternativa se propone para estimar los parmetros en el modelo localizado LME (4.22) con datos longitudinales (Park y Wu 2005). Bajo el supuesto Gausiano (4.19), tenemos . Por tanto, el logaritmo de la funcin de densidad conjunta de es y se reduce al estimador LPK-GEE
donde . Puesto que aleatorios, el
y son los vectores de parmetros de efectos
no es un habitual logaritmo de verosimilitud (log-likelihood). un .
Por conveniencia, a partir de ahora y a lo largo de este trabajo, llamamos logaritmo de verosimilitud generalizado (generalized log-likelihood (GLL)) de
Entonces el logaritmo de verosimilitud generalizado localizado (localized generalized log-likelihood (LGLL)) en la zona de un tiempo dos maneras diferentes: puede considerarse de
donde
,y
es un vector
con todos los elementos s.
En (4.31), los pesos del ncleo se aplican simtricamente slo a los trminos de residuos de la funcin GLL, mientras, en (4.32),
los pesos del ncleo se aplican a toda la funcin GLL de (4.30) en la que los trminos
50
Trabajo Fin de Mster en Estadstica Aplicada 2010/2011 de efecto aleatorio tambin se multiplican por los pesos del ncleo. Estos dos
mtodos diferentes de ponderacin del ncleo dan lugar a dos estimadores diferentes. Minimizando el criterio LGLL (4.31) da lugar a estimadores exactos de efectos mixtos polinomial local (local polynomial mixed-effects (LPME)) propuestos por Wu y Zhang (2002a), y el modelado asociado que se denomina como el modelado LPME. Para determinados , y , resolver el problema de minimizacin (4.31) es
equivalente a resolver la llamada ecuacin del modelo mixto (Davidian y Giltinan 1995, Zhang, Lin, Raz y Sowers 1998):
donde
se definen como en la subseccin anterior, y ,y . son
Entonces los resultados de los estimadores LPME para
donde
En notacin matricial, los estimadores anteriores se pueden escribir en una forma ms compacta:
donde estimadores.
. En las siguientes secciones, nos centraremos en estos
Del mismo modo podemos obtener los estimadores LPME basados en el criterio LGLL (4.32). De hecho, para determinados 51 , y , los estimadores LPME
Trabajo Fin de Mster en Estadstica Aplicada 2010/2011 obtenidos maximizando (4.31) y (4.32) se pueden escribir en una forma unificada, que es la solucin a las siguientes ecuaciones normales del modelo mixto:
donde
correspondientes a los estimadores derivados del
criterio LGLL (4.31) y (4.32) respectivamente. Al resolver las ecuaciones normales anteriores (4.36), los estimadores LPME para y , y , bajo los supuestos de conocidos
, se puede escribir como las siguientes formas cerradas:
donde pueden encontrar como
. Por tanto, los estimadores de
se
Uno puede notar que la diferencia entre el estimador a partir de verosimilitud local marginal (4.27) y el estimador (4.37) para el parmetro de la poblacin se debe
a diferentes funciones de peso. En las estimaciones de los parmetros de efectos aleatorios (4.38), el parmetro de la poblacin puede ser reemplazado por cualquiera es un
de los estimadores consistentes, tales como (4.27) o (4.37). De hecho,
estimador de Bayes emprico o un mejor predictor lineal insesgado (best linear unbiased predictor (BLUP)), vase Davidian y Giltinan (1995) y Vonesh y Chinchilli (1996) para ms detalles. Las estimaciones de los efectos aleatorios, nos permiten captar las curvas de respuesta individual, , que es una gran ventaja de los y
modelos NPME. Tambin se puede ver fcilmente que, a partir de (4.36) con
, la aplicacin de diferentes pesos del ncleo pueden dar lugar a
52
Trabajo Fin de Mster en Estadstica Aplicada 2010/2011 diferentes estimadores de verosimilitud local. Estos estimadores pueden tener diferentes propiedades y eficiencias. En los debates posteriores, centramos nuestra atencin en los estimadores LPME (4.33). Sin embargo, las metodologas desarrolladas pueden similarmente aplicarse a los estimadores generales (4.37) y (4.38). Una de las ventajas de los modelos LPME es que se puede implementar fcilmente usando el software existente para los modelos LME. De hecho, para cada dado, los estimadores LPME (4.33) se pueden obtener a travs de la adaptacin operacionalmente del siguiente modelo LME estndar:
donde
. El primero se trata como la
variable de respuesta, mientras que el segundo se trata como las covariables de efectos fijos y efectos aleatorios. Ellos son en realidad la variable de respuesta localizada, las covariables de efectos fijos y efectos aleatorios en el punto de tiempo dado . Los estimadores LPME (4.33) y sus desviaciones estndar se pueden obtener entonces a travs de adaptacin (4.40) utilizando la funcin lme de R. 4.4.5. Estimacin de los componentes A partir de (4.21) y (4.33), fcilmente se obtienen los estimadores LPME de , y sus -simas derivadas:
para LPME de y
. En particular, .
son los estimadores
El estimador de
puede ser obtenido directamente mediante ajuste del por el mtodo de los momentos, por ejemplo,
modelo (4.40), y podemos estimar
53
Basado en
, nuevas inferencias se pueden hacer. Por ejemplo, se
pueden realizar anlisis de componentes principales (principal component analysis (PCA)) sobre los datos longitudinales basados en la descomposicin de valor singular de . Por otra parte, . y se pueden utilizar para llevar a cabo pruebas
de hiptesis acerca de
4.5. Eleccin de buenos anchos de banda Para simplificar la discusin, en la seccin anterior, el ncleo banda se supone que estn dados y fijos. En la prctica, y el ancho de
debe ser cuidadosamente y puede
elegido. Cuando
es muy pequeo, los estimadores LPME resultantes es demasiado grande, y
suelen ser muy ruidosos, y cuando
sobresuavizarse los datos ya que alguna informacin importante en los datos no est suficientemente capturada. En esta seccin, hablaremos de cmo elegir buenos anchos de banda para los estimadores LPME. En primer lugar, por (4.33), es fcil ver que el conjunto de datos est involucrado en los estimadores de la poblacin mientras que slo los datos del
sujeto estn dedicados principalmente a la curva de los estimadores individuales para el -simo sujeto, es decir, banda para la estimacin de y . Por lo tanto, diferentes anchos de deben ser utilizados para dar cuenta de las
diferentes cantidades de datos en cuestin. Siguiendo Rice y Silverman (1991), el criterio de validacin cruzada dejar-un-sujeto-fuera (subject cross-validation (SCV)) se puede utilizar para seleccionar un ancho de banda adecuado para la estimacin .
Para un conjunto de datos longitudinales, se sabe que, condicionado a un sujeto particular, digamos sujeto , las mediciones del sujeto son no correlacionadas e
independientes; adems, las mediciones de la funcin de media condicional es exactamente la curva individual . En este caso, el criterio usual de validacin cruzada dejar-un-sujeto-fuera (subject cross-validation (SCV)), que tradicionalmente se propone para los datos no correlacionados e independientes, parece ser apropiado para la seleccin de buenos anchos de banda para la estimacin de simplificar, un ancho de banda comn para la estimacin de . Para
para todos los sujetos
54
Trabajo Fin de Mster en Estadstica Aplicada 2010/2011 ser utilizado porque el se supone que son del mismo proceso subyacente y por lo
tanto se puede suponer que tienen suavidades similares en general. 4.5.1. Validacin cruzada dejar-un-sujeto-fuera La puntuacin (subject cross-validation (SCV)) se define como
donde
representa el estimador de
basado en los datos con las mediciones toman el nmero de mediciones se define como
del sujeto totalmente excluidos, y los pesos
de los sujetos individuales en cuenta. El ancho de banda SCV ptimo el minimizador de
. Rice y Silverman (1991) seal que el (subject cross-
validation (SCV)) es ms apropiado para la estimacin de la curva (media) de la poblacin que el (point cross-validation (PCV)). Hart y Wehrly (1993) mostr que el ancho de banda SCV es consistente. Es computacionalmente intenso calcular el criterio SCV (4.43) ya que necesitamos repetidamente calcular el ajuste del modelo LPME veces para obtener
; cada ajuste tiene aproximadamente la misma cantidad de esfuerzo computacional como para calcular utilizando el conjunto de datos entero. Para se puede utilizar. Para un ancho de o (4.34), es decir
superar este problema, una aproximacin de banda o
dado, todos los datos se pueden utilizar para estimar , entonces
se obtiene aproximadamente a partir de la solucin de forma suprimiendo el trmino que implica el -simo
cerrada (4.41) para la estimacin de sujeto. Esto es,
Por lo tanto, la nica aproximacin requiere ajustar el modelo LPME una vez para calcular la puntuacin SCV (4.43) para todos los sujetos, y por tanto el esfuerzo computacional es mucho menor.
55
Trabajo Fin de Mster en Estadstica Aplicada 2010/2011 4.5.2. Validacin cruzada dejar-un-punto-fuera El criterio PCV se define como sigue. Supongamos todos los dado,
puntos distintos en tiempo de diseo para el conjunto de datos entero. Para un supongamos que los sujetos tienen mediciones en :
Sean tiempo de diseo (PCV)) se define como
los estimadores de
cuando todos los datos en el punto en
son excluidos. Entonces la puntuacin (point cross-validation
donde los pesos banda PCV ptimo
toman el nmero de mediciones en se define como el minimizador de .
en cuenta. El ancho de
4.6. Aplicacin a los datos de progesterona Los datos de progesterona introducidos en el Captulo 1 han sido cuidadosamente estudiados por Brumback y Rice (1998) como una interesante ilustracin de sus modelos ANOVA funcionales basados en la suavizacin spline. La necesidad de intensiva computacin representa un gran desafo para su mtodo. Fan y Zhang (2000) volvi a analizar los datos utilizando un mtodo de dos pasos. En esta seccin, aplicamos el mtodo (nonparametric mixed-effects (NPME)) a este conjunto de datos como una ilustracin de las metodologas introducidas en este captulo. Los datos de progesterona consisten en dos grupos de curvas de progesterona del metabolito urinario (ver Figuras 1.1 y 1.2). Uno de ellos es conocido como el grupo no conceptivo con 69 ciclos menstruales de mujeres; el otro como el grupo conceptivo con 22 ciclos menstruales de mujeres. Aproximadamente el 8.3% de los datos eran faltantes. Los dos grupos de curvas estn muy correlacionados con coeficientes de correlacin por encima de 0.70 y 0.50, respectivamente. En este ejemplo de alta correlacin y baja tasa de valores faltantes, vamos a aplicar el mtodo NPME para estimar las curvas de la poblacin y las curvas individuales. Debido a que los grupos conceptivo y no conceptivo parecen mostrar diferencias, deben analizarse por separado. Para ahorrar
56
Trabajo Fin de Mster en Estadstica Aplicada 2010/2011 espacio, slo informamos de los resultados de los datos del grupo conceptivo o equivalentemente de los datos de progesterona conceptiva. Los detalles para ajustar el modelo NPME (4.18) a los datos de progesterona conceptiva son como sigue. Se utiliza la funcin lme de R para ajustar el modelo (4.18) localmente. En primer lugar, para estimar la funcin de efecto fijo o funcin de media poblacional utilizamos el estimador local de probabilidad marginal (4.29) de Park
y Wu (2005). A continuacin, para la estimacin de la funcin de efecto aleatorio utilizamos una aproximacin por un modelo semiparamtrico, pasamos del modelo (4.18) al siguiente modelo: De esta manera, estimamos . usando la ecuacin (2.9) del Captulo 2. En la Figura 4.1
podemos ver la representacin de la estimacin lineal paramtrica del modelo descrito anteriormente utilizando el mtodo (maximun likelihood (ML)), dicha representacin es la recta de puntos rojos. Tambin se puede ver la representacin de la estimacin lineal local utilizando las estimaciones de las varianzas obtenidas por el mtodo ML y usando , dicha representacin es la curva de puntos azules.
Figura 4.1 Grupo conceptivo
log (prog)
-4
-2
-5
0 dias
10
15
57
Trabajo Fin de Mster en Estadstica Aplicada 2010/2011 A continuacin, para realizar la representacin de las curvas individuales de los datos de progesterona conceptiva hemos seleccionado los sujetos 1, 4, 5 y 22 como se muestran en los paneles (a), (b), (c) y (d) de la Figura 4.2 respectivamente. Adems, para cada sujeto, representamos la estimacin lineal paramtrica que se muestra como curva (recta) de color rojo en el grfico y la estimacin lineal local no paramtrica que se muestra como curva de color azul en el grfico.
Figura 4.2 (a) Sujeto 1
4
4
Figura 4.2 (b) Sujeto 4
log (prog)
log (prog)
-2
-4
-4
-2
-5
5 dias
10
15
-5
5 dias
10
15
Figura 4.2 (c) Sujeto 5

4
4
Figura 4.2 (d) Sujeto 22
log (prog)
log (prog)
-2
-4
-4
-2
-5
5 dias
10
15
-5
5 dias
10
15
Por ltimo, vamos a representar todas las curvas individuales de los datos de progesterona conceptiva utilizando la estimacin lineal paramtrica como se muestra en la Figura 4.3 y usando tambin la estimacin lineal local no paramtrica como se muestra en la Figura 4.4.
58
Figura 4.3 Grupo conceptivo con LME
log (prog)
-4
-2
-5
0 dias
10
15
Figura 4.4 Grupo conceptivo con LLME y h_plug
log (prog)
-4
-2
-5
0 dias
10
15
59
Trabajo Fin de Mster en Estadstica Aplicada 2010/2011 Apndice: Cdigo en R generado para las aplicaciones ########## LECTURA DE LOS DATOS DE PROGESTERONA ########## datos0 <- read.table(file='br.txt', header=T, skip=15) ##### grupo <- 1, este caso es para el grupo no conceptivo grupo <- 2 if (grupo==1) datos <- datos0[datos0[,1]==0 & datos0[,6]==0,] ##### El grupo no conceptivo if (grupo==2) datos <- datos0[datos0[,1]==1 & datos0[,6]==0,] ##### El grupo conceptivo datos <- datos[,-c(1,2,6)] N <- nrow(datos)
##### Los datos deben ir ordenados segn el efecto aleatorio (en este caso lo estn) var.bi <- as.numeric(datos[,1]) ##### var.bi recoge el cdigo de cada individuo en el anlisis (ciclos) nis <- as.vector(table(var.bi)) ##### nis recoge el nmero de observaciones por ciclo (aproximadamente 24) q <- length(nis) ##### q es el nmero de individuos cum.nis <- cumsum(nis) ##### cum.nis son las sumas acumuladas de nis bi <- var.bi[cum.nis] ##### bi recoge los cdigos distintos en var.bi
##### Variable de respuesta (y.ij = log progesterona = log (prog)) y.ij <- datos[,3] yis <- lapply(1:q, FUN=get.vec.i, vv=y.ij, cum.nis=cum.nis) ##### Variable explicativa (vec.x = dias) vec.x <- datos[,2] 60
Trabajo Fin de Mster en Estadstica Aplicada 2010/2011 ########## REPRESENTACIN GRFICA DE LOS DATOS ########## ########## Grficos de curvas individuales (spaguetti plot o raw curves) ##### Debemos elegir grupo <- 2 para representar, en este caso, el grupo conceptivo plot(vec.x, y.ij, col='gray', main='Figura 1.1 (a) Grupo conceptivo', xlab='dias', ylab='log (prog)') ##### Con esta orden representamos los puntos para el grupo conceptivo sapply(1:q, function(i) lines(vec.x[var.bi==bi[i]], y.ij[var.bi==bi[i]])) ##### Con esta orden unimos los puntos con lneas continuas para el grupo conceptivo
##### Debemos elegir grupo <- 1 para representar, en este caso, el grupo no conceptivo plot(vec.x, y.ij, col='gray', main='Figura 1.2 (a) Grupo no conceptivo', xlab='dias', ylab='log (prog)') ##### Con esta orden representamos los puntos para el grupo no conceptivo sapply(1:q, function(i) lines(vec.x[var.bi==bi[i]], y.ij[var.bi==bi[i]])) ##### Con esta orden unimos los puntos con lneas continuas para dicho grupo
########## Grficos de curvas medias con bandas de desviacin estndar ##### Debemos elegir grupo <- 2 para representar, en este caso, el grupo conceptivo var.time <- as.numeric(datos[,2]) ##### var.time recoge los tiempos de todos los individuos en el anlisis n.time <- as.vector(table(var.time)) ##### n.time recoge el nmero de observaciones por cada punto de tiempo distinto t <- length(n.time) ##### t es el nmero de puntos de tiempo distintos medias <- sapply(1:t, function(i) mean(y.ij[var.time==var.time[i]])) ##### medias son las medias de las observaciones en cada punto de tiempo distinto time <- c(-8,-7,-6,-5,-4,-3,-2,-1,0,1,2,3,4,5,6,7,8,9,10,11,12,13,14,15) ##### time son los puntos de tiempo plot(time, medias, xlim=c(-8,16), ylim=c(-2,3), main='Figura 1.1 (b) Grupo conceptivo', xlab='dias', ylab='log (prog)') ##### Con esta orden representamos los puntos de la curva media 61
Trabajo Fin de Mster en Estadstica Aplicada 2010/2011 lines(time, medias) ##### Con esta orden unimos los puntos de la curva media con lnea negra continua longitud <- sapply(1:t, function(i) length(y.ij[var.time==var.time[i]])) ##### longitud es el nmero de observaciones en cada punto de tiempo distinto desviacion <- sapply(1:t, function(i) sd(y.ij[var.time==var.time[i]])/sqrt(longitud[i])) ##### desviacion es la desviacin tpica de las observaciones en cada punto de tiempo positiva <-sapply(1:t, function(i) medias[i]+2*desviacion[i]) ##### positiva son los puntos de la curva de desviacin estndar (SD) positiva plot(time,positiva, xlim=c(-8,16), ylim=c(-2,3), main='Figura 1.1 (b) Grupo conceptivo', xlab='dias', ylab='log (prog)') ##### Con esta orden representamos los puntos de la curva SD positiva lines(time, positiva, col='red') ##### Con esta orden unimos los puntos de la curva SD positiva con lnea roja continua negativa <-sapply(1:t, function(i) medias[i]-2*desviacion[i]) ##### negativa son los puntos de la curva de desviacin estndar (SD) negativa plot(time,negativa, xlim=c(-8,16), ylim=c(-2,3),main='Figura 1.1 (b) Grupo conceptivo', xlab='dias', ylab='log (prog)') ##### Con esta orden representamos los puntos de la curva SD negativa lines(time, negativa, col='red') ##### Con esta orden unimos los puntos de la curva SD negativa en lnea roja continua
##### Para superponer las tres curvas en un mismo grfico, como puede verse en la ##### Figura 1.1 (b) y Figura 1.2 (b) debemos utilizar la orden points como sigue: points(time, medias, col='gray') ##### Con esta orden representamos los puntos de la curva media en color gris points(time, positiva) ##### Con esta orden representamos los puntos de la curva SD positiva points(time, negativa) ##### Con esta orden representamos los puntos de la curva SD negativa
62
Trabajo Fin de Mster en Estadstica Aplicada 2010/2011 ##### Debemos elegir grupo <- 1 para representar, en este caso, el grupo no conceptivo ##### En este caso todo es igual al caso del grupo conceptivo salvo lo siguiente: plot(time, medias, xlim=c(-8,16), ylim=c(-2,2), main='Figura 1.2 (b) Grupo no conceptivo', xlab='dias', ylab='log (prog)') ##### Con esta orden representamos los puntos de la curva media plot(time, positiva, xlim=c(-8,16), ylim=c(-2,2), main='Figura 1.2 (b) Grupo no conceptivo', xlab='dias', ylab='log (prog)') ##### Con esta orden representamos los puntos de la curva SD positiva plot(time, negativa, xlim=c(-8,16), ylim=c(-2,2), main='Figura 1.2 (b) Grupo no conceptivo', xlab='dias', ylab='log (prog)') ##### Con esta orden representamos los puntos de la curva SD negativa
########## Grficos de ajustes de modelos polinomiales a los datos ##### Debemos elegir grupo <- 1 puesto que el sujeto seleccionado pertenece al grupo ##### no conceptivo, dicho sujeto es el de cdigo 5 (ciclo = 5) sujeto <- y.ij[var.bi==5] ##### sujeto recoge las respuestas (log progesterona) del sujeto seleccionado tiempo <- c(-8,-7,-6,-5,-4,-3,-2,-1,0,1,2,3,4,5,6,7,8,9,10,11,12,13,14) ##### tiempo son los puntos de tiempo del sujeto seleccionado plot(tiempo, sujeto, xlim=c(-8,16), ylim=c(-1,3), main='Figura 3.1 (a) Lineal', xlab='dias', ylab='log (prog)') ##### Con esta orden representamos los puntos del sujeto seleccionado x <- tiempo ##### Recodificamos tiempo como x para mayor comodidad y <- sujeto ##### Recodificamos sujeto como y para mayor comodidad ajuste1 <- lm(y~poly(x,1)) ##### ajuste1 recoge el ajuste a un polinomio de grado 1 xx <- seq(-8,16, length.out=250) lines(xx, predict(ajuste1, data.frame(x=xx))) ##### Con esta orden representamos el ajuste1 en el grfico con lnea continua 63
Trabajo Fin de Mster en Estadstica Aplicada 2010/2011 plot(tiempo, sujeto, xlim=c(-8,16), ylim=c(-1,3), main='Figura 3.1 (b) Cuadrtico', xlab='dias', ylab='log (prog)') ##### Con esta orden representamos los puntos del sujeto seleccionado ajuste2 <- lm(y~poly(x,2)) ##### ajuste2 recoge el ajuste a un polinomio de grado 2 lines(xx, predict(ajuste2, data.frame(x=xx))) ##### Con esta orden representamos el ajuste2 en el grfico con curva continua plot(tiempo, sujeto, xlim=c(-8,16), ylim=c(-1,3), main='Figura 3.1 (c) Cbico', xlab='dias', ylab='log (prog)') ##### Con esta orden representamos los puntos del sujeto seleccionado ajuste3 <- lm(y~poly(x,3)) ##### ajuste3 recoge el ajuste a un polinomio de grado 3 lines(xx, predict(ajuste3, data.frame(x=xx))) ##### Con esta orden representamos el ajuste3 en el grfico con curva continua plot(tiempo, sujeto, xlim=c(-8,16), ylim=c(-1,3), main='Figura 3.1 (d) Cuartico', xlab='dias', ylab='log (prog)') ##### Con esta orden representamos los puntos del sujeto seleccionado ajuste4 <- lm(y~poly(x,4)) ##### ajuste4 recoge el ajuste a un polinomio de grado 4 lines(xx, predict(ajuste4, data.frame(x=xx))) ##### Con esta orden representamos el ajuste4 en el grfico con curva continua
########## Grfico de tres ajustes lineales locales para el sujeto seleccionado library(KernSmooth) plot(tiempo, sujeto, xlim=c(-8,16), ylim=c(-1,3), main='Figura 3.2 Ajustes lineales locales', xlab='dias', ylab='log (prog)') ##### Con esta orden representamos los puntos del sujeto seleccionado anteriormente ajuste2 <- locpoly(x, y, bandwidth = 0.5) ##### ajuste2 recoge un ajuste lineal local con ancho de banda 0.5 lines(ajuste2, col='red') ##### Con esta orden representamos el ajuste2 en el grfico con curva de color rojo 64
Trabajo Fin de Mster en Estadstica Aplicada 2010/2011 ajuste1 <- locpoly(x, y, bandwidth = 1.0249) ##### ajuste1 recoge un ajuste lineal local con ancho de banda 1.0249 lines(ajuste1, col='black') ##### Con esta orden representamos el ajuste1 en el grfico con curva de color negro ajuste3 <- locpoly(x, y, bandwidth = 2.75) ##### ajuste3 recoge un ajuste lineal local con ancho de banda 2.75 lines(ajuste3, col='blue') ##### Con esta orden representamos el ajuste3 en el grfico con curva de color azul
########## Estimacin lineal paramtrica ##### Modelo sencillo: y.ij = m(t.ij) + b.i + e.ij suponiendo m() lineal library(nlme) lmxy <- lme(y.ij ~ vec.x, random= ~ 1 | var.bi, method="ML") ##### Nos quedamos con las estimaciones de las varianzas ### > lmxy ### Linear mixed-effects model fit by maximum likelihood ### Data: NULL ### Log-likelihood: -552.2634 ### Fixed: y.ij ~ vec.x ### (Intercept) vec.x
### 0.1276360 0.1460603 ### ### Random effects: ### Formula: ~1 | var.bi ### (Intercept) Residual (ESTAS SON LAS DESVIACIONES TPICAS)
### StdDev: 0.7447658 0.6584556 ### ### Number of Observations: 514 ### Number of Groups: 22 65
Trabajo Fin de Mster en Estadstica Aplicada 2010/2011 ##### Por el mtodo REML tenemos lo siguiente: lmxy <- lme(y.ij ~ vec.x, random= ~ 1 | var.bi, method="REML") ### > lmxy ### Linear mixed-effects model fit by REML ### Data: NULL ### Log-restricted-likelihood: -557.706 ### Fixed: y.ij ~ vec.x ### (Intercept) vec.x
### 0.1276368 0.1460601 ### ### Random effects: ### Formula: ~1 | var.bi ### (Intercept) Residual (ESTAS SON LAS DESVIACIONES TPICAS)
### StdDev: 0.7628585 0.6591255 ### ### Number of Observations: 514 ### Number of Groups: 22
m.LME <- as.vector(lmxy$fitted[,1]) ##### m.LME es la estimacin de m(t.ij) points(vec.x, m.LME, col=2, cex=0.8, pch=21, bg=2) ##### Con esta orden representamos en el grfico con puntos rojos la estimacin lineal ##### de la curva de la poblacin ##### Ahora calculamos las estimaciones de las curvas por individuos b.LME <- as.vector(random.effects(lmxy)[,1]) ##### b.LME son las estimaciones de b.i
##### Para el sujeto 1 tenemos: i <- 1 66
Trabajo Fin de Mster en Estadstica Aplicada 2010/2011 x.i <- vec.x[var.bi==bi[i]] y.i <- m.LME[var.bi==bi[i]]+b.LME[i] plot(x.i, y.i, xlim=c(-8,16), ylim=c(-4,4), col='red', main='Figura 4.2 (a) Sujeto 1', xlab='dias', ylab='log (prog)', type='l') points(vec.x[var.bi==bi[i]], y.ij[var.bi==bi[i]], col='gray') ##### Para el sujeto 4 tenemos: i <- 4 x.i <- vec.x[var.bi==bi[i]] y.i <- m.LME[var.bi==bi[i]]+b.LME[i] plot(x.i, y.i, xlim=c(-8,16), ylim=c(-4,4), col='red', main='Figura 4.2 (b) Sujeto 4', xlab='dias', ylab='log (prog)', type='l') points(vec.x[var.bi==bi[i]], y.ij[var.bi==bi[i]], col='gray') ##### Para el sujeto 5 tenemos: i <- 5 x.i <- vec.x[var.bi==bi[i]] y.i <- m.LME[var.bi==bi[i]]+b.LME[i] plot(x.i, y.i, xlim=c(-8,16), ylim=c(-4,4), col='red', main='Figura 4.2 (c) Sujeto 5', xlab='dias', ylab='log (prog)', type='l') points(vec.x[var.bi==bi[i]], y.ij[var.bi==bi[i]], col='gray') ##### Para el sujeto 22 tenemos: i <- 22 x.i <- vec.x[var.bi==bi[i]] y.i <- m.LME[var.bi==bi[i]]+b.LME[i] plot(x.i, y.i, xlim=c(-8,16), ylim=c(-4,4), col='red', main='Figura 4.2 (d) Sujeto 22', xlab='dias', ylab='log (prog)', type='l') points(vec.x[var.bi==bi[i]], y.ij[var.bi==bi[i]], col='gray')
##### Si queremos pintarlas todas hacemos: plot(vec.x, y.ij, col='gray', main='Figura 4.3 Grupo conceptivo con LME', xlab='dias', ylab='log (prog)') sapply(1:q, function(i) lines(vec.x[var.bi==bi[i]], y.ij[var.bi==bi[i]])) 67
Trabajo Fin de Mster en Estadstica Aplicada 2010/2011 sapply(1:q, function(i) { x.i <- vec.x[var.bi==bi[i]] y.i <- m.LME[var.bi==bi[i]]+b.LME[i] lines(x.i, y.i, col=i) } )
########## Estimacin lineal local sin considerar la correlacin library(KernSmooth) ##### Ancho de banda (Bandwidth): h ##### Usamos un plug-in (Rupper, Sheather and Wand en KernSmooth) ##### para un modelo sin efectos aleatorios h.plug <- dpill(vec.x, y.ij) ### > h.plug ### [1] 1.294126
########## Estimacin lineal local considerando la correlacin (marginal) ##### Utilizamos las estimaciones de las varianzas por ML (obtenida con lme) ##### En el grupo 2 o grupo conceptivo tenemos: v.b <- 0.7447658^2 v.e <- 0.6584556^2
########## Calculo de la inversa de la raz de la matriz de covarianzas zis <- lapply(1:q, FUN=get.vec.i, vv=vec.x, cum.nis=cum.nis) Vs <- Vs.calculos(q, nis, v.e, v.b, zis) library(Matrix) inv.Vis.half <- Vs$inv.Vis.half inv.V.half <- as.matrix(bdiag(inv.Vis.half)) 68
Trabajo Fin de Mster en Estadstica Aplicada 2010/2011 ##### El estimador segn sugerencia de Park y Wu (2005) es el siguiente: m.LLME <- Local.marginal(h=h.plug, grid.x=vec.x, vec.x, y.ij, inv.V.half, deg=1) m.LLME <- as.vector(m.LLME) ##### Para representarlo grficamente utilizamos la siguiente orden: points(vec.x, m.LLME, col='blue', pch=21, bg='blue') ##### Ahora calculamos las estimaciones de las curvas por individuos b.LLME <- estim.bi(m.LLME, nis, y.ij, v.b, inv.V) ##### b.LLME son las estimaciones de b.i
##### Para el sujeto 1 tenemos: i <- 1 x.i <- vec.x[var.bi==bi[i]] y.i <- m.LLME[var.bi==bi[i]]+b.LLME[i] plot(x.i, y.i, xlim=c(-8,16), ylim=c(-4,4), col='blue', main='Figura 4.2 (a) Sujeto 1', xlab='dias', ylab='log (prog)', type='l') points(vec.x[var.bi==bi[i]], y.ij[var.bi==bi[i]], col='gray') ##### De la misma forma se tiene para los sujetos 4, 5 y 22
##### Si queremos pintarlas todas hacemos: plot(vec.x, y.ij, col='gray', main='Figura 4.4 Grupo conceptivo con LLME y h_plug', xlab='dias', ylab='log (prog)') sapply(1:q, function(i) lines(vec.x[var.bi==bi[i]], y.ij[var.bi==bi[i]])) sapply(1:q, function(i) { x.i <- vec.x[var.bi==bi[i]] y.i <- m.LLME[var.bi==bi[i]]+b.LLME[i] lines(x.i, y.i, col=i) } )
69
Trabajo Fin de Mster en Estadstica Aplicada 2010/2011 ########## FUNCIONES CREADAS PARA EL ANLISIS ########## Local.marginal <- function(h, grid.x, vec.x, y.ij, inv.V.half, deg) { ##### Argumentos: bandwidth: h, evaluation point: x ##### Calcula la funcin media en la red de puntos grid.x ##### deg = 0 o 1 ##### k es la dimensin de la covariable vec.x, k=1 N <- length(y.ij) each.x <- function(x) { ##### Matriz de pesos kernel: W.hx diag.w <- h^(-1) * Kepa((vec.x-x)/h) W.hx.half <- diag(sqrt(diag.w),N) ##### Construimos la matriz de diseo ##### Matriz de diseo: X (dimensin N times 2) de vec.x nc <- 1+deg X <- matrix(1, nrow= N, ncol=nc) if (deg==1) X[,2:nc] <- vec.x - x ##### Transformacin para local Xw <- inv.V.half %*% W.hx.half %*% X yw <- inv.V.half %*% W.hx.half %*% y.ij lmxy <- lm.fit(Xw, yw) beta.x <- lmxy$coefficient[1] } beta.ts <- sapply(grid.x, each.t) return(beta.ts) } ##### Ejemplo: ##### Local.marginal(h=2, grid.x=vec.x, vec.x, y.ij, inv.V.half, deg=1) 70
Trabajo Fin de Mster en Estadstica Aplicada 2010/2011 ##### Clculos de matrices de varianzas-covarianzas (conocidas):inversas, races,.. ##### por bloques de tamaos n_i Vs.calculos <- function(q, nis, v.e, v.b, zis) { block.V <- function(i) { zi <- as.matrix(zis[[i]]) Vi <- v.b*zi %*% t(zi) + diag(v.e,nis[i]) Vi } Vis <- lapply(1:q, block.V) block.V <- function(i) { inv.Vi <- solve(as.matrix(Vis[[i]])) } inv.Vis <- lapply(1:q, block.V) block.V <- function(i) { Vi.half <- chol(as.matrix(Vis[[i]])) } Vis.half <- lapply(1:q, block.V) block.V <- function(i) { zi <- as.matrix(zis[[i]]) Vi <- v.b*zi %*% t(zi) + diag(v.e,nis[i]) inv.Vi <- solve(Vi) inv.Vi.half <- chol(inv.Vi) inv.Vi.half <- as.matrix(inv.Vi.half) inv.Vi.half 71
Trabajo Fin de Mster en Estadstica Aplicada 2010/2011 } inv.Vis.half <- lapply(1:q, block.V) ##### la funcin devuelve los resultados en bloques dentro de listas return(list(Vis=Vis,Vis.half=Vis.half,inv.Vis=inv.Vis,inv.Vis.half=inv.Vis.half)) }
##### Estimador local marginal de la funcin media con varianzas conocidas ##### Implementacin usando la frmula 4.28 de la pgina 49 get.vec.i <- function(pos, vv, cum.nis) ##### la funcin get.vec.i devuelve una lista con vectores por bloques { if (pos==1) desde <- 1 else desde <- cum.nis[pos-1]+1 hasta <- cum.nis[pos] vec.i <- vv[desde:hasta] return(vec.i) } ##### yis <- lapply(1:q, FUN=get.vec.i, vv=y.ij, cum.nis=cum.nis)
##### Epanechnikov kernel Kepa <- function(u) {(0.75*(1-(u)^2))*(abs(u)<1)}
cum.nis <- cumsum(nis) mat.Z[1:nis[1],1] <- 1 for (i in 2:q) { desde <- cum.nis[i-1]+1 hasta <- cum.nis[i] mat.Z[desde:hasta,i] <- 1 } 72
Trabajo Fin de Mster en Estadstica Aplicada 2010/2011 var.bi <- mat.Z %*% b.i ##### length=N var.bi <- as.vector(var.bi)
estim.bi <- function(mhat.ij, nis, y.ij, v.b, inv.V) { ##### calcula el efecto aleatorio en el modelo semiparamtrico ##### mhat.ij es la estimacin del efecto fijo sobre las observaciones, length=n cum.nis <- cumsum(nis) q <- length(nis) mat.Z <- matrix(0,N,q) mat.Z[1:nis[1],1] <- 1 for (i in 2:q) { desde <- cum.nis[i-1]+1 hasta <- cum.nis[i] mat.Z[desde:hasta,i] <- 1 } Diag.Sigma.b <- diag(v.b,q) bhat <- Diag.Sigma.b %*% t(mat.Z) %*% inv.V %*% (y.ij-mhat.ij) return(as.vector(bhat)) }
73
Trabajo Fin de Mster en Estadstica Aplicada 2010/2011 Referencias 1. Akaike, H. (1973). Information theory and an extension of the entropy maximization principle. 2nd International Symposium on Information Theory, eds. B.N. Petrov and F. Csak, Kiado: Akademia. pp. 267-281. 2. Altman, N.S. (1991). Kernel smoothing of data with correlated errors. Journal of American Statistical Association, 85, 749-759. 3. Anderson, T.W. (1984). An Introduction to Multivariate Statistical Analysis. Wiley, New York. 4. Brumback, B. and Rice, J.A. (1998). Smoothing spline models for the analysis of nested and crossed samples of curves. Journal of American Statistical Association, 93, 961-994. 5. Cai, Z., Li, H. and Wu, H. (2003). Generalized random curve models for longitudinal data. Manuscript. 6. Chen, K. and Jin, Z. (2005). Local polynomial regression analysis of clustered data. Biometrika, 92, 59-74. 7. Cheng, M.Y., Fan, J. and Marron, J.S. (1997). On automatic boundary corrections. Annals of Statistics, 25, 1691-1708. 8. Davidian, M. and Giltinan, D.M. (1995). Nonlinear Models for Repeated Measurement Data. Chapman and Hall, London. 9. de Boor, C. (1978). A practical Guide to Splines. Springer-Verlag, New York. 10. Demidenko, E. (2004). Mixed Models: Theory and Applications. Wiley, New York. 11. Dempster, A.P., Rubin, D.B. and Tsutakawa, R.K. (1981). Estimation in covariance components models. Journal of American Statistical Association, 76, 341-353. 12. Diggle, P.J., Liang, K.Y. and Zeger, S.L. (1994). Analysis of Longitudinal Data. Oxford University Press, Oxford, U.K. 13. Diggle, P.J., Heagerty, P., Liang, K.Y. and Zeger, S.L. (2002). Analysis of Longitudinal Data (2nd ed.). Oxford University Press, Oxford, U.K.
74
Trabajo Fin de Mster en Estadstica Aplicada 2010/2011 14. Diggle, P.J., and Hutchinson, M.F. (1989). On spline smoothing with autocorrelated errors. Australian Journal of Statistics, 31, 166-168. 15. Eubank, R.L. (1988). Spline Smoothing and Nonparametric Regression. Marcel Dekker, New York. 16. Eubank, R.L. (1999). Nonparametric Regression and Spline Smoothing. Marcel Dekker, New York. 17. Fan, J. (1992). Design-adaptive nonparametric regression. Journal of American Statistical Association, 87, 998-1004. 18. Fan, J. (1993). Local linear regression smoothers and their minimax efficiency. Annals of Statistics, 21, 196-216. 19. Fan, J., Farmen, M. and Gijbels, I. (1998). Local maximum likelihood estimation and inference. Journal of Royal Statistical Society, Series B, 60, 591-608. 20. Fan, J. and Gijbels, I. (1992). Variable bandwidth and local linear regression smoothers. Annals of Statistics, 20, 2008-2036. 21. Fan, J. and Gijbels, I. (1996). Local Polynomial Modelling and its Applications. Chapman and Hall. London. 22. Fan, J. and Marron, J.S. (1994). Fast implementations of nonparametric curve estimators. Journal of Computational and Graphical Statistics, 3, 35-56. 23. Fan, J. and Zhang, J.-T. (2000). Two-step estimation of functional linear models with applications to longitudinal data. Journal of Royal Statistical Society, Series B, 62, 303-322. 24. Gasser, T., Mller, H.G. and Mammitzsch, V. (1985). Kernels for nonparametric curve estimation. Journal of Royal Statistical Society, Series B, 86, 665-672. 25. Guo, W. (2002a). Functional mixed-effects models. Biometrics, 58, 121-128. 26. Guo, W. (2002b). Inference in smoothing spline analysis of variance. Journal of Royal Statistical Society, Series B, 64, 887-889.
75
Trabajo Fin de Mster en Estadstica Aplicada 2010/2011 27. Green, P. and Silverman, B.W. (1994). Nonparametric Regression and Generalized Linear Models. Chapman and Hall, London. 28. Hrdle, W. (1990). Applied Nonparametric Regression. Cambridge University Press, Boston. 29. Hart, J.D. (1991). Kernel regression estimation with time series errors. Journal of Royal Statistical Society, Series B, 53, 173-187. 30. Hart, J.D. and Wehrly, T.E. (1993). Consistency of cross-validation when the data are curves. Stochastic Processes and their Applications, 45, 351-361. 31. Harville, D.A. (1976). Extension of the Gauss-Markov theorem to include the estimation of random effects. Annals of Statistics, 4, 384-395. 32. Harville, D.A. (1977). Maximum likelihood approaches to variance component estimation and to related problems. Journal of American Statistical Association, 72, 320-340. 33. Hastie, T.J. and Loader, C. (1993). Local regression: automatic kernel carpentry (with discussion). Statistics Science, 8, 120-143. 34. Hoover, D.R., Rice, J.A., Wu, C.O., and Yang, L.P. (1998). Nonparametric smoothing estimates of time-varying coefficient models with longitudinal data. Biometrika, 85, 809-822. 35. Huang, J.Z., Wu, C.O. and Zhou, L. (2002). Varying-coefficient models and basis function approximations for the analysis of repeated measurements. Biometrika, 89, 111-128. 36. Jennrich, R.I. and Schluchter, M.D. (1986). Unbalanced repeated measures models with structured covariance matrices. Biometrics, 42, 805-820. 37. Jones, R.H. (1993). Longitudinal Data with Serial Correlation: A State-space Approach. Chapman and Hall, London. 38. Laird, N.M. and Ware, J.H. (1982). Random effects models for longitudinal data. Biometrics, 38, 963-974.
76
Trabajo Fin de Mster en Estadstica Aplicada 2010/2011 39. Laird, N.M., Lange, N. and Stram, D. (1987). Maximum likelihood computations with repeated measures: Application of the EM algorithm. Journal of American Statistical Association, 82, 97-105. 40. Liang, H., Wu, H. and Carroll, R.J. (2003). The relationship between virologic and immunologic responses in AIDS clinical research using mixed-effects varyingcoefficient semiparametric models with measurement error. Biostatistics, 4, 297-312. 41. Liang, K.Y. and Zeger S.L. (1986). Longitudinal data analysis using generalized linear models. Biometrika, 73, 13-22. 42. Lin, X. and Carroll, R.J. (2000). Nonparametric function estimation for clustered data when the predictor is measured without/with error. Journal of American Statistical Association, 95, 520-534. 43. Lin, X. and Carroll, R.J. (2001a). Semiparametric regression for clustered data using generalized estimating equations. Journal of American Statistical Association, 96, 10451056. 44. Lin, X. and Carroll, R.J. (2001b). Semiparametric regression for clustered data. Biometrika, 88, 1179-1185. 45. Lin, X. and Zhang, D. (1999). Inference in generalized additive mixed models by using smoothing splines. Journal of Royal Statistical Society, Series B, 61, 381-400. 46. Lindsey, J.K. (1993). Models for Repeated Measurements. Oxford University Press, Oxford, U.K. 47. Lindstrom, M.J. and Bates, D.M. (1990). Nonlinear mixed-effects models for repeated measures. Biometrics, 46, 673-687. 48. Longford, N.T. (1993). Random Coefficient Models. Oxford University Press, Oxford, U.K. 49. Marron, J.S. and Nolan, D. (1989). Canonical kernels for density estimation. Statistics and Probability Letters, 7, 195-199. 50. Mller, H.G. (1988). Nonparametric Regression Analysis of Longitudinal Data. Lecture Notes in Statistics. Springer-Verlag, New York. 77
Trabajo Fin de Mster en Estadstica Aplicada 2010/2011 51. Nadaraya, E.A. (1964). On estimating regression. Theory of Probability and its Applications, 9, 141-142. 52. Park, J.G. and Wu, H. (2005). Backfitting and local likelihood methods for nonparametric mixed-effects models with longitudinal data. Manuscript. 53. Pinheiro, J. and Bates, D. (2000). Mixed-effects Models in S and S-plus. SpringerVerlag. New York. 54. Ramsay, J.O. and Silverman, B.W. (1997). Functional Data Analysis. SpringerVerlag. New York. 55. Ramsay, J.O. and Silverman, B.W. (2002). Applied Functional Data Analysis. Springer-Verlag. New York. 56. Rice, J.A. and Silverman, B.W. (1991). Estimating the mean and covariance structure nonparametrically when the data are curves. Journal of Royal Statistical Society, Series B, 53, 233-243. 57. Rice, J.A. and Wu, C.O. (2001). Nonparametric mixed effects models for unequally sampled noisy curves. Biometrics, 57, 253-259. 58. Robinson, G.K. (1991). That BLUP is a good thing: the estimation of random effects (with discussions). Statistics Science, 6, 15-32. 59. Ruppert, D., Sheather, S.J. and Wand, M.P. (1995). An effective bandwidth selector for local least squares regression. Journal of American Statistical Association, 90, 12571270. 60. Schwarz, G. (1978). Estimating the dimension of a model. Annals of Statistics, 6, 461-464. 61. Searle, S.R., Casella, G. and McCulloch, C.E. (1992). Variance Components. Wiley, New York. 62. Sheiner, L.B., Rosenberg, B. and Melmon, K.L. (1972). Modeling of individual pharmacokinetics for computer-aided drug dosage. Computers and Biomedical Research, 5, 441-459.
78
Trabajo Fin de Mster en Estadstica Aplicada 2010/2011 63. Sheiner, L.B. and Beal, S.L. (1980). Evaluation of methods for estimating population pharmacokinetic parameters. I. Michaelis-Menten model: routine
pharmacokinetic data. Journal of Pharmacokinetics and Biopharmaceutics, 8, 553-571. 64. Shi, M., Weiss, R.E. and Taylor, J.M. (1996). An analysis of pediatric CD4 counts for acquired immune deficiency syndrome using flexible random curves. Applied Statistics, 45, 151-163. 65. Staniswalis, J.G. (1989). The kernel estimate of a regression function in likelihoodbased models. Journal of American Statistical Association, 84, 276-283. 66. Stone, C.J. (1984). An asymptotically optimal window selection rule for kernel density estimation. Annals of Statistics, 12, 1285-1297. 67. Tibshirani, R. and Hastie, T. (1987). Local likelihood estimation. Journal of American Statistical Association, 82, 559-567. 68. Verbeke, G. and Molenberghs, G. (2000). Linear Mixed Models for Longitudinal Data. Springer-Verlag, New York. 69. Vonesh, E.F. and Chinchilli, V.M. (1996). Linear and Nonlinear Models for the Analysis of Repeated Measurements. Marcel Dekker, New York. 70. Wahba, G. (1985). A comparison of GCV and GML for choosing the smoothing parameter in the generalized spline smoothing problem. Annals of Statistics, 13, 13781402. 71. Wand, M.P. and Jones, M.C. (1995). Kernel Smoothing. Chapman and Hall, London. 72. Wang, N. (2003). Marginal nonparametric kernel regression accounting for withinsubject correlation. Biometrika, 90, 43-52. 73. Wang, N., Carroll, R.J. and Lin, X. (2005). Efficient semiparametric marginal estimation for longitudinal/clustered data. Journal of American Statistical Association, 100, 147-157. 74. Wang, Y. (1998a). Mixed-effects smoothing spline ANOVA. Journal of Royal Statistical Society, Series B, 60, 159-174. 79
Trabajo Fin de Mster en Estadstica Aplicada 2010/2011 75. Wang, Y. (1998b). Smoothing spline models with correlated random errors. Journal of American Statistical Association, 93, 341-348. 76. Watson, G.S. (1964). Smooth regression analysis. Sankhya, 26, 101-116. 77. Welsh, A.H., Lin, X. and Carroll, R.J. (2002). Marginal longitudinal nonparametric regression: locality and efficiency of spline and kernel methods. Journal of American Statistical Association, 97, 482-493. 78. Wu, C.O. and Chiang, C.T. (2000). Kernel smoothing on varying coefficient models with longitudinal dependent variable. Statistica Sinica, 10, 433-456. 79. Wu, C.O., Chiang, C.T. and Hoover, D.R. (1998). Asymptotic confidence regions for kernel smoothing of a varying-coefficient model with longitudinal data. Journal of American Statistical Association, 93, 1388-1402. 80. Wu, H. and Zhang, J.-T. (2002a). Local polynomial mixed-effects models for longitudinal data. Journal of American Statistical Association, 97, 883-897. 81. Wu, H. and Zhang, J.-T. (2002b). The study of long-term HIV dynamics using semiparametric nonlinear mixed-effects models. Statistics in Medicine, 21, 3655-3675. 82. Yen, S. and Jaffe, R.B. (1991). Reproductive Endocrinology: Physiology, Pathophysiology, and Clinical Management. W.B. Saunders, Philadelphia. 83. Zhang, D., Lin, X., Raz, J. and Sowers, M. (1998). Semiparametric stochastic mixed models for longitudinal data. Journal of American Statistical Association, 93, 710-719. 84. Zhang, J.-T. and Fan, J. (2000). Minimax kernels for nonparametric curve estimation. Journal of Nonparametric Statistics, 12, 417-445.
Adems se recomiendan las siguientes publicaciones on-line y direcciones de internet: 1. http://www.urmc.rochester.edu/smd/biostat/people/faculty/WuSite/publications.htm. 2. R: Pgina principal, descarga y documentacin: http://www.r-project.org/.
80

Métodos de Regresión No Paramétricos para El Análisis de Datos Longitudinales

Uploaded by

Document Information

Original Title

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

Métodos de Regresión No Paramétricos para El Análisis de Datos Longitudinales

Uploaded by

Copyright:

Available Formats

Mster Universitario en Estadstica Aplicada - Curso 2010/2011 Universidad de Granada

MTODOS DE REGRESIN NO PARAMTRICOS PARA EL ANLISIS DE DATOS LONGITUDINALES

Trabajo Fin de Mster en Estadstica Aplicada 2010/2011

Figura 1.1 (a) Grupo conceptivo

Trabajo Fin de Mster en Estadstica Aplicada 2010/2011

Figura 1.1 (b) Grupo conceptivo

Trabajo Fin de Mster en Estadstica Aplicada 2010/2011

Figura 1.2 (a) Grupo no conceptivo

Figura 1.2 (b) Grupo no conceptivo

para el -simo sujeto,

(parmetros de la poblacin) y efectos aleatorios (parmetros individuales), y

donde una matriz de diseo y 6

siendo una funcin conocida,

un parmetro especifico de sujeto para el

. Como ejemplo, un modelo lineal simple para

puede escribirse como no puede ser

. La media marginal y la varianza-covarianza de

regresin y la bondad de ajuste del modelo a los datos as que cuando

no paramtrico local se convierte en un modelo paramtrico global, y cuando

el nmero de observaciones para el -simo sujeto, y

son los errores de medicin que no se pueden explicar por

son realizaciones i.i.d. de un proceso de ruido

, con funcin de media 0 y funcin de covarianza y . Aqu cuantifica la variacin intra-

. Esto es, cuantifica la variacin entre-sujeto mientras que

; (3) estimar la funcin de covarianza varianza de ruido La , . y

respuesta longitudinal mientras que

individuales. Para simplificar, la funcin media poblacional individuales

se refieren a veces como las curvas de poblacin y las curvas

denotan la respuesta y el error de medicin de la y

sima medicin del -simo sujeto, los parmetros desconocidos

covariables de efectos fijos y efectos aleatorios. En la expresin anterior,

son conocidas como las componentes de varianza del modelo LME. En el 12

se definen de manera similar como en (2.2),

de coeficientes aleatorios del -simo sujeto, y

es una matriz de diseo

determinar los componentes de efectos aleatorios

-dimensional. Este modelo general de dos etapas de coeficiente

. Por lo tanto, incluso si los errores de medicin intra-sujeto (

son los vectores de parmetros de efectos

tomando la variacin entre-sujeto en cuenta. y , minimizar el criterio GLL (2.7) es

se definen en (2.6). Utilizando el algebra matricial, las

ecuaciones de rendimiento del modelo mixto 15

Trabajo Fin de Mster en Estadstica Aplicada 2010/2011

donde covarianzas de y son:

Lema 2.2 Sea

Trabajo Fin de Mster en Estadstica Aplicada 2010/2011

Definimos ahora el siguiente problema Bayesiano:

con distribucin a priori para

son independientes unas de otras, y

Ntese que la especificacin de

. Esto indica que los componentes de Adems, cuando en no es informativo. , tenemos

, tenemos las siguientes distribuciones a posteriori:

implican los parmetros desconocidos y

las estimaciones puntuales de

(vamos a discutir cmo estimarlos en las siguientes y se refieren generalmente como

subsecciones), las estimaciones Bayesianas,

. En realidad, este conocimiento es la base para

, son desconocidas, pero sus estimaciones

. Las estimaciones de sustitucin de y

por (2.10) y (2.12) despus de sustituir

errores estndar estn subestimados ya que los errores de estimacin de contabilizan.

normalidad es cuestionable. Bajo los supuestos de normalidad siguientes, , 18 , ,

. Si el vector de efectos aleatorios