You are on page 1of 6

Acomodaci

on de outliers y diagn
ostico de influencia en
suavizamiento spline
Felipe Osorio1 , Vctor Leiva2 , Shuangzhe Liu3
1

Departamento de Matem
atica, Universidad Tecnica Federico Santa Mara, felipe.osorios@usm.cl
2

Departamento de Estadstica, Universidad de Valparaso, victor.leiva@uv.cl

Faculty of Information Sciences and Engineering, University of Canberra, shuangzhe.liu@canberra.edu.au

Resumen
Ha sido bien documentado que la presencia de outliers y/o datos extremos puede tener un fuerte
impacto sobre suavizamiento spline. Esto ha motivado el desarrollo de procedimientos robustos.
Se presenta una alternativa para acomodaci
on de outliers en suavizamiento spline basado en
estimaci
on de m
axima verosimilitud penalizada (MPLE) bajo distribuciones de colas pesadas
utilizando una variante del algoritmo EM. El objetivo de este trabajo es aplicar el procedimiento
de influencia local para estudiar algunos aspectos de la robustez de los estimadores penalizados
contra algunos esquemas de perturbaci
on usual en el modelo o los datos. Ejemplos numericos
son usados para ilustrar la tecnica.
Palabras clave: Influencia local, Outliers, Suavizamiento spline ponderado, Validaci
on cruzada
generalizada.

1.

Introducci
on

El suavizamiento spline ofrece un enfoque flexible para ajuste no parametrico que frecuentemente es
usado para resaltar las tendencias subyacentes en los datos. Una exposicion detallada sobre suavizamiento y regresi
on no parametrica puede ser hallada en Eubank (1988) y Ruppert et al. (2003).
Con el objetivo de evaluar las supuestos del modelo y determinar el impacto que observaciones
atpicas pueden ejercen sobre la estimacion de parametros se ha desarrollado procedimientos de
diagnostico en el contexto de regresi
on semi-parametrica (ver por ejemplo Eubank, 1985). En particular, para suavizamiento spline, Kim (1996) desarrollo medidas de diagnostico basadas en procedimientos de eliminaci
on de casos, mientras que Silverman (1985) discutio algunas definiciones
para los residuos. Eubank y Gunst (1986) propusieron medidas para diagnostico de influencia en
mnimos cuadrados penalizados u
tiles en contextos como suavizamiento spline y regresion ridge. Por
otro lado, Thomas (1991) llev
o a cabo un estudio de influencia para evaluar el impacto de observaciones extremas sobre la selecci
on del parametro de suavizamiento considerando el procedimiento
de influencia local propuesto por Cook (1986). Alternativamente, varios autores han desarrollado
metodologas robustas con el objetivo de atenuar el efecto de outliers y/o observaciones influyentes
en regresi
on semi-parametrica. En efecto, Utreras (1981) y Wei (2004) han propuesto procedimientos
para suavizamiento robusto considerando M -estimadores, mientras que Cantoni y Ronchetti (2001)
y Lee y Cox (2009) se enfocaron en la seleccion robusta del parametro de suavizamiento. Recientemente, Staudenmayer et al. (2009) describen un enfoque para la acomodacion de outliers en regresi
on
semi-parametrica considerando errores distribuidos t de Student.
El objetivo de este trabajo es proponer una alternativa para acomodacion de outliers en suavizamiento spline considerando distribuciones con colas mas pesadas que la normal. Especficamente,
1

consideramos la clase de distribuciones de mezcla de escala normal (Andrews y Mallows, 1974).


Para llevar a cabo la estimaci
on consideramos un algoritmo EM penalizado (Green, 1990). Una caracterstica interesante del procedimiento propuesto es que el estimador de los coeficientes adopta la
forma de un suavizador spline ponderado. Ademas, llevamos a cabo un estudio de influencia para
determinar la robustez del procedimiento ante algunos esquemas de perturbacion usuales. El an
alisis de influencia reportado por Ibacache-Pulgar y Paula (2010) guarda una estrecha relacion con la
optica adoptada en este trabajo.

2.

Metodologa

Proponemos una alternativa para la acomodacion de outliers en suavizamiento spline basandonos


en la clase de distribuciones de mezclas de escala normal. Especficamente, considere una variable
aleatoria con distribuci
on normal est
andar Z, cuya funcion de densidad asume la forma
p(z) = (2)1/2 exp{ 12 z 2 },

zR

y sea una variable aleatoria positiva, independiente de Z, con funcion de distribucion H( ). Entonces, la variable aleatoria escalada U = 1/2 Z se dice tener una distribucion de mezcla de escala
normal (Andrews y Mallows, 1974) con funcion de densidad dada por
Z
f (u) =
(2)1/2 1/2 exp{ 21 z 2 } dH( ).
(1)
0

Cuando Y = + 1/2 U , donde U es variable aleatoria con densidad dada en (1) anotamos, Y
SMN (, ; H). Algunos de los principales ejemplos de distribuciones en la clase definida mediante
la Ecuaci
on (1), corresponden a la t de Student, slash, normal contaminada y exponencial potencia.
Este tipo de distribuciones representa una alternativa interesante a la distribucion normal cuando se
est
a en presencia de observaciones extremas y ha sido aplicada con bastante exito para modelamiento
estadstico por una variedad de autores, entre los que se puede citar Dempster et al. (1980) y Lange
y Sinsheimer (1993).
Introducimos el suavizamiento spline bajo distribuciones de mezcla de escala normal considerando
el modelo,
Yi = g(ti ) + i ,
i = 1, . . . , n,
donde las observaciones Yi son medidas en los puntos de dise
no ti , con g una funcion suave definida
en [a, b], tambien es asumido que los puntos de dise
no son tales que a t1 < < tn P
b y {i } son
p
variables aleatorias con media cero y escala . Por simplicidad, asumiremos que g(t) = j=1 aj Bj (t),
donde p es el n
umero de funciones base apropiadamente escogido. Una eleccion com
un para las
funciones base es B-splines. De este modo, consideramos el siguiente supuesto distribucional
ind

Yi SMN (b>
i a, ; H),

i = 1, . . . , n,

(2)

donde B = (b1 , . . . , bn )> = (Bj (ti )) es una matriz n p y a = (a1 , . . . , ap )> . Siguiendo a Green
(1990), podemos introducir el suavizamiento spline considerando distribuciones con colas mas pesadas que la normal, mediante obtener los estimadores maximo verosmiles en el siguiente problema
penalizado,
Z b

>
`P () = `()
{g 00 (t)} dt = `()
a P a,
(3)
2 a
2
sobre toda la clase de funciones dos Rveces diferenciables, aqu > 0 representa un parametro de
suavizamiento y P = (prs ) con prs = Br00 (t)Bs00 (t) dt, r, s = 1, . . . , p. La funcion de log-verosimilitud

para la clase de mezclas de escala normal, con = (a> , )> , asume la forma
`() =

Z
n
X


n
1/2
log 2
log
i exp 21 i Di2 () dH(i ),
2
0
i=1

2
donde Di2 () = (Yi b>
i a) /, para i = 1, . . . , n.

El problema de estimaci
on dado en la Ecuacion (3) puede ser amenizado de forma importante considerando una formulaci
on de datos incompletos, representacion que permite introducir un algoritmo
EM para la estimaci
on de par
ametros (Dempster et al., 1977). En efecto, el modelo descrito en (2)
puede ser re-escrito usando la siguiente formulacion jerarquica
ind

ind

Yi |i N (b>
i a, /i ),

i H(),

i = 1, . . . , n,

donde representa el vector de par


ametros asociados a la distribucion para la variables de mezcla.
En este contexto, asumimos que = (1 , . . . , n )> son variables no observables. De este modo,
aplicamos el algoritmo EM para llevar a cabo la estimacion de parametros en (3) considerando el
vector de datos completos, Y com = (Y > , > )> . La funcion de log-verosimiltud penalizada para el
modelo de datos completos es
n

`P (|Y com ) =

n
1 X
>
2
(n)
log
i (Yi b>
( ; )
a P a,
i a) + log h
2
2 i=1
2

con h(n) ( ; ) la funci


on de densidad conjunta asociada a las variables de mezcla = (1 , . . . , n )> .
Usando algunos resultados disponibles en Dempster et al. (1980) y Green (1990), es posible mostrar
que la esperanza condicional de la funcion de log-verosimilitud penalizada para datos completos,
QP (| (k) ) = E{`P (|Y com )|Y , (k) } para una estimacion actual (k) puede ser expresada como
n

QP (| (k) ) =
=

n
1 X (k)
>
2
log
(Yi b>
a Pa
i a)
2
2 i=1 i
2
1
n
log
{(Y Ba)> W (k) (Y Ba) + a> P a},
2
2

(k)

(k)

(4)

(k)

on
con i = E{i |Yi , (k) } y W (k) = diag(1 , . . . , n ). En general, es posible mostrar que la funci
(k)
de pesos, definida mediante la esperanza i esta dada por
R

E{i |Yi ,

(k)

}=

3/2
i
0
R 1/2
i
0


exp{ 21 i Di2 ()} dH(i )
.

exp{ 12 i Di2 ()} dH(i ) =(k)

Debe ser notado que para las principales distribuciones en la clase de mezclas de escala normal, la
(k)
funci
on de pesos i puede ser evaluada de forma bastante sencilla (ver tambien Dempster et al.,
1980; Lange y Sinsheimer, 1993).
Resolviendo la condici
on de primer orden, actualizamos (k+1) como
(k+1)

(k+1)

= (B > W (k) B + P )1 B > W (k) Y ,


1
(k+1)
(k+1)>
(k+1)
= {SW (k) (a
) + a
P a
},
n

(5)
(6)

donde SW () = (Y Ba)> W (Y Ba). Los estimadores de maxima verosimilitud penalizada para


el modelo en (3) son obtenidos mediante iterar las etapas E y M del algoritmo, descritas en las
ecuaciones (4)-(6) hasta alcanzar convergencia.
3

Varios autores han sugerido modificaciones del criterio de validacion cruzada generalizada (Craven
y Wahba, 1979) para una adecuada seleccion del parametro de suavizamiento . Por ejemplo,
OSullivan et al. (1986) y Gu (1992), proponen versiones de validacion cruzada generalizada para
datos no gaussianos enfoncandose principalmente en la estimacion de maxima verosimilitud penalizada para distribuciones en la familia exponencial, mientras que Wei (2005) examina las propiedades
asint
oticas del criterio de validaci
on cruzada robusta basado en procedimientos de M -estimaci
on.
En este trabajo llevamos a cabo la seleccion del parametro de suavizamiento mediante minimizar el
criterio de validaci
on cruzada ponderado (OSullivan et al., 1986), definido como
Pn
1 i=1 bi (Yi gb (ti ))2
(7)
V () =
n {tr(I H W ())/n}2
c B + P )1 B > W
c . Como es
b = (b
donde g
g (t1 ), . . . , gb (tn ))> = H W ()Y , con H W () = B(B > W
sugerido en Gu (1992) podemos alternar la minimizacion de (7) luego de cada una de las etapas EM
descritas en (4)-(6).
Exploramos la sensibilidad del modelo propuesto mediante el procedimiento de influencia local
para modelos con datos incompletos (Zhu y Lee, 2001). Este enfoque es basado en la funci
on
b )
b QP (()|
b
b
b
Q-desplazamiento fQ () = 2{QP (|
)},
donde ()
denota la estimativa de
b = E{`P (, |Y com )|Y obs , },
b y `P (, |Y com ) denota la funcion de logque maximiza QP (, |)
verosimilitud penalizada de datos completos para el modelo perturbado, para el que se asume que
existe un vector de no perturbaci
on 0 tal que `P (, 0 |Y com ) = `P (|Y com ). Zhu y Lee (2001)
estudian el comportamiento de la superficie () = ( > , fQ ())> , mediante la curvatura nor 1 h,
mal CfQ ,h en la direcci
on del vector unitario h Rq , dada por CfQ ,h () = 2 h> > {Q}
>
2
2
>
b
b
b y 0 .

donde Q()
= QP (|)/
y (, ) = QP (, |)/
son evaluadas en
Es sugerido el ex
amen del gr
afico de ndices del vector propio asociado al mayor valor propio de
1 . Tambien es posible calcular la influencia local total Cf ,i () y la curvatura
F = > {Q}
Q
conformal BfQ ,i () = CfQ ,i ()/k2F k.

3.

Resultados

y las matrices para diferentes esquemas de perturbacion usObtenemos la matriz Hessiana Q


ando el metodo de diferenciaci
on matricial descrito en Magnus y Neudecker (1988), derivamos
b = (d)> Q()

d asociada a la funcion de log-verosimilitud penalizada del modelo posd2 QP (|)


2
b = (d)> (, ) d para la funcion de log-verosimilitud penalizada del
tulado y d QP (, |)
modelo perturbado. En este trabajo consideramos los siguientes esquemas de perturbacion:
ind

Perturbaci
on de escala Considere el modelo perturbado Yi () SMN (b>
i a, /i , H), i =
1, . . . , n, donde i > 0. En este caso tenemos que la log-verosimilitud asume la forma
`P (, |Y obs ) =

n
1
>
log
(Y Ba)> W 1/2 W 1/2 (Y Ba)
a P a,
2
2
2

donde = diag() con = (1 , . . . , n ) y 0 = 1n .


Perturbaci
on de la respuesta En este esquema subtitumos la resposta observada Y por
Y () = Y + , con Rn y 0 = 0 en cuyo caso la funcion de log-verosimilitud penalizada
para el modelo de datos completos resulta
`P (, |Y obs ) =

n
1
>
log
( + Y Ba)T W ( + Y Ba)
a P a.
2
2
2
4

Agradecimientos
Este trabajo ha sido parcialmente financiado por el proyecto CONICYT 791100007, Chile.

Referencias
Andrews, D.F., and Mallows, C.L. (1974). Scale mixtures of normal distributions. Journal of the
Royal Statistical Society, Series B 36, 99-102.
Cantoni, E., and Ronchetti, E. (2001). Resistant selection of the smoothing parameter for smoothing
splines. Statistics and Computing 11, 141-146.
Cook, R.D. (1986). Assessment of local influence (with discussion). Journal of the Royal Statistical
Society, Series B 48, 133-169.
Craven, P., and Wahba, G. (1979). Smoothing noisy data with spline functions. Numerische
Mathematik 31, 377-403.
Dempster, A.P., Laird, N.M., and Rubin, D.B. (1977). Maximum likelihood from incomplete data
via the EM algorithm (with discussion). Journal of the Royal Statistical Society, Series B 39, 1-38.
Dempster, A.P., Laird, N.M., and Rubin, D.B. (1980). Iteratively reweighted least squares for
linear regression when errors are Normal/Independent distributed. In P.R. Krishnaiah (Ed.),
Multivariate Analysis V, pp. 35-57. North-Holland.
Eubank, R.L. (1985). Diagnostics for smoothing splines. Journal of the Royal Statistical Society,
Series B 47, 332-341.
Eubank, R.L., and Gunst, R.F. (1986). Diagnostics for penalized least-squares estimators. Statistics
& Probability Letters 4, 265-272.
Eubank, R.L. (1988). Spline Smoothing and Nonparametric Regression. Marcel Dekker, New York.
Green, P.J. (1990). On use of the EM algorithm for penalized likelihood. Journal of the Royal
Statistical Society, Series B 52, 443-452.
Gu, C. (1992). Cross-validating non-gaussian data. Journal of Computational and Graphical
Statistics 1, 169-179.
Ibacache-Pulgar, G., and Paula, G.A. (2010). Local influence for Student-t partially linear models.
Computational Statistics & Data Analysis 55, 1462-1478.
Kim, C. (1996). Cooks distance in splines smoothing. Statistics & Probability Letters 31, 139-144.
Lange, K., and Sinsheimer, J.S. (1993). Normal/Independent distributions and their applications in
robust regression. Journal of Computational and Graphical Statistics 2, 175-198.
Lee, J.S., and Cox, D.D. (2009). Robust smoothing: smoothing parameter selection and applications
to fluorence spectroscopy. Computational Statistics & Data Analysis 54, 3131-3143.
Magnus, J.R., and Neudecker, H. (1988). Matrix Differential Calculus with Applications in Statistics
and Econometrics. Wiley, New York.
OSullivan, F., Yandell, B.S., and Raynor, W.J. (1986). Automatic smoothing of regression functions
in generalized linear models. Journal of the American Statistical Association 81, 96-103.
Ruppert, D., Wand, M.P., and Carroll, R.J. (2003). Semiparametric Regression. Cambridge
University Press, Cambridge.
Silverman, B.W. (1985). Some aspects of the spline smoothing approach to non-parametric regression curve fitting (with discussion). Journal of the Royal Statistical Society, Series B 47, 1-52.
Staudenmayer, J., Lake, E.E., and Wand, M.P. (2009). Robustness for general design mixed models
using the t-distribution. Statistical Modeling 9, 235-255.
Thomas, W. (1991). Influence diagnostics for the cross-validated smoothing parameter in spline
smoothing. Journal of the American Statistical Association 86, 693-698.
5

Utreras, F.I. (1981). On computing robust splines and applications. SIAM Journal on Scientific
and Statistical Computing 2, 153-163.
Wei, W.H. (2004). Derivatives diagnostics and robustness for smoothing splines. Computational
Statistics & Data Analysis 46, 335-356.
Wei, W.H. (2005). The smoothing parameter, confidence interval and robustness for smoothing
splines. Nonparametric Statistics 17, 613-642.
Zhu, H., Lee, S.Y. (2001). Local influence for incomplete-data models. Journal of the Royal
Statistical Society, Serie B 63, 111-126.

You might also like