Selva Figueroa

UNIVERSIDAD DE BUENOS AIRES
Facultad de Ciencias Exactas y Naturales

Departamento de Matemtica
Tesis de Licenciatura
Modelo de Regresin no Lineal
Selva Carina Figueroa
Director: Dra. Graciela Boente Boente
26 de Diciembre 2013
ndice general
1. Introduccin
2. Mtodos de estimacin
2.1. Mnimos cuadrados no lineal . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

2.1.1. Metdos Nmericos
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
2.1.2. Mnimos cuadrados generalizados . . . . . . . . . . . . . . . . . . . . . . . . .
10
2.2. Estimadores de mxima verosimilitud
. . . . . . . . . . . . . . . . . . . . . . . . . .
11
2.2.1. Mtodo de Verosimilitud Concentrado . . . . . . . . . . . . . . . . . . . . . .
13
2.3. Estimacin de cuasi-verosimilitud . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
13
2.4. Mtodos Robustos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
14
3. Problemas comunes
17
3.1. Convergencia de los mtodos iterativos . . . . . . . . . . . . . . . . . . . . . . . . . .
17
3.2. Validez de la inferencia asinttica . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
18
3.3. Problemas de identificacin y de mal condicionamiento . . . . . . . . . . . . . . . . .
19
4. Medidas de curvatura y no linealidad
22
4.1. Interpretacin geomtrica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

5. Inferencia Estadstica
23
25
5.1. Intervalos de Confianza asintticos . . . . . . . . . . . . . . . . . . . . . . . . . . . .
25
5.2. Intervalos simltaneos y regiones de confianza . . . . . . . . . . . . . . . . . . . . . .
26
6. Software y Ejemplos
28
6.1. Ejemplo de datos de cebolla . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
ii
28
6.2. Ejemplo de datos de ciervos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
31
6.3. Ejemplo de datos de ultrasonido
35
. . . . . . . . . . . . . . . . . . . . . . . . . . . . .
7. Implementacin del algoritmo de Stromberg en R
39
Bibliografa
50
iii
Agradecimientos
A Juan Pablo por acompaarme en todo este largo proceso.
A mi mam por ayudarme y alentarme a terminar.
A mi amiga Mara Jos por darme nimos y no dejarme decaer.
A Graciela, por tenerme paciencia.
Y al resto de mis amigos y compaeros de trabajo que insistieron para que concluyera tantos
aos de estudio.
A todos, gracias.
Captulo 1
Introduccin
Una de las situaciones ms frecuentes en el anlisis estadstico es que los datos provengan de
observaciones o respuestas conocidas yi que dependen de un conjunto de valores, fijos o aleatorios,
xi .
Una manera adecuada de modelar esta relacin es a travs de un modelo de regresin de la forma
yi = f (xi , ) + i
i = 1, , n
donde xi = (xi1 , xi2 , , xik )t , f (x, ) es una funcin generalmente conocida, = (1 , , p )t es

un vector de parmetros p-dimensional desconocido y los i representan los errores experimentales.
En muchas situaciones, el modelo de regresin lineal
f (x, ) = 0 + 1 x1 + ... + k xk
es adecuado para modelar la relacin entre la variable respuesta y y las covariables x. En algunos
casos donde no hay relacin lineal evidente entre las variables respuesta y regresoras, con una
trasformacin de las variables podemos linealizar la relacin.
Pero cuando las consideraciones tericas lo sugieren o los datos no muestran un comportamiento
lineal, hacemos uso de los modelos no lineales. An cuando una aproximacin lineal funciona bien,
un modelo no lineal puede dar una mejor interpretacin del problema.
Algunos ejemplos que analizaremos son:
Ejemplo 1 : Datos de crecimiento de cebollas.
Los datos corresponden al crecimiento de la cebolla estudiado por Ratkowsky , ver [17] y
tomado por Lawrence y Arthur , ver [15].
400
0
100
200
300
500
600
700
OnionRatkowsky
10
12
14
Modelos de crecimiento sigmoidal fueron propuestos para este tipo de datos, entre ellos el
modelo de Gompertz, basado en la distribucin Weibull:
f (x, ) = 1 exp( exp(2 3 x)) .
Ejemplo 2: Huesos de ciervo.
Este conjunto de datos muestra la longitud del hueso de la mandbula como una funcin de
la edad en los ciervos. La teora indica que la relacin es una funcin asinttica exponencial
con dos parmetros:
f (x, ) = 1 (1 e2 x ).
80
0
20
40
60
bone
100
120
140
Deer
10
20
30
40
50
age
Ejemplo 3 : Chwirut2.
El conjunto de datos original contiene las mediciones provenientes de un experimento que
estudia como la respuesta al ultrasonido depende de la distancia al metal. Los datos son de
libre acceso y pertenecen al NIST (National Institute of Standards and Technology) (1979).
UltrasonicReference Study Block (D. Chwirut). Technical report.
http://www.itl.nist.gov/div898/strd/nls/data/chwirut2.shtml
3
60
40
20
Respuestas al ultrasonido
80
Chwirut2
Distancia al metal
El modelo terico propuesto es

f (x, ) =
exp(1 x)
.
2 + 3 x
El estudio de los modelos de regresin no lineal es muy extenso y complejo, existiendo una
amplia literatura sobre el tema. Textos de referencia son los de Bates y Watts [3] y el de Seber y
Wild [25].
El modelo de regresin no lineal con covariables fijas es de la forma
yi = f (xi , ) + i
i = 1, ....n
E(i ) = 0 ,
donde yi , 1 i n son independientes.
Para la i-sima observacin tenemos la variable respuesta yi , el vector de efectos fijos xi , de
dimensin k y los errores i que se suponen independientes e identicamente distribuidos con media
0 y varianza 2 desconocida. El vector de parmetros Rp , es desconocido.
b del vector de parmetros , se halla como el valor que minimiza la suma
El estimador clsico
de cuadrados S()
n
X
(yi f (xi , ))2 ,
.
S() =
i=1
A diferencia del modelo de regresin lineal, la minimizacin resulta en un problema que no tiene
solucin explcita, debido a la no linealidad de la funcin f (x, ). Por esta razn, necesitamos
mtodos nmericos de minimizacin no lineal. Estos son mtodos iterativos que, en forma ideal, nos
acercan a la solucin ptima en un nmero determinado de pasos. El algoritmo ms utilizado es el
mtodo de GaussNewton.
Las mayores complicaciones que encontramos al utilizar estos mtodos son:
4
Cmo iniciar el procedimiento y la forma de elegir el prametro inicial.

Cmo garantizar que el procedimiento alcanz el mnimo global y no un mnimo local.
Estos dos temas estn relacionados entre s ya que si los valores de los parmetros iniciales
estn lo suficientemente cerca de los valores de los parmetros ptimos, entonces el procedimiento
converge en unos pocos pasos. Por otro lado, una mala eleccin del valor inicial puede derivar en
la falta de convergencia. Si dicha falta persiste independientemente de la eleccin de los valores de
partida, podra indicar que el modelo en su forma actual no es adecuado para los datos en estudio.
b es ptimo siempre y cuando los errores tengan distribucin normal. Si la disEl estimador
tribucin no es exactamente normal, resulta sensible a la presencia de observaciones atpicas, lo que
puede provocar que el ajuste no resulte adecuado. Por esta razn se utilizan estimadores robustos
que son ms estables ante perturbaciones del modelo y que, a su vez, son altamente eficientes bajo
normalidad.
En este trabajo comenzaremos con una breve descripcin de la teora sobre modelos no lineales: mtodos de estimacin, diversos problemas relacionados con la convergencia y validez de la
inferencia, medidas de curvatura y no linealidad e inferencia.
Despus de una breve descripcin sobre las funciones nls() y nlrob() del programa R y de
la funcin desarrollada por Stromberg para MM-estimadores, finalizaremos con el anlisis de sus
comportamientos sobre varios conjuntos de datos.
Captulo 2
Mtodos de estimacin
Dados n pares de observaciones (yi , xi ), el modelo de regresin no lineal con regresor fijo es de
la forma
yi = f (xi , ) + i
(2.0.1)
donde los errores i son independientes tales que E(i ) = 0 para 1 i n. El vector de parmetros
Rp es desconocido.
Existen varios mtodos para estimar el valor de , con distintas propiedades de acuerdo a la
informacin que tengamos sobre las observaciones: Mnimos cuadrados no lineal, Mxima verosimilitud, Cuasi-verosimilitud y Mtodos robustos. En este captulo haremos una revisin de estos procedimientos.
2.1.
Mnimos cuadrados no lineal
b se obtiene al minimizar la suma de cuadrados:

El estimador de mnimos cuadrados ,
S() =
n
X
i=1
(yi f (xi ; ))2 = ky f ()k2
Rp
donde
y = (y1 , . . . , yn )t
fi () = f (xi ; )
f () = (f1 (), f2 (), . . . , fn ())t .
Bajo condiciones de regularidad, que incluyen que los errores i , 1 i n sean independientes
b y s2 = S()/(n
b
e identicamente distribuidos con varianza 2 , tenemos que
p) son estimadores
2
consistentes de y , respectivamente.
Si llamamos
f ()
=
F () =
t
6

fi ()
j

b
b = F (),
F
F = F ( )
cuando f (xi ; ) es diferenciable con respecto a , tenemos las ecuaciones

n
X
fi ()
S()
2(yi fi ())(1)
=0
r = 1, , p,
=

r =b
r b
i=1
=
lo que equivale a tener la ecuacin
b =F
b t (y f ())
b t b
.
0=F
bF = F
b (F
b tF
b 1 b t
Igual que en la teora lineal, si P
) F es la matriz idempotente que proyecta
b , la ecuacin anterior deriva en la ecuacin
ortogonalmente Rn sobre el espacio columna de F
normal para el modelo no lineal
b Fb
P
= 0.
Al ser f (x; ) una funcin no lineal en , no resulta sencillo hallar una solucin explcita. Esto
nos obliga al uso de mtodos iterativos para la solucin del problema, siendo uno de los habituales
el de Gauss-Newton.
Este se basa en la linealizacin de la funcin f () en un entorno de , verdadero valor de .
Para esto, hagamos un desarrollo de Taylor de primer orden de fi () en :

p

X
f

i
fi () fi ( ) +
(r r ),

r=1
=
que en forma matricial resulta en la ecuacin
f () f ( ) + F ( ) .
(2.1.1)
Si llamamos a = y f ( ) y = tenemos que

S() = ky f ()k2
k F k2 ,
b
y en forma similar que en el modelo lineal, vemos que el mnimo del lado derecho se obtiene en
donde
b = (Ft F )1 Ft .
Cuando n es grande y bajo ciertas condiciones de regularidad, tenemos que con alta probablidad
b
b ,
b nos queda que
est en un entorno pequeo de . Por lo tanto, como
b (Ft F )1 Ft .
b de (2.1.1) deducimos que

Tomando = ,
b f ( ) F (Ft F )1 Ft = PF
f ()
b PF = (In PF ) .
y f ()
7
(2.1.2)
De esta forma, tenemos que

(n p)s2 t (In PF )

2
b

(
)
f
(
)
f
t PF .
(2.1.3)
(2.1.4)
Usando (2.1.3) y (2.1.4), resulta que
b t t (In PF )
S( ) S()
= t PF
b )t Ft F (
b ).
(
(2.1.5)
Podemos formalizar, los clculos anteriores en el siguiente resultado:

Teorema 2.1.1. Dado N (0, 2 In ) y con condiciones de regularidad apropiadas, para n grande,
tenemos
b Np (0, 2 C1 ) donde C = Ft F = Ft ( )F ( ).
(i)
(ii)
(n p)s2
t (In PF )
2np .
2
2
b es independiente de s2 .
(iii)
h
i
b /p
S( ) S()
t PF
np
t
Fp,np.
(iv)
b
(In PF )
p
S()/(n
p)
Por (iv) y (2.1.5) tenemos que, aproximadamente
b )
b )t Ft F (
(
Fp,np .
p s2
(2.1.6)
b , podemos obtener una regin de confianza aproximada con un nivel

Si reemplazamos F por F
100(1 ) % para como
2
b )t F
b tF
b b
{ : (
( ) p s Fp,np, } ,
donde P(Fp,np Fp,np,) = .
2.1.1.
Metdos Nmericos
Los procedimientos ms usados son el de GaussNewton y el de Newton.
Mtodo de GaussNewton. Este procedimiento se basa en la aproximacin lineal de la funcin

mediante un desarrollo de Taylor de primer orden de la funcin f .
b del modelo no lineal
Llamemos (a) a una aproximacin del estimador de mnimos cuadrados
yi = f (xi , ) + i .
Para cercano a (a) sabemos que es vlida la aproximacin lineal de Taylor

(a)
f () f ( (a) ) + F ( (a) )
(a)
donde F = F ( (a) ).
(a)
As, al vector de residuos r() = y f () lo podemos aproximar por r( (a) ) F ( (a) ),

que sugiere la aproximacin
(a)t
(a)
S() r( (a) )t r( (a) ) 2r( (a) )t F ( (a) ) + ( (a) )t F
(a)
F ( (a) ).
(2.1.7)
El lado derecho tiene un mnimo con respecto a cuando

(a)t
(a) = (F
(a)t
(a)
F )1 F
r( (a) ) = (a) .
As, dada una aproximacin (a) , la siguiente podra ser

(a+1) = (a) + (a) .
Este procedimiento es el que se conoce como el mtodo de GaussNewton.
b
Para (1) cercano a y el tamao de la muestra suficientemente grande, tenemos que (a)
cuando a .
Mtodo de Newton. Este es un mtodo ms general que el Gauss-Newton y se basa en el
desarrollo de Taylor de segundo orden de S().
Llamando
g() =
S()
al gradiente de S() y
2 S()
t
al Hessiano de S(), tenemos la aproximacin cuadrtica
H() =
1
S() S( (a) ) + g( (a) )t ( (a) ) + ( (a) )t H( (a) )( (a) ).
2
Como
X
2 S()
=2
r s
i=1
2 fi ()
fi () fi ()
(yi fi ())
r
s
r s
(2.1.8)
usamos como aproximacin de H( (a) ) su valor esperado en

2

S()
E
= 2 Ft ()F () .
t
El mnimo con respecto a en la aproximacin cuadrtica (2.1.8) ocurre cuando
h
i1

(a)
(a)
.
= H( )
g( (a) ) = H1 g
= (a)

.
As, el paso es (a) = H1 g
= (a)
2.1.2.
Mnimos cuadrados generalizados
Este mtodo se utiliza para resolver el problema de regresin no lineal cuando tenemos Var() =
donde V es una matriz definida positiva conocida.
2 V,
En esta situacin, tenemos que minimizar la suma de cuadrados

Sgls () = [y f ()]t V1 [y f ()] .
Usando la descomposicin de Cholesky de la matriz V, podemos transformar el modelo no lineal en
un problema de Mnimos Cuadrados Ordinarios (OSL).
Si V = Ut U es la descomposicin de Cholesky de V, con U una matriz triangular superior,
llamando R a (Ut )1 , tenemos que
Ry = Rf () + R .
Si Z = Ry, K() = Rf () y = R, tenemos
Z = K() + ,
con E() = RE() = 0 y Var [] = 2 RVRt = t In .
As, la suma de cuadrados del mtodo de mnimos cuadrados generalizados (GLS), es la misma
que la del mtodo de mnimos cuadrados ordinarios (OLS) del problema transformado.
Sgls () = [y f ()]t V1 [y f ()]
= [Z K()]t [Z K()]
bols ) para el modelo transformado, es tambin el estimador GLS (

bgls ) del
y el estimador OLS (
modelo sin transformar.
K()
f ()
b tenemos que para n grande,
b = K (),
=R
= RF () y K
t
t
bgls estar dada por
la matriz de varianzacovarianza de

bgls ) 2 Kt ( )K ( ) 1
Var(

1
= 2 Ft ( )V1 F ( )
Si llamamos K () =
10
que puede estimarse por

1
1

d
bgls ) =
b t V1 F
b
=
2 F
.
Var(
2 Kt K
(a)
Con la aproximacin f () f ( (a) )+F ( (a) ), nos queda que Sgls () es, aproximadamente,

t

(a)
(a)
y f ( (a) ) F ( (a) ) V1 y f ( (a) ) F ( (a) ) .
Una aproximacin para el valor minmo del problema de Minmos Cuadrados Generalizados se
obtiene entonces mediante

(a) 1 (a)t 1
(a)t
y f ( (a) ) .
F V
(a) = F V1 F
Esto lleva al mtodo iterativo (a+1) = (a) + (a) donde

(a) 1 (a)t 1
(a)t
y f ( (a) )
F V
(a) = F V1 F

(a)t (a) 1 (a)t
Z K( (a) )
K
= K K
donde la ltima ecuacin es el mtodo de Gauss-Newton para el modelo transformado.
2.2.
Estimadores de mxima verosimilitud

Supongamos que los i son i.i.d con funcin de densidad 1 g , donde g es la distribucin de
errores estandarizados con varianza 1. La funcin de verosimilitud est dada por

n
Y
yi f (xi , )
1
2
.
g
p (y|, ) =
i=1
bemv , de puede obtenerse maximizando la funcin de

El Estimador de Mxima Verosimilitud,
verosimilitud.
En particular, cuando los errores tienen distribucin N (0, 2 ), tenemos la funcin de verosimilitud
!
n
2
X
1
(y
f
(x
,
))
i
i
p (y|, 2 ) = (2 2 )n/2 exp
2
2
i=1
y la funcin de logverosimilitud est dada por
n
1 X
n
(yi f (xi , ))2
L(, 2 ) = log(2 2 ) 2
2
2
i=1
n
n
1
= log(2) ln( 2 ) 2 S() .
2
2
2
11
Dado 2 , el mximo en se obtiene cuando S() es mnimo. O sea, que el EMV de resulta
bemv =
bols .
ser el estimador de mnimos cuadrados
bemv )/n y
bemv
Dado , tenemos que L(, 2 )/ 2 = 0 cuando 2 = S()/n. Luego,
b = S(
2
maximizan la funcin de log-verosimilitud L(, ) y bajo condiciones apropiadas de regularidad
bemv es asintoticamente eficiente. Cuando los datos no son normales, el EMV no
de la funcin f ,
coincide con el de mnimos cuadrados por la dependencia de la funcin de verosimilitud L de f ().
Debido a esta dependencia escribimos,
L(, 2 ) = log(p (y|, 2 ))

n
X
yi f (xi , )
n
2
log g
= log( ) +
2
i=1
= L(f ()).
bemv
En este caso, suponemos que el modelo es suficientemente regular como para que el EMV de
resulte ser la solucin de

L
f t L
0=
=
.
f
t
bemv , dado el desarrollo de Taylor de
Si (a) es la a-sima aproximacin de
que la estimacin (a)+1 = (a) + (a) esta dada por

"
#
1
L
2L
L
bemv , tenemos
en
= (a) .
(a)
2L
no es definida positiva para todo (a) .

t
El mtodo de Scoring de Fisher reemplaza dicha matriz por su valor esperado

2L
E
= Ft GF
t
El mtodo de Newton falla ya que la matriz
donde
es una matriz definida positiva.
L L
G=E
f f t
Esto da origen al procedimiento de estimacin

1 L
t
(a+1)
(a)
= + F GF
(a)
que por ser Ft GF definida positiva, asegura que el paso (a) = (a+1) (a) siempre tiene direccin
ascendente.
Este mtodo tiene la ventaja de usar derivadas de primer orden a cambio de tener una convergencia ms lenta que el mtodo de Newton.
Ratkowsky y Dolby [18] probaron que este algoritmo y el mtodo de Gauss-Newton son equivalentes.
12
2.2.1.
Mtodo de Verosimilitud Concentrado
Para encontrar estimadores de mxima verosimilitud de funciones de verosimilitud en general,

a veces es conveniente utilizar este mtodo de maximizacin paso a paso.
Llamamos L(, |z) a la funcin de log-verosimilitud a maximizar con respecto a y , donde
z son los datos y es un vector q-dimensional de parmetros adicionales o de ruido. Suponemos
que para cada conjunto de datos z, L tiene un nico mximo con respecto a y a .
El primer paso consiste en encontrar e (, z), el nico valor de que maximiza L considerando
a como una constante.
El segundo paso es reemplazar por e (, z) en L(, |z). Esto nos da la funcin de logverosimilitud concentrada
M () = M (, z) L[, e (, z)|z].
En el tercer paso utilizamos M () como la verdadera funcin de log-verosimilitud, que depende

b
solo de y aplicamos el mtodo de mxima verosimilitud habitual para hallar .
b
Tenemos varias ventajas al usar M () en lugar de L(, |z). La primera es que obtenemos
como solucin de M ()/ = 0, eliminando el vector de ruido . La segunda es que, bajo ciertas
bt , b t )t es
condiciones, un estimador asinttico de la matriz de varianza-covarianza de b
= (
1
2
L()
,
t b
una matriz de dimensin (p + q) (p + q) que puede ser partida para obtener un estimador de
b
Var[].
b podemos estimar Var[]

b por medio de la matriz
Sin embargo, si solo estamos interesados en ,
2
1
M ()
.
t b
2.3.
Estimacin de cuasi-verosimilitud
El estimador de cuasi-verosimilitud tiene propiedades similares al EMV, con la diferencia que

no necesitamos conocer la funcin de distribucin de y, solo sus dos primeros momentos.
Recordemos que E(Y) = f () = f y supongamos ms generalmente que Var(Y) = 2 V(f ).
La funcin de log cuasi-verosimilitud l(f ) esta definida por el sistema de ecuaciones diferenciales
l(f )
= V1 (f )(y f ).
f
(2.3.1)
Por comodidad, usamos l() y V() en lugar de l[f ()] y V[f ()]. El estimador de cuasi es solucin de la ecuacin
verosimilitud, ,

f t l
l
=
= Ft ()V1 () (y f ()) .
(2.3.2)
0=
f
t
13
Para resolver esta ecuacin podemos utilizar el algoritmo de GaussNewton, usando el desarrollo
alrededor de (a) en (2.3.2). Aproximando F () por F(a) = F ( (a) ) y a V()
de Taylor de f ()
por V(a) = V( (a) ), obtenemos
h
i
1

(a)
(a) (F(a) )t (V(a) )1 F(a)
(2.3.3)
(F )t (V(a) )1 y f ( (a) ) .
Llamando (a) al miembro derecho de (2.3.3), tenemos (a+1) = (a) + (a) .
El paso (a) lo obtenemos utilizando la tcnica de mnimos cuadrados generalizados para minimizar la expresin
i
1 h
i
h
(a)
(a) t
y f ( (a) ) F
V(a)
y f ( (a) ) F
con respecto a .
cumple ciertas condiciones (Seber [25] - pag 43; McCullagh [16])) se puede probar que
Si
a)

) Np (0, 2 n1 In ( ) 1 ) + OP (n1/2 )
n(
(2.3.4)
b) Si el tercer momento es infinito entonces en (2.3.4) tenemos oP (1) en lugar de OP (n1/2 ).

t V1 () y f ()
/(n p)
c)
2 = y f ()
L que cumplen
L = Lt (y f ( )) + oP (n1/2 ), con
d) Entre todos los estimadores
tiene la matriz de dispersin mnima.
L Rnp cuyos elementos son funciones de ,
Observaciones: Una de las ventajas de este procedimiento es que no se requiere una familia de
distribuciones para la cual l(f ) sea de mxima verosimilitud. Por otra parte, no se requiere la forma
A veces, una solucin para l(f ) puede encontrarse mediante
explcita de l(f ) para el clculo de .
la construccin de funciones (f ) y c() tales que
f=
V (f ) =
2c
t
l(f ) = t y c() d(y, )
con d(y, ) arbitrario. Para ver que esta funcin l(f ) es solucin de (2.3.1), bastar ver que

1
f 1
2c
=
= V1 (f ) .
=
f t
t
t
2.4.
Mtodos Robustos
En la mayora de las aplicaciones, muy rara vez podemos asegurar, que los mecanismos aleatorios
que producen los datos, provienen de un modelo normal.
Para reflejar esto suponemos que la distribucin F pertenece al entorno de contaminacin de
radio , , de la distribucin normal definido como
= {F : F = (1 ) + F con F arbitraria} .
14
El estimador de mnimos cuadrados no lineal no funciona bien en este tipo de distribuciones: los
valores atpicos generados pueden tener una gran influencia sobre los resultados obtenidos por este
mtodo.
Para poder amortiguar el efecto de las observaciones atpicas podemos utilizar un procedimiento
robusto que tiende a dejar grandes los residuos asociados a dichos valores, facilitando su identificacin.
Para el caso lineal, existen varios tipos de estimadores robustos: los estimadores de mnimos
cuadrados medianos (LMS) y los de mnimos cuadrados podados (LTS) introducidos por Rouseeeuw
[22], [23], los estimadores tipo M o M estimadores (Huber, [13]), los M M estimadores (Yohai,
[27]), los Sestimadores (Rousseeuw y Yohai, [24]) y los -estimadores (Yohai y Zamar, [28]). Una
extensin de los M estimadores a modelos de regresin no lineal fue dada por Fraiman [11] mientras
que los M M estimadores fueron considerados en la tesis doctoral de Fasano [10].
Los estimadores robustos tienen dos propiedades importantes a los fines prcticos: el alto punto
de quiebre o ruptura (Breakdown Point - BP) y la buena eficiencia bajo el modelo central.
El punto de ruptura o BP de una muestra finita es la mnima fraccin de valores atpicos
que pueden hacer intil al estimador. El punto de ruptura del estimador de mnimos cuadrados es
1/n. Lo deseable para un estimador robusto es de 0,5.
Si aplicamos un estimador robusto a un conjunto de datos que no tiene errores grandes, sin valores
atpicos y que provienen de una distribucin normal, queremos que los resultados sean identicos a los
obtenidos por el estimador de mnimos cuadrados (LS). La eficiencia para muestras finitas de
un estimador robusto se define como el cociente entre el cuadrado medio residual de los estimadores
LS y el cuadrado medio residual obtenido al calcular el estimador robusto. Lo ideal es que este
cociente sea aproximadamente 1.
Dado el modelo de regresin no lineal
yi = f (xi , ) + i
definimos un M-estimador como el valor
n
X
bn = argmin 1
n i=1
yi f (xi , )
donde
b es un estimador robusto de y es una funcin real, llamada funcin-, que cumple:
i) (0) = 0
ii) (u) = (u)

iii) 0 u v (u) (v)
iv) es continua
v) Si (u) < supu (u) y 0 u < v (u) < (v)
15
Dada una muestra z1 , , zn , y una funcin- acotada, definimos el M -estimador de escala s(z)
como el valor s, solucin de
n
1 X zi
=b
n
s
i=1
donde b es una constante entre 0 y 1, que en el caso en que suptR (t) = 1 da el punto de ruptura
del estimador de escala.
En un modelo de regresin lineal, el M estimador puede verse afectado por valores de x con
alto leverage, por lo que su punto de ruptura es 1/n, al igual que el de mnimos cuadrados. Para
solucionar este problema, se desarrollaron diversos estimadores robustos con alto punto de ruptura.
En 1987, Yohai [27] introdujo los MM-estimadores para el caso lineal. Estos combinan la estimacin M con la propiedad de alto punto de ruptura. En su tesis, Fasano [10] los extendi al modelo
de regresin no lineal.
Para construir un estimador eficiente con alto punto de ruptura tenemos 3 etapas:
1. Tomamos un estimador T0,n de 0 con alto punto de ruptura.
2. Calculamos los residuos ri (T0,n ) = yi f (xi , T0,n ), 1 i n, y calculamos el M estimador
de escala sn usando una 0 acotada y b = 0,5.
3. Sea 1 otra funcion- que cumple que 1 (s) 0 (s) para todo s. Si 1 = 01 y f es el gradiente
de f , el MM-estimador T1,n se define como cualquier solucin de
n
X
i=1
ri ()
sn
f(xi , ) = 0 ,
que cumple S(T1,n ) S(T0,n ), donde

S() =
n
X
i=1
ri ()
sn
El algoritmo antes descripto necesita un estimador inicial de alto punto de ruptura. Un buen candidato es el estimador que minimiza la mediana de los residuos, es decir, el LMS-estimador es el
valor tal que
bn = argmin mediana |yi f (xi , )| .
1in

En esta tesis, nos enfocaremos en en M y M M estimadores.
Cabe mencionar que muchos algoritmos para obtener estimadores con alto punto de ruptura para
modelos lineales se basan en hallar estimadores por mnimos cuadrados en muchos conjuntos de p
puntos, donde p es la dimensin de X. Esto no es computacionalmente posible en los problemas no
lineales. Por esto, Stromberg [26] diseo un algoritmo en S-plus donde se requieren pocos conjuntos
de p puntos donde realizar ajustes por mnimos cuadrados. En esta tesis se implent en R dicho
algoritmo para modelos lineales generales.
16
Captulo 3
Problemas comunes
Al ajustar un modelo no lineal, surgen los siguientes problemas:
1. La convergencia de los mtodos iterativos.
2. La limitada aplicacin de la teora de inferencia asinttica.
3. La estimacin de prametros mal condicionada.
Las dificultades que surgen en el ltimo punto son similares al problema de multicolinealidad
en la regresin lineal. Estas pueden deberse tanto a la eleccin de los xi en el modelo como a la
naturaleza misma del modelo.
3.1.
Convergencia de los mtodos iterativos
b por medios iterativos pueden considerarse adaptaLa mayora de los algoritmos para hallar
ciones del mtodo de Newton: aproximamos
h() = ky f ()k2
(a)
por una funcin cuadrtica qh (), en un entorno de (a) y minimizamos con respecto a para
encontrar (a+1) .
El mtodo de Newton funciona mejor sobre las funciones ms cercanas a una cuadrtica y
b para un valor inicial (1) suficientemente cercano: ya que cualquier funcin suave es
converge a
b en teora, el mtodo converge para valores
aproximadamente cuadrtica en un pequeo entorno de ,
(1)
b suficientemente cercanos a .
b Sin embargo, la funcin podra tener varios mnimos
iniciales
locales. Por lo que podramos no llegar a un mnimo global y terminaramos obteniendo uno local.
17
3.2.
Validez de la inferencia asinttica
Si suponemos vlido el modelo no lineal, tenemos que, asintticamente,

b Np , 2 (Ft F )1 .
La matriz F juega el mismo rol que X en la teora del modelo lineal. En particular, por analoga
con las regiones lineales de confianza, tenemos que
2
b
b tF
bt F
bt
{ : ( )
( ) p s Fp,np ()}
(3.2.1)
es una regin de confianza 100(1-) % aproximada.
Como la aproximacin lineal es vlida asintticamente, esta ltima podra ser la regin de confianza asinttica de nivel 1 correcta. Variando el nivel las regiones anteriores estn encerradas
b de la funcin de densidad normal multivaripor elipsoides, las cuales tambin son los contornos de
ada. Puesto que S() mide la cercania de las observaciones a la ecuacin ajustada para cualquier
, los contornos S() podran ser apropiadas como base de regiones de confianza para . Tales
b
regiones podran tomar la forma { : S() c S()},
para algn c > 1.
Las regiones de confianza de este tipo son llamadas Regiones de Confianza Exactas ya que no se
basan en aproximaciones. Pero el nivel de confianza de tales regiones es generalmente desconocido,
por lo cual, niveles aproximados pueden ser obtenidos a travs de la teora asinttica:
b podra estar suficientemente cercana de por lo que vale la
Para n suficientemente grande,
b ), an reemplazando F por F
b (
b )t Ft F (
b
aproximacin lineal (2.1.5), S( ) S()
b (
b )t F
b ) .
bt F
b (
S( ) S()
Reemplazando en (3.2.1) tenemos la regin de confianza propuesta por Beale [4]

n
b
: S() S() 1 +
Fp,np ()
np
(3.2.2)
de nivel de confianza asinttico 1 , ya que asintticamente es idntico a (3.2.1).

Una suposicin importante para desarrollar inferencia sobre los parmetros a travs de intervalos
b +F
b dada a f () = sea adecuada
b ( )
y regiones de confianza es que la aproximacin lineal f ()
y para esto necesitamos que sea bastante plano en un entorno de .
La curvatura local de E(Y) = f (), puede describirse en trminos de 2 componentes ortogonales:
La componente normal, llamada Curvatura intrnseca, que mide cunto cambia la superficie
b cuando cambia .
cerca de
La componente tangencial, llamada Curvatura efecto-parmetro, que refleja cmo cambia una
b al ser proyectada sobre la superficie esperada
grilla rectngular de valores de , centrada en ,
= f ().
18
Una curvatura intrnseca alta indica (a) un modelo altamente no lineal, (b) que la aproximacin
b podran ser
lineal por el plano tangente podra no ser adecuada y (c) que inferencias basadas en
engaosas.
La curvatura efecto-parmetro indica que podran no ser vlidos los procedimientos de inferencia
y que una transformacin parmetrica adecuada podra reducir o eliminar este componente para
mejorar el problema.
Los efectos de la curvatura tambin son necesarios para poder establecer un criterio de diseo
del problema para poder minimizar estos efectos.
3.3.
Problemas de identificacin y de mal condicionamiento
Cuando existen 1 y 2 tales que f (x; 1 ) = f (x; 2 ) x, tenemos un problema de identificacin

de los parmetros para el modelo E(Y ) = f (x; ).
Como ejemplo de esto, consideremos el modelo estudiado por Bird Y Milliken [5]:
f (x; ) = exp( x1 ) +
[1 exp( x1 )]x2 ,
con = (, , )t . Vemos que y solo aparecen en la forma . Entonces, si consideramos el

vector de parmetros c = (c, c, /c)t tenemos que f (x; ) = f (x; c ) para cualquier valor de c.
Un camino para solucionar este inconveniente es reparametrizar la funcin usando 1 = y
2 = /.
En un modelo simple, una cuidadosa inspeccin de los parmetros podra revelar cualquier
prdida de indentificabilidad. Un enfoque ms formal, basado en la propiedad de invarianza de las
funciones lineales estimables, fue dado por Bird y Milliken [5].
Los problemas asociados a la identificabilidad se derivan de la estructura del modelo y del mtodo
de parametrizacin, pero no de los puntos xi del diseo. Algebraicamente, la falta de identificabilidad
esta sealada por Ft ()F() desde S() cuando es singular, o casi singular.
En el modelo lineal los parmetros no son identificables si la matriz de datos X Rnp , cuyas
filas son las observaciones Xti , tiene rango menor que p, lo que genera que Xt X es singular.
Un problema ms importante surge cuando las columnas de X estn altamente correlacionadas
en lugar de estar relacionadas linealmente. Esto genera que X tenga rango completo pero que sus
columnas esten cerca de ser linealmente dependientes, es decir que, Xt X es casi singular. A esto se
lo denomina mal condicionamiento de la matriz X.
Los modelos no lineales, heredan estos problemas y se les agrega el problema de los contornos
de S(), y por lo tanto de los contornos de confianza (3.2.2), que son curvos.
Otro de los problemas es el de los parmetros estables. Estos constituyen un vector de parmetros
estn muy cerca de estar correlacionados.
para el cual los elementos de
Su nombre se debe a que un cambio en el valor de un parmetro tiene poco efecto sobre la
estimacin de los otros. Debido a que en los modelos no lineales el mal condicionamiento del prob19
lema puede ser una caracterstica propia del modelo, un buen diseo experimental puede reducir el
problema, pero quizs no pueda eliminarlo.
El problema de parmetros redundantes es cuando funciones diferentes, dan curvas visualmente
indistinguibles.
En la figura (Cornish - Bowden [8] - extrado del libro de Seber y Wild [25]), tenemos la superposicin de los grficos de
f (x; ) = 5ex/1,5 + 5ex/4 + 9ex/14 ,
indicado por los puntos y
f (x; ) = 8,54ex/2,1 + 10,40ex/12,85 ,
indicado por la linea solida. A pesar de ser curvas diferentes, visualmente no lo son. Este es un
problema habitual cuando tenemos combinaciones lineales de exponenciales.
Reich [19] propuso um mtodo para chequear la redundancia de los parmetros antes de recolectar los datos:
Si el modelo es sensible, queremos que
f ( + d) f () F ()d,
tenga valor absoluto grande. Por esto, definimos la medida de sensibilidad
Tn =
1
kf ( + d) f ()k2 .
n
Usando la aproximacin anterior, definimos xmax = m

axi xi y x = xmax /n y tomamos puntos
xi equiespaciados en el intervalo [0, xmax ]. Tomando lmite cuando n , tenemos que la medida
de sensibilidad para un cambio d es
T = d t M d,
20
donde D = diag( m11 , m22 , , mpp ), y donde

M =
1
xmax
xmax
f (x; ) f (x; )
dx.
Reich y Zinke ([20]) y Reich ([19]) propusieron la descomposicin de M en

R = D1 M D1 ,
donde D = diag( m11 , m22 , , mpp ).

Los elementos de la diagonal describen la sensibilidad de los parmetros individuales y R
representa el efecto de la redundancia (Reich [19]).
En resumen, algunos de los problemas descriptos son:
Los diversos tipos de problemas de mal condicionamiento pueden ser inherentes al modelo.
El mal diseo del experimento puede empeorar los problemas del mal condicionamiento. An
con un buen diseo y una gran cantidad de datos no tenemos garanta de solucin del problema.
An los datos experimentales muy precisos pueden dar lugar a estimaciones imprecisas y
altamente correlacionadas, a pesar de tener el modelo correcto.
Aparte de una cuidadosa eleccin de los puntos del diseo, algunos de los problemas anteriores
se pueden superar mediante el uso de transformaciones apropiadas. Ross, [21], enumera cinco tipos
de transformaciones, cada una con un propsito diferente. Ellas incluyen transformaciones de los
parmetros para lograr correlaciones casi nulas entre las estimaciones de los nuevos parmetros,
transformaciones para mejorar los procesos computacionales ya sea inicialmente o aplicados a lo
largo de la optimizacin, transformaciones para enderezar valles y curvas y transformaciones para
minimizar los efectos de curvatura.
21
Captulo 4
Medidas de curvatura y no linealidad

Los mtodos de regresin no lineal cuentan con que la funcin f (x, ) puede ser aproximada
localmente por una funcin lineal. Esta aproximacin puede ser usada o no por los algoritmos de
estimacin, pero casi siempre es tomada como valida para poder obtener errores estndar, intervalos
de confianza y test t. Por esto necesitamos saber que tan buena es dicha aproximacin.
La calidad de la aproximacin puede ser resumida por medio de dos medidas referentes al modelo:
la Curvatura Intrnseca y la Curvatura efecto-parmetros. Bates y Watts ([1], [2]), y Goldberg [12],
extendieron el trabajo de Beale [4] y, usando conceptos de geometra diferencial, desarrollaron estas
medidas de no linealidad basadas en la nocin de curvatura.
Estas medidas son independientes de los cambios de escala en los datos y en los parmetros y
podemos usarlas para comparar diferentes conjuntos de datos, as como diferentes parametrizaciones
del mismo conjunto.
Estas buscan cuantificar qu tan diferentes son en un entorno de la superficie = { : =
f (x, ), } y la aproximacin lineal .
La validez de dicha aproximacin lineal se basa en las suposiciones de linealidad y de coordenadas
uniformes:
1. La suposicin de linealidad asegura que es posible aproximar la funcin f (x, ) en un punto
dado usando el plano tangente.
2. La suposicin de coordenadas uniformes significa que cualquier descripcin paramtrica de
= { : = f (x, ), } manda valores equiespaciados de en valores equiespaciados de
en
La curvatura intrnseca esta relacionada con la suposicin de linealidad y depende del conjunto
de datos analizado y de la funcin f pero no de la parametrizacin.
La curvatura efectoparmetros est relacionada con la suposicin de coordenada uniforme, que
depende del modelo y de todos los efectos de la parametrizacin.
Grandes valores de estas dos medidas indican una pobre aproximacin lineal. stas buscan
22
cuantificar cunto se desvian las suposiciones del modelo no lineal con respecto a las siguientes
propiedades del modelo lineal:
i) = { : = Xt , Rp } es un subespacio lineal del espacio de la muestra.
ii) cualquier descripcin parmetrica de manda valores equiespaciados de en valores de
equiespaciados en .
Al considerar la aproximacin de Taylor de segundo orden, tenemos que
b F
b ( )
b + 1 ( )
b tF
b ( )
b =F
b + 1 tF
b
f () f ()
2
2
b queda
Ignorando el trmino cuadrtico, la aproximacin lineal para en un entorno de
b F
b .
b ( )
f () f ()
b
b generan el plano tangente a la superficie esperada, , en .
Con esto se ve que las columnas de F
Usando esta aproximacin, se puede ver que la regin de confianza aproximada con un nivel
2
b )t F
b tF
b b
100(1 ) % para dada por { : (
( ) p s Fp,np, } es el conjunto de los en
el plano tangente tales que

2
b

b
b k2 F
k
(
)
p s2 Fp,np,,
b y radio (2 Fp,np,)1/2 ,
donde = f (). Por lo tanto, se deduce que vive en una esfera con centro
donde = s p se define como radio estndar.

La validez de dicha aproximacin depende de la magnitud del trmino cuadrtico respecto del
trmino lineal.
Para hacer esta comparacin, dividimos el trmino cuadrtico (un vector de ncoordenadas) en
dos componentes ortogonales: la proyeccin ortogonal sobre el plano tangente y la normal al plano
tangente.
(N )
(T )
b
b = F
b
(4.0.1)
+F
F
As tenemos dos medidas de curvatura dadas por Bates y Wates ([1]), la Curvatura efectos
(N )
(T )
parmetros en la direccin h, Kh , y la Curvatura intrnseca en la direcin h, Kh dadas por

t b (T )
t b (N )
h F h
h F h
(T )
(N )
Kh =
Kh =
.
(4.0.2)
2 ,

b
b 2
F h
F h
4.1.
Interpretacin geomtrica
b con direccin h en , (b) =

b + bh con b arbitrario.
Tomenos una recta arbitraria a traves de
b
Esto genera en la superficie esperada la curva h () = ( + bh).
23
Figura 4.1: Grfico extrado de Seber y Wild [25] - pag 132

El vector tangente en () = f () cuando b = 0 es
h =
p
X
r=1
b h .
fr hr = F
h en b = 0 est dado por

El vector aceleracin
XX
b h .
h =
frs hr hs = ht F
b como en (4.0.1) tenemos las medidas de curvatura definidas en (4.0.2).

Si descomponemos F

T
N
t b (T )
t b (N )
h
h
h
F
h
F

h
h
(T )
(N )
Kh =
=
,
K
.
=
=

h
b 2
b 2
k h k2
k h k2
F h
F h
b y a
b, F
Para deshacerse del problema de las escalas, Bates y Watts sugieren dividir por a y, ,
b
F . Entonces las curvaturas del problema y la inversa del radio (la curvatura de la esfera) pasan a
ser
p
(N )
(T )
y 1/ Fp,np,.
hN = Kh ,
hT = Kh ,
Esto nos muestra que la curvartura intrinseca, hN , es el recproco del radio del crculo que mejor
aproxima a la superficie esperada en la direccin h . Por lo tanto, si la suposicin de linealidad
es buena, la curvatura intrnseca ser pequea.
24
Captulo 5
Inferencia Estadstica
Tomando a como el verdadero valor del parmetro, en este captulo consideramos el modelo
yi = f (xi ; ) + i ,
(5.0.1)
donde i son i.i.d con distribucin N (0, 2 ), i = 1, , n.
5.1.
Intervalos de Confianza asintticos
Bajo condiciones apropiadas de regularidad, tenemos que, asintticamente

b Np (, 2 C1 ),
C = Ft F .
(5.1.1)
Entonces, para una combinacin lineal at , podemos aplicar el teorema (2.1.1) y, en forma asinttica, tenemos que
b Np (at , 2 at C1 a),
at

b
que es independiente de S 2 = y f ()
/(n p), el estimador insesgado de 2 . Para n grande
tenemos que, aproximadamente,
T =
b at
at
Tnp .
s(at C1 a)1/2
(5.1.2)
b tnp, s(at C
b 1 a)1/2 , donde
Un intervalo de confianza 100(1 ) %, aproximado, para at es at
b =F
bt F
b
hemos aproximado a C por C
.
b (rs) como el elemento (r, s) de C

b 1 , el
Tomando at = (0, 0, , 0, 1, 0, , 0) y definiendo (C)
intervalo de confianza para r est dado por
p
b
b (rr) .
r tnp, s C
(5.1.3)
La experiencia sugiere que la teora asinttica da resultados que parecen razonables en las aplicaciones. Pero la utilidad de este ltimo depende de las propiedades de curvatura de E(Y) = f ().
Por esto, necesitamos un chequeo adecuado para que (5.1.3) no resulte engaoso.
25
Para obtener un conjunto de intervalos (uno por cadapr ), se puede usar el mtodo de Bonferroni.
br tnp, /2p s C
b (rr) . Estos intervalos tienen un nivel de
As, para cada r = 1, , p , tenemos
confianza menor que 100(1 ) % y pueden estar afectados por la curvatura.
Usando la linealizacin asinttica de (5.0.1) se pueden aplicar mtodos lineales para encontrar
un intervalo de prediccin para y en x = x0 .
Si consideramos
f0t = (
f (x0 , ) f (x0 , )
f (x0 , )
,
, ,
),
1
2
p
b ), para
b f (x0 , ) + f t (
y tomamos el desarrollo usual de Taylor de primer orden f (x0 , )
0
b tenemos que y0 yb0 y0 f (x0 , ) f t (
b ) = 0 f t (
b ).
yb0 = f (x0 , ),
0
0
b y la independencia de
b y 0 , tenemos que, en
Teniendo en cuenta la distribucin (5.1.1) de
1
2
t
t
forma asinttica y0 yb0 N (0, (1 + v0 )), donde v0 = f0 (F F ) f0 .
b de modo que s2 es
Ahora s2 es independiente de y0 y es asintticamente independiente de ,
asintticamente independiente de y0 yb0 . Por lo tanto, asintticamente,
y yb0
p0
Tnp .
s (1 + v0 )
Esto nos permite obtener un intervalo de prediccin aproximado de nivel 100(1 ) % para y0 de
la forma
yb0 tnp, 2 s [1 + v0 ]1/2 ,
b
donde v0 puede ser estimado reemplazando por .
5.2.
Intervalos simltaneos y regiones de confianza
Sea C = Ft F = Ft ( )F ( ) la matriz de covarianza asinttica del estimador de mnimos

cuadrados. Llamemos
b (),
b
b =F
b t F
b = Ft ()F
C
al estimador de C. Del teorema (2.1.1) podemos deducir la regin de confianza para

t

b C
b p s2 Fp,np () ,
b
:
(5.2.1)
algunas veces llamada Regin linealizada
Siguiendo la teora lineal usual, para el mtodo de Scheff tenemos

1 = P (Fp,np Fp,np ())

t

2
b C
b p s Fp,np ()
b
P :
o2
n

t
b

1/2
b
t b

tb
= P sup
c = P b ( ) cb Cb
b 6= 0 ,
b 1 b
b
bt C
26
donde c = p s2 Fp,np(). Entonces, con probabilidad aproximada 1 , tenemos los intervalos

simultneos
b (p Fp,np ())1/2 s (bt C
b 1 b)1/2 .
bt
(5.2.2)
Estos incluyen los intervalos para r , siendo ms largos que los de Bonferroni. Los intervalos (5.2.2)
son usados para mirar todas las combinaciones sugeridas por los datos, mientras que los generados
por el metdo de Bonferroni son tiles para combinaciones pre elegidas.
Recordando que S() = kr()k2 = ky f ()k, de (3.2.2) deducimos que
)
(
b
S() S()
n
Fp,np () .
:
b
np
S()
b nos queda
Si tomamos b
r = r(),
o
n
: kr()k2 (1 + f ) kb
rk2 ,
con
f=
p
Fp,np ().
np
(5.2.3)
(5.2.4)
Aunque las regiones (5.2.1) y (5.2.3) son asintticamente la misma para los modelos no lineales y
exactamente de la misma para los modelos lineales, ellas pueden ser muy diferentes para muestras
pequeas. En general, (5.2.1) parece ser superior, pues est ms cerca del valor nominal y se ve
menos afectada por la curvatura (Donaldson y Schnabel, [9]).
La funcin S() es invariante por reparametrizaciones, por lo cual podemos asumir que encontramos una transformacin para eliminar la curvatura efecto-parmetros. Por esto (5.2.4) slo se ve
afectada por la curvatura intrnseca, que a menudo es insignificante. Box y Coutie [6] propusieron
una versin aproximada de (5.2.3)

t

2
b H
b
b p s Fp,np () ,
:
(5.2.5)
b =
donde H
2S
b t ][F
b t F
b [r()
b ].
=F
t
Se espera que (5.2.5) aproxime mejor a (5.2.3) que (5.2.1) ya que este incluye trminos de segundo
orden del desarrollo de Taylor. Sin embargo, regiones del tipo (5.2.3) son difciles de computar y de
representar grficamente. Por este motivo, se est ms interesado en intervalos de confianza para
cada r , r = 1, , p.
La validez de la teora asinttica depende mucho del grado de no linealidad del modelo y de
la eleccin de los parmetros , reflejadas en las curvaturas intrnseca y de efectos-parmetros. Si
b .
la aproximacin lineal es buena, podemos aplicar la teora lineal al problema tomando X = F
Cuando no podamos ignorar los efectos de la curvatura, podremos realizar algunas modificaciones
a la teora lineal.
27
Captulo 6
Software y Ejemplos
Los programas de software estadstico ms importantes incluyen funciones para ajustar modelos
de regresin no lineal. Para los casos de estudio, utilizamos el programa R que cuenta con 2 funciones
para realizar estimacin no lineal. Una es la funcin nls() que busca estimadores por mnimos
cuadrados no lineales y que por defecto utiliza el algoritmo de Gauss-Newton. La otra funcin es
nlrob() que realiza un ajuste robusto usando M-estimadores por mnimos cuadrados reponderados
iterativos (IWLS). Tambin implementamos la rutina de Stromberg [26] mmnl() que fue desarrollada
originalmente para el software comercial S-Plus y que figura en el Captulo 7. Esta ltima estima los
parmetros de un modelo de regresin no lineal utilizando M M estimadores. El M M estimador se
calcula utilizando como funcion la funcion de Hampel, ver Huber [14]. En este captulo, analizamos
algunos conjuntos de datos existentes en la literatura a los que se agregaron datos atpicos para
evaluar el comportamiento de los estimadores robustos.
6.1.
Ejemplo de datos de cebolla
Estos datos son un ejemplo de curvas de crecimiento sigmoidal, tratadas por Ratkowsky [17] y
se conocen usualmente en la literatura como Onion Data. Son 16 pares de datos donde la variable
de respuesta (y) es el peso seco de los bulbos de cebolla y la variable predictora (x) es el tiempo de
crecimiento. Los datos se grafican en la Figura 6.1.
Varios modelos de crecimiento sigmoidal fueron propuestos para este tipo de datos, entre ellos
el modelo de Gompertz, basado en la distribucin Weibull:
v = f (x, ) = 1 exp( exp(2 3 x))
Como estimacin inicial de 1 , tomamos el ltimo valor de Y , redondeado al entero siguiente (consideramos el valor asinttico de X), es decir, tomamos 1 = 718. Para obtener los valores iniciales
de 2 y 3 , linealizamos la ecuacin

v
) = 2 3 x
z0 = ln( ln
1
28
y aplicamos mnimos cuadrados lineales. Con esto obtenemos los valores iniciales
1 = 718, 2 = 2.3794, 3 = 0.4673 .
400
0
100
200
300
500
600
700
OnionRatkowsky
10
12
14
Figura 6.1: datos de Cebolla: Ratkowsky (1983)

Aplicamos mnimos cuadrados no lineales con el metodo de Gauss- Newton usando la funcin nls() del R. El grfico de residuos se muestra en la Figura 6.1. Calculamos tambin los
M estimadores usamos la funcin nlrob(). Los resultados obtenidos con ambos mtodos estn
dados en la Tabla 6.1.
bols
723.10870
2.50018
0.45010
Parmetro
1
2
3
bm
731.82003
2.43288
0.43653
Tabla 6.1: Estimaciones de los parmetros para el conjunto de datos Onion.
0
20
60
40
Residuos
20
40
60
Ajuste clsico
100
200
300
400
500
600
700
Ajustados
Figura 6.2: Grfico de residuos

Tenemos que tener en cuenta que los valores del error estndar dados en las Tablas 6.2 y 6.3
para los mtodos robustos son asintticos.
29
Parmetro
1
2
3
Estimador
723.10870
2.50018
0.45010
Parmetro
1
2
3
Estimador
731.82003
2.43288
0.43653
bols
Error Estndar
22.06049
0.28470
0.05178
b
m
Error Estndar
21.05600
0.23589
0.04374
Valor t
32.778
8.782
8.693
Pr(>|t|)
4.12e-13
1.43e-06
1.59e-06
Valor t
34.76
10.31
9.98
Pr(>|t|)
2.05e-13
2.56e-07
3.66e-07
Tabla 6.2: Informacin del estimador de mnimos cuadrados y del M estimador para el conjunto de datos
Onion.
Estimador
bols
bm
Error Estndar Residual

33.67
20.47
Cantidad de iteraciones
7
11
Tabla 6.3: Errores estndar residuales y nmero de iteraciones hasta convergencia del estimador de mnimos
cuadrados y del M estimador para el conjunto de datos Onion.
Con el mtodo robusto se logr un Error Residual Estndar menor que con el mtodo clsico,
pero en una mayor cantidad de iteraciones.
700
Como puede verse en la Figura 6.3, los valores atpicos no son tan notorios, lo que se traduce en
una poca influencia en el mtodo clsico.
400
0
100
200
300
500
600
nls
nlrob
10
12
14
Figura 6.3: Curvas de ajuste

Debido a la poca cantidad de datos no pudimos utilizar la funcin mmnl().
30
6.2.
Ejemplo de datos de ciervos
Estos pares de datos representan la edad y la longitud de la mandibula de cierto tipo de ciervos.
Fueron objeto de estudio por Crawley [7] y figuran con el nombre Deer Data en R. Se muestran
en la Figura 6.4.
80
0
20
40
60
bone
100
120
140
Deer
10
20
30
40
50
age
Figura 6.4: Datos de Ciervos : Crawley (2007)

La teora indica que la relacin entre la Edad (x) y la Longitud de la mandbula (y) es una
funcin exponencial asinttica con 2 parmetros:
v = f (x, ) = 1 (1 exp(2 x)).
Con un anlisis previo, Crawley [7] decidi tomar como valores iniciales 1 = 120, 2 = 0.064. los
resultados obtenidos, al realizar el ajuste de los datos por Mnimos Cuadrados No Lineales y por
los mtodos robustos con el M estimador y con M M estimador, se dan en la tabla 6.4.
Parmetro
1
2
bols
115.581
0.11882
bm
114.621
0.12647
bmm
115.491
0.11970
Tabla 6.4: Estimaciones de los parmetros para el conjunto de datos Deer.

Los errores estndar de los estimadores OLS y M -estimadores as como los respectivos valores
del estadstico t para la hiptesis H0 : j = 0 se dan en la Tabla 6.5. La funcin mmnl() no
da informacin con respecto al error estndar ni al tvalor del M M estimador. Como antes la
Tabla 6.6 da los valores del error estndar residual y la cantidad de iteraciones necesarias hasta
obtener convergencia. Los resultados para ambos mtodos son comparables. La Figura 6.5 muestra
los ajustes obtenidos, no observndose diferencias entre los ajustes provistos por el estimador de
mnimos cuadrados y el M M estimador.
31
Parmetro
1
2
Estimador
115.581
0.11882
Parmetro
1
2
Estimador
114.621
0.12647
bols
Error Estndar
2.84365
0.01233
b
m
Error Estndar
3.19597
0.01552
Estadstico t
40.645
9.635
Estadstico t
35.864
8.147
Tabla 6.5: Errores estndar de los estimadores de los parmetros para el conjunto de datos contaminados y
valores del estadstico t para la hiptesis H0 : j = 0.
Estimador
bols
bm

13.10
13.19
5
7
cuadrados y del M estimador para el conjunto de datos sobre medidas de Ciervo.
100
80
60
40
20
Longitud de la mandibula
120
140
Deer
LSestimador
Mestimador
MMestimador
0
10
20
30
40
50
Edad
Figura 6.5: Grfico de valores ajustados v = 1 (1 exp(2 x)) por los 3 mtodos de estimacin.
Modificamos 4 respuestas en el conjunto de datos para observar el comportamiento de los tres
estimadores en presencia de datos atpicos. Los datos modificados se dan en la Tabla 6.7 y se grafican
en la Figura 6.6.
32
Dato
47
48
49
50
original
112.43
101.68
142
91.20
modificado
302
310
320
340
Tabla 6.7: datos modificados en el conjunto de datos de Ciervo.
300
200
100
50
0
Deer
10
20
30
40
50
Edad
Figura 6.6: Grafico de los datos de Ciervo con datos contaminados

Al aplicar los distintos mtodos de estimacin al nuevo conjunto de datos obtuvimos los resultados dados en la Tabla 6.8.
Parmetro
1
2
bols
676.3
0.00689
bm
119.8966
0.11169
bmm
116.2906
0.11703
Tabla 6.8: Estimaciones de los parmetros para el conjunto de datos contaminados.

Se puede ver que la contaminacin provoc la ruptura del estimador por mnimos cuadrados.
El M -estimador no sufri tanto cambio y el M M -estimador casi no muestra variacin. A partir de
los resultados reportados en la Tabla 6.9, podemos ver que, con el mtodo por mnimos cuadrados,
ninguno de los dos parmetros resultan significativamente distintos de cero, a diferencia de los
M -estimadores que conservan la significacin del conjunto de datos original.
Tambin se produjeron cambios en el Error Residual Estndar que se reportan en la Tabla 6.10.
Para el M -estimador es el Error Residual Estndar Robusto asinttico.
33
Parmetro
1
2
Estimador
676.3
0.00689
Parmetro
1
2
Estimador
119.8966
0.11169
bols
Error Estndar
1.033e+03
1.200e-02
b
m
Error Estndar
3.89383
0.01417
Estadstico t
0.655
0.574
Estadstico t
30.795
7.884
Tabla 6.9: Errores estndar de los estimadores de los parmetros para el conjunto de datos contaminados y
valores del estadstico t para la hiptesis H0 : j = 0.
Estimador
bols
bm

48.18
12.93
17
12
cuadrados y del M estimador para el conjunto de datos contaminado.
350
Deer
250
200
150
100
0
50
300
LSestimador
Mestimador
MMestimador
10
20
30
40
50
Edad
Figura 6.7: Curvas de ajuste para los datos de Ciervo al modificar 4 observaciones.
En la Figura 6.7 se ve como los datos atpicos influyen en el ajuste por mnimos cuadrados y no
en los ajustes robustos. La figura 6.8 permite detectar claramente los 4 datos modificados cuando
se utilizan procedimientos robustos, mientras que si se utilizase slo el procedimiento clsico se
pensara que el modelo no es el adecuado.
34
Ajuste robusto Mestimador
Ajuste robusto MMestimador
50
100
150
200
150
100
Residuos
50
0
50
50
100
Residuos
50
0
Residuos
150
100
200
200
Ajuste clsico LSestimador
20
40
60
Ajustados
80
100
120
20
Ajustados
40
60
80
100
120
Ajustados
Figura 6.8: Grficos de valores ajustados versus residuos segn el mtodo de ajuste
6.3.
Ejemplo de datos de ultrasonido
60
40
20
80
Este conjunto de datos, usualmente conocido como Chwirut2, contiene las mediciones provenientes de un experimento que estudia como la respuesta al ultrasonido depende de la distancia al
metal. Los datos son de libre acceso y pertenecen al National Institute of Standards and Technology
(NIST). Se grafican en la Figura 6.9.
Distancia al metal
Figura 6.9: datos de ultrasonido (Chwirut2): NIST

El modelo terico propuesto por el NIST es
v = f (x, ) =
exp(1 x)
.
2 + 3 x
Los valores de los estimadores clsicos y robustos se dan en la Tabla 6.11. Por otra parte, en la
Tabla 6.12, se presentan los errores estndar de los estimadores OLS y M -estimadores as como los
respectivos valores del estadstico t para la hiptesis H0 : j = 0. Como antes la Tabla 6.13 da los
valores del error estndar residual y la cantidad de iteraciones necesarias hasta obtener convergencia.
Los resultados para ambos mtodos son comparables. La Figura 6.10 muestra los ajustes obtenidos,
no observndose diferencias entre los ajustes provistos por los distintos mtodos.
35
bols
0.16658
0.005167
0.01215
Parmetro
1
2
3
bm
0.15120
0.00495
0.01296
bmm
0.15632
0.00512
0.01267
Tabla 6.11: Estimadores de los parmetros.
Chwirut2
60
40
20
80
LSestimador
Mestimador
MMestimador
Distancia al metal
Figura 6.10: Curvas de ajuste

Parmetro
1
2
3
Estimador
0.16658
0.00517
0.01215
Parmetro
1
2
3
Estimador
0.15120
0.00495
0.01296
bols
Error Estndar
0.0383033
0.0006662
0.0015304
b
m
Error Estndar
0.0251953
0.0004854
0.0010919
Estadstico t
4.349
7.753
7.939
Estadstico t
6.001
10.197
11.872
Tabla 6.12: Errores estndar de los estimadores de los parmetros para el conjunto de ultrasonido y valores
del estadstico t para la hiptesis H0 : j = 0.
Estimador
bols
bm

3.172
1.575
4
8
cuadrados y del M estimador para el conjunto de datos sobre ultrasonido.
Modificamos los datos para tener 4 datos atpicos y ver cmo se comportan los procedimientos
36
de estimacin clsicos y robustos del modelo no lineal. Los datos modificados se dan en la Tabla
6.14 y el nuevo conjunto de datos se grafica en la Figura 6.11.
Dato
9
23
33
37
original
8.4750
5.4400
8.5500
3.7500
modificado
60
62
61
60
60
40
20
80
Tabla 6.14: datos modificados en el conjunto de datos de Ultrasonido.
Distancia al metal
Figura 6.11: Grafico de los datos de ultrasonido con datos contaminados

Para estos datos, obtuvimos los estimadores dados en la Tabla 6.15. Como en el ejemplo anterior,
bols . Los estimadores
vemos como la modificacin de los datos, altera notablemente el estimador
bmm tambin sufren cambios, pero no tan drsticos. En la Figura 6.12 se muestran
bm y
robustos
los datos junto con las funciones ajustadas.
Parmetro
1
2
3
bols
-0.25357
-0.00358
0.03380
bm
0.12834
0.00464
0.01379
bmm
0.17014
0.00531
0.01214
Tabla 6.15: Estimaciones de los parmetros para el conjunto de datos contaminados.
37
Chwirut2
60
40
20
80
LSestimador
Mestimador
MMestimador
Distancia al metal
Figura 6.12: Curvas de ajuste para los datos de ultrasonido contaminados

La Tabla 6.16, presenta los errores estndar de los estimadores OLS y M -estimadores as como
los respectivos valores del estadstico t para la hiptesis H0 : j = 0 obtenidos sobre el conjunto de
datos contaminados, mientras que la Tabla 6.17 da los valores del error estndar residual y la cantidad de iteraciones necesarias hasta obtener convergencia. El estimador bols de 2 no da significativo,
mientras que al utilizar los procedimientos robustos, todos los estimadores son significativos.
Parmetro
1
2
3
Estimador
-0.25357
-0.00358
0.03380
Parmetro
1
2
3
Estimador
0.12834
0.00464
0.01379
bols
Error Estndar
0.060333
0.003778
0.007473
bm
Error Estndar
0.0283401
0.0005591
0.0012620
Estadstico t
-4.203
-0.949
4.523
Estadstico t
4.528
8.302
10.929
Tabla 6.16: Errores estndar de los estimadores de los parmetros para el conjunto de ultrasonido contaminado y valores del estadstico t para la hiptesis H0 : j = 0.
Estimador
bols
bm

13.68
1.785
8
8
cuadrados y del M estimador para el conjunto de datos contaminado de ultrasonido.
38
Captulo 7
Implementacin del algoritmo de

Stromberg en R
mmnl <- function(X,y,K,Vm,fun,grad,scale=NULL,trace=F)
{
z <- (y-fun(X,K,Vm))
if(all(z==0)) {
if(is.null(scale)) scale <- 0
return(b=b,fitted=y,residuals=rep(0,length(y)),
scale=scale,criterion=0)
}
if(is.null(scale)) scale <- mscale(z)
z <- z/0.9014/scale
iter <- 0
repeat {
iter <- iter+1
G <- grad(X,K,Vm)/0.9014/scale
w <- wt.hampel(z,a=1.5,b=3.5,c=8)
wG <- vecmat(sqrt(w),G)
d1 <- crossprod(G,psi.hampel(z))
d2 <- crossprod(wG)
maxd2 <- max(d2)
if(iter==1) {
if(all(w==0)) stop("Specified scale too small")
rho <- sum(rho.hampel(z))
lambda <- sqrt(mean(d2^2))/1000
I <- diag(dim(G)[2])
}
# Levenberg damping
bold <- b
old <- rho
lev <- 0
39
repeat {
lev <- lev+1
db <- solve( d2 + lambda*I, d1 )
b <- bold + db
z <- (y-fun(X,K,Vm))/0.9014/scale
rho <- sum(rho.hampel(z))
if(rho < old - 1e-15 || rho==0) break
if(lambda/maxd2 > 1e15) {
b <- bold
warning("Levenberg tolerance not achievable")
break
}
lambda <- 2*lambda
if(trace) cat("Lambda",lambda,"\n")
}
if(trace)
cat("Iteration",iter,"\nb",b,"\nObjective Function",rho,"\n")
if(lambda/maxd2 > 1e15) break
if(lev==1) lambda <- lambda/10
# Test for convergence
if( crossprod(d1,db) < 1e-8 ) break
if(iter > 40) {
warning("mmnl: Max iterations exceeded")
break
}
}
mu <- fun(X,K,Vm)
list(b=b,fitted=mu,residuals=y-mu,scale=scale,
criterion=rho)
}
mscale <- function(u)
{
if(mean(u==0) >= 0.5) return(0)
U <- abs(u)
s <- median(U)/0.6744898
iter <- 0
repeat {
iter <- iter+1
z <- u/0.212/s
d1 <- mean(rho.hampel(z))-3.75
d2 <- mean(z*psi.hampel(z))
s <- s*(1+d1/d2)
if(iter > 50) {
cat("mscale: Max iterations exceeded")
40
break
}
if(abs(d1/d2) < 1e-14) break
}
s
}
rho.hampel <- function(u, a = 1.5, b = 3.5, c = 8)
{
U <- abs(u)
A <- (U <= a) #increasing
B <- (U > a) & (U <= b) #flat
C <- (U > b) & (U <= c) #descending
D <- (U > c) # zero
rho <- U
rho[A] <- (U[A] * U[A])/2
rho[B] <- a * (U[B] - a/2)
rho[C] <- a * (b - a/2) + a * (U[C] - b) *
+(1 - (U[C] - b)/(c - b)/2)
rho[D] <- (a * (b - a + c))/2
rho
}
psi.hampel <- function(u, a = 1.5, b = 3.5, c = 8)
{
U <- abs(u)
B <- (U > a) & (U <= b) #flat
D <- (U > c) # zero
psi <- u
psi[B] <- sign(u[B]) * a
psi[C] <- sign(u[C]) * a * (c - U[C])/(c - b)
psi[D] <- 0
psi
}
mmfreq <- function(y,x=NULL,freq,coef=NULL,constant=F,
scale=NULL,trace=F){
if(is.null(x)) x <- 0:(length(y)-1)
if(any(is.na(y))) {
x <- x[!is.na(y)]
y <- na.omit(y)
}
nfreq <- length(freq)
if(!is.null(coef)) if(length(coef) != constant+2*nfreq)
41
stop("Need 2 coefficients for each frequency")

if(length(y) < constant+3*nfreq)
stop("Need at least 3 observations for each frequency")
fun <- function(x,b) {
nfreq <- length(b) %/% 3
constant <- length(b) %% 3
f <- matrix(b[1:nfreq],1,nfreq)
cosi <- constant + (nfreq+1):(2*nfreq)
sini <- cosi + nfreq
Xb <- cos(x%*%f) %*% b[cosi] + sin(x%*%f) %*% b[sini]
if(constant) Xb <- Xb + b[nfreq+1]
as.vector(Xb)
}
grad <- function(x,b) {
nfreq <- length(b) %/% 3
constant <- length(b) %% 3
f <- matrix(b[1:nfreq],1,nfreq)
cosi <- constant + (nfreq+1):(2*nfreq)
G <- x*( matvec(cos(x%*%f),b[sini])-matvec(sin(x%*%f),b[cosi]))
if(constant)
return( cbind( G, 1, cos(x%*%f), sin(x%*%f) ) )
else
return( cbind( G, cos(x%*%f), sin(x%*%f) ) )
}
if(is.null(coef)) {
f <- matrix(freq,1,nfreq)
G <- cbind( cos(x%*%f), sin(x%*%f) )
coef <- ltsreg(G,y,intercept=constant)$coefficients
}
out <- mmnl(x,y,c(freq,coef),fun,grad,scale=scale,trace=trace)
out$freq <- Arg(exp(out$b[1:nfreq]*1i))
out$coef <- out$b[(nfreq+1):(3*nfreq+constant)]
out$b <- NULL
out
}
robfreq <- function(y,nfreq=1,s=NULL,breakdown=0.5,trace=F
,maxregs=6000) {
n <- length(y)
x <- 0:(n-1)
if(breakdown > 0.5) breakdown <- 0.5
if(breakdown < 0) breakdown <- 0
trim <- floor(n*(1-breakdown))+floor(3*nfreq/2)
cosi <- 1:nfreq
42

# Make sure data is not trivial
if(all(y==0)) return(list(freq=0,coef=c(0,0),fitted=y,
residuals=y,scale=0,criterion=0))
if(var(y)==0) {
m <- mean(y)
return(list(freq=0,coef=c(m,0),fitted=rep(m,n),
residuals=rep(0,n),scale=0,criterion=0))
}
# Prony ORA estimator
if(trace) cat(" PronyFreq")
ora <- pronyfreq(y,nfreq,constant=F,maxit=5,warnings=F)
e <- ora$residuals^2
tsmin <- sum( sort(e)[1:trim] )
omegats <- ora$freq
alphats <- ora$coef
ets <- e
if(trace) {
cat(" (")
cat(round(omegats,4),sep=",")
cat(")")
}
# Check for exact fit
if(max(abs(ora$residual))/max(abs(y)) < 1e-11)
return(c(ora,list(scale=0,criterion=0)))
# If low breakdown wanted, return immediately
if(trim >= n) return(ora)
# Number of steps or spacings in elemental set
steps <- 3*nfreq-1
# Strombergs recommendation for number of element sets
stromberg <- ceiling( log(0.001)/log(1-breakdown^(3*nfreq)) )
if(stromberg < n) stromberg <- n
if(stromberg > maxregs) stromberg <- maxregs
# Find maxs corresponding to Stromberg
nelemsets <- s <- 0
repeat {
s <- s+1
new <- n - steps*s
43
if(new < 1) {
smax <- s-1
prob <- rep(1,smax)
break
}
if(s>1) {
nelemsetsthin <- nelemsets+new*(1+(s-2)*nfreq)/(1+(s-1)*nfreq)
if(nelemsetsthin >= stromberg) {
smax <- s
prob <- rep(1,smax)
prob[smax] <- (1+(s-2)*nfreq) / (1+(s-1)*nfreq)
break
}
}
nelemsets <- nelemsets + new
if(nelemsets >= stromberg) {
smax <- s
prob <- rep(1,smax)
break
}
}
# Make sure widest elemental sets at least at
# least 7% of data range. If smax is increased,
# thin out to required number of elemental sets
if(new > 1) {
mins <- ceiling(n/14/steps)
if(smax < mins) {
scut <- smax
smax <- mins
s <- 1:smax
prob <- pmin( 1, (1+(scut-1)*nfreq) / (1+(s-1)*nfreq) )
}
s <- 1:smax
nsets <- n-steps*s
prob <- prob*stromberg/sum(nsets*prob)
}
# Make sure no more than maxregs regressions,
# including harmonics
# If necessary, thin out to maximum number of regressions
s <- 1:smax
nregs <- (n-steps*s) * (1+(s-1)*nfreq)
if(sum(nregs*prob) > maxregs) {
scut <- smax
44
repeat {
scut <- scut-1
prob <- pmin( 1, (1+(scut-1)*nfreq) / (1+(s-1)*nfreq) )
if(sum(nregs*prob) <= maxregs) {
prob <- pmin( 1, (1+scut*nfreq) / (1+(s-1)*nfreq) )
prob <- prob/sum(nregs*prob)*maxregs
break
}
if(scut == 1) {
prob <- prob/sum(nregs*prob)*maxregs
break
}
}
}
# Try elemental estimators
Xebase <- matrix(0,3*nfreq,2*nfreq)
X <- Xbase <- matrix(0,n,2*nfreq)
i <- 0:steps
# Step through all spacings
if(trace) cat(" Elemental")
for (spacing in s) {
if(trace) cat(" ",spacing,sep="")
# Sets within each spacing
nsets <- n-(3*nfreq-1)*spacing
x1sample <- sample(nsets,round(prob[spacing]*nsets))
for (x1 in x1sample) {
xe <- x1+spacing*i
ye <- y[xe]
eomega <- elemfreq(ye,nfreq=nfreq)
if ( !is.null(eomega) ) {
# Set omega to base frequency
eomegabase <- eomega/spacing
# Compute criteria at base frequency
eo <- matrix(eomegabase,1,nfreq)
xoe <- (xe-1)%*%eo
Xebase[,cosi] <- cos(xoe)
Xebase[,sini] <- sin(xoe)
xo <- x%*%eo
Xbase[,cosi] <- cos(xo)
Xbase[,sini] <- sin(xo)
45
qrXe <- qr(Xebase)

alpha <- qr.coef(qrXe,ye)
mu <- Xbase %*% alpha
e <- (y-mu)^2
tsbase <- sum( sort(e)[1:trim] )
# cat(spacing,x1,"0 0",tsbase,"\n")
eomegats <- eomegabase
ealphats <- alpha
eets <- e
tsminh <- tsbase
if (spacing>1) {
# Try to find a better combination of harmonics for
# this elemental set
Xemin <- Xebase
Xmin <- Xbase
for (f in 1:nfreq) {
Xe <- Xemin
X <- Xmin
# Search harmonics of frequency f
for (h in 1:(spacing-1)) {
eomegah <- acos(cos(eomegabase[f]+2*pi*h/spacing))
xoe <- (xe-1)*eomegah
xo <- x*eomegah
Xe[,f] <- cos(xoe)
Xe[,f+nfreq] <- sin(xoe)
X[,f] <- cos(xo)
X[,f+nfreq] <- sin(xo)
qrXe <- qr(Xe)
alpha <- qr.coef(qrXe,ye)
mu <- X %*% alpha
e <- (y-mu)^2
ts <- sum( sort(e)[1:trim] )
# cat(spacing,x1,f,h,ts,"\n")
if (ts < tsminh) {
tsminh <- ts;
eomegats[f] <- eomegah;
ealphats <- alpha;
eets <- e
Xemin <- Xe;
Xmin <- X
}
}
}
}
46
# Now have best harmonic. Test again global minimum.

if (tsminh < tsmin) {
tsmin <- tsminh
omegats <- eomegats
alphats <- ealphats
ets <- eets
if(trace) {
cat(" (")
cat(round(omegats,4),sep=",")
cat(")")
}
}
}
}
}
# Terminate if all frequencies are zero
if(all(omegats==0))
return(list(freq=omegats,coef=alphats,fitted=y-ets,
residuals=ets))
# If some but not all frequencies are zero,
# replace with constant term
constant <- any(omegats==0)
if(constant) omegats <- omegats[omegats != 0]
# Least squares on best half of data
good <- sort(sort.list(e)[1:trim])
ls.ts <- lsfreq(y=y[good],x=x[good],freq=omegats,
constant=constant)
if(trace) {
cat(" LS (")
cat(round(ls.ts$freq,4),sep=",")
cat(")")
}
# Compute scale M estimate
s <- mscale(ls.ts$residuals)
if(trace) cat(" s=",round(s,3),sep="")
# Terminate if scale is zero
if(s/max(ls.ts$coef) < 1e-12) return(c(ls.ts,list(scale=s)))
# Location M estimate
47
mm <- mmfreq(y,freq=ls.ts$freq,coef=ls.ts$coef,scale=s,
constant=constant)
mm.ora <- mmfreq(y,freq=ora$freq,coef=ora$coef,scale=s)
if(mm.ora$criterion < mm.ora$criterion) mm <- mm.ora
if(trace) {
cat(" MM (")
cat(round(mm$freq,4),sep=",")
cat(")\n")
}
mm
}
elemfreq <- function(y,nfreq=NULL) {
# Fit frequencies to elemental set
# Gordon Smyth, U of Queensland, gks@maths.uq.edu.au
# 12 Jul 99. Last revised 15 Oct 99.
if(is.null(nfreq)) nfreq <- length(y) %/% 3
if (nfreq==1) {
if(y[2]==0) return(NULL)
d2 <- -(y[1]+y[3])/y[2]
if (abs(d2)>2 ) return(NULL) else return(acos(-d2/2))
}
i <- 0:(nfreq-1)
i1 <- 1
i2 <- 2*nfreq+1
b <- y[i1+i] + y[i2+i]
B <- matrix(0,nfreq,nfreq)
for (j in 1:(nfreq-1)) {
i1 <- i1+1
i2 <- i2-1
B[,j] <- y[i1+i] + y[i2+i]
}
B[,nfreq] <- y[nfreq+1+i]
qrB <- qr(B)
if (qrB$rank < nfreq) return(NULL)
d <- -qr.coef(qrB,b)
f <- log(polyroot( c(1,d,d[(nfreq-1):1],1) ))
if (any(abs(Re(f))>1e-8))
return(NULL)
else
return(sort(Im(f))[(nfreq+1):(2*nfreq)])
}
48
wt.hampel<function(u, a = 2, b = 4, c = 8) cambiar los valores?

{
U <- abs(u)
A <- (U <= a) #increasing
B <- (U > a) & (U <= b) #flat
D <- (U > c) # zero
w <- u
w[A] <- 1
w[B] <- a/U[B]
w[C] <- (a * ((c - U[C])/(c - b)))/U[C]
w[D] <- 0
w
}
49
Bibliografa
[1] Bates, D. M., and Watts, D. G. (1980). Relative curvature measures of nonlinearity (with
Discussion). J. R. Stat. Soc., Series B, 42, 1-25.
[2] Bates, D. M., and Watts, D. G. (1981). Parameter transformations for improved approximate
confidence regions in nonlinear least squares. Ann. Stat., 9, 1152-1167.
[3] Bates, D. M. and Watts, D. G. (1988) Nonlinear Regression Analysis and Its Applications.
John Wiley and Sons, New York.
[4] Beale, E.M.L.(1960). Confidence regions in non-linear estimation (with Discussion). J. R. Stat.
Soc., Series B 22, 41-88.
[5] Bird, H. A., and Milliken, G. A. (1976). Estimable functions in the nonlinear model. Commun.
Statist., Theory and Methods, 6, 999-1012.
[6] Box, G. E. P., and Coutie, G. A. (1956). Application of digital computers in the exploration of
functional relationships. Proc. I.E.E.E., 103, Part B, Suppl. 1, 100-107.
[7] Crawley, M. J. (2007). The R Book. John Wiley and Sons, New York.
[8] Cornish-Bowden, A. J. (1976). Principles of Enzyme Kinetics. Butterworths: London.
[9] Donaldson, J. R., and Schnabel, R. B. (1987). Computational experience with confidence regions
and confidence intervals for nonlinear least squares. Technometrics, 29, 67-82.
[10] Fasano, M. V. (2009). Teora asinttica de estimadores robustos en regresin no lineal. Tesis
Doctoral, Universidad Nacional de La Plata.
[11] Fraiman, R. (1983). General M-estimators and applications to bounded influence estimation
for non-linear regression. Comm. Statist.,. Theory and Methods, 22, 2617-2631.
[12] Goldberg, M. L., Bates, D. M., and Watts, D. G. (1983). Simplified methods of assessing
nonlinearity. Amer. Stat. Assoc. Proc. Bus. Econ. Statist., 67-74.
[13] Huber, P. J. (1973) Robust Regression: Asymptotics, Conjectures and Monte Carlo. Ann.
Statist, 1, 799-821.
[14] Huber, P. J. (1981). Robust Statistics. John Wiley and Sons, New York.
[15] Lawrence, K.D. and Arthur, J.L. (1990). Robust Regression - Analysis and Applications, .
50
[16] McCullagh, P. (1983). Quasi-likelihood functions. Ann. Stat., 11, 59-67.

[17] D.A. Ratkowsky. (1983). Nonlinear Regression Modeling. Marcel Dekker, New York.
[18] Ratkowsky, D. A., and Dolby, G. R. (1975). Taylor series linearization and scoring for parameters in nonlinear regression. Appl. Stat., 24, 109-111.
[19] Reich, J. G. (1981). On parameter redundancy in curve fitting of kinetic data. In L. Endrenyi
(Ed.), Kinetic Data Analysis: Design and Analysis of Enzyme and Pharmacokinetic Experiments, pp. 39-50. Plenum Press: New York.
[20] Reich, J. G., and Zinke, I. (1974). Analysis of kinetic and binding measurements IV. Redundancy of model parameters. Studio Biophys., 43, 91-107.
[21] Ross, G. J. S. (1980). Uses of non-linear transformation in non-linear optimisation problems.
In M. M. Barritt and D. Wishart (Eds.), COMPSTAT1980, Proceedings in Computational
Statistics, pp. 382-388. Physica-Verlag: Vienna.
[22] Rousseeuw, P. (1984). Least median of squares regression. J. Amer. Statist. Assoc., 79, 871-880.
[23] Rousseeuw, P. (1985). Multivaritate estimation with high breakdown point. En Mathematical
Statistics and its Applications (Vol. B), Editores: W. Grossmann, G. Pflug, I. Vincze y W.
Wertz, pp. 283-297. Dordrecht: Riedel.
[24] Rousseeuw, P y Yohai, V. (1984). Robust regression by means of S-estimators En Robust and
nonlinear time series analysis, Lecture Notes in Statistics, 26, 256-272. Springer, New York.
[25] Seber, G. A. F. and Wild, C. J. (1989). Nonlinear Regression. John Wiley and Sons, New York.
[26] Stromberg, A. J. (1993). Computation of high breakdown nonlinear regression parameters. J.
Amer. Statist. Assoc., 88, 237-244.
[27] Yohai, V. J. (1987). High breakdown-point and high effciency estimates for regression. Ann.
Statist., 15, 642-656.
[28] Yohai, V. J. y Zamar, R. H. (1988). High breakdown estimates of regression by means of the
minimization of an efficient scale. J. Amer. Statist. Assoc., 83, 406-413.
51

Selva Figueroa

Uploaded by

Document Information

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

Selva Figueroa

Uploaded by

Copyright:

Available Formats

UNIVERSIDAD DE BUENOS AIRES

Facultad de Ciencias Exactas y Naturales

Modelo de Regresin no Lineal

Selva Carina Figueroa

Director: Dra. Graciela Boente Boente

2.1. Mnimos cuadrados no lineal . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

2.1.2. Mnimos cuadrados generalizados . . . . . . . . . . . . . . . . . . . . . . . . .

2.2. Estimadores de mxima verosimilitud

2.2.1. Mtodo de Verosimilitud Concentrado . . . . . . . . . . . . . . . . . . . . . .

2.3. Estimacin de cuasi-verosimilitud . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

2.4. Mtodos Robustos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

3.1. Convergencia de los mtodos iterativos . . . . . . . . . . . . . . . . . . . . . . . . . .

3.2. Validez de la inferencia asinttica . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

3.3. Problemas de identificacin y de mal condicionamiento . . . . . . . . . . . . . . . . .

4. Medidas de curvatura y no linealidad

4.1. Interpretacin geomtrica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

5.1. Intervalos de Confianza asintticos . . . . . . . . . . . . . . . . . . . . . . . . . . . .

5.2. Intervalos simltaneos y regiones de confianza . . . . . . . . . . . . . . . . . . . . . .

6.1. Ejemplo de datos de cebolla . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

6.2. Ejemplo de datos de ciervos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

6.3. Ejemplo de datos de ultrasonido

7. Implementacin del algoritmo de Stromberg en R

donde xi = (xi1 , xi2 , , xik )t , f (x, ) es una funcin generalmente conocida, = (1 , , p )t es

El modelo terico propuesto es

Cmo iniciar el procedimiento y la forma de elegir el prametro inicial.

Mnimos cuadrados no lineal

b se obtiene al minimizar la suma de cuadrados:

(yi f (xi ; ))2 = ky f ()k2

cuando f (xi ; ) es diferenciable con respecto a , tenemos las ecuaciones

lo que equivale a tener la ecuacin

que en forma matricial resulta en la ecuacin

Si llamamos a  = y f ( ) y = tenemos que

b de (2.1.1) deducimos que

De esta forma, tenemos que

Usando (2.1.3) y (2.1.4), resulta que

Podemos formalizar, los clculos anteriores en el siguiente resultado:

b , podemos obtener una regin de confianza aproximada con un nivel

donde P(Fp,np Fp,np,) = .

Los procedimientos ms usados son el de GaussNewton y el de Newton.

Mtodo de GaussNewton. Este procedimiento se basa en la aproximacin lineal de la funcin

Para cercano a (a) sabemos que es vlida la aproximacin lineal de Taylor

As, al vector de residuos r() = y f () lo podemos aproximar por r( (a) ) F ( (a) ),

S() r( (a) )t r( (a) ) 2r( (a) )t F ( (a) ) + ( (a) )t F

El lado derecho tiene un mnimo con respecto a cuando

As, dada una aproximacin (a) , la siguiente podra ser

usamos como aproximacin de H( (a) ) su valor esperado en

Mnimos cuadrados generalizados

En esta situacin, tenemos que minimizar la suma de cuadrados

bols ) para el modelo transformado, es tambin el estimador GLS (

que puede estimarse por

donde la ltima ecuacin es el mtodo de Gauss-Newton para el modelo transformado.

Estimadores de mxima verosimilitud

bemv , de puede obtenerse maximizando la funcin de

y la funcin de logverosimilitud est dada por

L(, 2 ) = log(p (y|, 2 ))

que la estimacin (a)+1 = (a) + (a) esta dada por

no es definida positiva para todo (a) .

El mtodo de Newton falla ya que la matriz

es una matriz definida positiva.

Esto da origen al procedimiento de estimacin

Mtodo de Verosimilitud Concentrado

Para encontrar estimadores de mxima verosimilitud de funciones de verosimilitud en general,

En el tercer paso utilizamos M () como la verdadera funcin de log-verosimilitud, que depende

b podemos estimar Var[]

Si llamamos a = y f ( ) y = tenemos que

donde i son i.i.d con distribucin N (0, 2 ), i = 1, , n.