Optimizacion de Sistemas No Lineales

Modelos No lineales: Gauss-Newton y
Newton-Raphson. Implementaciones en
Maple, Mathematica, Gauss, Matlab y
Excel
Jorge Mauricio Oviedo 1
Resumen: El presente trabajo tiene por objetivo brindar una

exposicin clara y exhaustiva de los principales Mtodos Numricos
en materia de Estimacin de Modelos No lineales por mnimos
cuadrados, especialmente los mtodos de Gauss-Newton y NewtoRaphson. Para llevar a cabo dicha tarea se presenta una revisin
terica de tales tpicos brindndose adems rutinas de programacin
en Matemtica, Maple, Matlab, Gauss y Excel que automatizan la
tarea de resolucin de dichos problemas y permiten visualizar la
evolucin de los algoritmos. De esta manera, se logra cumplir el fin
de fomentar el uso de tales mtodos cuantitativos minimizando el
esfuerzo de aprendizaje y resolucin.
Palabras clave: Funcin, Ecuacin algebraica, Mximo Global, Mximo Local, Derivada,
Matriz Jacobiana
1
joviedo@eco.unc.edu.ar
MODELOS NO LINEALES
La no linealidad es frecuente en los estudios de relaciones econmicas pero las
estimaciones de tales modelos por medio de del Mtodo de Mnimos Cuadrados suele
arrojar problemas de resolucin en virtud de que el sistema de ecuaciones normales es
por lo general no lineal en los parmetros.
Previamente conviene dividir a los modelos no lineales en intrnsecamente no lineales y
los no intrnsecamente lineales. Estos ltimos surgen cuando ante presencia de un
modelo no lineal en los parmetros existe alguna transformacin de los datos que
permita transformarlo en lineal. Cuando dicha transformacin no existe estamos ante la
presencia de un modelo intrnsecamente no lineal. En estos ltimos nos concentraremos
en este ejercicio.
La no linealidad del sistema de ecuaciones normales que arrojan tales modelos no
lineales suelen presentar problemas de resolucin cuando no existe una manera
algebraica de resolverlos. Ante tales circunstancias se hace necesario hallar mtodos
numricos que faciliten la resolucin de los mismos2.
Para el ejercicio en cuestin, se describirn y aplicarn dos mtodos de estimacin
basados en la minimizacin de la funcin de suma de cuadrados de los residuos: el
algoritmo de Gauss-Newton y el algoritmo de Newton-Raphson
ALGORITMO DE GAUSS-NEWTON
Caso de un Parmetro:
Considerando el siguiente modelo no lineal de un nico parmetro:
yt = f ( Xt , ) + et
donde suponemos que e es ruido blanco con media 0 y varianza 2. Y el estimador

mnimo cuadrado no lineal es aquel que minimiza la suma de los cuadrados de los
residuos. El algoritmo de Gauss-Newton se basa en la minimizacin de la funcin de
suma de cuadrados de los residuos. Ser necesario, entonces, plantear esta funcin para
el modelo en (1):
T
S ( ) = et = yt f ( xt , )
2
t =1
La condicin de primer orden para un mnimo de la funcin ser:

T
df (xt , )
S ( )
= 2 yt f (xt , ) (
)
d
t =1
No solamente la inexistencia de solucin algebraica exacta hace necesario recurrir a mtodos numricos
sino que a veces la solucin algebraica suele ser tan complicada de aplicar (como las frmulas de Cardano
y Tartaglia para los polinomios completos de grado tres y cuatro, caso del ejercicio) que el recurrir a un
mtodo numrico suele ser mas barato computacionalmente.
El problema de estimacin es encontrar el valor de que satisfaga la condicin de

primer orden anterior y que corresponda a un mnimo global de la funcin de suma de
cuadrados. Para ello, se proceder a reemplazar f(xt ,) por una aproximacin por
desarrollo en serie de Taylor de primer orden alrededor de un punto 1:
df (xt , )
d
f (xt , ) f (xt , 1 )
( 1 )
f (xt , ) f (xt , 1 )
( 1 )
que puede rescribirse como:
df (xt , )
d
Donde el lado izquierdo de esta expresin es la pendiente de la tangente de la funcin

f(xt ,) en el punto 1. Mientras que el lado derecho de la expresin es la lnea secante
de la funcin f(xt ,) que pasa por los puntos 1 y (siendo un valor generalizado del
parmetro). Por lo tanto estamos aproximando el valor de la tangente de f(xt ,) a partir
de la secante que pasa por el punto 1 y (otro cualquiera) que pertenecen a la funcin.
Mientras ms cercanos sean estos puntos entre s, mejor ser la aproximacin.
f(x,)
Secante
Tangente
f(xt,)
En el grfico superior podemos ver como si furamos acercando el valor de

al valor de 1, la aproximacin mejorara.
Si simplificramos la notacin como:
zt ( 1 ) =
df ( xt , )
d
S ( ) = et = yt f ( xt , 1 ) zt ( 1 )( 1 )
2
t =1
= [ yt ( 1 ) zt ( 1 ) ]
t =1
donde yt = yt f ( xt , 1 ) zt ( 1 ) 1
Para un valor determinado de 1 , tanto yt ( 1 ) como zt ( 1 ), son observables.

La suma de cuadrados de los residuos en puede tomarse como la funcin a minimizar
para encontrar el estimador de por mnimos cuadrados (MCO) del siguiente modelo
lineal:
yt ( 1 ) = zt ( 1 ) + et
Este modelo se lo suele denominar pseudomodelo lineal, el cual posee como estimador
mnimos cuadrados a:
T
[ yt ( 1 ) zt ( 1 )]
2 = t =1 T
[ zt ( 1 )]
t =1
En notacin matricial:
1
2 = [ z ( 1 ) ' z ( 1 )] z ( 1 ) ' y ( 1 )
Por lo tanto, hasta ahora lo que hemos hecho consiste en partiendo de un valor inicial de
(1), y aproximando la funcin f(xt,) a travs de una serie de Taylor de primer orden
alrededor de 1, obtuvimos un segundo valor estimado para (2) aplicando MCO al
pseudomodelo lineal (el cual es una aproximacin lineal del modelo general.
Repitiendo este proceso una vez ms (partiendo de 2 y aplicando MCO al
pseudomodelo), obtenemos un segundo valor estimado de :
Este proceso puede ser continuado para encontrar valores sucesivos de estimadores de
. Considerando el estimador (n+1):
1
n +1 = [ z ( n ) ' z ( n )] z ( n ) ' y ( n )
= [ z ( n ) ' z ( n )]
z ( n ) ' y f ( x, n ) z ( n ) n
1
= n + [ z ( n ) ' z ( n )]
z ( n ) ' y f ( x, n )
La condicin de primer orden (CPO) para un mnimo, puede ser escrita de forma
matricial como:
z ( n ) ' y f ( x, n ) = 0
Si se cumple la CPO anterior, debe darse que n+1=n. Por lo tanto, comenzando con un
valor inicial de =1 y se aplica repetidamente el procedimiento descrito anteriormente
(aplicar MCO al pseudomodelo) hasta que se da la convergencia entre los valores de los
estimadores obtenidos, se habr arribado a la solucin de la condicin de primer orden
para la minimizacin de la suma de cuadrados del modelo no lineal dada en (1).
Una vez alcanzado el valor notable por medio del proceso iterativo anteriormente
descrito, restar por determinarse si dicho valor corresponde realmente a un mnimo (o
si el valor es un mximo) y si es as, si este mnimo es de carcter global o local.
Para tratar de maximizar las posibilidades de que se trate de un mnimo absoluto y no
tan solo de un mnimo local, una de las prcticas habituales consiste en utilizar el
algoritmo para diferentes valores iniciales de . Para los distintos valores iniciales,
podemos obtener distintos mnimos de la funcin, el mnimo que se corresponde con la
menor suma de cuadrados de los residuos ser el estimador por mnimos cuadrados no
lineales.
Por otra parte, el propio procedimiento no puede conducir en direccin a un mximo.
Para demostrar ello, partiremos de la condicin de primer orden para minimizar la
suma de los cuadrados de los residuos, escrita en notacin matricial, era:
S ( )
= 2z ( n ) ' y f ( x, n ) = 0
Y por lo tanto, la estimacin n+1 de se puede expresar como:

1
2
n +1 = n + [ z ( n ) ' z ( n )]
S ( )

Sabiendo que [z()z()]-1 ser siempre positiva debido a que es una funcin cuadrtica,
si se comienza el procedimiento con un valor inicial de situado a la derecha de un
mnimo, la pendiente de la funcin a minimizar S() ser positiva, por lo cual el
algoritmo conducir en la direccin correcta y obtendremos valores de menores que
n. Por lo tanto nos estaremos moviendo hacia un mnimo (absoluto o local) y
asimismo, si se comienza con un valor inicial de situado a la izquierda de un mnimo,
la pendiente de S() ser negativa, por lo cual el cambio en ser positivo y
nuevamente nos moveremos hacia un mnimo.
Un problema adicional que puede ocurrir es que los sucesivos cambios
producidos en las estimaciones iterativas de sean demasiados grandes y no pueda
localizar el mnimo.
Puede ser conveniente introducir una variable de longitud del paso tn (step
length) de manera de disminuir la probabilidad de que el cambio en sea demasiado
grande y por ello se pase por alto el mnimo (es decir, se pase de un valor de a la
izquierda del que minimiza la funcin, a otro a la derecha, o viceversa), lo cual puede
conducir a que el nmero de iteraciones necesarias para arribar al valor crtico sea muy
grande. Considerando esta posibilidad, el algoritmo se transforma en:
n +1 = n + tn [ z ( n ) ' z ( n )] z ( n ) ' y f ( x, n )
1
El estimador obtenido por mnimos cuadrados no lineales posee las siguientes

propiedades: es consistente y puede considerarse que tiene una distribucin
aproximadamente normal con media y varianza 2[z()z()]-1. Es de destacar que 2
puede ser estimada por:
S ( )
T 1
El Algoritmo de Gauss-Newton para K Parmetros
A continuacin haremos extensivo los resultados de la seccin anterior, pero

para el caso de un modelo generalizado no lineal donde:
yt = f ( xt , ) + et
En que es un vector de K componentes (y por lo tanto hay que estimar K parmetros)

y e se supone que son ruido blanco (de media 0 y varianza 2). Expresndolo de
forma matricial:
y = f ( X, ) + e
; E [e ] = 0 E [ee '] = 2 I
Nuevamente minimizamos la suma de cuadrado de los residuos para encontrar los

estimadores:
S () = e'e = y f ( X , ) ' y f ( X , )
Donde las K condiciones de primer orden para encontrar el mnimo de esta funcin,
representadas matricialmente son:
f ( X, ) '
S ()
= 2
y f ( X, ) = 0
donde
f (X , )'
es una matriz KxT de derivadas
Por lo que la condicin de primer orden anterior puede ser escrita como:
z () yt f ( xt , ) = 0
Nuevamente, aproximamos el problema a travs de un desarrollo de Taylor de primer

orden alrededor del punto inicial 1. En ello consiste el algoritmo de Gauss-Newton,
donde la aproximacin de la observacin t est dado por:
f ( xt , ) f ( xt , 1 ) + [
df ( xt , )
d
df ( xt , )
d
]( - 1 )
Donde tendramos T aproximaciones. Escribiendo las de forma matricial:
f ( X , ) f ( X , 1 ) + Z (1 )( - 1 )
Sustituyendo esta aproximacin en obtenemos:
y f ( X , 1 ) + Z (1 )( - 1 ) + e
Nuevamente podemos derivar un pseudomodelo lineal, de la forma:

y ( 1 ) = Z ( 1 ) + e
donde
y ( 1 ) = y f ( X , 1 ) + Z ( 1 ) 1
Estimando (4) por mnimos cuadrados ordinarios, ya que el modelo es lineal, se obtiene
un segundo valor de :
1
2 = [ Z (1 ) ' Z (1 )] Z (1 ) ' y (1 )
Continuando este proceso de manera iterativa, aplicando el algoritmo sucesivamente,

llegara a la estimacin n+1 dada por:
1
n+1 = [ Z (n ) ' Z (n ) ] Z (n ) ' y (n )

= [ Z (n ) ' Z (n )] Z (n ) ' y f ( X , n ) Z (n )n
1
= n + [ Z (n ) ' Z (n ) ] Z (n ) ' y f ( X , n )
Se habr obtenido un mnimo de la funcin cuando se logre una convergencia en las

estimaciones sucesivas, hasta el punto donde n = n+1 . Al cumplirse dicha condicin
de igualdad, la CPO es satisfecha.
Las consideraciones que se hicieron para el caso de un nico parmetro referentes a si el
valor encontrado constituye un mnimo y no un mximo, y de ser as, si este es de
carcter local o global, se mantienen para el caso de ms de un parmetro: el algoritmo
por s mismo asegura que nunca se avanzar en direccin a un mximo y es conveniente
partir de distintos vectores iniciales con el objeto de comparar los valores estimados y
as determinar cul es el mnimo global de la funcin. Adems, nuevamente, las
probabilidades de pasar por alto el mnimo pueden ser reducidas introduciendo una
variable de longitud de paso.
Los estimadores conseguidos por este mtodo son insesgados y tienen una distribucin
aproximadamente normal y la matriz de varianzas y covarianzas de los estimadores
puede ser estimada consistentemente por ^2[Z()Z()]-1, donde:
2
S()
TK
Por lo tanto, estamos en condiciones de realizar test de hiptesis y estimacin de

intervalos de confianza.
Para establecer la normalidad asinttica es conveniente exigirle a la funcin f(X,) que

sea continua en ambos argumentos y al menos diferenciable dos veces con respecto a .
Tambin debe ser posible invertir [Z()Z()] (esta es una condicin suficiente), o por
lo menos (condicin necesaria y suficiente) que (1/T)[Z()Z()] sea no singular cuando
T tiende a infinito.
Pero estas son propiedades asintticas. No es posible derivar propiedades generales
vlidas para muestras pequeas para modelos no lineales, debido a que hay diferentes
especificaciones no lineales.
Algoritmo de Newton-Raphson:
El caso de un parmetro:
Partiendo nuevamente de un modelo general (en notacin matricial) con un nico

parmetro:
y = f ( X , ) + e
suponiendo : E [e ] = 0 E [ee '] = 2 I
Donde es un escalar. Se debe minimizar la suma de cuadrados de los residuos:

S () = y f ( X , ) ' y f ( X , )
En este caso en vez de aproximar la funcin f (X,) por un desarrollo en serie de Taylor
de primer orden, se aproximar la funcin S() por un desarrollo en serie de Taylor de
segundo orden alrededor de un punto inicial de (1):
S ( ) S ( 1 ) +
dS ( )
d
( 1 ) +
1 d 2 S ( )
( 1 ) 2
2 d2
1
Para resolver el problema de minimizacin, derivamos con respecto a la expresin

anterior (el polinomio de Taylor de segundo grado) e igualamos a cero, obtenemos la
CPO para encontrar un mnimo a la suma de los cuadrados de los residuos.
S ( ) dS ( )
+ h( 1 )( 1 ) = 0
Resolviendo para , obtenemos el estimador que minimiza la aproximacin propuesta

para la suma de los cuadrados, el cual es un segundo estimador de , denominado 2:
2 = 1 h1 ( 1 )
dS ( )
d
Continuando el proceso en iteraciones sucesivas, obtenemos la iteracin n-sima del

algoritmo que estar dada por:
n +1 = n h 1 ( n )
dS ( )
d
Al igual que en el caso del algoritmo de Gauss-Newton, el algoritmo de NewtonRaphson continuar hasta que se logre convergencia entre las estimaciones, donde dos
estimaciones de iteraciones sucesivas n y n+1 sean iguales. Si esto sucede, entonces se
cumple la CPO de la minimizacin de S().
Surgen en este caso los mismos interrogantes que se discutieron cuando se present el
algoritmo de Gauss-Newton sobre si el valor encontrado es un mnimo y, de ser as,
sobre si ste es local o global. Debido a que en el entorno de un mnimo el trmino h(n)
ser positivo, el procedimiento conducir a un mnimo si el valor inicial de est lo
suficientemente cerca del mnimo. Sin embargo, si 1 no se encuentra cercano a un
mnimo sino a un mximo (por ej., a la derecha de un mximo), la derivada de la
funcin ser negativa y h(1) ser tambin negativo, por lo cual el procedimiento
conducir en direccin a un mximo. La cuestin es que los puntos notables pueden ser
tanto mximos como mnimos (e incluso pueden darse situaciones extraas, como
puntos de silla en casos en que la derivada segunda tambin sea 0).
Esta caracterstica del algoritmo de Newton-Raphson hace necesario ser cuidadoso a la
hora de aplicar el mtodo y no tomar un nico valor del estimador como definitivo, por
lo que es muy recomendable realizar la estimacin para varios valores iniciales de 1.
Adems, en el caso en que realmente se haya arribado a un mnimo, esto contribuye a
determinar si el mismo es local o global.
Por ltimo, como en el procedimiento de Gauss-Newton, existe la posibilidad de que se
pase por alto el valor del mnimo, por lo cual se recomienda, como se hizo antes, la
utilizacin de una variable de longitud de paso (tn) para disminuir la probabilidad de que
esto ocurra. La forma ms general del algoritmo queda entonces establecida como:
n +1 = n tn h1 ( n )
dS ( )
d
Para cada iteracin tn es especificado de forma tal que S(n+1)<S(n). La variable se

calcula a travs de un proceso de prueba y error.
El algoritmo de newton-raphson para k parmetros:
A continuacin haremos extensivo los resultados de la seccin anterior, pero para el

caso de un modelo generalizado no lineal donde:
y = f ( X, ) + e
; E [e ] = 0
; E [ee '] = 2 I
Donde es un vector de K componentes (y por lo tanto hay que estimar K parmetros)

y e se supone que son ruido blanco. El algoritmo encuentra el valor de que minimiza
S()=ee, y la n-sima iteracin, generalizando los resultados obtenidos en el apartado
anterior, es:
n+1 = n tn H n1
dS ()
d
n
Aclarando que:
dS ()
d
n
=[
dS ( ) dS ( )
d 1
d 2
,L
dS ( )
d k
]
n
es el vector gradiente valuado en n

2 S ()
K
12
S ( )
Hn =
M
O
=
'
n
2
S () L
k 1
2 S ()
1 k
M
2 S ()
k2
n
es la matriz Hessiana de (KxK) valuada en el punto n

Las mismas consideraciones que se hicieron para el modelo con un parmetro
sobre si el valor es un mximo o un mnimo y, en este ltimo caso, si es global o local,
son vlidas en esta oportunidad tambin, por lo que no se volver a repetirlas.
La varianza del vector puede ser estimada por:
( ) = 2
S ( )
[
]
'
donde: =
S ( )
T K
Relaciones entre ambos Algoritmos

Si se observan las secciones anteriores se puede ver que las iteraciones de ambos
procedimientos responden a la forma general:
n+1 = n tn Pn
dS ()
d
n
Ambos algoritmos son solo dos de un amplio conjunto posible que responde a esta
forma general.
La matriz Pn es una matriz definida positiva denominada matriz de direccin. Los
algoritmos alternativos se diferencian en cmo definen la matriz de direccin.
Para el caso del algoritmo Gauss-Newton, se da que:
Pn =
1
[ Z( n ) ' Z( n )]1
2
Y para el caso del algoritmo Newton-Raphson, se da que:
Pn =
1
[ Z( n ) ' Z( n )]1
2
Mientras tambin se incluye una variable tn que es un nmero positivo denominado step
lenght o longitud de paso (el cual ya fue explicado cuando corresponda).
Finalmente, entre los dos mtodos estudiados, el algoritmo de Newton-Raphson es el
ms eficiente en el sentido que converge ms rpidamente al mnimo que GaussNewton. Sin embargo, debe tenerse en cuenta que este ltimo asegura que siempre el
valor del estimador corresponder a un mnimo de la funcin S(), mientras que el
algoritmo de Newton-Raphson puede llegar a un mximo si el punto inicial 1 se
encuentra lo suficientemente cerca de un mximo. Por ltimo, la varianza del estimador
obtenido por este ltimo mtodo ser un poco mayor que la del estimador por GaussNewton.
Aplicaciones de ambos mtodos

En orden de brindar un ejemplo de aplicacin se propone el siguiente ejercicio:
Estimar por Mnimos cuadrados ordinarios el siguiente modelo en base a los
datos que se brindan mas abajo:
yt = xt 1 + 2 xt 2 + et
El cual posee un nico parmetro () y posee una variable dependiente (y) y
dos variables independientes (x1 y x2).
y
3,284
3,149
2,877
-0,467
1,211
1,389
1,145
2,321
0,998
0,379
1,106
0,428
0,011
1,179
1,858
0,388
0,651
0,593
0,046
x1
0,286
0,973
0,384
0,276
0,973
0,543
0,957
0,948
0,543
0,797
0,936
0,889
0,006
0,828
0,399
0,617
0,939
0,784
0,072
x2
0,645
0,585
0,310
0,058
0,455
0,779
0,259
0,202
0,028
0,099
0,142
0,296
0,175
0,180
0,842
0,039
0,103
0,620
0,158
1,152
0,889
0,704
El objetivo del ejercicio es obtener el valor de b que minimice la suma de los cuadrados
de los desvos (es decir el estimador mnimo cuadrtico no lineal). Ntese que este caso
la funcin suma de los cuadrados de los desvis es un polinomio de grado 3 y en
consecuencia para hallar los candidatos a extremos relativos se debe resolver una
condicin de primer orden que resulta ser un polinomio de grado tres. Algebraicamente
existen formulas exactas para obtener estas races por medio de las famosas expresiones
de Cardano y Tartaglia. A continuacin se ofrece la representacin grfica de la
funcin Suma de los cuadrados de los residuos para el rango de valores de b
comprendidos entre -2 y 3.5. Se expone tambin la grafica de su derivada y las
expresiones exactas de los puntos en donde se encuentran los valores extremos junto a
expresiones numricas con 70 dgitos de precisin.
with(linalg):
Da:=[[3284, 0286, 0645],[
3149, 0973, 0585],[
2877, 0384, 0310],[
-0467, 0276, 0058],[
1211, 0973, 0455],[
1389, 0543, 0779],[
1145, 0957, 0259],[
2321, 0948, 0202],[
0998, 0543, 0028],[
0379, 0797, 0099],[
1106, 0936, 0142],[
0428, 0889, 0296],[
0011, 0006, 0175],[
1179, 0828, 0180],[
1858, 0399, 0842],[
0388, 0617, 0039],[
0651, 0939, 0103],[
0593, 0784, 0620],[
0046, 0072, 0158],[
1152, 0889, 0704]]:
y1:=[seq(Da[i,1],i=1..nops(Da))]:
d1:=[seq([Da[i,2],Da[i,3]],i=1..nops(Da))]:
y:=1/1000*y1:
d:=1/1000*d1:
g:=b*x1+b^2*x2:
dd:=[x1,x2]:f:=sum((y[i]-eval(b*x1+b^2*x2,[seq(dd[j]=d[i][j],j=1..nops(dd))]))^2,
i=1..nops(y)):
plot(f,b=-3.5..2.5);
EnvExplicit := true:
exact:=solve(diff(f,b)=0,b);
aprox_digit:=evalf(r,70);
plot(diff(f,b),b=-3.5..2.5);
Grafica 1: Suma de los Cuadrados de los residuos
Grafica 2: Derivada primera de S()
De la observacin directa del grfico surgen algunas cuestiones a tener en

cuenta: en primer lugar, el mnimo global parece darse para un valor de b entre 1 y 1.5.
Por otra parte, la funcin tiene adems un mximo y un mnimo global, lo cual ayudar
para ilustrar las dificultades de los dos mtodos utilizados en reconocer mnimos
globales, locales y mximos. Otros puntos notables extraos que puedan provocar
dificultades a la hora de encontrar mnimos y llevar el algoritmo en la direccin
equivocada, no sern tenidos en cuenta ya que no se presentan en la funcin elegida y
solo se mencionar dicha posibilidad al final de este ejercicio. Si bien la suma de
cuadrados posee otros puntos notables (dos puntos de inflexin), stos no son extraos y
no provocan malos comportamientos en los algoritmos.
A continuacin se resolver el ejercicio planteado mediante la utilizacin de
diversos softwares en los cuales se implementaron los Algoritmos anteriormente
mencionados.
GAUSS LIGHT 4.0

Algoritmo Gauss Newton: se reproducen a continuacin las programaciones
utilizadas:
load dat[20,3]=datos2.txt;
cls;
y=dat[.,1];
x1=dat[.,2];
x2=dat[.,3];
proc(1)=fnb(beta);
retp(x1*beta+x2*(beta^2));
endp;
/* procedimiento para estimar los parmetros por MCNL con el
algoritmo de Gauss-Newton */
proc(2)=GaussNewton(b0,&fi,y);
local fi:proc;
local crit, iter, k, s, u, sse, b, covb, ss1, ss2, u1, u2,
sighat, z, b1, b2, bn, h;
crit=1;
iter=1;
k=rows(b0);
?; ?;
" valor inicial:" b0';
?;
"
Nro Iter
b
S(b)
";
?;
do until crit<0.0000001 or iter>25;
z=gradp(&fi,b0);
u=y-fi(b0);
sse=u'u;
h=invpd(z'z)*z'*(y-fi(b0));
iter b0' sse ;
b=b0+h;
iter=iter+1;
crit=abs(h);
b0=b;
endo;
?;
sighat=sse/(rows(y)-k);
covb=sighat*invpd(z'z);
?;?;"Resultados Finales:"; ?;
"Coeficientes :" b0;
"Desviacin estndar:" sqrt(diag(covb));
"sighat :" sighat;
retp(b0,z);
endp;
?;"========================================================";
"Estimacin de beta, a partir de cuatro valores iniciales";
?;"========================================================";
b0=4;
{bn,z}=GaussNewton(b0,&fnb,y);
?;"__________________________________________________________";
b0=-3;
?;"__________________________________________________________";
b0=-1.05;
?;"__________________________________________________________";
b0=-0.9;
?;"__________________________________________________________";
========================================================
Estimacin de beta, a partir de cuatro valores iniciales
========================================================
valor inicial:
1.0000000
Nro Iter
S(b)
1.0000000
2.0000000
3.0000000
4.0000000
5.0000000
1.0000000
1.1633106
1.1612626
1.1612081
1.1612067
17.475884
16.308187
16.307970
16.307970
16.307970
Resultados Finales:
Coeficientes :
1.1612066
Desviacin estndar: 0.13066609
sighat : 0.85831421
__________________________________________________________
valor inicial:
-2.0000000
Nro Iter
S(b)
1.0000000
2.0000000
3.0000000
4.0000000
5.0000000
-2.0000000
-2.0210412
-2.0270802
-2.0288056
-2.0292979
58.543856
58.525137
58.523569
58.523440
58.523430
6.0000000
7.0000000
8.0000000
9.0000000
10.000000
11.000000
-2.0294384
-2.0294784
-2.0294898
-2.0294931
-2.0294940
-2.0294943
58.523429
58.523429
58.523429
58.523429
58.523429
58.523429
Resultados Finales:
Coeficientes : -2.0294944
sighat :
3.0801805
__________________________________________________________
valor inicial:
0.10000000
Nro Iter
S(b)
1.0000000
2.0000000
3.0000000
4.0000000
5.0000000
6.0000000
7.0000000
0.10000000
1.5167318
1.1953980
1.1623622
1.1612371
1.1612074
1.1612066
45.529003
23.698761
16.366227
16.308035
16.307970
16.307970
16.307970
Resultados Finales:
Coeficientes :
1.1612066
sighat : 0.85831421
__________________________________________________________
valor inicial:
Nro Iter
1.0000000
-0.90000000
b
S(b)
-0.90000000
65.840064
2.0000000
3.0000000
4.0000000
5.0000000
6.0000000
7.0000000
8.0000000
9.0000000
-0.68930728
0.32268818
1.3672489
1.1754547
1.1616250
1.1612176
1.1612069
1.1612066
64.498203
37.475993
18.615783
16.317983
16.307979
16.307970
16.307970
16.307970
Resultados Finales:
Coeficientes :
1.1612066
sighat : 0.85831421
__________________________________________________________
Con respecto a los resultados obtenidos, ellos son los mismos que los
reproducidos en el libro de Judge en la pgina 507. Por lo tanto, el objetivo del
problema planteado se verifica.
El programa tambin calcula la desviacin estndar del estimador y el valor
estimado (sighat) de:
2
S ( )
T K
Algoritmo Newton Raphson
/* Programa para estimar parmetros por mnimos cuadrados no lineales

por el mtodo de Newton-Raphson */
load dat[20,3]=datos2.txt;
cls;
cls;
y=dat[.,1];
x1=dat[.,2];
x2=dat[.,3];
proc(1)=fnb(beta);
retp((y-beta*x1-x2*(beta^2))'*(y-beta*x1-x2*(beta^2)));
endp;
/*Procedimiento para estimar parmetros por mnimos cuadrados no

lineales utilizando el mtodo de Newton-Raphson con derivadas
analticas */
proc(2)=Newton(b0,&fi,y);
local fi:proc;
local crit, iter, k, s, u, sse, b, covb, ss1, ss2, u1, u2,
sighat, b01, b02, df, d2f, b1, b2, bn,h;
crit=1;
iter=1;
k=rows(b0);
?; ?; ?;
" valor inicial:" b0'; ?;
"
Nro Iter
b
S(b)
"; ?;
do until crit<1e-7 or iter>25;
df=gradp(&fi,b0);
h=hessp(&fi,b0);
sse=fi(b0);
iter b0 sse;
b=b0-inv(h)*df;
iter=iter+1;
crit=abs(b-b0);
b0=b;
endo;
?;
sighat=sse/(rows(y)-k);
covb=sighat*invpd(df'df);
"Resultados Finales:"; ?;
"Coeficientes :" b0;
"Desviacin estndar:" sqrt(diag(covb));
"sighat :" sighat;
retp(b0,df);
endp;
"Estimacin de beta, a partir de cuatro valores iniciales";
b0=1;
{bn,df}=Newton(b0,&fnb,y);
b0=-2;
b0=0.1;
b0=-0.9;
Estimacin de beta, a partir de cuatro valores iniciales
valor inicial:
Nro Iter
1.0000000
2.0000000
1.0000000
b
S(b)
1.0000000
1.1863055
17.475884
16.339215
3.0000000
4.0000000
5.0000000
1.1616846
1.1612068
1.1612066
16.307981
16.307970
16.307970
Resultados Finales:
Coeficientes :
1.1612066
sighat : 0.85831421
valor inicial:
-2.0000000
Nro Iter
1.0000000
2.0000000
3.0000000
4.0000000
S(b)
-2.0000000
-2.0306642
-2.0294962
-2.0294944
58.543856
58.523462
58.523429
58.523429
Resultados Finales:
sighat :
3.0801805
valor inicial:
0.10000000
Nro Iter
1.0000000
2.0000000
3.0000000
4.0000000
5.0000000
b
0.10000000
-2.0962680
-2.0344532
-2.0295253
-2.0294944
S(b)
45.529003
58.636893
58.524023
58.523429
58.523429
Resultados Finales:
sighat :
3.0801805
valor inicial:
-0.90000000
Nro Iter
1.0000000
2.0000000
3.0000000
4.0000000
S(b)
-0.90000000
-0.97528541
-0.97761903
-0.97762146
65.840064
65.939519
65.939607
65.939607
Resultados Finales:
Desviacin estndar:
.
sighat :
3.4705057
Comparacin entre los Algoritmos:

Para apreciar con mayor nitidez las ventajas y desventajas de cada algoritmo se procede
a construir la siguiente tabla similar a la que se plantea en el texto de donde se tom el
ejercicio:
0= 1
Iteraciones
Coeficientes
()
2(e)
0= -2
Iteraciones
Coeficientes
()
2(e)
0= 0.1
Iteraciones
Coeficientes
()
2(e)
0= -0.9
Iteraciones
Coeficientes
()
2(e)
Gauss-Newton
Newton-Raphson
5
1.1612066
0.13066609
0.85831421
5
1.1612066
0.13066610
0.85831421
11
-2.0294944
0.30239316
3.0801805
4
-2.0294944
0.30239314
3.0801805
7
1.1612066
0.13066609
0.85831421
5
-2.0294944
0.30239314
3.0801805
9
1.1612066
0.13066609
0.85831421
1
-0.90000000
0.75045196
3.4652665
Comparando los resultados de los dos procedimientos, se ve que siempre el

algoritmo de Newton-Raphson logra la convergencia en menor nmero de iteraciones
que el de Gauss-Newton; sin embargo, en el primer caso, el estimador de posee una
varianza mayor o igual al de Gauss-Newton, por lo que se puede concluir que GaussNewton es ms eficiente, y el estimador de la varianza del trmino de perturbaciones (e)
tambin es siempre menor.
Otra ventaja de Gauss-Newton es que alcanza el mnimo global en tres de los
cuatro casos planteados, mientras que el primero lo hace slo en un caso, cuando el
valor de inicio est lo suficientemente prximo al mnimo. Esto conduce a concluir que
el algoritmo de Gauss-Newton es ms confiable que el de Newton-Raphson para
encontrar el valor del estimador que minimiza la suma de cuadrados de los residuos de
un modelo no lineal.
Otra ventaja del Gauss-Newton se puede observar claramente en el ltimo caso
planteado, cuando 0=0.9. En dicho caso, Gauss-Newton nos lleva efectivamente hacia
el mnimo de la funcin, pero Newton-Raphson no ya que no puede distinguir entre un
mximo y un mnimo.
MATHEMATICA 4.0
Se exponen a continuacin las distintas programaciones que se realizaros en
Mathematica 4.0 en donde previamente se definieron dos nuevas funciones. Los
programas se presentan a continuacin:
Inicializaciones
@
D
@
D
@
D
@
@
@
@
@
D
D
8
@
D
<
D
@
D
D
8
@
D
<
D
@
D
@
@
@
D
D
8
@
D
<
D
@
D
@@
@
@
D@
D
D
8 @
D
<8 @
D
<D
@
D@@
@
8
<
8
@
D
<
D
@8<@@
@
D@
D
@
D8 @
D
<D@
8@
8<D
<D
D
@
D
@
D
A
8
<
H
@
D
@
@
@
D
@
D
@
D
8
@
D
<
D
L
@D
E
@
D
@
8
<
@
@
@
@
D
@
D
@
D
8
@
D
<
D
8@@
D
<D@
@
D
8<D
@
@
@
@
@
D
@
D
@
D
8
@
D
<
D
D
@
@
@
D
@
D
@
D
8
@
D
<
D
D
@
@@
@
@
D@
@
D
@
D8 @
D
<D
D
H@
@
8
<
D
8
<
D
@
D@
D
@
D8 @
D
<D
L@
8@
8<D
<D
D
Unprotect Hessiano,Gradiente, Newton, MCONewton,Jacobiano,GaussNewton ;

Clear Hessiano,Gradiente, Newton, MCONewton,Jacobiano,GaussNewton ;
Hessiano f_,v_List := Table D Table D f,v i , i,1, Length v , v i , i,1, Length v
Gradiente f_,v_List := Table D f,v i , i,1, Length v ;
Jacobiano f_List,v_List :=
Transpose Table D f j , v i , i,1, Length v , j, 1, Length f
;
Newton f_,v_List, po_List,n_, m_ :=
Module T , T= Gradiente f,v .Inverse Hessiano f,v ;
For i= 1;xo = po , i < n,i++,
xo= xo- ReplaceAll T,Table v i xo 1
i , i,1, Length v
;Print i, N xo , m
MCONewton g_,y_List, X_,x_List, b_List, bo_List, n_, m_ :=

Length y
Module f , f=
y i - ReplaceAll g, Table x j X i
j , j,1, Length x
i=1
Newton f, b, bo,n, m ;
GaussNewton g_,y_List, X_,x_List, b_List, bo_List, n_, m_ :=

Module T,f , f= Table ReplaceAll g,Table x j X i
j , j,1, Length x
,
i,1, Length y ;T = Jacobiano f, b ;
For i= 1;xo = Transpose bo , i < n,i++,
xo=
xo+ Inverse Transpose ReplaceAll T,Table b i xo i
1 , i,1, Length b
.
ReplaceAll T,Table b i xo i
1 , i,1, Length b
.
1 , i,1, Length b
.
Transpose ReplaceAll T,Table b i xo i
Transpose y - ReplaceAll Transpose f ,
1 , i,1, Length xo
; Print i, N xo , m
;
Table b i xo i
MCO NO LINEALES
@@ D D
@
8
@
@
@
D
D8<D
<
D
<D
@
8
@
@
@
D
8
<
D
@
D
@
@D8 <D
8
<
88<
<
! ! datos2.txt
<< LinearAlgebra`MatrixManipulation`
Clear t, y, x, X, f, g, B ;
A = ReadList "datos2.txt", Number ;
X1 = Transpose 1 100 Table A 3 i - 1 , i, 1, 20
;
X2 = Transpose 1 100 Table A 3 i , i, 1, 20
;
X = AppendRows X1, X2 ;
Y = 1 100 Table A 3 i - 2 , i, 1, 20 ;
g = b x + b^2 y;
t = x, y ;
B= b ;
xo = 1 ;
ALGORITMO GAUSS-NEWTON
^2 ;
@
D
8
<
8<@
8
8
<
8
8
8
8
8
8
8
8
8
8
8
8
8
88
88
8
@
D
8
<
8<@
8
8
<
8
8
8
8
8
8
8
8
8
8
8
8
8
8
8
888
Clear xo ;
xo = 1 ;
1, xo
GaussNewton g, Y, X, t, B, xo, 7, 20
D
<
<
<
<
<
<
<
<
<
<<
<
1, 1
1,
1.1633105572659611586
2,
1.1612626396343619205
3,
1.1612080935918722895
4,
1.1612066667736527145
5,
1.1612066294689959553
6,
1.1612066284936651763
ALGORITMO NEWTON-RAPHSON
Clear xo ;
xo = 1 ;
1, xo
MCONewton g, Y, X, t, B, xo, 7, 20
D
<
<
<
<
<
<
<
<
<
<
<<
1, 1
1,
1.1863074163686491837
2,
1.1616844395112967282
3,
1.1612068066614652103
4,
1.1612066284675053483
5,
1.1612066284674805505
6,
1.1612066284674805505
Por cuestiones de espacio solo se muestran las programaciones y los resultados para un
solo punto inicial ya que los resultados son idnticos a los obtenidos por Gauss Light
solo que con mas precisin.
MAPLE 6
Se exponen a continuacin las programaciones efectuadas en este programa
MTODO DE NEWTON
JORGE M. OVIEDO
Agosto 2002
INICIALIZACIONES
> restart;
with(linalg):
Warning, new definition for norm

Warning, new definition for trace
OPTIMIZACIN NO LINEAL
Resultados Exactos del Algoritmo
Sintaxis:
Procedimiento
> Newton := proc(f,x,xo,n)
#f=funcion a optimizar
#x=listado de variables
#xo=listado de valores iniciales de las variables
#n= numero de iteraciones
local i,h,t,Sol,xx,xxo;
xx := [seq(x[i]=xo[i], i=1..nops(x) )];
xxo := xo;
for t from 1 to n do
Sol:=evalm(xxo-eval(multiply(grad(f, x),inverse(hessian(f,x))),xx)):
xxo := Sol:
xx:=[seq(x[h]=Sol[h],h=1..nops(x))]:
print(Sol);
od;
end;
Ejem plo
Resultados Numericos
MCO NO LINEALES
Algoritmo Newton-Raphson
Sintaxis
MCO_Newton ( f uncin, l istado de observaciones, m atriz de datos variable

explicativa, l istado de variables explicativa, li stado de parametros a estimar, c
ondiciones iniciales de los parmetros, n mero de iteraciones, d gitos de precisin )
Procedimiento
> MCO_Newton := proc(g,y,d,dd,x,xo,n,m)
#Argumentos para MCO_Newton

#g=funcion que relaciona parametros y observaciones [f(X,b)]
#y=lista de observaciones variable dependiente
#d=matriz de observaciones variable-s dependiente-s
#dd=listado de variable dependientes
#x=Listado de parametros a estimar
#xo=condicioens iniciales para los parametros
local i,h,t,Sol,xx,xxo,f;
f:=sum((y[i]-eval(g,[seq(dd[j]=d[i][j],j=1..nops(dd))]))^2, i=1..nops(y));
xxo := xo;
Sol:=evalf(evalm(xxo-eval(multiply(grad(f, x),inverse(hessian(f,x))),xx)),m):
xxo := Sol:
print(Sol);
od;
end;
Ejemplo
> Da:=[[3284, 0286, 0645],[
3149, 0973, 0585],[
2877, 0384, 0310],[
-0467, 0276, 0058],[
1211, 0973, 0455],[
1389, 0543, 0779],[
1145, 0957, 0259],[
2321, 0948, 0202],[
0998, 0543, 0028],[
0379, 0797, 0099],[
1106, 0936, 0142],[
0428, 0889, 0296],[
0011, 0006, 0175],[
1179, 0828, 0180],[
1858, 0399, 0842],[
0388, 0617, 0039],[
0651, 0939, 0103],[
0593, 0784, 0620],[
0046, 0072, 0158],[
1152, 0889, 0704]]:
> y1:=[seq(Da[i,1],i=1..nops(Da))]:
d1:=[seq([Da[i,2],Da[i,3]],i=1..nops(Da))]:
> y:=1/1000*y1;d:=1/1000*d1:
> g:=b*x1+b^2*x2:
dd:=[x1,x2]:
> MCO_Newton(b*x1+b^2*x2,y,d,[x1,x2],[b],[1.],10,30);
>
Algoritmo Gauss-Newton
Sintaxis
Procedimiento
> GaussNewton := proc(g,y,d,dd,x,xo,n,m)
#Argumentos para GaussNewton

#g=funcion que relaciona parametros y observaciones [f(X,b)]
#y=lista de observaciones variable dependiente
#d=matriz de observaciones variable-s dependiente-s
#dd=listado de variable dependientes
#x=Listado de parametros a estimar
#xo=condicioens iniciales para los parametros
local i,h,t,Sol,xx,xxo,f,Z;
f:=[seq(eval(g,[seq(dd[j]=d[i][j],j=1..nops(dd))]), i=1..nops(y))];
xxo := xo;
Z:=eval(jacobian(f,x),xx) :
Sol:= evalf (evalm( xxo + inverse(transpose(Z)&*Z)&*transpose(Z)&*(yeval(f,xx))),m): xxo := Sol:
print(Sol);
od;
end;
Ejemplo
> y:=[2,4];d:=[[1,3],[5,7]];dd:=[P,M];
> GaussNewton(b*x1+b^2*x2,y,d,[x1,x2],[b],[1.],10,30);
MATLAB 5.3
A raz de que este software no cuenta con comandos predeterminados para calcular
gradientes ni hessianos se debi proceder a crearlos usando derivadas numricas.
En este software solo se expondrn las programaciones y no las salidas a los efectos de
no ser redundante:
GAUSS NEWTON
digits(30);
f=inline('b*x1+b.^2*x2','x1','x2','b')
h=0.01
bo=5;
y=[1,9];
x1=[1,3];
x2=[4,9];
for j=1:15
for i = 1:2
F(i)=f(x1(i),x2(i),bo);
z1(i)=f(x1(i),x2(i),bo+h);
z2(i)=f(x1(i),x2(i),bo-h);
end
Z=(z1-z2)*(1/(2*h));
bn=bo+inv(Z*Z')*Z*(y-F)';
bo=bn;
vpa([j,bo])
end
NEWTON-RAPSHON
digits(30);
z=inline('b*x1+b.^2*x2','x1','x2','b')
h=0.01
bo=5;
y=[1,9];
%CARGAR DATOS%
x1=[1,3];
x2=[4,9];
for j=1:15
for i = 1:2
s1(i)=(y(i)-z(x1(i),x2(i),bo)).^2;
s2(i)=(y(i)-z(x1(i),x2(i),bo+h)).^2;
s3(i)=(y(i)-z(x1(i),x2(i),bo-h)).^2;
end
so=sum(s1);
somash=sum(s2);
somenosh=sum(s3);
der=(somash-somenosh)/(2*h);
hes=(somash-2*so+somenosh)/(h.^2);
bn=bo-(der/hes);
bo=bn;
vpa([j,bo])
end
EXCEL 2002
Por medio de una Macro se cre un programa capaz de estimar n parmetros de un
modelo no lineal con k variables independientes y t observaciones. Los comandos de
Visual Basic se muestran a continuacin. Para mayor detalle explorar el archivo .xls que
se adjunta en este trabajo.
Sub Volver()
'
'
' Macro escrita el 20/08/2002 por JORGE MAURICIO OVIEDO
'
'
Cells(1,
Cells(1,
Cells(1,
Cells(1,
Cells(1,
Cells(1,
Cells(1,
Cells(1,
Cells(1,
Cells(1,
Cells(1,
Cells(1,
Cells(1,
Cells(1,
Cells(1,
Cells(1,
4).FormulaR1C1 = "b1"
Cells(8,
Cells(8,
Cells(8,
Cells(8,
Cells(8,
Cells(8,
Cells(8,
Cells(8,
Cells(8,
Cells(8,
Cells(8,
5).FormulaR1C1 = "x1"
Cells(8,
Cells(8,
Cells(8,
Cells(8,
Cells(8,
Cells(8,
Cells(8,
Cells(8,
Cells(8,
Cells(8,
Cells(8,
Cells(8,
Cells(8,
Cells(8,
Cells(8,
Cells(8,
Cells(8,
Cells(8,
Cells(8,
Cells(8,
Cells(8,
Cells(8,
Cells(8,
Cells(8,
Cells(8,
Cells(8,
Cells(8,
Cells(8,
Cells(8,
Cells(8,
Cells(8,
Cells(8,
Cells(8,
Cells(8,
Cells(8,
Cells(8,
Cells(8,
Cells(8,
Cells(8,
Cells(8,
Cells(8,
Cells(8,
Cells(8,
Cells(8,
Cells(8,
Cells(8,
Cells(8,
Cells(8,
Cells(8,
Cells(8,
Cells(8,
Cells(8,
Cells(8,
Cells(8,
Cells(8,
Cells(8,
Cells(8,
Cells(8,
Cells(8,
Cells(8,
Cells(8,
16).FormulaR1C1
17).FormulaR1C1
18).FormulaR1C1
19).FormulaR1C1
20).FormulaR1C1
21).FormulaR1C1
22).FormulaR1C1
23).FormulaR1C1
24).FormulaR1C1
25).FormulaR1C1
26).FormulaR1C1
27).FormulaR1C1
28).FormulaR1C1
29).FormulaR1C1
30).FormulaR1C1
31).FormulaR1C1
32).FormulaR1C1
33).FormulaR1C1
34).FormulaR1C1
35).FormulaR1C1
36).FormulaR1C1
37).FormulaR1C1
38).FormulaR1C1
39).FormulaR1C1
40).FormulaR1C1
41).FormulaR1C1
42).FormulaR1C1
43).FormulaR1C1
44).FormulaR1C1
45).FormulaR1C1
46).FormulaR1C1
47).FormulaR1C1
48).FormulaR1C1
49).FormulaR1C1
50).FormulaR1C1
51).FormulaR1C1
52).FormulaR1C1
53).FormulaR1C1
54).FormulaR1C1
55).FormulaR1C1
56).FormulaR1C1
57).FormulaR1C1
58).FormulaR1C1
59).FormulaR1C1
60).FormulaR1C1
61).FormulaR1C1
62).FormulaR1C1
63).FormulaR1C1
64).FormulaR1C1
65).FormulaR1C1
66).FormulaR1C1
67).FormulaR1C1
68).FormulaR1C1
69).FormulaR1C1
70).FormulaR1C1
71).FormulaR1C1
72).FormulaR1C1
73).FormulaR1C1
74).FormulaR1C1
75).FormulaR1C1
76).FormulaR1C1
=
=
=
=
=
=
=
=
=
=
=
=
=
=
=
=
=
=
=
=
=
=
=
=
=
=
=
=
=
=
=
=
=
=
=
=
=
=
=
=
=
=
=
=
=
=
=
=
=
=
=
=
=
=
=
=
=
=
=
=
=
"x12"
"x13"
"x14"
"x15"
"x16"
"x17"
"x18"
"x19"
"x20"
"x21"
"x22"
"x23"
"x24"
"x25"
"x26"
"x27"
"x28"
"x29"
"x30"
"x31"
"x32"
"x33"
"x34"
"x35"
"x36"
"x37"
"x38"
"x39"
"x40"
"x41"
"x42"
"x43"
"x44"
"x45"
"x46"
"x47"
"x48"
"x49"
"x50"
"x51"
"x52"
"x53"
"x54"
"x55"
"x56"
"x57"
"x58"
"x59"
"x60"
"x61"
"x62"
"x63"
"x64"
"x65"
"x66"
"x67"
"x68"
"x69"
"x70"
"x71"
"x72"
Cells(8,
Cells(8,
Cells(8,
Cells(8,
Cells(8,
Cells(8,
Cells(8,
Cells(8,
Cells(8,
Cells(8,
Cells(8,
Cells(8,
Cells(8,
Cells(8,
Cells(8,
Cells(8,
Cells(8,
Cells(8,
Cells(8,
Cells(8,
Cells(8,
Cells(8,
Cells(8,
Cells(8,
Cells(8,
Cells(8,
Cells(8,
Cells(8,
Sheets("Hoja1").Select
End Sub
Sub defx()
'
'
'
'
ActiveWorkbook.Names.Add
Name:="x_1", RefersToR1C1:="=Hoja2!RC5"
Name:="x_10", RefersToR1C1:="=Hoja2!R14"
Name:="x_22",
Name:="x_23",
Name:="x_24",
Name:="x_25",
Name:="x_26",
Name:="x_27",
Name:="x_28",
Name:="x_29",
Name:="x_30",
Name:="x_31",
Name:="x_32",
Name:="x_33",
Name:="x_34",
Name:="x_35",
Name:="x_36",
Name:="x_37",
Name:="x_38",
Name:="x_39",
Name:="x_40",
Name:="x_41",
Name:="x_42",
Name:="x_43",
Name:="x_44",
Name:="x_45",
Name:="x_46",
Name:="x_47",
Name:="x_48",
Name:="x_49",
Name:="x_50",
Name:="x_51",
Name:="x_52",
Name:="x_53",
Name:="x_54",
Name:="x_55",
Name:="x_56",
Name:="x_57",
Name:="x_58",
Name:="x_59",
Name:="x_60",
Name:="x_61",
Name:="x_62",
Name:="x_63",
Name:="x_64",
Name:="x_65",
Name:="x_66",
Name:="x_67",
Name:="x_68",
Name:="x_69",
Name:="x_70",
Name:="x_71",
Name:="x_72",
Name:="x_73",
Name:="x_74",
Name:="x_75",
Name:="x_76",
Name:="x_77",
Name:="x_78",
Name:="x_79",
Name:="x_80",
Name:="x_81",
Name:="x_82",
RefersToR1C1:="=Hoja2!RC26"
ActiveWorkbook.Names.Add Name:="x_83", RefersToR1C1:="=Hoja2!RC87"

ActiveWorkbook.Names.Add Name:="x_100",
End Sub
Sub defb()
'
' Macro5 Macro
'
'
RefersToR1C1:="=Hoja2!R2C13"
Name:="b_1", RefersToR1C1:="=Hoja2!R2C4"
Name:="b_10",
Name:="b_11",
Name:="b_12",
Name:="b_13",
Name:="b_14",
Name:="b_15",
Name:="b_16",
End Sub
Sub MCO_n_VAR()
'
' MCO_n_VAR Macro
'
'
n = Cells(4, 4).Value
k = Cells(5, 4).Value
m = Cells(6, 4).Value
Cells(10, 3).Select
Selection.AutoFill Destination:=Range(Cells(10, 3), Cells(10 + m 1, 3)), Type:=xlFillDefault
Range(Cells(11, 1), Cells(11, 2)).Select
Selection.AutoFill Destination:=Range(Cells(11, 1), Cells(11 + m 2, 2)), Type:=xlFillDefault
Cells(1, 1).Select
SolverReset
SolverOk SetCell:=Cells(10 + m - 1, 1), MaxMinVal:=2,
ValueOf:="0", ByChange:=Range(Cells(2, 4), Cells(2, 4 + n - 1))
SolverSolve
End Sub
Sub ir()
'
' ir Macro
'
'
Sheets("Hoja2").Select
t = Cells(4, 4).Value
q = Cells(5, 4).Value
Range(Cells(1, 4 + t), Cells(2, 21)).Select
Selection.ClearContents
Range(Cells(8, 5 + q), Cells(65000, 105)).Select
Selection.ClearContents
Cells(1, 3).Select
End Sub
EVIEW-S
A continuacin vamos a utilizar el programa E-views para estimar los
parmetros de un modelo utilizando MCNL. ste permite aplicar MCNL a cualquier
ecuacin (un tipo de objeto que reconoce E-views, junto con series, muestras, grficos,
grupos, etc.) que sea no lineal con respecto a sus parmetros, de forma automtica
simplemente al pedirle al programa que utilice mnimos cuadrados ordinarios..
Los valores iniciales de que E-views utiliza para comenzar el proceso
iterativo estn dados por los valores de los parmetros que se encuentran en el vector de
coeficientes (otro tipo de objeto que reconoce el programa) en el momento de comenzar
la estimacin. Por lo tanto, si se utiliza el vector de coeficientes por defecto (C) que Eviews crea siempre que un nuevo workfile es generado, los valores iniciales para todos
los parmetros es "0".
En nuestro caso, una vez creada la ecuacin con las especificaciones del modelo, E-views
lleva a cabo una estimacin por MCNL, donde el valor inicial del parmetro es "0". El output
obtenido es:
Dependent Variable: Y
Method: Least Squares
Date: 08/11/02 Time: 21:53
Sample: 1 20
Included observations: 20
Convergence achieved after 5 iterations
Y=C(1)*X1+(C(1)^2)*X2
Coefficient
C(1)
R-squared
Adjusted R-squared
S.E. of regression
Sum squared resid
Log likelihood
1.161211
0.217987
0.217987
0.926452
16.30797
-26.33799
Std. Error
t-Statistic
0.130655
8.887632
Mean dependent var

S.D. dependent var
Akaike info criterion
Schwarz criterion
Durbin-Watson stat
Prob.
0.0000
1.184900
1.047650
2.733799
2.783585
1.005021
Como vemos, no hemos llegado al mnimo absoluto de nuestra funcin, sino a un mnimo
local. Al aplicar Gauss-Newton, llegbamos a dos valores mnimos, donde 1,1612066 era un
mnimo local, pero no absoluto (dado por 2,2.0294944). Se debe ser cuidadoso en este
aspecto al estimar un modelo no lineal, ya que dependiendo del valor de partida ser el
mnimo (local o absoluto) al que llegaremos.
Utilizando los siguientes comandos, llegamos a los mismos resultados ya

obtenidos con GAUSS, al partir de los mismos valores iniciales. El comando
param, nos permite establecer cual es el valor inicial elegido para el parmetro .
' MCNL para distintos valores iniciales
open c:\misdoc~1\datos2.wf1
param C(1) 4
equation eqmoda.ls Y=C(1)*X1+(C(1)^2)*X2
param C(1) -0.9
equation eqmodb.ls Y=C(1)*X1+(C(1)^2)*X2
param C(1) -3
equation eqmodc.ls Y=C(1)*X1+(C(1)^2)*X2
param C(1) -1.05
equation eqmodd.ls Y=C(1)*X1+(C(1)^2)*X2
Los outputs obtenidos son:
0=1
Date: 12/11/02 Time: 23:12
Sample: 1 20

Y=C(1)*X1+(C(1)^2)*X2
C(1)
R-squared
Adjusted R-squared
S.E. of regression
Sum squared resid
Log likelihood
Coefficient
Std. Error
t-Statistic
Prob.
1.161208
0.130662
8.887105
0.0000
0.217987
0.217987
0.926452
16.30797
-26.33799
Mean dependent var

S.D. dependent var
Schwarz criterion
Durbin-Watson stat
1.184900
1.047650
2.733799
2.783585
1.005021
0= -2
Date: 12/11/02 Time: 23:17
Sample: 1 20
Y=C(1)*X1+(C(1)^2)*X2
C(1)
R-squared
Adjusted R-squared
S.E. of regression
Sum squared resid
Log likelihood
Coefficient
Std. Error
t-Statistic
Prob.
-2.029462
0.302417
-6.710797
0.0000
-1.806364
-1.806364
1.755044
58.52343
-39.11572
Mean dependent var

S.D. dependent var
Schwarz criterion
Durbin-Watson stat
1.184900
1.047650
4.011572
4.061359
1.039450
0= 0.1
Date: 12/11/02 Time: 23:20
Sample: 1 20
Y=C(1)*X1+(C(1)^2*X2)
C(1)
R-squared
Adjusted R-squared
S.E. of regression
Sum squared resid
Log likelihood
Coefficient
Std. Error
t-Statistic
Prob.
1.161208
0.130662
8.887105
0.0000
0.217987
0.217987
0.926452
16.30797
-26.33799
Mean dependent var

S.D. dependent var
Schwarz criterion
Durbin-Watson stat
1.184900
1.047650
2.733799
2.783585
1.005021
0= -0.9
Date: 0
Y=C(1)*X1+(C(1)^2)*X2
C(1)
R-squared
Adjusted R-squared
S.E. of regression
Sum squared resid
Log likelihood
Coefficient
Std. Error
t-Statistic
Prob.
1.161209
0.130660
8.887264
0.0000
0.217987
0.217987
0.926452
16.30797
-26.33799
Mean dependent var

S.D. dependent var
Schwarz criterion
Durbin-Watson stat
1.184900
1.047650
2.733799
2.783585
1.005021
Comparando los valores alcanzados, el nmero de iteraciones es parecido al

Gauss-Newton, al igual que los coeficientes del estimador del parmetro y su desviacin
estndar.
El algoritmo no lineal que utiliza E-views por defecto es el de Marcuardt (con

derivadas numricas), pero cuenta con la opcin de utilizar de forma alternativa con el
algoritmo de Gauss-Newton.
El algoritmo de Maquardt modifica el algoritmo de Gauss-Newton agregndole
una matriz de correccin. El efecto de esta modificacin es que la matriz de correccin
empuja al estimador del parmetro en la direccin del vector gradiente. La idea es que
cuando nos encontramos lejos del mximo, la aproximacin lineal de la funcin
adoptada por el algoritmo puede ser una gua pobre.
Con la correccin, este algoritmo mejora la performance del estimador cuando
ms lejos se encuentre el valor inicial del mnimo.
E-views incluye una variable de longitud de paso (que mejora la funcin
objetivo), a travs de una bsqueda por prueba y error. Esta variable no es optimizada
en cada iteracin (ya que prioriza un correcto valor del vector de direccin).
Como vemos, la utilizacin del programa E-views permite facilitar en gran
medida el trabajo de programacin que se requiere para aplicar MCNL y los resultados
obtenidos son similares a los que se obtuvieron en las secciones anteriores, pero con un
esfuerzo significativamente menos en trminos de programacin.
PROBLEMAS DEL MTODO DE NEWTON Y FRACTALES3

Cuando tratamos el algoritmo Newton-Raphson, aclaramos que presentaba
problemas de convergencia. Nos poda llevar tanto a un mnimo como a un mximo
(dependiendo de si se encontraba muy cerca de un mximo). Sin embargo existen otro
tipo de puntos notables de una funcin a los cuales el algoritmo nos puede conducir.
Consideremos el caso unidimencional. Como vimos en la seccin 2.2, el
mtodo Newton-Raphson consiste en aproximar la ecuacin suma de cuadrados de los
errores (la cual ser no lineal) a travs de un polinomio de Taylor de segundo orden y
minimizarla. Para ello se plantea la condicin de primer orden y se la iguala a cero.
Despejando para obtenemos el algoritmo.
El contenido de esta seccin surge de trabajos conjuntos realizados con Paulo Jos Regis en agostosetiembre del presente ao en el tema de caos y fractales.
En smbolos:
1
2
S() S( 0 ) + S ' () ( 0 ) + S ' ' () ( 0 ) 2

0
C. P. O.: S ' () = S ' () + S ' ' () ( 0 ) = 0

0
Despejando e iteratuando n veces:
n +1 = n
S '()
S ''()
El problema de encontrar el mnimo a una ecuacin es equivalente a encontrar

las races a la condicin de primer orden de dicha ecuacin. Denominemos a la
condicin de primer orden como y=f(z). El mtodo de Newton-Raphson para encontrar
las races de una ecuacin consiste en aproximar la ecuacin por un polinomio de
Taylor de primer orden, a continuacin se resuelve para z. En smbolos:
f ( z) f ( z 0 ) + f '( z) z
(z z0 )
=0
Resolviendo para z y aplicando el algoritmo n veces:

f (z n )
z n +1 = z n +
f '( z) z
n
Dado que establecimos que S()=f(z) claramente los dos algoritmos son los
mismos. Esta segundo enfoque del problema nos sirve para ganar intuicin a la hora de
plantear las dificultades que posee Newton-Rahpson en cuanto a sus propiedades de
convergencia global.
f(z)
Lo que hace el algoritmo grficamente consiste en partir de un valor inicial z0

que es una apuesta inicial de cual es la raz, y valuarla en y=f(z). Una vez que me
encuentro en un punto de la curva de f(z), aproximo su pendiente por la tangente y
extiendo la lnea de dicha tangente hasta que cruce el eje de z=0, obteniendo un nuevo
valor estimado de la raz z1. Nuevamente valo el nuevo valor de z en y=f(z), busco un
nuevo corte de la tangente de la funcin en dicho punto con el eje de ordenadas.
Repetimos el proceso hasta que dos estimaciones sucesivas de la raz sean iguales.
El problema surge cuando esta funcin tiene puntos notables como los
mximos y mnimos del grfico anterior y el valor inicial z0 es tal que se encuentra muy
lejos de la raz. En el grfico mostramos dicho caso y como el algoritmo no nos lleva a
la raz, sino a uno de dichos puntos notables (en este caso, un mximo).
Al encontrarse en un mximo, la tangente es una lnea paralela al eje z=0 y por
lo tanto no se cortarn nunca. El algoritmo interpreta esto como si hubiera alcanzado
una raz (de echo ha alcanzado una raz pero es imaginaria!!, ver siguiente seccin), la
raz que estamos buscando, pero solo ha alcanzado un mximo. En el problema de
minimizar una funcin, el algoritmo nos llevara a un punto de inflexin y no hacia un
mnimo. Vemos que este problema no es el que ya habamos visto. Ya habamos tratado
el caso en que Newton-Raphson nos llevara a un mximo en vez de un mnimo (despus
de todo una raz para y=f(z) equivale tanto a una CPO par un mximo como un
mnimo), pero ste es distinto.
En la siguiente seccin mostramos una funcin que presenta estos problemas.
Para ciertos valores iniciales, el algoritmo nos llevara a un mnimo, para otros valores
iniciales, nos llevara a un mximo y para otros valores iniciales nos llevara a otro tipo
de punto notable.
2.5.1. NEWTON-RAPHSON Y FRACTALES
Una forma interesante de analizar las propiedades de convergencia global
impredecible del algoritmo de Newton-Raphson es investigar para ciertas ecuaciones
especiales los valores iniciales para los cuales el mtodo converge y no converge a sus
diferentes races. Consideremos la ecuacin
z3 1 = 0
La cual posee una sola raz real z=1, pero que tambin posee otras dos races
imaginarias z=(-0,5+0,833i) y z=(-0,5-0,833i). Dichas races imaginarias tambin son
puntos notables, por lo que pueden ser candidatos a races. Las races corresponden a
mximos.
Cabe aclarar que este problema es equivalente a encontrar el mnimo de la
funcin S(z)=z4/4+z (para el caso de MCNL, digamos que esta funcin es la suma de
cuadrados de los residuos de un modelo intrnsecamente no lineal).
Aplicando el algoritmo de Newton-Raphson para encontrar las races en
nuestra ecuacin particular, tenemos:
z t +1
z 3t 1
= zt
3z 2t
(2.51
.)
Hasta ahora, solo hemos aplicado dicho iterador solo para valores iniciales (z0)
reales, pero ello es demasiado restrictivo, Newton-Raphson se puede aplicar a casos
ms generales. En realidad, se puede aplicar el algoritmo tanto para valores iniciales
reales como imaginarios y puede converger, como demostraremos a continuacin,
tanto a valores reales como imaginarios.
Lo que haremos a continuacin es centrar nuestra atencin en el plano imaginario.
Utilizaremos 2.5.1 para valores iniciales que pertenezcan al plano complejo y
veremos que ocurre. Sin duda que el algoritmo nos llevar a la convergencia de
alguna de las tres races.
Lo esperable sera que hubiera zonas de influencia de cada raz bien delimitadas, con
fronteras entre dichas zonas suaves.
El siguiente programa en Matlab 5.3 examina los valores iniciales en el plano
imaginario con componentes reales en el rango [-3/2,3/2] e imaginarios en el rango
[-2,3/2]. Nos grafica los puntos de dicho plano que corresponden a valores iniciales
de z (z0)que nos llevan, a travs de un proceso iterativo, a la no convergencia de zt+1
hacia z=1 (o dicho de otra forma, que convergen a las otras dos races).
clear all
figure
axis([-1.5 1.5 -2 1.5])
n=100
hold on
s=0;
for j=1:n
t = -1.5 + (3/n)*j;
for k = 1:n
z = t + (-2+(3.5/n)*k)*i;
y=z;
for h=1:45
w=(y.^3-1)/(2*y.^2);
x=y-w;
y=x;
end
if abs(imag(y))<0.0000001
plot(real(z),imag(z));
end
end
end
El grfico obtenido por el programa es:
Las fronteras entre las zonas de convergencia a la raz real y de convergencia a

las races imaginarias es muy interesante, pero no suave, sino muy irregular. Es, de
echo, un fractal
Si nos restringimos a continuacin al campo de los reales nuevamente, en este
grfico puede apreciarse los problemas que surgen en cuanto a la existencia de puntos
notables sobre la recta de los reales, donde el algoritmo no nos lleva a la raz real. Ello
quiere decir que cumplen con la condicin TANTO PARA MNIMO COMO PARA
MXIMO (es decir que no es el caso presentado en la seccin 2.4.2 donde para el valor
inicial (-0,9) el algoritmo nos llevara a un mximo) y an as el valor obtenido por el
algoritmo NO ES NI UN MXIMO NI UN MNIMO.
El algoritmo de Newton-Raphson es un sistema dinmico discreto, en el

conjunto de los reales, y para la mayora de los valores iniciales, la secuencia z,, ...z
converger a la raz de la ecuacin. Pero como ya dijimos, para ciertos valores iniciales
no se producir dicha convergencia hacia una raz. La estructura del conjunto de valores
iniciales para los cuales el mtodo falla es muy interesante y lleva hacia el CAOS.
Por ltimo, modificando en algunos aspectos el programa de Matlab, sera
posible construir un nuevo grfico para que nos muestre en diferentes colores las
regiones de atraccin de cada una de las 3 races. El origen de coordenadas est situado
en el centro de la imagen.
Dentro de cada una de las regiones de atraccin podemos representar los

puntos con diferentes colores segn el nmero de iteraciones necesarias para alcanzar
un determinado entorno de las races
VEMOS AQU UN FRACTAL EN TODO SU ESPLENDOR. Las singularidades del

algoritmo se observan con detenimiento.
BIBLIOGRAFA:
APSTOL, Tom: Calculus. Ed. Revert. 1976. Segunda Edicin
CHIANG, Alpha: Economa Matemtica. Ed. McGraw-Hill. 1998
GUJARATI, Damodar : Econometra Bsica. Ed. McGraw-Hill. 1991
JOHNSTON, J. :
Tercera Edicin.
Mtodos Economtricos.
Ed. Vivens Vives. 1987.
LUEMBERGER, M.: Programcicion lineal y no lineal

MADDALA, G. S. : Econometra. Ed. McGraw-Hill. 1985.
STEWARD, James: Clculo. Ed. Iberoamerica.1981
STEIN, S.: Clculo con geometra analtica. Ed Mc. Graw-Hill. 1995

Optimizacion de Sistemas No Lineales

Uploaded by

Document Information

Original Title

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

Optimizacion de Sistemas No Lineales

Uploaded by

Copyright:

Available Formats

Modelos No lineales: Gauss-Newton y

Jorge Mauricio Oviedo 1

Resumen: El presente trabajo tiene por objetivo brindar una

donde suponemos que e es ruido blanco con media 0 y varianza 2. Y el estimador

La condicin de primer orden para un mnimo de la funcin ser:

El problema de estimacin es encontrar el valor de que satisfaga la condicin de

que puede rescribirse como:

Donde el lado izquierdo de esta expresin es la pendiente de la tangente de la funcin

En el grfico superior podemos ver como si furamos acercando el valor de

Para un valor determinado de 1 , tanto yt ( 1 ) como zt ( 1 ), son observables.

Y por lo tanto, la estimacin n+1 de se puede expresar como:

El estimador obtenido por mnimos cuadrados no lineales posee las siguientes

El Algoritmo de Gauss-Newton para K Parmetros

A continuacin haremos extensivo los resultados de la seccin anterior, pero

En que es un vector de K componentes (y por lo tanto hay que estimar K parmetros)

Nuevamente minimizamos la suma de cuadrado de los residuos para encontrar los

es una matriz KxT de derivadas

Nuevamente, aproximamos el problema a travs de un desarrollo de Taylor de primer

Donde tendramos T aproximaciones. Escribiendo las de forma matricial:

Nuevamente podemos derivar un pseudomodelo lineal, de la forma:

Continuando este proceso de manera iterativa, aplicando el algoritmo sucesivamente,

n+1 = [ Z (n ) ' Z (n ) ] Z (n ) ' y (n )

Se habr obtenido un mnimo de la funcin cuando se logre una convergencia en las

Por lo tanto, estamos en condiciones de realizar test de hiptesis y estimacin de

Para establecer la normalidad asinttica es conveniente exigirle a la funcin f(X,) que

Partiendo nuevamente de un modelo general (en notacin matricial) con un nico

suponiendo : E [e ] = 0 E [ee '] = 2 I

Donde es un escalar. Se debe minimizar la suma de cuadrados de los residuos:

Para resolver el problema de minimizacin, derivamos con respecto a la expresin

Resolviendo para , obtenemos el estimador que minimiza la aproximacin propuesta

Continuando el proceso en iteraciones sucesivas, obtenemos la iteracin n-sima del

Para cada iteracin tn es especificado de forma tal que S(n+1)<S(n). La variable se

El algoritmo de newton-raphson para k parmetros:

A continuacin haremos extensivo los resultados de la seccin anterior, pero para el

Donde es un vector de K componentes (y por lo tanto hay que estimar K parmetros)

es el vector gradiente valuado en n

es la matriz Hessiana de (KxK) valuada en el punto n

Relaciones entre ambos Algoritmos

Y para el caso del algoritmo Newton-Raphson, se da que:

Aplicaciones de ambos mtodos

Grafica 1: Suma de los Cuadrados de los residuos

Grafica 2: Derivada primera de S()

De la observacin directa del grfico surgen algunas cuestiones a tener en

GAUSS LIGHT 4.0

Algoritmo Newton Raphson

/* Programa para estimar parmetros por mnimos cuadrados no lineales

/*Procedimiento para estimar parmetros por mnimos cuadrados no

Estimacin de beta, a partir de cuatro valores iniciales

Comparacin entre los Algoritmos:

Comparando los resultados de los dos procedimientos, se ve que siempre el

Unprotect Hessiano,Gradiente, Newton, MCONewton,Jacobiano,GaussNewton ;

MCONewton g_,y_List, X_,x_List, b_List, bo_List, n_, m_ :=

GaussNewton g_,y_List, X_,x_List, b_List, bo_List, n_, m_ :=

Warning, new definition for norm

MCO_Newton ( f uncin, l istado de observaciones, m atriz de datos variable

#Argumentos para MCO_Newton

#Argumentos para GaussNewton

ActiveWorkbook.Names.Add Name:="x_83", RefersToR1C1:="=Hoja2!RC87"

Mean dependent var

Utilizando los siguientes comandos, llegamos a los mismos resultados ya

Convergence achieved after 6 iterations

Mean dependent var

Mean dependent var