Professional Documents
Culture Documents
Fernando Lara
Fundacin Universitaria Konrad Lorenz
Director: Leonardo Jimnez Moscovitz
Matemtico
Fundacin Universitaria Konrad Lorenz
11 de junio de 2007
Resumen
En este trabajo se hace una presentacin de algunos aspectos tericos
y prcticos acerca de la derivacin matricial. Este tema es especialmente
importante, ya que las matrices no solo proveen una notacin muy compacta para algunos desarrollos matemticos, sino que adems permiten
una mayor generalizacin. Despus de la presentacin terica, se expone
un caso de aplicacin a las redes neuronales, y se exponen algunas lineas
de cdigo en Matlab para la resolucin de problemas que involucren la
derivacin matricial.
This work develops a presentation of some theorical and practical topics about matrix derivation. This area is specially important because matrix theory not only provides a compact notation for some mathematical
developments, it also provides a greater generalization. After the theoric
presentation, this paper exposes an application to neural networks, and
some code in Matlab to help in the solutions of problems involving matrix
derivation.
ndice
Introduccin
1. Preliminares
1.1. Matrices . . . . . . . . . . . . . .
1.2. Conceptos Bsicos . . . . . . . .
1.3. Matrices . . . . . . . . . . . . . .
1.3.1. Operaciones con Matrices
1.3.2. Matrices Especiales. . . .
.
.
.
.
.
.
.
.
.
.
2. Derivacin.
2.0.3. Interpretacin de la derivada
tangente. . . . . . . . . . . .
2.0.4. Reglas de Derivacion. . . . .
2.0.5. Derivacin Parcial . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
5
5
5
8
10
14
23
como la
. . . . .
. . . . .
. . . . .
pendiente
. . . . . .
. . . . . .
. . . . . .
de una
. . . . .
. . . . .
. . . . .
24
25
33
35
35
35
36
37
37
39
49
60
70
3. Derivacin Matricial
3.1. Funciones Matriciales . . . . . . . . . . . . . . . . .
3.1.1. Funciones de Variable Escalar . . . . . . . . .
3.1.2. Funciones de Variable Vectorial . . . . . . . .
3.1.3. Funciones de Variable Matricial . . . . . . . .
3.2. Otras Matrices Especiales . . . . . . . . . . . . . . .
3.3. Producto de Kronecker . . . . . . . . . . . . . . . . .
3.4. Frmulas de Derivacin Matricial. . . . . . . . . . .
3.5. Reglas de Derivacin. . . . . . . . . . . . . . . . . .
3.6. Propiedades de Derivacin de Funciones Matriciales.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
4. Aplicacines
4.1. Redes Neuronales . . . . . . . . . . . . .
4.1.1. Caractersticas del Algoritmo . .
4.1.2. Propagacin hacia adelante.
4.1.3. Propagacin hacia atrs. . . . . .
4.1.4. Resumen (Algoritmo) . . . . . .
4.1.5. Propagacin hacia adelante. . . .
4.1.6. Propagacin hacia atrs. . . . . .
4.1.7. Propagacin hacia atrs. . . . . .
4.2. Derivadas Matriciales en Matlab. . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
87
. 87
. 87
. 88
. 89
. 96
. 97
. 97
. 100
. 101
5. Conclusiones
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
106
Introduccin
El lgebra matricial se ha convertido en los ltimos aos en una parte esencial de los conocimientos de matemticas, necesarios en campos tan diversos
como la ingeniera, la fsica, la pedagoga, la qumica, la sociologa y en el campo cientfico, as como la estadstica y la matemtica pura. Este requerimiento
refleja la importancia y la amplitud de sus aplicaciones.
Muchos de los temas tratados en los campos mencionados comparten mtodos comunes para resolver algunos de los problemas especficos. Los programas
de las materias de matemticas han ido evolucionando para facilitar que el profesional domine las tcnicas empleadas en el tratamiento de los problemas. Sin
embargo, por razones obvias, la mayora de los textos de matemticas se han
centrado en lo que es el ncleo bsico de los programas de clculo y lgebra. Por
otra parte, asignaturas de corte matemtico dirigidos a dotar de conocimientos
adecuados para abordar problemas, con un nivel ms riguroso, tienen carcter optativo. Con respecto a esas asignaturas, no es fcil encontrar manuales
adecuados a sus contenidos especficos, lo que significa que un estudiante ha
de confiar en las referencias bibliogrficas recomendadas, que en mltiples ocasiones no se ajustan a sus necesidades de rigor de planteamiento, o bien, apuntes
tomados en clase, con los conocidos inconvenientes que esta prctica conlleva.
Como ejemplos, pensemos en temas como derivadas de vectores y matrices y
derivadas de funciones matriciales.
Basado en la importancia que ha adquirido el clculo matricial, el compendio
que se ha proyectado, se presentar como suplemento a los textos sobre clculo
matricial, que entre otros, son bastante exiguos en nuestro medio.
El objetivo fundamental es fijar un criterio de derivacin, indicar su relacin
con las aproximaciones vectoriales a la derivada y, a partir de ello, obtener
resultados que permitan enfrentarse formalmente y con mayor comodidad al
estudio de variables matriciales.
Antes de abordar el proceso de derivacin matricial, se presenta un compendio con los elementos bsicos del lgebra lineal, especficamente sobre matrices, y un compendio que incluye las propiedades bsicas del clculo diferencial,
necesarios para comprender la manera como se aborda el estudio sobre clculo
matricial.
De la misma forma, dada la complejidad del problema, se hizo preciso incluir
algunas nuevas operaciones entre matrices que completan el clculo matricial
tradicional; para estas nuevas operaciones, se incluyen conceptos y propiedades
sobre producto de Kronecker, vectorizacin de matrices y se definen las matrices
de permutacin que se utilizan en algunos desarrollos.
En el presente trabajo se ha utilizado extensivamente la presentacin de
[Bar98]; este excelente libro es uno de los pocos escritos en espaol que tratan
el tema de la derivacin matricial. En particular, se ha utilizado mucho en la
seccin 3, donde se expone la presentacin terica y de las propiedades. Otros
escritos que se han podido disponer tienen una presentacin algo diferente; en
particular, muchos de ellos utilizan el concepto de diferencial al trabajar con
derivadas matriciales, lo que implica entre otros aspectos, cambios en la no3
tacin.
En el captulo 4, se presenta el desarrollo de un problema de redes neuronales
que en su forma original es un aporte del Ing. Pervys Rengifo, profesor de la
F.U.K.L., a quien se le agradece su amable colaboracin. En este ejemplo se
observa la aplicacin de la derivacin matricial en la solucin de un problema
de este tipo. Finalmente, se exponen algunas lneas de cdigo en Matlab para
ayudar en la resolucin de problemas de derivacin matricial o vectorial.
1.
Preliminares
1.1.
Matrices
Aqu se introducir el concepto de matriz y se presentarn ciertas operaciones algebricas definidas sobre ellas. Las nociones expuestas sern la base para
comprender los conceptos relativos al clculo vectorial y matricial en general.
De la manera ms general posible, se puede definir una matriz como una
tabla o arreglo rectangular de objetos matemticos que pueden someterse a las
operaciones de suma y producto. Esto requiere por una parte, detallar cuales
son esos objetos o elementos de la matriz que son de inters primordial para el
matemtico, y por otra parte especificar algunas de las propiedades asociadas
con las operaciones sobre dichos elementos: stos, junto con las operaciones de
suma y producto, deben formar un cuerpo k [Her86].
Los elementos de una matriz pueden ser o bien los nmeros reales (k = R) o
bien los nmeros complejos (k = C); en estos caso, los elementos se llaman escalares. Pero los elementos de una matriz tambin pueden ser funciones definidas
en los nmeros reales o los complejos. En el presente trabajo se tratarn las matrices definidas sobre los reales, se definir posteriormente la matriz de funciones.
El otro caso en que se considerarn las matrices y vectores es en la propia
definicin de las funciones. Para el presente trabajo el inters no radica en
funciones de variable real por ejemplo, sino que la funcin puede ser de variable
vectorial, o matricial y por otra parte su salida puede ser a su vez un valor
escalar, vectorial o matricial.
1.2.
Conceptos Bsicos
r
i=1 i ui
n
i=1
k ui , k k}
6
Un concepto muy importante relacionado con estos vectores es el de dependencia o independencia lineal.
Definicin 1.6 (Dependencia Lineal) Sea V un espacio vectorial, y U =
{u1 , u2 , ...ur } un conjunto finito de vectores de V. Entonces, U es linealmente
dependiente o ligado si y solo si existen escalares 1 , , ...r no todos ceros,
tal que:
1 u1 + 2 u2 + ... + r ur = 0
Se dice que U es linealmente independiente o libre si no es dependiente.
Un conjunto U linealmente independiente y de especial importancia, se define
a continuacin.
Definicin 1.7 (Base) Sea V un espacio vectorial sobre k. Si en V existe un
subconjunto finito U de vectores linealmente independientes, tal que S(U ) = V, o
en otras palabras, que todo vector v V puede ser expresado como combinacin
lineal de vectores en U, entonces se dice que U es una base de V .
Si una base consiste de una cantidad finita de elementos, entoces se puede
demostrar que toda base de un espacio vectorial V tiene la misma cantidad de
elementos:
Definicin 1.8 (Dimensin) Sea V un espacio vectorial con una base B con
n elementos. Entonces, se define a n como la dimensin del espacio vectorial V,
y se expresa como dim(V ) = n.
Para el caso V = Rn con n = 3 se tiene la dimensin del conjunto de vectores
en el espacio.
Es necesario en muchos casos considerar funciones o morfismos entre espacios
vectoriales diferentes, esto es, f : V W donde V, W son espacios vectoriales
sobre el mismo cuerpo k. Estas funciones, cuya descripcin se puede encontrar
en libros de lgebra abstracta tales como [Her86] son de especial importancia si
poseen ciertas propiedades, tal como se observa en la siguiente definicin.
Definicin 1.9 (Isomorfismo) Sean V, W son espacios vectoriales sobre el
mismo cuerpo k, y sea f una funcin f : V W que cumple con las siguientes
propiedades que para todo xi V y para todo a, b k:
1. f 1 existe. Esto es, f es invertible
2. f (ax1 + bx2 ) = f(ax1 ) + f(bx2 ) = af(x1 ) + bf(x2 )
A los espacios vectoriales V, W se les llama espacios isomorfos, es decir,
que tienen la misma estructura.
1.3.
Matrices
...
... ... ...
am1 am2 ... amn
Las lneas horizontales en una matriz se denominan filas y las lneas verticales se denominan columnas. El primero de los coeficientes indica la fila y el
segundo la columna en que est ubicado el elemento. A una matriz con m filas
y n columnas se le denomina matriz m-por-n (escrito m n), siendo los valores
m y n sus dimensiones. La matriz anterior se denota tambin por (aij ).
Bajo esta definicin, entonces sobre las matrices se pueden definir dos operaciones: suma y producto por escalar, que deben cumplir con las propiedades
mencionadas en la definicin 1.2.
Definicin 1.12 (Matriz como Transformacin Lineal) Sean V, W espacios vectoriales de dimensin finita. Si se han determinado las bases BV del
espacio V con dimensin n, y BW del espacio W con dimensin m, entonces
cada transformacin lineal T : V W puede ser representada por una matriz
A.
8
Ejemplo 1.1 Sean V, W espacios vectoriales. Sea {v1 , v2 , ...vn } una base de V
y {w1 , w2 , ...wm } una base de W. Cada vector v V puede ser representado de
manera nica mediante los escalares 1 , , ...n k. mediante la combinacin
lineal 1 v1 + 2 v2 + ... + r vn
Si f : V W es una aplicacin lineal, entonces
f (a1 v1 + a2 v2 + ... + ar vn ) = a1 f (v1 ) + a1 f (v2 ) + ...ar f (vn )
La funcin queda completamente determinada por los valores f(v1 ) + ... +
f(vn ). Como {w1 , w2 , ...wm } es una base de W, entonces cada f(vj ) puede representarse como:
f (vj ) = a1j f (w1 ) + a2j f(w2 ) + ...anj f (wm )
Luego la funcin queda completamente determinada por los valores aij . Si
estos valores se utilizan para construir una matriz A de tamao mn, Entonces
la matriz A se puede utilizar para calcular el valor de f(v) para todo vector en
V.
Otra manera de representar la interpretacin de una matriz como una aplicacin lineal es tomando x kn , y km , luego el morfismo f : kn km puede
ser representado por y = Ax.
Las dimensiones de una matriz siempre se dan con el nmero de filas primero
y el nmero de columnas despus. La entrada de una matriz A que se encuentra
en la fila i-sima y la columna j-sima se le llama entrada i, j o entrada (i, j)sima de A. Esto se escribe como Ai,j o A[i, j]. Entonces, el primero de los
subndices indica la fila y el segundo la columna a las que pertenece dicho
elemento. Las filas de la matriz son las m n-plas horizontales:
a11
a12
a1n , a21
a22
a2n , , am1
a11
a12
a21 a22
.. , .. ,
. .
am1
am2
a1n
a2n
, .
..
am2
amn
amn
Ntese que el elemento aij llamado entrada ij, aparece en la fila i-sima y en
la columna j-sima. Una matriz con m filas y n columnas se denomina matriz m
por n, o matriz m n; el par de nmeros (m, n) se llama su tamao o forma.
Las matrices se denotan usualmente por letras maysculas A, B, . . . y los
elementos del cuerpo k por minsculas, a, b, . . . con sus respectivos subndices.
Una matriz con una sola columna o una sola fila se denomina a menudo
vector, y se interpreta como un elemento del espacio eucldeo [Her86].
Definicin 1.13 (Vector) Un vector es una matriz que posee una sola fila o
una sola columna. Una matriz 1 n (una fila y n columnas) se denomina vector
fila, y una matriz m 1 (una columna y m filas) se denomina vector columna.
En general, dada una matriz A, al vector (ai1 , ai2 , ...ain ) que forma la i-sima
fila de A se le llama un vector fila, mientras que al vector (a1j , a2j , ...amj ) que
forma la j-sima columna de A se le llama vector columna. Ntese que en
particular, un elemento del cuerpo k puede verse como una matriz o vector de
tamao 1 1.
1 3 4
Ejemplo 1.2 Se tiene la matriz A23 :
0 5 2
x+y
xy
2z + w
3 5
=
es equivalente al siguizw
1 4
(i = 1, 2, ..., m; j = 1, 2, ..., n)
En otras palabras, dos matrices son iguales solo cuando una es copia de la
otra.
1.3.1.
Las matrices se han definido dentro del espacio vectorial que se ha llamado
el espacio vectorial Mmn de las matrices de tamao m n. Por tanto, las dos
primeras operaciones que son de inters son la suma y el producto por escalar.
Dichas operaciones deben dar como resultado otra matriz del mismo tamao.
Adems, para estas operaciones, ms adelante,(def 1.19) se definir la matriz
0mn tal que para cualquier matriz Amn , A + 0 = 0 + A = A y obviamente,
se tendr un escalar 1 tal que 1A = A
10
Definicin 1.15 (Suma de Matrices) Sean A = (aij ) y B = (bij ) dos matrices del espacio vectorial Mmn , ambas de igual tamao m n. La suma (o
diferencia) de ellas, denotada como A B, es otra matriz C = (cij ) de orden
m n, en la cual cada elemento de C es la suma (o diferencia) de los elementos
correspondientes de A y B. Esto es, (cij ) = (aij + bij )
a11
a21
A= .
..
a12
a22
..
.
..
.
am1
a1n
b11
b21
a2n
.. ; B = ..
.
.
amn
bm1
am2
a11 + b11
a21 + b21
C =A+B =
..
am1 + bm1
b12
b22
..
.
..
.
bm2
a21 + b21
a22 + b22
..
.
..
.
am2 + bm2
b1n
b2n
..
.
bmn
a1n + b1n
a2n + b2n
..
.
amn + bmn
C = kA = .
..
..
..
..
.
.
.
kam1
kam2
kamn
a2
an
v = b1
b2
bn
a2 + b2
an + bn
ku = ka1
ka2
kan
a1
a2
b1
n
b2
an . = a1 b1 + a2 b2 + + an bn =
ak bk = c
..
k=1
bn
12
Ntese que para este caso, el producto de vectores se puede ver como un
escalar c k. El producto A B no est definido si los vectores A y B tienen
diferente cantidad de elementos.
3
Ejemplo 1.5 8 4 5 2 = 8 3 + (4) 2 + 5 (1) = 24 8 5 = 11
1
Definicin 1.18 (Producto de Matrices) Sean A = (aij ) y B = (bij ) matrices tales que el nmero de las columnas de A coincide con el mismo nmero
de filas de B; esto es, A es una matriz m p y B es una matriz p n. Entonces
el producto de las dos matrices AB, en este orden, es otra matriz C de tamao
m n cuya entrada ij se obtiene multiplicando la fila i-sima Ai de A por la
columna j-sima Bj de B (cada elemento de la fila se multiplica por el correspondiente de la columna y a continuacin se suman los productos obtenidos
segn la definicin 1.17):
C = Amp Bpn
A1 B 1
A2 B 1
= .
..
Am B 1
A1 B 2
A1 B 2
..
.
..
.
Am B 2
A1 B n
A1 B n
..
.
Am B n
p
mn
k=1
1 1 1 2
11+13 12+14
4 6
=
=
0 2 3 4
01+23 02+24
6 8
13
Matrices Especiales.
Definicin 1.19 (Matriz Nula) Una matriz que tenga nulos todos sus elementos se llama matriz nula o matriz cero y se denota por 0m,n . En el caso
de que una matriz A sea nula y no haya lugar a confusiones con respecto a su
orden, se escribe simplemente A = 0 en lugar de la disposicin m n con sus
elementos iguales a cero.
0 0 0
Ejemplo 1.7 La matriz cero de tamao 2 3 es: 023 =
0 0 0
Para cualquier matriz Am,n y 0m,n , se tiene que A + 0 = 0 + A = A. Esto es
de esperarse, ya que 0 cumple la funcin de vector nulo en el espacio vectorial
Mmn .
Definicin 1.20 (Matriz Traspuesta) La matriz traspuesta de una matriz
A de orden m n es la matriz A de orden n m llamada la traspuesta de
A que se obtiene permutando las filas por las columnas. Por tanto, el elemento
aij de A corresponde al elemento aji de A
1 4
1 2 3
Ejemplo 1.8 La traspuesta de la matriz A =
es A = 2 5
4 5 6
3 6
Obsrvese que el elemento aij de A (fila i, columna j) es aji de A (fila j,
columna i).
2. (kA) = kA
3. (A + B) = A + B
4. (A B) = B A
4 3 6
7 8 9
Ejemplo 1.9 A = 2 5 1 , B = 3 2 1
1
0
3
5 6 4
11 5 15
11 1 4
A + B = 1 7 0 , (A + B) = 5 7 6
4 6 1
15 0 1
4 2 1
7 3 5
11 1 4
A = 3 5 0 , B = 8 2 6 , A + B = 5 7 6
6 1 3
9 1 4
15 0 1
11 1 4
11 1 4
Por tanto (A + B) = 5 7 6 = A + B = 5 7 6
15 0 1
15 0 1
..
..
..
.
.
.
15
1
2
3
2 5 1
Ejemplo 1.10 Sean A = 4 4 4 B = 0 3 2
5
6
7
1 2 4
a11
0
..
.
0
a11
a21
a31
..
.
an1
a1n
a2n
a3n
es una matriz triangular superior
..
.
ann
a12
a22
0
..
.
a13
a23
a33
..
.
..
.
0
a22
a32
..
.
0
0
a33
..
.
..
.
0
0
0
..
.
an2
an3
ann
Definicin 1.24 (Matriz Diagonal) La matriz D que es triangular superior e inferior, se llama matriz diagonal. Se representa por:
D = diag a11
a22
a33
a11
0
ann = 0
..
.
0
0
a22
0
..
.
0
0
a33
..
.
..
.
0
0
0
..
.
ann
16
a11
0
..
.
0
0
a22
..
.
..
.
0
0
..
.
ann
a11 b11
a22 b21
..
.
amm bm1
b11
b21
..
.
bn1
b12
b22
..
.
..
.
bn2
a11 b12
a22 b22
..
.
..
.
a11 b1n
a22 b2n
..
.
amm bm2
amm bmn
b1n
b2n
..
.
b3n
Definicin 1.25 (Matriz Escalar y Matriz Unidad) Si en una matriz diagonal D se verifica que a11 = a22 = . . . = ann = k, entonces D recibe el nombre
de matriz escalar. Si adems k = 1, la matriz se denomina unidad o identica
y se representa por In .
Las matrices unitarias tienen algunas de las
todo caso, se verifica que:
Im Amn = Amn In = Im Amn In
1 0
1 0
Ejemplo 1.11 I2 =
I3 = 0 1
0 1
0 0
0
0
1
=
=
b a
d c
bc + ad bc + ad
ca + db da + db
c d
a b
=
cb + da cb + da
d c
b a
17
2 2 4
4 Verificar si la matriz A es idempotente:
Ejemplo 1.13 A = 1 3
1 2 3
2 2 4
2 2 4
2 2 4
4 1 3
4 = 1 3
4 =A
A2 = 1 3
1 2 3
1 2 3
1 2 3
1
1
3
2
6 Demostrar que A es una matriz nilpotente
Ejemplo 1.14 A = 5
2 1 3
de ndice 3.
1
1
3
1
1
3
0
0
0
2
6 5
2
6 = 3
3
9
A2 = 5
2 1 3
2 1 3
1 1 3
0
0
0
1
1
3
3
9 5
2
6 =0
A3 = A2 A = 3
1 1 3
2 1 3
1 2
3
Ejemplo 1.15 A = 2 4 5
3 5 6
kk
Si A
es una matriz cuadrada
de orden n,
la matriz A + A es simtrica.
1 2
3
1 2
3
A = 2 4 5 , A = 2 4 5 entonces
3 5 6
3 5 6
2
4
6
8
10
A + A = 4
6 10 12
0 2 3
0 2 3
0 2 3
0 4 A = 2 0 4 = A = 2 0 4
Ejemplo 1.16 A = 2
3 4 0
3 4 0
3 4 0
La anterior es una matriz hemisimtrica, as como kA, cualquiera que sea el
escalar k k.
Proposicin 1.5 Toda matriz cuadrada A se puede descomponer en la
suma de una matriz simtrica B = 12 (A + A) y otra matriz antisimtrica
C = 12 (A A).
La inversa de una matriz juega un papl muy importante en el desarrollo
de diferentes procedimientos algebraicos y de clculo matricial. As como en R ,
para todo a R con a
= 0, existe un b R que es el inverso multiplicativo, para
el caso de una matriz A anlogamente se plantea la posibilidad de que exista
una matriz B conformable, tal que AB = I.
Definicin 1.32 (Matriz Inversa) Sean A y B dos matrices cuadradas del
mismo orden, para las cuales se cumple que AB = BA = I. A la matriz B se
llama inversa de A y se escribe B = A1 (B igual a inversa de A), Recprocamente, la matriz A es la inversa de B, y se puede escribir A = B 1 .
1 2 3
6 2 3
1 0 0
0 = 0 1 0 = I
Ejemplo 1.17 Como 1 3 3 1 1
1 2 4
1 0
1
0 0 1
Cada una de las matrices del producto es inversa de la otra.
19
No todas las matrices poseen inversa. Se puede demostrar, sin embargo, que
si A posee matriz inversa, sta es nica.
Proposicin 1.6 (Propiedades de la Inversa) La inversa de una matriz
cumple con las siguientes propiedades
1. Si A es una matriz que tiene inversa, sta es nica
Demostracin. Sean A, B, C tres matrices cuadradas de forma que
AB = BA = I y CA = AC = I. En estas condiciones, (CA)B = C(AB)
y por tanto B = C. En otra forma, B = C = A1 es la nica inversa de
A.
2. (AB)1 = B 1 A1
Demostracin. Por definicin (AB)1 (AB) = (AB)(AB)1 = I. Ahora
bien:
(B 1 A1 )AB = B 1 (A1 A)B = B 1 IB = B 1 B = I
AB(B 1 A1 ) = A(BB 1 )A1 = AA1 = I
Como (AB)1 es nica, luego (AB)1 = B 1 A1
Una matriz que posee inversa se llama invertible o no singular.
Definicin 1.33 (Matriz Ortogonal) Se dice que una matriz A definida sobre un cuerpo k, es ortogonal si AAT = AT A = I. Una matriz ortogonal A es
necesariamente cuadrada e invertible, con una inversa A1 = AT
a1
Sea A = b1
c1
a2
b2
c2
Si A es ortogonal,
a1 a2
AAT = b1 b2
c1 c2
a3
b3
c3
a3
a1 b1 c1
1 0 0
b3 a2 b2 c2 = 0 1 0
c3
a3 b3 c3
0 0 1
A
matri1
2
S
ces cuadradas de rdenes m1 m2 mS , respectivamente.
A1
0
La generalizacin A = .
..
0
0
A2
..
.
..
.
0
0
..
.
AS
= diag A1
1 2
1 2
Ejemplo 1.18 Sean A1 = 2 , A2 =
, A3 = 2 0
3 4
4 1
La suma directa de A1, A2 , A3 es la matriz escalonada:
2
0
0
diag (A1, A2 , A3 ) =
0
0
0
0
1
3
0
0
0
0
2
4
0
0
0
0
0
0
1
2
0
A2
AS
escalonada de las
1
3
2
0 0
0 0
0 0
2 1
0 3
1 2
n
i+j
aij det(Aij).
j=1 (1)
n
i=1 (1)
i+j
aij det(Aij).
|a11 | = a11
a11 a12
= a11 a22 a12 a21
a21 a22
a11
a21
a31
a12
a22
a32
a13
a23 = a11 a22 a33 + a12 a23 a31 + a21 a32 a13
a33
22
2.
Derivacin.
m = lmh0
f (a h) f (a)
h
De hecho, los lmites con esta forma surgen siempre al calcular una rapidez de
cambio en cualquier ciencia o rama de la ingeniera, como la rapidez de reaccin
en qumica o un costo marginal en economa. Dado que este tipo de lmite se
presenta con suma frecuencia, se le da un nombre y una notacin especial.
Definicin 2.2 (Derivada) La derivada de la funcin f en un nmero a representada por f (a) es
f (a) = lmh0
f (a + h) f (a)
dado el caso de que el lmite exista.
h
f (x) f (a)
xa
f (a + h) f (a)
h
[(a+h)2 8(a+h)+9][a2 8a+9]
f (a) lmh0
h
2
2
2
+8a9
f (a) lmh0 a +2ah+h 8a8h+9a
h
2ah+h2 8h
f (a) lmh0
= lmh0 (2a + h 8)
h
f (a) = 2a 8
El proceso de calcular la derivada de una funcin se llama derivacin.
23
Figura 1:
Notacin 2.1 (Derivada) Si se emplea la notacin tradicional y = f (x) para
indicar que la variable independiente es x y que la dependiente es y , hay otras
notaciones alternativas comunes de la derivada:
f (x) = y =
dy
df
d
=
=
f (x) = Df (x) = Dx f (x)
dx
dx
dx
d
Los smbolos D y
se denominan operadores de diferenciacin porque indx
dican la operacin de diferenciacin, que es el proceso de calcular una derivada.
d
El smbolo
fue introducido por Leibniz y no se debe considerar como una
dx
relacin, solo es un smbolo de f (x). No obstante, es una notacin muy til y
sugerente, en especial cuando se usa con la notacin de incrementos.
2.0.3.
f (x) f (a)
xa
24
f (x) f (a)
f (a + h) f (a)
, b) f (a) = lmxa
h
xa
= pendiente de tangente en P, =pendiente de tangente en P
f (a) = lmh0
Reglas de Derivacion.
f (x + h) f (x)
cc
= lmh0
= lmh0 0 = 0
h
h
d
c=0
dx
Regla 2.2 (Regla de Potencias) Si f (x) = xn en donde n es un entero positivo, f (x) = nxn1
d
En la notacin de Leibniz la regla de potencias se expresa como: dx
(xn ) =
n1
nx
25
Demostracin. La
frmula
f (a) = lmxa xn1 + xn2 a + ... + xan2 + an1
f (a) = lmxa
f (x + h) f (x)
(x + h)n xn
= lmh0
h
h
f (x) = lmh0
xn + nxn1 h +
(x) = lmh0 nxn1 +
n(n1) n2 2
x
h
2
n(n1) n2
x
h + ...
2
+ ... + nxhn1 + hn xn
+ nxhn2 + hn1
f (x) = nxn1
Por cuanto todos los trminos excepto el primero, tienen a h como factor;
por consiguiente, tienden a 0.
Ejemplo 2.3 Los siguientes ejemplos
Si y = t5 entonces
dy
dt
= 5t4
Du (um ) = mum1
Si y = x20 , entonces y = 20x19
d
dr
r = 6r5
26
d
dx x
d
dx
1
1
x 2 = 12 x( 2 )1 =
2 x
3 2
x
Sea y =
Entonces
2
2
dy
d 2
2 5
=
x 3 = x( 3 )1 = x 3
dx
dx
3
3
t (1 t) .
d
t dt (1 t) + (1 t) dt
t
f (t) =
1
t (1) + (1 t) 21 t 2
f (t) = t +
1t
2 t
13t
2 t
1
3
f (t) = t t t = t 2 t 2
1
d
df
(cf ) = c
dx
dx
27
f (x + h) f (x)
h
cf (x + h) cf (x)
h
f (x + h) f (x)
g (x) = lmh0 c
h
= lmh0
g (x) = c lmh0
f (x + h) f (x)
h
g (x) = cf (x)
Regla 2.4 Si H (x) = f (x) g (x) , entonces H (x) existe, y
H (x) = f (x) g (x)
d
df
dg
Tambin se escribe:
(f g) =
dx
dx dx
Este resultado se puede ampliar para la suma de cualquier nmero de funciones.
Demostracin. H (x) = lmh0
H (x_h) H (x)
h
h
h
H (x) = lmh0
H (x) = lmh0
f (x + h) f (x)
g (x + h) g (x)
lmh0
h
h
d
Ejemplo 2.4 dx
x + 12x5 4x4 + 10x3 6x + 5
=
d
dx
d
d
d
d
x + 12 dx
x 4 dx
x + 10 dx
x 6 dx
(x) +
28
d
dx
(5)
d
dg
df
(f g) = f
+g
dx
dx
dx
H (x + h) H (x)
h
f (x + h) g (x + h) f (x) g (x)
h
= lmh0
29
= lmh0 f (x + h) lmh0
+ lmh0 g (x) lmh0
g (x + h) g (x)
+
h
f (x + h) f (x)
h
d 4
4
d 3
F (x) = 6x3
dx
7x
+
7x
dx
6x
F (x) = 6x3 28x3 + 7x4 18x2
F (x) = 168x6 + 126x6 = 294x6
Se podra comprobar la respuesta a este ejemplo en forma directa multiplicando primero los factores:
En la notacin de Leibniz:
d
dx
f (x)
g (x)
d
d
f (x) f (x) dx
g (x)
g (x) dx
[g (x)]2
f
gf fg
y de manera abreviada:
=
g
g2
F (x + h) F (x)
= lmh0
h
f (x+h)
g(x+h)
f (x)
g(x)
f (x + h) g (x) f (x) g (x + h)
hg (x + h) g (x)
30
F (x) lmh0
F (x)
f (x) g(x+h)g(x)
g (x) f (x+h)f(x)
h
h
g (x + h) g (x)
(x)
lmh0 g (x) lmh0 f (x+h)f
lmh0 f (x) lmh0
h
lmh0 g (x + h) lmh0 g (x)
F (x) =
g(x+h)g(x)
h
x2 x2
x3 +6
y =
y =
(x3 +6)2
d
d
Demostracin. f (x) = dx
(xn ) = dx
xn
f (x) =
f (x) =
xn D(1)1D(xn )
(xn )2
nxn1
x2n
= nxn12n = nxn1
Ejemplo 2.8 Si y =
Entonces,
Ejemplo 2.9
dy
dx
d
dt
d
dx
t3
1
x
x
= x2 = x12
d
= 6 dt
t
= 6 (3) t4 = 18
t4
31
d
t dt (1 t) + (1 t) dt
t
f (t) =
1
t (1) + (1 t) 12 t 2
f (t) = t +
1t
2 t
13t
2 t
1
3
t t t = t2 t2
1
d
= 12 dy
x
= 12 x2 =
12
x2
dy du
du dx
32
1.
dy
dx
y
x
= lmx0
por tanto
dy
dx
y u
u x
= lmx0
y
= lmx0 u
lmx0
porque g es contnua
dy
dx
2.
dy
dx
= lmu0
dy
dx
du
dx
=0
y
u
lmx0
u
x
u 0 cuando x 0
u
x
dy du
du dx
y
u
u
x
dy
du
du
dx
dy
du
0=0
y
x
=0
En ambos casos
y entonces
dy
dx
y
x
0,
=0=
dy du
du dx
Derivacin Parcial
fx (x, y) =
lm
=
f (x, y) =
x
x
f
=
f(x, y) =
fy (x, y) = fy =
y
y
fx (x, y) = fx =
34
z
= f1 = D1 f = Dx f
x
z
= f2 = D2 f = Dy f
y
3.
Derivacin Matricial
El clculo matricial es en gran manera una ampliacin de la notacin tradicional del clculo univariado, que permite una notacin ms compacta a la hora
de realizar clculo multivariado, en el cual las funciones pueden ser de un tipo
ms amplio, ya que la variable puede ser vectorial o matricial. En general, el
clculo matricial trabaja sobre espacios de matrices M (m, n) de tamao m n
definidas sobre k = R.
Antes de abordar el proceso de la derivacin matricial dada la complejidad
tcnica del problema, es preciso incorporar algunas nuevas operaciones entre
matrices que completan el clculo matricial tradicional. Por ello, se definen las
matrices de permutacin y los conceptos de producto Kronecker y vectorizacin
junto con sus propiedades.
Primero se exponen nuevos tipos de matrices que son de especial inters para
desarrollos del clculo matricial.
Nota 3.1 Es importante resaltar en todo caso, que en este escrito se identificarn explcitamente los espacios de matrices Mpn con Rpn y Mmq con Rmq ,
respectivamente.
3.1.
Funciones Matriciales
35
3.1.2.
1
x
x + 1 x2
36
3.1.3.
3.2.
a11
a21
..
.
a12
..
.
..
.
a1n
a2n
..
.
am1
am2
amn
a11 a12 a13 a14
B C
A34 = a21 a22 a23 a24 =
D E
a31 a32 a33 a34
37
a12
a22
a
a13
, C = 14 , D = a31
a24
a23
a32
a33 , E = a34
1 0 0
1 0 0
0 1 0
0 1 0 0 0 1 1 0 0
0 0 1
0 1 0
0 0 1
0 1 0
0 0 1
0 0 1
0 0 1 1 0 0 0 1 0
1 0 0
0 1 0
1 0 0
3.3.
Producto de Kronecker
a11 B a1n B
..
..
C = A B = ...
.
.
am1 B
amn B
a11 b11 a11 b12 a11 b1q a1n b11 a1n b12 a1n b1q
a11 b21 a11 b21 a11 b2q a1n b21 a1n b22 a1n b2q
..
..
..
..
..
..
..
..
.
.
.
.
.
.
.
.
a11 bp1 a11 bp2 a11 bpq a1n bp1 a1n bp2 a1n bpq
..
..
..
..
..
..
..
.
.
.
.
.
.
.
C =
..
.
.
.
.
.
.
..
..
..
..
..
..
.
am1 b11 am1 b12 am1 b1q amn b11 amn b12 amn b1q
am1 b21 am1 b22 am1 b2q amn b22 am1 b21 amn b2q
.
..
..
..
..
..
..
..
..
.
.
.
.
.
.
.
am1 bp1
am1 bp2
am1 bpq
amn bp1
amn bp2
amn bpq
a11
Ejemplo 3.6 a21
a31
a11 b11
a11 b21
a21 b11
a21 b21
a31 b11
a31 b21
a11 b12
a11 b22
a21 b12
a21 b22
a31 b12
a31 b22
a12
b
a22 11
b21
a32
a11 b13
a11 b23
a21 b13
a21 b23
a31 b13
a31 b23
b12
b22
a12 b11
a12 b21
a22 b11
a22 b21
a32 b11
a32 b21
a12 b12
a12 b22
a22 b12
a22 b22
a32 b12
a32 b22
1 2
5 6
Ejemplo 3.7
=
3 4
7 8
1,5
1,7
3,5
3,7
1,6
1,8
3,6
3,8
2,5
2,7
4,5
4,7
2,6
5 6 10
2,8
= 7 8 14
4,6 15 18 20
4,8
21 24 28
5 6
1 2
Ejemplo 3.8
=
7 8
3 4
5,1
5,3
7,1
7,3
5,2
5,4
7,2
7,4
6,1
6,3
8,1
8,3
b13
=
b23
6,2
5
15
6,4
=
8,2 7
8,4
21
a12 b13
a12 b23
a22 b13
a22 b23
a32 b13
a32 b23
12
16
24
32
10 6 12
20 18 24
14 8 16
28 24 32
Con el ejemplo 3.8 se muestra que el producto de Kronecker no es conmutativo. En general, AB y B A son matrices diferentes. Sin embargo disfruta de
otras propiedades, algunas de las cuales se recogen en la siguiente proposicin.
Proposicin 3.2 (Propiedades del Producto Kronecker) Sean, A1 , A2
Mmn y B1 , B2 Mpq . Para el producto Kronecker se verifican las siguientes
propiedades:
40
41
A12 B
A22 B
A1 B1 = a1ij B1 ij ,
A2 B1 = a2ij B1 ij
resulta que
(A1 B1 ) + (A2 B1 ) =
a11 B a11 B
a11 B a11 B
AB = .
.. ,
..
.
a11 B a11 B
por definicin
de Kronecker resulta que
.. ,
..
(A B) = ...
.
.
a1n B a2n B
amn B
Producto Kronecker
(A B) = A B
(A B)1 = A1 B 1
tr (A B) = tr (A) tr (B)
|A B| = |Am | |B n |
rg (A B) = rg (A) rg (B)
42
1 1 1
1 1
A=
B = 1 0 1
2 1
0 2 4
Entonces para
1
1
0
AB =
2
2
0
la matriz:
1 1
1 1 1
0 1 1 0
1
2 4
0 2 4
2 2 1 1
1
0 2 1
0 1
4 8
0
2
4
1
3
23
1
3
1
3
y B 1
se tiene que:
(A B)1
1
6
1
3
1
6
=
1
3
2
3
1
3
1
6
1
3
16
13
23
1
3
1
2
= 1
12
1
12
0
1
12
61
0
61
1
2
1
12
61
1
4
0
1
4
1
6
1
3
16
1
6
1
3
16
1
3
61
16
1
3
16
43
1
12
12
1
12
0
1
12
Un mbito en el que puede resultar til expresar una matriz como un vector
columna es el de la derivacin de matrices o expresiones matriciales. Por ello, a
continuacin se define lo que se entiende por vectorizacin de una matriz y se
analizan algunas de sus propiedades.
Definicin 3.7 (Vectorizacin de una Matriz) La vectorizacin de una matriz es una transformacin lineal que convierte una matriz en un vector columna.
Dada una matriz A de orden mn, la vectorizacin de A es el vector columna de
mn elementos que se obtiene escribiendo las columnas de A una a continuacin
de otra y se denota por vec (A) . Entonces:
a1
a1j
a2
a2j
vec (A) = . , con a1 = . , j = 1, ..., n.
..
..
an
anj
1
5
3
2
1 2 1
0
A = 5 1
se tiene que vec (A) =
1
3
0
2
0
1
0
2
La
vectorizacin
vec (A) = Pm,n vec (A) , vec (A) = Pn,m vec (A)
Ab1
A 0mXn
Ab2 0
A
vecAB = . = .
..
.. ..
.
Abp
0
0
..
.
0
0
..
.
b1
b2
..
.
bp
n
i=1
ai bij
n
ai bi1
i=1
n
B 0pXn
ai bi2 0
B
vec (AB) = i=1
= .
..
..
.
.
0
0
n
ai bip
0
0
..
.
B
a1
a2
..
.
an
i=1
a1
a2
am
Es obvio y fcil de verificar que vec (A) = vec (A) . Por tanto, pueden enunciarse las propiedades de vec (A) . Por ejemplo:
vec (AB) = vec ((AB) ) = vec (BA) = [(A I) vec (B)]
vec (AB) = (A I) vec (B)
y
47
a11
a12
a22
a13
a23
a33
vec
(A) = .
..
a1n
a2n
..
.
ann
En vec
(A) se incluyen los elementos situados por encima de la diagonal
principal de cada una de las columnas de A. Por otra parte, la relacin entre
esta vectorizacin y la indicada en la defincin 3.7 se establece por la igualdad
vec
(A) = Qvec (A) , (donde Q es la matriz diagonal por bloques de orden rn):
Q1
Q=
Q2
..
.
Qn
1 0
0 1
Qi = . .
.. ..
0 0
0
0
....
..
1
i-sima columna
48
0
0
....
..
0
3.4.
La derivada de una funcin matricial de variable matricial no difiere sustancialmente del concepto de derivada habitual. La diferencia y dificultad se
presenta cuando es preciso manipular estas derivadas matriciales, debido a su
dimensin y la ubicacin de sus elementos [Bar98].
En esta seccin se indican las definiciones de funciones escalares, vectoriales
y matriciales de variable escalar, vectorial o matricial, adoptando un criterio
comn para la colocacin de los distintos elementos que componen cada una
de estas derivadas. En las definiciones de las derivadas de funciones escalar o
vectorial, bien sean de variable escalar o vectorial, existe casi unanimidad en la
literatura en cuanto a su ordenacin.
Se acostumbra usar la variable en negrilla cuando se trata de una variable de
tipo vectorial o matricial; sin embargo, en las siguientes secciones no se utilizar
esta notacin ya que el contexto har claridad. As, si x Rn e y Rm , entonces
se puede observar que una notacin bastante usual se expone as:
y
y
y
=
...
, que es el caso de
x
x1 xn
las funciones escalares de variable vectorial.
y1 (x)
y1 (x)
x
y .
y1
y1 (x1 , ..., xn )
x
y . 1
.
..
Si y = y (x) =
= ..
su derivada es
x
ym
yn (x1 , ..., xn )
x1
que es el caso de las funciones matriciales de variable vectorial
y1
xn
.. ,
.
ym
xn
49
Definicin 3.10 Sea y = y (x) una funcin real de variable vectorial, es decir,
y es una funcin definida de Rn en R. La derivada de y respecto de x es el
y (x)
y (x)
y (x)
vector fila
=
, ...,
x
x1
xn
Se adopta esta notacin ya que se est derivando un escalar y (x) con respecto
y (x)
a un vector fila x = (x1 , ..., xn ). Obsrvese que
es el vector gradiente de
x
la funcin y (x) .
Si se precisa que el vector de variables x respecto a las que se efecta la
derivada de y se toma como columna, entonces se denotar por
y (x)
y (x)
=
x
x
es decir, este vector coincide con el traspuesto del vector gradiente de y.
Definicin 3.11 Sea y = y (x) una funcin vectorial de variable real, es decir
y1 (x)
y (x) = ...
yn (x)
..
.
ym (x)
x
y1 (x)
y(x)
x
y1 (x)
..
.
ym (x)
x
1 (x)
x1
..
.
ym (x)
x1
y1 (x)
xn
ym (x)
xn|
50
..
.
y (X)
=
y(X)
x11
y(X)
x1n
y(X)
xp1
y(X)
xpn
..
.
..
.
y (X)
xij
i=1,...,p
j=1,...,n
Y (x)
=
x
..
.
ym1 (x)
x
y1q (x)
x
ymq (x)
x
yij (x)
x
i=1,...,m
j=1,...,q
y (X)
=
X
..
.
ym (X)
X
yk (X)
xij
i=1,...,p
j=1,...,n
Y (x)
=
x
..
.
ym1 (x)
x
y1q (x)
x
ymq (x)
x
..
.
51
Y (X)
=
X
..
.
ym1 (X)
X
y1q (X)
X
ymq (X)
X
..
.
52
1. En el presente trabajo, empleando el concepto de vectorizacin de una matriz, pueden obtenerse las siguientes expresiones alternativas de las definiciones 3.13, 3.14, 3.15, 3.16 y 3.17 en trminos de vectorizacin:
y(X)
x
.11
..
y(X)
xp1
y (X)
y (X)
= ... = vec
vec(X)
(X)
y(X)
x1n
.
.
.
y(X)
xpn
y11 (x)
x11
.
..
y1m (x)
x
vecY (x)
..
= vec Y (x)
=
.
x
x
y1q (x)
x
..
.
ymq (x)
x
y (X)
=
vec(X)
siendo
nativa.
1 (X)
vec(X)
..
.
ym (X)
vec(X)
yi (X)
para i = 1, ..., m lo indicado en la primera expresin altervec(X)
y (X)
de orden mnp, teniendo en cuenta propiedades
vec(X)
del producto de Kronecker y de la vectorizacin, se puede expresar tambin
como
El vector columna
y (X)
=
vec(X)
y (X)
Ip (vecIp ) ,siendo
X
y (X)
=
X
y (X)
X
53
.
y (X)
= vec
vec(X)
y11 (x)
11 (x)
x1
x
.
..
..
.
ym1 (x)
ym1 (x)
x x1
vecY (x)
..
.
=
=
..
x
y1q (x)
y1q (x)
x
x1
.. ..
. .
ymq (x)
x
Se observa que
ymq (x)
x1
y (X)
X
y11 (x)
xn
ym1 (x)
xn
..
.
y1q (x)
xn
..
.
..
.
ymq (x)
xn
vec (Y (x))
es una matriz de orden mq n, mientras que
x
Y (x)
es de orden m qn. Entre estas dos matrices puede establecerse la siguix
ente relacin:
Y (x)
vec (Y (x))
= Iq
(vec (Iq ) In )
x
x
Mediante las definiciones anteriores y las expresiones en trminos de la vectorizacin y las propiedades del producto de Kronecker se obtienen las siguientes
Y (X)
formas alternativas para el clculo de
:
X
y11 (X)
X
..
ym1 (X)
X
vec (Y (X))
..
= Iq Y (X) (vec (Iq ) In )
=
.
X
X
y1q (X)
X
..
.
ymq (X)
X
Y (X)
vecX
11 (X)
vec(X)
..
.
ym1 (X)
vec(X)
y1q (X)
vec(X)
ymq (X)
vec(X)
..
.
54
Y (X)
Ip (Iq vec (Ip ))
X
vec (Y (X))
= vec
vec(X)
Y (X)
vecX
Y (X)
= Iq
Ip (vec (Iq ) vec (Ip ))
X
X
(vecX)
Retomando lo expresado anteriormente, en este trabajo se identificarn explcitamente los espacios de matrices Mpn y Mmq con Rpn y Rmq , respectivamente.Lo que se est considerando generalmente es Y (X) como funcin vectorial
de variable vectorial definida de Rpn en Rmq , por lo que la expresin
vec [Y (X))]
(vecX)
es el Jacobiano de dicha funcin vectorial. La eleccin de esta definicin
de derivada puede resultar til para aplicar a funciones matriciales resultados
matemticos relativos a funciones vectoriales.
Ejemplo 3.11 Dada la funcin y = y (x) de R2 en R2 definida por
2
y1 (x1 , x2 )
x1 + x32
y (x) =
=
,
y2 (x1 , x2 )
2x1 x2
de acuerdo con la Definicin 3.12 se tiene que
y1 (x)
y1 (x)
y1 (x)
y (x)
x2
2x1
x x1
=
=
=
y2 (x)
y2 (x)
y2 (x)
2x2
x
x1
x2
x
3x22
2x1
y (x)
2 0 0 6x2
=
=
0 2 2 0
x
x
55
2x1
2 0
2x22 = 0 2
=
3x2
0 6x2
x
2x1
2 0
a11
a1
A
= ..
a1 .
am1
a1
a1q
a1
...
..
.
...
..
amq
a1
1
0
..
.
0
0
..
.
0
0
..
.
0
0
..
.
1
0
..
.
0
0
..
.
0
0
..
.
0
0
..
.
1
0
..
.
A
vec (A)
= Iq
(vec (Iq ) Iq ) =
a1
a1
1
0
..
.
0
0
..
.
0
0
..
.
0
0
..
.
0
0
0
..
.
0
1
0
..
.
0
0
0
..
.
0
0
0
..
.
0
..
.
0
..
.
0
..
.
0
..
.
0
0
..
.
0
0
..
.
0
0
..
.
1
0
..
.
a11
A
a1q
A
am1
A
amq
A
A .
= ..
A
.. = (vecI ) (vecI )
m
q
.
0 0
.. ..
. .
aij
=
0 0
A
. .
.. ..
0 0
0
..
.
1
..
.
0
..
.
0
i esima fila
..
.
0
y j-sima columna.
A .
= ..
A
a
1q
am1
A
...
..
.
..
. = P, m, q,
amq
A
...
0 0
.. ..
. .
aij
=
0 0
A
.. ..
. .
0 0
0
..
.
1
..
.
0
..
.
0
j-sima fila
..
.
0
y la j-sima columna
Ejemplo 3.13 Sea y = y(A) una funcin definida de M22 en R2 dada por
a211 + 2a12 a222
y1 (A)
y = y(A) =
=
y2 (A)
(a11 + a22 )2 2a12 a21
donde A =
a11
a21
a12
a22
57
y(A)
=
A
y1 (A)
A
y2 (A)
A
2a11
0
=
2a11 + 2a22
2a12
y1 (A)
a11
y1 (A)
a21
y2 (A)
a11
y2 (A)
a21
2
2a22
2a21
2a11 + 2a22
y1 (A)
a12
y1 (A)
a22
y2 (A)
a12
y2 (A)
a22
y1 (A)
y(A)
vec(A)
= y (A) =
2
vec (A)
vec(A)
2a11
0
=
2a11 + 2a22
2a21
0
2a11
=
2a11 + 2a22
2a21
=
y(A)
A
I2
y1 (A)
11
ya(A)
1
a21
y (A)
1
a12
y (A)
1
a22
y2 (A)
a11
y2 (A)
a21
y2 (A)
a12
y2 (A)
a22
0
2a11
0
2
0
2a11 + 2a22
0
2a21
2a11
2a
22
2a11 + 2a22
2a
12
2a21
2a11 + 2a22
0
0
2a22
0
2a12
0
2a11 + 2a22
0
0
1
0
2a22
0
0
0
2a12 1
0
2a11 + 2a22
0
1
2a22
1 0
0
0 1 0
2a21
1
2a11 + 2a22
vec (I2 )
58
y11 (X)
y X
21 (X)
X =
X
y31 (X)
X
y12 (X)
X
y22 (X)
X
y32 (X)
X
1
0
0
0
x22
0
1
0
0
2x22
0
x11
0
0
0
ex21
0
x12
2
0
0
0
x21
0
1
0
x22
0
=
0
0
0
1
0
x22
0
=
0
0
x
e 21
0
x12
1
0
0
2x22
0
x11
0
0
0
0
0
0
0
0
0
ex21
0
x12
0
0
0
0
0
0
2
0
0
0
x21
0
0
0
0
0
0
0
0
0
0
0
0
0
1
0
0
0
x22
0
0
0
0
0
0
0
1
0
0
2x22
0
x11
1
0
2x22
x11
x21
0
59
0
0
0
0
0
0
0
0
0
ex21
0
x12
0
0
0
1
0
0
0
0
0
0
2
0
0
0
0
1
0
0
x21
0
0
1
0
1
3.5.
Reglas de Derivacin.
60
y (A)
vec (A)
Ip
vec (A)
C
o tambin
y (A)
= [(vec (It )) Ip ]
C
y (A) A
A
C
(vec (Ir ) In ) .
A
Demostracin. La derivada
de acuerdo con la definicin 3.17 es una
C
matriz de orden mp nq dada por
aij
A
=
C
C i=1,...,m
j=1,...,q
A
se obtiene que
=
C
A
C
Demostracin. La derivada
de orden mp qn
(A + B)
segn la definicin 3.17, es la matriz
C
61
(A + B)
=
C
(aij + bij )
C
i=1,...,m
j=1,...,q
Demostracin.
a) Si p = n = 1, entonces
A
B
AB
=
B+A
,
C
C
C
ya que para cada i = 1, ...m ; j = 1, ..., r la derivada del elemento dij de la
matriz D = AB es
q
dij (C)
=
aik (C) bkj (C)
C
C
k=1
k=1
k=1
dij (C) aik (C)
bkj (C)
=
bkj (C) +
aik (C)
C
C
C
b) En el caso en que n = q = r = 1, segn la definicin 3.13 se tiene
AB
c11
cp1
A
c11
cp1
AB .
= ..
C
AB
AB .
= ..
C
A
AB
c1n
..
.
AB
cpn
A
c1n
B
c11
B
cp1
.
..
. B + A ..
A
cpn
62
B
c1n
..
. ,
B
cpn
k=1
k=1
dij (C) aik (C)
bkj (C)
=
bkj (C) +
,
aik (C)
C
C
C
de donde
bij (C) In
b2j (C) In
dij (C)
ai1 aiq
=
...
bij (C) In
..
C
C
C
.
bqj (C) In
b1j (C)
..
.
bqj (C)
C
63
aij B
(A B)
=
,i=1,...,m ,
C
C j=1,...,q
y por la definicin 3.17, para cada i = 1, ...m ; j = 1, ..., q se tiene que
aij B
(aij bk )
=
.
k=1,...,t
C
c
=1,...,r
Ahora bien, en virtud del apartado anterior,
aij
aij bk
bk
=
bk + aij
.
c
C
C
As pues,
aij
C
aij B
=
C
a
ij
11
b11 + aij b
C
..
.
aij
C b1r
t1
bt1 + aij b
C
aij
C btr
1r
+ aij b
C
..
tr
+ aij b
C
o lo que es equivalente
aij B
= B
C
Por tanto,
aij
C
+ aij
B
.
C
a11
B
B C + a11 C
(A B)
..
=
.
C
am1
B
B
+ am1
C
C
a11
B C
B
(A B)
..
= A
+
.
C
C
am1
B
C
a1q
B
B
+ a1q
C
C
..
amq
B
B
+ amq
C
C
a1q
B
C
..
amq
B
C
(A B)
C
B
(A Ir )
Solucin 3.1 = A
+ (Im B Iq )
C
C
64
Por tanto,
y
a11
y
a1n
ap1
y
apn
y (A)
.
=
..
C
y
de donde
..
. =
t
r
k=1 t=1
y (A)
akl
C
akl
C
t=1
k=1
y (A)
vec (A)
=
y
y
y
y
, ...,
, ...,
, ...,
a11
at1
a1r
atr
65
kl (C)
c11
..
.
akl (C)
cp1
akl (C)
c1n
akl (C)
cpn
..
.
a11
C
..
.
at1
C
vec (A)
..
= .
C
a1r
C
.
..
atr
C
y (A)
resulta
=
C
Solucin 3.2 =
y (A)
vec (A)
Ip
vec (A)
C
y (A)
vec (A)
Ip
vec (A)
C
y (A)
A
!
vec (A)
It vec (It ) Ip
C
#
vec (A)
y (A) " y(A)
=
It vec (It ) Ip
A
C
C
y (A)
y (A)
vec (A)
=
(vec (It ))
It
Ip
,
C
A
C
y tomando B2 = Ip en la propiedad 4 del producto de Kronecker se tiene
y (A)
= ((vec (It )) Ip )
C
y (A)
vec (A)
Itp
.
A
C
vec (A)
y haciendo uso de nuevo de la propiedad 4 del
sustituyendo en
C
producto de Kronecker se tiene
vec (A)
y (A) A
= ((vec (It )) Ip )
(vec (Ir ) In )
C
A
C
Ejemplo 3.15 Dadas las matrices
2
x2
y xy
(y + 1)
A=
,B=
3
x
x+1 y
e
ex+y
C=
como
x
w
z
y
0
0
0
0
x+y
1
A
=
C
2x
0
=
1
0
2y
0
x2
x
x2
w
(x+1)
x
(x+1)
w
0 0
0 1
0 0
0 3y 2
0
B
0
y
=
ex+y
C
0
x2
z
x2
y
(x+1)
z
(x+1)
y
y
0
ex
0
0
2 (y + 1)
0
ex+y
y
x
y
w
y 3
x
y 3
w
y
z
y
y
y 3
z
y 3
y
0
x
0
0
0
0
0
0
0
2
0
0
1
0
0
0
se tiene
2x
(A + B)
A B
0
=
+
=
C
C
C 1 + ex+y
0
6x
0
(3A)
A
=3
=
3
C
C
0
0
0
0
0
0 0
0 3
0 0
0 9y 2
67
xy
x
xy
w
ez
x
ez
w
xy
z
xy
y
ez
z
ez
y
0
1
0
0
0
2 (y + 1)
0
ex+y
3y
0
3ex
0
0
3x
0
0
0 0
0 3
0 0
0 3y 2
1+y
0
ex
0
0
1 + x
0
0
x+y
b = 2x
yz
Ab
A
b
=
(b I2 ) + (A I2 )
C
C
C
1 0
0 1
A
B
2 0
como ya se conoce
y,
=
C
C
0 0
0 y
0 z
teniendo en cuenta
2x
Ab
0
=
1
C
0
0
0
0
0
0 0
0 1
0 0
0 3y2
x2
0
y
2
0
x
0
+
x + 1
0
y3
0
x+1 0
0
y
0
y3
y
0
ex
0
xy
0
ex
0
x+y
0
0
x
2x
0
0
0 yz
0
1
0
0
xy
2
0
0
ex 0
0
0
x + y
2x
0
yz
0
1
y
z
3x2 + 2xy + y 2 z + 2y
xy2
0
x2 + 2xyz + 2x
=
2x + y + 2y3 + yzex + 1
yex
0
6y 2 x + x + zex + 1
x3 + x2 y + 2xy + xy2 z
=
C
C x2 + xy + x + y + 2xy 3 + yzex
68
x+y
A = xy
ex
2z
2y
x + z , B =
1
3
y
z
3z
x
, C = y
z
0 0
2 0
B
0 2z
=
0 0
C
0 0
0 3
A
(A I2 )
= (P2,3 I3 ) I2
P2,2
C
C
donde
P2,3
A
=
C
As pues
1
0
0
0
0
0
0
0
1
0
0
0
1
1
0
y
x
0
ex
0
0
0
0
2
1
0
1
1
3y 2
0
0
0
0
0
1
0
0
1
0
0
0
0
0
0
0
1
0
0
0
0
0
0
0
1
0
, P2,2 =
69
0
0
1
0
0
1
0
0
0
0
0
1
(A B)
=
2y
2x + 4y
0
1
1
0
2y 2
4xy
0
y
x
0
2yex
2ex
0
ex
0
0
z2
z2
2xz + 2yz
3z
3z
3x + 3y
yz 2
xz 2
2xyz
3yz
3xz
3xy
z 2 ex
0
2zex
3zex
0
3ex
0
4z
4y
0
0
2
2y
2x + 2z
2y
1
0
1
0
8y 3
0
0
3y 2
0
0
0
6z 2
0
0
12z
z2
0
2xz + 3z 2
3z
0
3x + 6z
0
3y 2 z 2
2y 3 z
0
9y 2 z
3y 3
x w
Ejemplo 3.18 Si y = y (A) = |A| = xy zw donde A =
y cada
z y
elemento de A es funcin del vector c = (t, u) en la forma x = t + u, y = tu,
z = t2 + u, w = 2u, se verifica que
y (A)
= u2 2ut, 2ut t2 4u , pues por la regla de la cadena, y las
c
proposiciones 3.4 y 5
y (A)
=
c
= y
3.6.
y (A)
vec (A)
y (A)
vec (A)
I1
=
vec (A)
c
vec (A)
c
1 1
0 2
x
2t 1 = y 2tw + xu y 2x w + xt
u t
En esta seccin se recogen algunas de las que aparecen con mayor frecuencia.
Los resultados que se indican se obtienen utilizando las definiciones propuestas
en este trabajo, las reglas de derivacin y las diferentes propiedades tanto del
producto de Kronecker como de la vectorizacin de matrices.
70
y (x)
= A.
x
y
= xA.
z
n
a1j xj
j=1
a2j xj
y(x) = Ax = j=1
..
.
n
amj xj
j=1
71
y(x)
x
n
a1j xj
j=1
n
a11
a
a
x
2j
j
x
21
= .
=
j=1
.
.
..
a
.
m1
a x
a12
a22
..
.
am2
a1n
a2n
.. = A
.
amn
mj j
j=1
n
n
xi xj aij , entonces,
j=1 i=1
2 y (x)
=
xx
x
y (x)
x
=
xx
x
y (x)
x
y (x)
x
=
[(A + A) x] = A + A
A
X
= Pn,p y
es la matriz nula.
X
X
1.
A1
= vec A1 vec A1 .
A
vec A1
= A1 A1 .
2.
(vecA)
Si adems se supone que los elementos de la matriz A son funciones del
vector x Rn , entonces
3.
1
A1 (x)
A
(vecA)
= (Im (vecIm ) )
Im
x
A
x
(vecA)
vec A1 (x)
4.
= (A)1 A1
x
x
73
A1
AA1
A 1
=
A Im + (A Im )
,
A
A
A
de donde
A1
= (A Im )1
A
A
A
A Im .
A
= (vecIm ) (vecIm )
A
a partir de las propiedades 6, 7 del producto de Kronecker y la propiedad 3
de la vectorizacin se obtiene
A1
= A1 Im (vecIm ) (vecIm ) A1 Im
A
A1
= A1 Im (vecIm ) A1 Im vecIm
A
A1
= vec A1 vec A1
A
AA1
A 1
A1
= 0m =
A +A
aij
aij
aij
y, por tanto,
A1
A 1
= A1
A .
aij
aij
Como
j
74
A1
aij
0 0
.. ..
. .
=
0 0
. .
.. ..
0 0
0
..
.
1
..
.
0
0
..
.
0
i
..
.
0
A1
aij
ai aj .
a1
a2
=
..
.
am
0 0
. .
.. ..
0 0
. .
.. ..
0 0
0
..
.
1
..
.
0
0
..
|
.
a1
0
..
|
.
0
am =
|
vec A1
= vec (ai aj ) = (Im ai ) vecaj = (aj ai )
aij
de donde
vec A1
vec A1 vec A1
vec A1
=
,
, ...,
aj
a1j
a2j
amj
y por tanto
vec A1
= a1 A1 , a2 A1 , ..., am A1 =
vec
(A)
A1 A1
aij
vec (A)
vec (A)
aij vec (A)
=
,
x
(vecA) x
y por tanto
75
A1
=
x
vec (A)
A1
(vecA)
x
A1
vec (A)
1
A1
A
=
A
A
de acuerdo con las formas alternativas
A1
A1
=
Im (Im vec (Im )) =
vec (A)
A
A1
A
de donde
A1
=
x
A1
A
!
vec (A)
Im (Im vec (Im ))
,
x
o lo que es igual
1
A1
A
vec (A)
= (Im vec (Im ) )
Im
.
x
A
x
Pero como de acuerdo con las expresiones alternativas
vec (A)
A
= Im
(vec (Im ) In )
x
x
se obtiene finalmente
1
A1 (x)
A
A
= (Im (vecIm ) )
Im Im
(vec (Im ) In ) .
x
A
x
Demostracin. Como ya se indic antes
aij
=
x
aij
(vecA)
vec (A)
x
76
vec (A)
vec A1 vec (A)
vec A1
=
= A1 A1
.
x
(vecA)
x
x
Proposicin 3.7 sean A, B y X matrices de ordenes m m , m n , y n m
respectivamente. Entonces
1. Si y (A) = tr (A) , se tiene que
y (A)
tr (A)
=
= Im
A
A
m
i=1 aii ,
y (X)
= 2CX
X
tr (A)
y (A)
=
= Im
A
A
m n
bik xki
Demostracin. Si y (X) = tr (BX) , entonces y (X) =
k=1
i=1
y por tanto,
m n
bik xki
m n
x1. i=1 k=1
tr (BX)
.
..
=
bik xki =
=
X
X i=1 k=1
m n
bik xki
xn. i=1 k=1
77
b.1
..
. = B
b.n
|A|
y (A)
=
= Adj (A)
A
A
n
aik Aik
k=1
Entonces
n
|A|
=
aik Aik = Aij
aij
aij
k=1
|B|
es el cofactor correspondiente Bij , se
bij
y (X)
|XAX|
bij
=
=
Bij
=
xk
xk
x
k
i=1 j=1
[vec (Adj (XAX))] vec
XAX
xk
|XAX|
p
m p
= tr Adj (XAX) em
ek AX + XAek e
xk
p
m p
= Adj (XAX) em
ek AX + tr XAek e Adj (XAX)
= tr (b ak X) + tr (Xak b )
= tr (ak Xb ) + tr (ak Xb
)
= ak Xb + ak Xb
80
1
2AXAdj (XAX)
|XAX|
= 2AX (XAX)1
pues por hiptesis, XAX es simtrica y no singular
Demostracin. Si y (x) = |A (x)| con x Rn , por la regla de la cadena,
|A (x)|
=
x
|A (x)|
vecA (x)
|A (x)|
vecA (x)
vecA (x)
= vec
x
A (x)
x
In |A (x)|
In |A (x)|
, ,
x1
xn
A (x)
= vec A1 vec
xi
A (x)
In |A (x)|
A (x) 1
= tr
A
= tr A1
xi
xi
xi
Por tanto
1
A (x)
1
A (x)
In |A (x)|
= tr A
, ..., tr A
x
x1
xn
Ejemplo 3.19 Sea la funcin y (x) = x Ax con A matriz simtrica y no singular de orden n. Supngase que se desea conocer si y (x) tiene mximo o mnimo
global en algn punto x Rn . para ello habr que estudiar si y (x) tiene puntos
crticos, lo que presupone resolver el sistema de ecuaciones
y (x)
=0
x
es decir, de acuerdo con la Proposicin 3.5, 3
y (x)
= 2xA = 0
x
Cuya solucin es x = 0 por ser A no singular.
Si y (x) tiene mximo, mnimo o punto de silla lo alcanzar en x = 0. Para
poder decidir el comportamiento de y (x) en x bastar utilizar condiciones de
segundo orden, y como en este caso
2 y (x)
= 2A
xx
para todo x Rn se verificar que
x = 0 es mnimo global si A es definida o semidefinida positiva
x = 0 es mximo global si A es definida o semidefinida negativa
x = 0 es punto de silla si A es indefinida
82
= (I2 (vecI2 ) ) A
2
A
x
x
dado que
a1 =
1
|A|
a22
a21
a12
a11
resulta
A1
= vec A1 vecA1 =
A
a22
2
a12
1
|A| a21
a11
a222
1
a12 a22
=
|A| a21 a22
a11 a22
a21 a22
a12 a21
a221
a11 a21
a12 a22
a212
a12 a21
a12 a11
vec [A (x)]
a11 (x)
x
a21 (x)
x
a12 (x)
x
a22 (x)
x
a11
a22 a11
a12 a11
a21 a11
a211
1 0 1
1 1 0
=
1 1 0
1 0 1
a22
0
a22
a21
0
0
a21
a12
0
0
a12
a11
0
0
a11
1 0 1
1 1 0
1 1 0
1 0 1
1 3
A = 2 0
1 1
X=
x11
x21
x12
x22
x13
x23
a12
a22
cuyos elementos dependen de x = (x1 , x2 ) de forma que aij = ix1 + jx2 con
x1 0 y x2 0 , i , j = 1, 2, se verifica que
In (a11 (x) a22 (x) a21 (x) a12 (x))
In |A (x)|
=
x
x
1 (a11 (x) a22 (x) a21 (x) a12 (x)) (a11 (x) a22 (x) a21 (x) a12 (x))
=
,
|A|
x1
x2
84
1 1
,
x1 x2
x1 + x2
2x1 + x2
x1 + 2x2
2x1 + 2x2
entonces
A1 =
1
x1 + x2
2 (x1 + x2 )
x1 + 2x2
2x1 + x2
(x1 + x2 )
y
A (x)
A (x)
1 1
1 2
=
,
=
2 2
1 2
x1
x2
y, por tanto
1
A (x)
1
1
tr A
=
(2x2 x2 ) =
x1
x1 x2
x1
1
A (x)
1
1
tr A
=
(2x1 x1 ) =
x2
x1 x2
x2
Cuando la matriz respecto de la que se deriva es simtrica, debe de tenerse en
cuenta esta caracterstica pues, en caso contrario, pueden obtenerse resultados
aparentemente contradictorios [Bar98]. Por ejemplo si
y (A) = a211 + a222 + a212 , donde
A=
a11
a12
a21
a22
y (A)
vec (A)
vec (A (x))
x
85
= 2a11
2a12
2a12
= 4x1 + 4x2 + 4xs1 x22
x2
2a22
x2
1
2
x1
x1
0
Hay una aparente contradiccin, que se debe a que tras sustituir se ha considerado y (A) como una funcin de tres variables a11 , a12 , a22 cuando en realidad
es una funcin de R4 R, la cual est definida en puntos cuyas componentes
segunda y tercera son iguales. Al tener esto en cuenta, los calculos de la derivada
coinciden. Para manejar esta aparente disparidad en los resultados al calcular la
derivada respecto de una matriz simtrica A , usualmente se deriva nicamente
respecto de los elementos distintos de A, utilizando la vec
(A) cuya descripcin
se encuentra en la definicin 3.9.
86
1.0
CAPA 1
CAPA 2
b11
b21
S11
W111
f 1(S11 )
y11
W121
1
3
W112
b22
b12
d1
2
21
y10
S12
( )
f 2 S12
y12
e12
e1
W122
W211
S21
f 1(S21 )
y12
2
22
d2
W311
1
22
W132
1
32
S31
f 1(S31)
y31
S22
( )
f 2 S22
y22
e2
e22
W232
y20
Figura 2:
4.
4.1.
Aplicacines
Redes Neuronales
4.1.1.
1
2
2
S1
S
y
S 1 = S21
, S 2 = 12
, y 2 = 12
S2 nn(2)x1
y2 nn(2)x1
1
S3 nn(1)x1
1
2
W11 W12
W11 W12
1
1
2
2
W22
W22
W 1 = W21
, W 2 = W21
1
1
2
2
W31 W32 nn(1)nn(0)
W31 W32
nn(2)nn(1)
nn (k) = nmero de neuronas de la capa k, nc = ndice de la ltima capa
En general
e nn(nc)x1
4.1.2.
k
S nn(k)x1 , y k nn(k)x1 , bk nn(k)x1 , W k nn(k)xnn(k1) ,
Clculo
1 0
1 0
S11 = W11
y1 + W12
y2 + b11
1 0
1 0
S21 = W21
y1 + W22
y2 + b12
1 0
1 0
S31 = W31
y1 + W32
y2 + b13
1
W11
1
Matricialmente S 1 = W21
1
W31
1
1
0
W12
b1
y
1
1
1
W22
0 + b2
y2
1
W32
b13
1
1 0
1
Por lo tanto,
S k = W k yk1 + bk
1
S 1 = W1 y 1+
b 1, y en1 general,
1
1
1
y1 = f1 S1 , y2 = f2 S2 , y3 = f3 S3
88
1 1
1 1 1
f1 S1
f1 S1
y1
y21 = f21 S21 , haciendo F 1 S 1 = f21 S21 , queda y 1 = F 1 S 1
y31
f31 S31
f31 S31
En general:
yk = F k S k
e1 = d1 y12
e2 = d2 y22
2
e1
d
y
= 1 12 e = d y 2 , en general e = d y nc
y2
e2
d2
donde nc = ndice de la ltima capa
El error cuadrtico 8 = e21 + e22 = e1
4.1.3.
e1
e2
= eT e
e2
Escalarmente
8 (n)
Wij2 (n)
8 (n)
b2i (n)
Es decir, W 2 (n + 1) = W 2 (n)
)(n)
2 (n)
W12
)(n)
2 (n)
W22
8 (n)
W 2 (n)
y escalarmente:
8
8 ei yi2 Si2
8 Si2
=
=
Wij2
ei yi2 Si2 Wij2
Si2 Wij2
89
)(n)
2 (n)
W13
)(n)
2 (n)
W23
Matricialmente
8
8 S 2
=
W 2
S 2 W 2
8
= derivada de una funcin escalar con respecto a un vector
S 2
S 2
= derivada de una funcin vectorial de argumento matricial con resW 2
pecto a una matriz
Escalarmente
8
8 ei yi2
=
2
Si
ei yi2 Si2
Matricialmente se debe tener en cuenta que si z es una funcin de p, la
cual es una funcin de y, que a su vez es una funcin del vector x, entonces
dz
dy p z
=
dx
dx y p
Teniendo en cuenta lo anterior
y 2 e 8
8
y2 e 8 S 2
8
=
S 2
S 2 y2 e
W 2
S 2 y 2 e W 2
Teniendo en cuenta que
T
dAx
S 2
2 1
= xT
=
W y + b2 = y1
2
2
dA
W
W
En general,
2
y1
y 2
S12
= y2
1
S 2
2
S2
y22
S12
,
y22
S22
T
S k
= y k1
W k
yi2
ya que yi2 = fi2 Si2 , entonces,
= 0, para
Sj2
yi2
i
= j y
= fi2 Si2
Sj2
2
y1
2
0
2
y 2
S1
, como yi2 = fi2 Si2 yi = fi2 Si2
=
2
2
y
2
2
S
Si
0
S 2
2
90
y2
y 2 = F 2 S 2 se puede hacer F 2 S 2 =
S 2
e
1
e
y12
=
e1
y 2
y22
ei
= 1
y
yi2
e
=
y 2
e
e2
y12
e2
y22
y12
e2
y22
1 0
=
0 1
ei
= 0, para i
= j
yj2
e
=
e e = 2e = 2 1
e2
e
e
Acoplando todos estos resultados
2
y1
S12
=
W 2
0
=2
W 2
y12
S
12
0
y22
S22
y12
S 2
1
= 2
W 2
0
e1
y12
0
e2
y22
e1
y11
e2
1 0
e1 1
y1
y22
0 1 e2
2
0
S2
e1 1
y1
y 2 e2
22
S2
0
y21
y21
y31
y21
y31
y31
y12
S
e1 1
2
y1 y21 y31 =
= 2 y21
2
2
W
S 2 e2
2
2
y 2
y 2
y
2e1 S12 y11 2e1 S12 y21 2e1 S12 y31
1
1
1
y2
y 2
y 2
2e2 S22 y11 2e2 S22 y21 2e2 S22 y31
2
Si se hace
y 2
S12
2
1
= 2 = 2
S
0
Matricialmente
2 2
2
y12
2
e
e1 = S212 1 = 2f12 S12
e1 = 12
2
y
y
e2
2f2 S2 e2
2
22
2 22 e2
0
S2
S2
91
2 2
f S1
0
2 = 2F 2 S 2 e donde F 2 S 2 = 1
0
f22 S22
Entonces,
= 2 y1
2
W
recordando que
W 2 (n + 1) = W 2 (n)
(n)
donde n es el contador de iteraciones
W 2 (n)
T
1
W 2 (n + 1) = W 2 (n) + 2 (n) y(n)
Ahora
b2 (n + 1) = b2 (n)
(n)
b2 (n)
S 2
S 2
=
= 2 2
2
2
2
b
b S
b
pero S 2 = W 2 y1 + b2 recurdese que yk+1 = W k S K + bk
2
S
=
b2
S12
b212
S1
b22
S22
b21
S22
b22
1 0
0 1
2
1
1 0 21
= 2
=
0 1 22
22
b2
Por lo tanto
b2 (n + 1) = b2 (n) + 2
En general, para los pesos y el BAS de la ltima capa se tiene
nc = 2F nc (S nc ) e
= nc ync1
nc
W
T
nc1
W nc (n + 1) = W nc (n) + 2 (n) y(n)
92
= nc y bnc (n + 1) = bnc (n) + nc
(n) donde nc es el nmero de capas
bnc
de la red
Ahora es necesario hallar la frmula para la actualizacin de W 1 y b1
W 1 (n + 1) = W 1 (n)
(n)
W 1 (n)
S 1
y1 S 2 y 2
y 1 S 2
S 2
=
y
=
=
=
W 1
S 1 W 1 S 1
S 1 y 1 S 2 y 2 e
S 1 y 1 S 2
S 1 S 2
y1
y 1
S 1
1
S11
y11
S21
y11
S31
y21
S11
y31
S11
y21
S21
y31
S21
y21
S31
y31
S31
yi1
yi1
Recordando que yi1 = fi1 Si1
=
0,
i
=
j
= f 1 Si1
1
1
Sj
Si
y1
y 1
= 0
S 1
0
1 1
f1 S1
0
0
f21 S21
0
= F 1 S 1
0
=
0
0
f31 S31
y31
S11
y21
S21
S31
T
S 2
= 1 W 2 y 1 + b2 = W 2
1
y
y
Es decir
S 2
S 2
=
y 1
1
y11
S12
y21
S12
y31
S22
y11
S22
y21
S22
y31
recordando que
2 1
2 1
2 1
S12 = Wi1
y1 + Wi2
y2 + Wi3
y3 + b2i
2
W
S 2 11
2
W12
=
y 1
2
W13
2
W21
T
2
W22
= W2
2
W23
Recordando que
8
= 2
S 2
93
Si2
= Wij2
yj1
y1
S11
8
=
0
S 1
0
y21
S21
2
W11
2
0
W12
2
1
W13
y3
0
S31
2
2
W21
2 1
W22
22
2
W23
= F 1 S 1 W 2 2
1
S
T
haciendo 1 = F 1 S 1 W 2 2
= 1
S 1
T
W 1 y 0 + b1
S 1
=
= y0
1
1
W
W
en general
T
S k
= y k1
W k
S 1
=
= 1 y0
1
1
1
W
S W
En general
S k
=
W k
S k W k
S k+1
=
S k
S k S k+1
S k+1
y k S k+1
y k
=
= F k Sk
k
k
k
k
S
S y
S
W k+1 yk + bk+1
S k+1
S k+1 k+1
T
=
= W
y k
y k
yk
T
S k+1
= F k S k W k+1
y k
= k+1
= F k S k W k+1 k+1
k+1
k
S
S
Si se generaliza
k = k k = F k S k W k+1 k+1 k =
k+1 S
T k+1
W
F k Sk
ya que F k S k es simtrica
94
k1
T
S k
k
y
=
=
W k
S k W k
T
0
W 1 (n + 1) = W 1 (n) + 1(n) y(n)
y, en general
T
k1
W k (n + 1) = W k (n) + k(n) y(n)
(n)
b1 (n)
S 1
=
1
b
b1 S 1
S 1
S 1
b11
S21
b11
S31
b11
S11
b13
S21
b12
S21
b13
S31
b12
S31
b13
S 1
11
= S
1
1
b
b2
= 1
1 0 0
= 0 1 0 = I nn(1)
0 0 1
En general,
S k
= I nn(k)
bk
b1
1 0 0
= 0 1 0 1 = 1
0 0 1
En general,
= I nn(k) k = k
k
b
b1 (n + 1) = b1 (n) + 1 (n)
bk (n + 1) = bk (n) + k (n)
95
4.1.4.
Resumen (Algoritmo)
Datos de Entrada
Patrones de entrenamiento X con su salida deseada.
X nn(0)Xnp donde np = nmero de patrones.
d nn(c)Xnp donde nc = nmero de capas de la red (recuerde que la capa
de entrada no se considera como una capa de la red).
n = 0,
[0,5, 0,5]
[0,5, 0,5]
=0
0
y(n)
= X(n) , donde X(n) es un vector de entrada escogido aleatoriamente
96
4.1.5.
Para k = 1 hasta nc
k1
k
k
+ bk(n)
S(n)
= W(n)
y(n)
k
k
y(n)
= F k S(n)
Fin para k.
e(n) = d(n) y nc (n)
(n) = e(n)T e(n)
4.1.6.
T
W nc (n + 1) = W nc (n) + nc (n) y nc1 (n)
bnc (n + 1) = bnc (n) + nc (n)
Para k = nc 1 hasta 1
T
k (n) = F k S k (n) W k+1 (n) k+1 (n)
T
W k (n + 1) = W k (n) + k (n) y k1 (n)
bk (n + 1) = bk (n) + k (n)
Fin para k
97
1 .0
S11
y 11
1
1+ e
S11
S12
tanh( S12 )
y12
y 10
S 21
y12
1
1
1 + e S2
y20
S 31
tanh( S 22 )
y22
y 31
1
1+ e
S22
S31
Figura 3:
Ejemplo 4.1
n x1
1 1
2 1
3
1
4
1
Utilice una red 2-3-2 (2 entradas, 3 neuronas en la capa oculta y dos neuronas
en la capa de salida.
Utilice funcin logstica como funcin de activacin para todas las neuronas
de la capa oculta (capa 1) y tanh para todas las neuronas de la capa de salida
(capa 2).
Se va a trabajar con = 0,5
La figura ?? muestra la red propuesta.
Primer Patrn n = 0
Inicializacin:
0,7826
0,609
0,0636 0,6596 2,0639
W 1 (1) = 1,4372 1,6513 , W 2 (1) =
0,582 1,8127 2,2377
2,713 2,8013
0,437
0,7279
b1 (1) = 1,298 , b2 (1) =
1,9579
2,2137
98
y 0 (1) = X(1) =
x1 (1)
1
=
x2 (1)
1
0,7826
0,609
0,437
1
S 1 (1) = 1,4372 1,6513
+ 1,298
1
2,713 2,8013
2,2137
0,9576
S 1 (1) = 1,7905
7,728
1 1
1
f1 S1 (1)
0,27796067
1+eS1
0,27796067
0,0636 0,6596 2,0639
0,7279
0,85698857 +
S 2 (1) =
0,582 1,8127 2,2377
1,9579
0,99955987
S 2 (1) =
y 2 (1) =
3,33848298
1,11287495
2 2
f1 S1 (1)
tanh (3,33848298)
=
=
tanh (1,11287495)
f22 S22 (1)
tanh S22 (1)
0,99748398
y (1) =
0,80507629
2
1
0,99748398
0,00251602
e (1) =
=
1
0,80507629
0,19492371
99
4.1.7.
Ejemplo 4.2
1. 2 (1) = 2F 2 S 2 (1) e (1)
Recuerde que:
2
f 21 S12 (1) = 1 y12 (1)
2
f 22 S22 (1) = 1 y22 (1)
2 2
f 1 S1 (1)
0
2F 2 S 2 (1) =
0
f 22 S22 (1)
2
1 y12 (1)
0
=
2
0
1 y22 (1)
1 (0,99748398)
0
0,00251602
2
(1) = 2
0
1 (0,80507629) 0,19492371
2,52896 X 105
2 (1) =
0,13716866
T
W 2 (2) = W 2 (1) + 2 (1) y1 (1)
0,0636 0,6596 2,0639
W 2 (2) =
+
0,582 1,8127 2,2377
2,52896 X 105
0,27796067 0,85698857 0,99955987
0,5
0,13716866
0,0636 0,6596 2,0639
W 2 (2) =
+
0,582 1,8127 2,2377
3,514775 X 106 1,08364 X 105 1,2639 X 105
0,019063746
0,0587755987
0,06855414
0,063596485 0,659610836 2,063912639
W 2 (2) =
0,562936254 1,871475987 2,169145856
b2 (2) = b2 (1) + 2 (1)
0,7279
b2 (2) =
+ 0,5
1,9579
T
1 (1) = F 1 S 1 (1) W 2 (1) 2 (1)
1 (1) =
0
y21 (1) 1 y21 (1)
0 1
1
0
0
y3 (1) 1 y3 (1)
100
0,0636
0,582
5
0,6596 1,8127 2,52896 X 10
0,13716866
2,0639 2,2377
0,01602252
1 (1) = 0,03047584
0,00013501
T
W 1 (2) = W 1 (1) + 1 (1) y0 (1)
0,7826
0,609
0,01602252
W 1 (2) = 1,4372 1,6513 + 0,5 0,03047584 1 1
2,713 2,8013
0,00013501
0,7826
0,609
0,00801126
0,00801126
W 1 (2) = 1,4372 1,6513 + 0,01523792
0,01523792
2,713 2,8013
6,7506 X 105 6,7506 X 105
0,79061126
0,61701126
W 1 (2) = 1,45243792 1,66653792
2,71293249 2,80123249
0,437
0,01602252
b1 (2) = 1,298 + 0,5 0,03047584
2,2137
0,00013501
0,42898874
b1 (2) = 1,28276208
2,21363249
4.2.
Aprovechando las funciones bsicas y las operaciones que con respecto a matrices se pueden utilizar en Matlab, se disearon unas pequeas funciones que
permiten a travs de la utilizacin de las propiedades de la derivacin matricial,
empleando la vectorizacin y el producto de Kronecker, resolver derivadas matriciales. Se adjuntan los cdigos fuente de las mismas, las cuales son solo un
ejemplo, teniendo en cuenta que las funciones f1, f2 y dems que se presentan,
pueden ser modificadas de acuerdo con la necesidad de solucin.
Un exmen previo de las figuras 4 hasta la 8 puede facilitar la lectura de
esta seccin, ya que el lenguaje Matlab es bastante intuitivo. Inicialmente se
han creado dos funciones vec() que realiza la vectorizacin de una matriz por
columnas, tal como se observa en la figura 4 y vecf () que realiza la vectorizacin
por filas de una matriz, tal como se observa en la figura 5.
En primera instancia, se debe tener claro que es posible definir funciones
nuevas y archivos de sencuencia de comandos (script) en Matlab. De hecho, las
101
% CREA VARIABLES
syms v
syms w
syms x
syms y
syms z
%CREA MATRICES IDENTICAS DE ORDEN 1 HASTA 5
I1=eye(1);
I2=eye(2);
I3=eye(3);
I4=eye(4);
I5=eye(5);
return
102
% CASO:
% DERIVACIN DE f(x,y,z,...) RESPECTO DE CADA VARIABLE INDEPENDIENTE
% BORRA VARIABLES DE LA MEMORIA
clear
% INICIALIZA VARIABLES Y CREA MATRICES UTILITARIAS
ini
% USUARIO: SE DEFINEN FUNCIONES
%EJEMPLO:
f1=x^2+y^3;
f2=2*x*y;
%Fn=...
% USUARIO: SE DEFINEN VECTORES O MATRICES
% EJEMPLO:
Y=[f1 ; f2];
X=[x y];
%%% PROCESANDO... %%%
% EXTRAE EL TAMAO DE LOS VECTORES O MATRICES:
[P,N]=size(X);
[M,Q]=size(Y);
% EXPANSION:
for I = 1:M,
for J = 1:Q,
%DERIVAR CADA ELEMENTO DE Y RESPECTO A MATRIZ
MATRIZ X:
for K=1:P,
for L=1:N,
%DERIVACIN INDIVIDUAL:
R(P*(IR(P*(I-1)+K,N*(J1)+K,N*(J-1)+L)=diff(Y(I,J),X(K,L));
end
end
end
end
R
Figura 8: Desarrollo de
vec(X)
utilizando las propiedades.
X
104
En la figura 7, se expone el cdigo necesario para derivar una funcin matricial de variable matricial, aunque se ha desarrollado como primer ejemplo el
caso particular en que tanto la funcin como la variable son vectoriales.
vec(X)
En el ejemplo de la figura 8 se muestra como resolver el problema de
.
X
Para ello, despus de observar las propiedades que cumple este desarrollo, se
ha planteado la solucin como lo indica el cdigo all expuesto. Al utilizar las
propiedades de la derivacin, el proceso se hace ms simple y menos costoso
computacionalmente.
Los resultados de la ejecucin de los ejercicios expuestos coinciden plenamente con los desarrollos mediante otros paquetes o tcnicas,siempre y cuando
se definan correctamente los tipos de datos (entero, real, etc).
Mediante la aplicacin iterativa de las frmulas presentadas, se pueden obtener las derivadas de orden superior o la aplicacin de la regla de la cadena. En
primera instancia, hay una gran cantidad de opciones para desarrollar en este
caso, cada una de las cuales requiere que se definan correctamente las variables
dependientes e independientes, la relacin funcional, y las matrices o vectores
que intervienen.
Matlab es un lenguaje de programacin que facilita el trabajo con matrices. Dado que la representacin interna de Matlab es en forma matricial, los
programas finales son compactos y relativamente sencillos.
105
5.
Conclusiones
106
Referencias
[Her86] I. Herstein, lgebra Abstracta. Mxico: Grupo Editorial Iberoamericano
(1985).
[Bar98] R. Barbolla, P. Sans, lgebra Lineal y Teora de Matrices. Madrid:
Prentice-Hall (1998).
[San94] R. Snchez, A. Velasco, Curso Bsico de Algebra Lineal. Bogot: Ed
Trillas (1994).
[Mey07] C. Meyer, Matrix Analysis and
http://www.matrixanalysis.com/ (2007)
Applied
Linear
Algebra.
107