You are on page 1of 107

Derivacin Matricial

Fernando Lara
Fundacin Universitaria Konrad Lorenz
Director: Leonardo Jimnez Moscovitz
Matemtico
Fundacin Universitaria Konrad Lorenz

11 de junio de 2007
Resumen
En este trabajo se hace una presentacin de algunos aspectos tericos
y prcticos acerca de la derivacin matricial. Este tema es especialmente
importante, ya que las matrices no solo proveen una notacin muy compacta para algunos desarrollos matemticos, sino que adems permiten
una mayor generalizacin. Despus de la presentacin terica, se expone
un caso de aplicacin a las redes neuronales, y se exponen algunas lineas
de cdigo en Matlab para la resolucin de problemas que involucren la
derivacin matricial.
This work develops a presentation of some theorical and practical topics about matrix derivation. This area is specially important because matrix theory not only provides a compact notation for some mathematical
developments, it also provides a greater generalization. After the theoric
presentation, this paper exposes an application to neural networks, and
some code in Matlab to help in the solutions of problems involving matrix
derivation.

ndice
Introduccin

1. Preliminares
1.1. Matrices . . . . . . . . . . . . . .
1.2. Conceptos Bsicos . . . . . . . .
1.3. Matrices . . . . . . . . . . . . . .
1.3.1. Operaciones con Matrices
1.3.2. Matrices Especiales. . . .

.
.
.
.
.

.
.
.
.
.

2. Derivacin.
2.0.3. Interpretacin de la derivada
tangente. . . . . . . . . . . .
2.0.4. Reglas de Derivacion. . . . .
2.0.5. Derivacin Parcial . . . . . .

.
.
.
.
.

.
.
.
.
.

.
.
.
.
.

.
.
.
.
.

.
.
.
.
.

.
.
.
.
.

.
.
.
.
.

.
.
.
.
.

.
.
.
.
.

.
.
.
.
.

.
.
.
.
.

.
.
.
.
.

.
.
.
.
.

.
.
.
.
.

.
.
.
.
.

.
.
.
.
.

5
5
5
8
10
14
23

como la
. . . . .
. . . . .
. . . . .

pendiente
. . . . . .
. . . . . .
. . . . . .

de una
. . . . .
. . . . .
. . . . .

24
25
33
35
35
35
36
37
37
39
49
60
70

3. Derivacin Matricial
3.1. Funciones Matriciales . . . . . . . . . . . . . . . . .
3.1.1. Funciones de Variable Escalar . . . . . . . . .
3.1.2. Funciones de Variable Vectorial . . . . . . . .
3.1.3. Funciones de Variable Matricial . . . . . . . .
3.2. Otras Matrices Especiales . . . . . . . . . . . . . . .
3.3. Producto de Kronecker . . . . . . . . . . . . . . . . .
3.4. Frmulas de Derivacin Matricial. . . . . . . . . . .
3.5. Reglas de Derivacin. . . . . . . . . . . . . . . . . .
3.6. Propiedades de Derivacin de Funciones Matriciales.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

4. Aplicacines
4.1. Redes Neuronales . . . . . . . . . . . . .
4.1.1. Caractersticas del Algoritmo . .
4.1.2. Propagacin hacia adelante.
4.1.3. Propagacin hacia atrs. . . . . .
4.1.4. Resumen (Algoritmo) . . . . . .
4.1.5. Propagacin hacia adelante. . . .
4.1.6. Propagacin hacia atrs. . . . . .
4.1.7. Propagacin hacia atrs. . . . . .
4.2. Derivadas Matriciales en Matlab. . . . .

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

87
. 87
. 87
. 88
. 89
. 96
. 97
. 97
. 100
. 101

5. Conclusiones

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

106

Introduccin
El lgebra matricial se ha convertido en los ltimos aos en una parte esencial de los conocimientos de matemticas, necesarios en campos tan diversos
como la ingeniera, la fsica, la pedagoga, la qumica, la sociologa y en el campo cientfico, as como la estadstica y la matemtica pura. Este requerimiento
refleja la importancia y la amplitud de sus aplicaciones.
Muchos de los temas tratados en los campos mencionados comparten mtodos comunes para resolver algunos de los problemas especficos. Los programas
de las materias de matemticas han ido evolucionando para facilitar que el profesional domine las tcnicas empleadas en el tratamiento de los problemas. Sin
embargo, por razones obvias, la mayora de los textos de matemticas se han
centrado en lo que es el ncleo bsico de los programas de clculo y lgebra. Por
otra parte, asignaturas de corte matemtico dirigidos a dotar de conocimientos
adecuados para abordar problemas, con un nivel ms riguroso, tienen carcter optativo. Con respecto a esas asignaturas, no es fcil encontrar manuales
adecuados a sus contenidos especficos, lo que significa que un estudiante ha
de confiar en las referencias bibliogrficas recomendadas, que en mltiples ocasiones no se ajustan a sus necesidades de rigor de planteamiento, o bien, apuntes
tomados en clase, con los conocidos inconvenientes que esta prctica conlleva.
Como ejemplos, pensemos en temas como derivadas de vectores y matrices y
derivadas de funciones matriciales.
Basado en la importancia que ha adquirido el clculo matricial, el compendio
que se ha proyectado, se presentar como suplemento a los textos sobre clculo
matricial, que entre otros, son bastante exiguos en nuestro medio.
El objetivo fundamental es fijar un criterio de derivacin, indicar su relacin
con las aproximaciones vectoriales a la derivada y, a partir de ello, obtener
resultados que permitan enfrentarse formalmente y con mayor comodidad al
estudio de variables matriciales.
Antes de abordar el proceso de derivacin matricial, se presenta un compendio con los elementos bsicos del lgebra lineal, especficamente sobre matrices, y un compendio que incluye las propiedades bsicas del clculo diferencial,
necesarios para comprender la manera como se aborda el estudio sobre clculo
matricial.
De la misma forma, dada la complejidad del problema, se hizo preciso incluir
algunas nuevas operaciones entre matrices que completan el clculo matricial
tradicional; para estas nuevas operaciones, se incluyen conceptos y propiedades
sobre producto de Kronecker, vectorizacin de matrices y se definen las matrices
de permutacin que se utilizan en algunos desarrollos.
En el presente trabajo se ha utilizado extensivamente la presentacin de
[Bar98]; este excelente libro es uno de los pocos escritos en espaol que tratan
el tema de la derivacin matricial. En particular, se ha utilizado mucho en la
seccin 3, donde se expone la presentacin terica y de las propiedades. Otros
escritos que se han podido disponer tienen una presentacin algo diferente; en
particular, muchos de ellos utilizan el concepto de diferencial al trabajar con
derivadas matriciales, lo que implica entre otros aspectos, cambios en la no3

tacin.
En el captulo 4, se presenta el desarrollo de un problema de redes neuronales
que en su forma original es un aporte del Ing. Pervys Rengifo, profesor de la
F.U.K.L., a quien se le agradece su amable colaboracin. En este ejemplo se
observa la aplicacin de la derivacin matricial en la solucin de un problema
de este tipo. Finalmente, se exponen algunas lneas de cdigo en Matlab para
ayudar en la resolucin de problemas de derivacin matricial o vectorial.

1.

Preliminares

En este captulo se exponen los conceptos y reglas ms importantes que


sirven de base a la comprensin de la diferenciacin matricial, as como de los
conceptos y procesos asociados. Por ello, se explican en primera instancia las
definiciones y los conceptos bsicos de matrices, as como las operaciones a las
que se pueden someter estos objetos. Luego se presentan los tipos de matrices
ms importantes y las propiedades que stos poseen.

1.1.

Matrices

Aqu se introducir el concepto de matriz y se presentarn ciertas operaciones algebricas definidas sobre ellas. Las nociones expuestas sern la base para
comprender los conceptos relativos al clculo vectorial y matricial en general.
De la manera ms general posible, se puede definir una matriz como una
tabla o arreglo rectangular de objetos matemticos que pueden someterse a las
operaciones de suma y producto. Esto requiere por una parte, detallar cuales
son esos objetos o elementos de la matriz que son de inters primordial para el
matemtico, y por otra parte especificar algunas de las propiedades asociadas
con las operaciones sobre dichos elementos: stos, junto con las operaciones de
suma y producto, deben formar un cuerpo k [Her86].
Los elementos de una matriz pueden ser o bien los nmeros reales (k = R) o
bien los nmeros complejos (k = C); en estos caso, los elementos se llaman escalares. Pero los elementos de una matriz tambin pueden ser funciones definidas
en los nmeros reales o los complejos. En el presente trabajo se tratarn las matrices definidas sobre los reales, se definir posteriormente la matriz de funciones.
El otro caso en que se considerarn las matrices y vectores es en la propia
definicin de las funciones. Para el presente trabajo el inters no radica en
funciones de variable real por ejemplo, sino que la funcin puede ser de variable
vectorial, o matricial y por otra parte su salida puede ser a su vez un valor
escalar, vectorial o matricial.

1.2.

Conceptos Bsicos

En esta seccin se expondrn los principales conceptos relacionados con la


temtica a tratar. Por una parte, se hace referencia a algunos conceptos del lgebra abstracta como es el concepto de cuerpo, y por otra parte se hace referencia
al concepto de espacio vectorial. A travs del concepto de cuerpo se describe el
comportamiento de los elementos que conforman una matriz al realizar sobre
ellos ciertas operaciones; el concepto de espacio vectorial es una generalizacin
tanto de vectores en Rn como del propio concepto de matriz.
Definicin 1.1 (Campo o Cuerpo) Un campo o cuerpo k es una estructura
algebraica conformada por un conjunto y dos operaciones definidas sobre los elementos del conjunto, < K, +, > que se comportan como un anillo conmutativo
en el cual todo elemento diferente de 0 tiene inverso multiplicativo. [Her86].

Definicin 1.2 (Espacio Vectorial) Un espacio vectorial definido sobre un


cuerpo k, es un conjunto V de objetos llamados vectores, junto con las operaciones cerradas de suma y producto por escalar, que cumplen ocho propiedades
[San94]:
Si u, v, w V y , son escalares cualesquiera, entonces
1. (u + v) + w = u + (v + w)
2. u + v = v + u
3. Existe 0 V tal que v + 0 = 0 + v = v
4. Para cada v existe un vector v tal que v + (v) = (v) + v = 0
5. (u + v) = u + v
6. ( + )u = u + u
7. ()u = (u)
8. 1 v = v
Definicin 1.3 (Subespacios Vectoriales) Un subespacio U de un espacio
vectorial V es un subconjunto de V que es en s mismo, un espacio vectorial
sobre el mismo cuerpo.
Dentro de los espacios vectoriales ms importantes, se tienen los espacios
k = Rn as como k = Cn . Un vector en Rn se puede expresar como v1 =
1 x1 + 2 x2 + ... + n xn . Esto se puede generalizar a continuacin.
Definicin 1.4 (Combinacin Lineal) Sea V un espacio vectorial, y U =
{u1 , u2 , ...ur } un conjunto finito de vectores de V. Entonces un vector de la
forma:
v = 1 u1 + 2 u2 + ... + r ur =

r

i=1 i ui

se llama una combinacin lineal de vectores en U.


Es importante considerar el caso en el que se generan todas las posibles
combinaciones lineales con elementos de U, y con todos los posibles escalares
i k.
Definicin 1.5 (Subespacio Generado) Sea V un espacio vectorial, y U =
{u1 , u2 , ...ur } un conjunto finito de vectores de V. El conjunto de todas las posibles combinaciones lineales de elementos de U se llama el subespacio generado
por U, y se denota:
S (U ) = {v|v =

n

i=1

k ui , k k}
6

Un concepto muy importante relacionado con estos vectores es el de dependencia o independencia lineal.
Definicin 1.6 (Dependencia Lineal) Sea V un espacio vectorial, y U =
{u1 , u2 , ...ur } un conjunto finito de vectores de V. Entonces, U es linealmente
dependiente o ligado si y solo si existen escalares 1 , , ...r no todos ceros,
tal que:
1 u1 + 2 u2 + ... + r ur = 0
Se dice que U es linealmente independiente o libre si no es dependiente.
Un conjunto U linealmente independiente y de especial importancia, se define
a continuacin.
Definicin 1.7 (Base) Sea V un espacio vectorial sobre k. Si en V existe un
subconjunto finito U de vectores linealmente independientes, tal que S(U ) = V, o
en otras palabras, que todo vector v V puede ser expresado como combinacin
lineal de vectores en U, entonces se dice que U es una base de V .
Si una base consiste de una cantidad finita de elementos, entoces se puede
demostrar que toda base de un espacio vectorial V tiene la misma cantidad de
elementos:
Definicin 1.8 (Dimensin) Sea V un espacio vectorial con una base B con
n elementos. Entonces, se define a n como la dimensin del espacio vectorial V,
y se expresa como dim(V ) = n.
Para el caso V = Rn con n = 3 se tiene la dimensin del conjunto de vectores
en el espacio.
Es necesario en muchos casos considerar funciones o morfismos entre espacios
vectoriales diferentes, esto es, f : V W donde V, W son espacios vectoriales
sobre el mismo cuerpo k. Estas funciones, cuya descripcin se puede encontrar
en libros de lgebra abstracta tales como [Her86] son de especial importancia si
poseen ciertas propiedades, tal como se observa en la siguiente definicin.
Definicin 1.9 (Isomorfismo) Sean V, W son espacios vectoriales sobre el
mismo cuerpo k, y sea f una funcin f : V W que cumple con las siguientes
propiedades que para todo xi V y para todo a, b k:
1. f 1 existe. Esto es, f es invertible
2. f (ax1 + bx2 ) = f(ax1 ) + f(bx2 ) = af(x1 ) + bf(x2 )
A los espacios vectoriales V, W se les llama espacios isomorfos, es decir,
que tienen la misma estructura.

Definicin 1.10 (Transformacin Lineal) Sea U un espacio vectorial


n-dimensional y sea V un espacio vectorial m-dimensional, ambos sobre el mismo cuerpo k. Sea BU una base de U y BV una base de V. Una transformacin
lineal es una funcin T : U V tal que, para escalares arbitrarios a, b k y
vectores x1 , x2 U :
T (ax1 + bx2 ) = T (ax1 ) + T (bx2 ) = aT (x1 ) + bT (x2 )
Una transformacin lineal es entonces, una operacin entre dos espacios vectoriales que preserva las operaciones. Son de especial importancia tambin las
transformaciones lineales T : V V que reciben el nombre de endomorfismos.

1.3.

Matrices

En esta seccin se establecern las condiciones para definir adecuadamente


el concepto de matriz, sus diferentes tipos y examinar luego algunas de sus
propiedades.
En el presente trabajo, las matrices se establecern con referencia al espacio
vectorial definido por Mmn , el conjunto de todas las matrices de tamao m n,
as:
Definicin 1.11 (Matriz) Sea k un cuerpo, y sea Mmn el espacio vectorial
de todas las matrices de tamao m n definidas sobre k. Se define una matriz
A Mmn con elementos en k, y se expresa diciendo que A es una matriz
sobre k, a un arreglo de mn elementos aij k, ordenados de manera rectangular
con m filas y n columnas encerrados entre corchetes, donde 1 i m y
1jn:

a11 a12 ... a1n


a21
... ... a2n

...
... ... ...
am1 am2 ... amn
Las lneas horizontales en una matriz se denominan filas y las lneas verticales se denominan columnas. El primero de los coeficientes indica la fila y el
segundo la columna en que est ubicado el elemento. A una matriz con m filas
y n columnas se le denomina matriz m-por-n (escrito m n), siendo los valores
m y n sus dimensiones. La matriz anterior se denota tambin por (aij ).
Bajo esta definicin, entonces sobre las matrices se pueden definir dos operaciones: suma y producto por escalar, que deben cumplir con las propiedades
mencionadas en la definicin 1.2.
Definicin 1.12 (Matriz como Transformacin Lineal) Sean V, W espacios vectoriales de dimensin finita. Si se han determinado las bases BV del
espacio V con dimensin n, y BW del espacio W con dimensin m, entonces
cada transformacin lineal T : V W puede ser representada por una matriz
A.
8

Ejemplo 1.1 Sean V, W espacios vectoriales. Sea {v1 , v2 , ...vn } una base de V
y {w1 , w2 , ...wm } una base de W. Cada vector v V puede ser representado de
manera nica mediante los escalares 1 , , ...n k. mediante la combinacin
lineal 1 v1 + 2 v2 + ... + r vn
Si f : V W es una aplicacin lineal, entonces
f (a1 v1 + a2 v2 + ... + ar vn ) = a1 f (v1 ) + a1 f (v2 ) + ...ar f (vn )
La funcin queda completamente determinada por los valores f(v1 ) + ... +
f(vn ). Como {w1 , w2 , ...wm } es una base de W, entonces cada f(vj ) puede representarse como:
f (vj ) = a1j f (w1 ) + a2j f(w2 ) + ...anj f (wm )
Luego la funcin queda completamente determinada por los valores aij . Si
estos valores se utilizan para construir una matriz A de tamao mn, Entonces
la matriz A se puede utilizar para calcular el valor de f(v) para todo vector en
V.
Otra manera de representar la interpretacin de una matriz como una aplicacin lineal es tomando x kn , y km , luego el morfismo f : kn km puede
ser representado por y = Ax.
Las dimensiones de una matriz siempre se dan con el nmero de filas primero
y el nmero de columnas despus. La entrada de una matriz A que se encuentra
en la fila i-sima y la columna j-sima se le llama entrada i, j o entrada (i, j)sima de A. Esto se escribe como Ai,j o A[i, j]. Entonces, el primero de los
subndices indica la fila y el segundo la columna a las que pertenece dicho
elemento. Las filas de la matriz son las m n-plas horizontales:

a11

a12


a1n , a21

a22


a2n , , am1

y las columnas de la matriz son las n m-plas verticales:

a11
a12
a21 a22

.. , .. ,
. .
am1

am2

a1n
a2n

, .
..

am2

amn

amn

Ntese que el elemento aij llamado entrada ij, aparece en la fila i-sima y en
la columna j-sima. Una matriz con m filas y n columnas se denomina matriz m
por n, o matriz m n; el par de nmeros (m, n) se llama su tamao o forma.
Las matrices se denotan usualmente por letras maysculas A, B, . . . y los
elementos del cuerpo k por minsculas, a, b, . . . con sus respectivos subndices.
Una matriz con una sola columna o una sola fila se denomina a menudo
vector, y se interpreta como un elemento del espacio eucldeo [Her86].

Definicin 1.13 (Vector) Un vector es una matriz que posee una sola fila o
una sola columna. Una matriz 1 n (una fila y n columnas) se denomina vector
fila, y una matriz m 1 (una columna y m filas) se denomina vector columna.
En general, dada una matriz A, al vector (ai1 , ai2 , ...ain ) que forma la i-sima
fila de A se le llama un vector fila, mientras que al vector (a1j , a2j , ...amj ) que
forma la j-sima columna de A se le llama vector columna. Ntese que en
particular, un elemento del cuerpo k puede verse como una matriz o vector de
tamao 1 1.


1 3 4
Ejemplo 1.2 Se tiene la matriz A23 :
0 5 2

Sus filas son 1 3 4 y 0 5 2 y cada una de ellas es un vector


fila, mientras que
     
1
3
4
sus columnas son
,
,
y cada una de ellas es un vector
0
5
2
columna.

Ejemplo 1.3 La asercin


x+y
xy




2z + w
3 5
=
es equivalente al siguizw
1 4

ente sistema de ecuaciones:


x+y =3
xy =1
2z + w = 5
zw =4
Definicin 1.14 (Igualdad de Matrices) La condicin necesaria y suficiente
para que dos matrices A = (aij ) y B = (bij ) sean iguales (A = B) es que tengan
el mismo orden y que cada uno de los elementos de una de ellas sea igual al
correspondiente de la otra. Esto es
aij = bij

(i = 1, 2, ..., m; j = 1, 2, ..., n)

En otras palabras, dos matrices son iguales solo cuando una es copia de la
otra.
1.3.1.

Operaciones con Matrices

Las matrices se han definido dentro del espacio vectorial que se ha llamado
el espacio vectorial Mmn de las matrices de tamao m n. Por tanto, las dos
primeras operaciones que son de inters son la suma y el producto por escalar.
Dichas operaciones deben dar como resultado otra matriz del mismo tamao.
Adems, para estas operaciones, ms adelante,(def 1.19) se definir la matriz
0mn tal que para cualquier matriz Amn , A + 0 = 0 + A = A y obviamente,
se tendr un escalar 1 tal que 1A = A
10

Definicin 1.15 (Suma de Matrices) Sean A = (aij ) y B = (bij ) dos matrices del espacio vectorial Mmn , ambas de igual tamao m n. La suma (o
diferencia) de ellas, denotada como A B, es otra matriz C = (cij ) de orden
m n, en la cual cada elemento de C es la suma (o diferencia) de los elementos
correspondientes de A y B. Esto es, (cij ) = (aij + bij )

a11
a21

A= .
..

a12
a22
..
.

..
.

am1

a1n
b11
b21
a2n

.. ; B = ..

.
.
amn
bm1

am2

a11 + b11
a21 + b21

C =A+B =
..

am1 + bm1

b12
b22
..
.

..
.

bm2

a21 + b21
a22 + b22
..
.

..
.

am2 + bm2

b1n
b2n

..
.

bmn

a1n + b1n
a2n + b2n

..

.
amn + bmn

Dos matrices del mismo rden se llaman conformes respecto de


la suma algebraica. La suma de matrices no est definida para
matrices no conformes.
Definicin 1.16 (Producto por Escalar) Sea A una matriz del espacio vectorial Mmn , y k k un escalar. El producto del escalar k por la matriz A, escrito
kA es la matriz C obtenida multiplicando cada entrada de A por k:

ka11 ka21 ka1n


ka21 ka22 ka2n

C = kA = .
..
..
..
..
.
.
.
kam1

kam2

kamn

Obsrvese que A + B y kA son tambin matrices de tamao m n. Adems


se define:
A = 1 A y A B = A + (B)




1 2 3
3 0 2
Ejemplo 1.4 Sean A =
,B =
entonces
4 5 6
7 1 8

 

1 + 3 2 + 0 3 + 2
4 2 5
A+B =
=
4 7 5 + 1 6 + 8
3 6 2

 

3x1 3x (2)
3x3
3 6
9
3A =
=
3x4
3x5
3x (6)
12 15 18

 
 

2 4
6
9 0
6
7 4
0
2A 3B =
+
=
8 10 12
21 3 24
29
7 36
11

Proposicin 1.1 (Propiedades de la Suma y el Producto por Escalar)


Sea V el conjunto de todas las matrices m n sobre un campo k. En tal caso,
para matrices arbitrarias A, B, C, 0 V y escalares cualesquiera k1 , k2 k y los
valores 0, 1 k se cumple:
1. (A + B) + C = A + (B + C)
2. A + 0 = A
3. A + (A) = 0
4. A + B = B + A
5. k1 (A + B) = k1 A + k1 B
6. (k1 + k2 )A = k1 A + k2 A
7. (k1 k2 )A = k1 (k2 A)
8. 1 A = A y 0 A = 0
Estas propiedades son de esperarse, dado que las matrices pertenecen a un
espacio vectorial, y k es un escalar.
Si se supone que los vectores en Rn se representan por vectores fila se tiene

u = a1

a2

an


v = b1

b2

bn

Entonces, vistos como matrices, la suma u + v y el producto ku son las


siguientes:

u + v = a1 + b1

a2 + b2

an + bn


ku = ka1

ka2

kan

Definicin 1.17 (Producto de vector fila por vector columna) Sea A =


(ai ) un vector fila, y B = (bi ) un vector columna con el mismo nmero de elementos. El producto de estos vectores A y B, escrito A B es un vector c de
tamao 1 1 definido como:


a1

a2


b1
n



b2
an . = a1 b1 + a2 b2 + + an bn =
ak bk = c
..
k=1
bn

12

Ntese que para este caso, el producto de vectores se puede ver como un
escalar c k. El producto A B no est definido si los vectores A y B tienen
diferente cantidad de elementos.


 3
Ejemplo 1.5 8 4 5 2 = 8 3 + (4) 2 + 5 (1) = 24 8 5 = 11
1

Ahora se puede ampliar este procedimiento para realizar el producto de


matrices de tamao m n en general.

Definicin 1.18 (Producto de Matrices) Sean A = (aij ) y B = (bij ) matrices tales que el nmero de las columnas de A coincide con el mismo nmero
de filas de B; esto es, A es una matriz m p y B es una matriz p n. Entonces
el producto de las dos matrices AB, en este orden, es otra matriz C de tamao
m n cuya entrada ij se obtiene multiplicando la fila i-sima Ai de A por la
columna j-sima Bj de B (cada elemento de la fila se multiplica por el correspondiente de la columna y a continuacin se suman los productos obtenidos
segn la definicin 1.17):

C = Amp Bpn

A1 B 1
A2 B 1

= .
..

Am B 1

A1 B 2
A1 B 2
..
.

..
.

Am B 2

A1 B n
A1 B n

..
.

Am B n

Donde cij = ai1 b1j + ai2 b2j + + aip bpj =

p


mn

aik bkj para todo i, j en C.

k=1

Se observa que en general, el producto de matrices no es conmutativo.


Dos matrices en las cuales el nmero de columnas de A es igual al nmero
de filas de B se llaman matrices conformes respecto de la multiplicacin.
Se debe tener en cuenta el hecho de que el producto AB slo est definido para
matrices conformes. Esto es, no est definido si A es una matriz m p y B una
matriz q n con p = q.


 

r s a1 a2 a3
ra1 + sb1 ra2 + sb2 ra3 + sb3
Ejemplo 1.6
=
t u b1 b2 b3
ta1 + ub1 ta2 + ub2 ta3 + ub3


 
 

1 2 1 1
1 1 + 2x0 1 1 + 2 2
1 5
=
=
3 4 0 2
31+40 31+42
3 11



 
 

1 1 1 2
11+13 12+14
4 6
=
=
0 2 3 4
01+23 02+24
6 8

13

Lo anterior muestra que el producto de matrices no es conmutativo, es decir


los productos AB y BA de matrices no son necesariamente iguales.
Proposicin 1.2 (Propiedades del Producto de Matrices) Sean A, B, C
matrices conformes para la multiplicacin o para la suma, segn corresponda, y
k un escalar. Entonces, se cumplen las siguientes propiedades:
1. (AB)C = A(BC)
2. A(B + C) = AB + AC
3. (B + C)A = BA + CA
4. k(AB) = (kA)B = A(kB)
5. 0A = 0 y B0 = 0 donde 0 es la matriz nula conforme
1.3.2.

Matrices Especiales.

Definicin 1.19 (Matriz Nula) Una matriz que tenga nulos todos sus elementos se llama matriz nula o matriz cero y se denota por 0m,n . En el caso
de que una matriz A sea nula y no haya lugar a confusiones con respecto a su
orden, se escribe simplemente A = 0 en lugar de la disposicin m n con sus
elementos iguales a cero.


0 0 0
Ejemplo 1.7 La matriz cero de tamao 2 3 es: 023 =
0 0 0
Para cualquier matriz Am,n y 0m,n , se tiene que A + 0 = 0 + A = A. Esto es
de esperarse, ya que 0 cumple la funcin de vector nulo en el espacio vectorial
Mmn .
Definicin 1.20 (Matriz Traspuesta) La matriz traspuesta de una matriz
A de orden m n es la matriz A de orden n m llamada la traspuesta de
A que se obtiene permutando las filas por las columnas. Por tanto, el elemento
aij de A corresponde al elemento aji de A



1 4
1 2 3
Ejemplo 1.8 La traspuesta de la matriz A =
es A = 2 5
4 5 6
3 6
Obsrvese que el elemento aij de A (fila i, columna j) es aji de A (fila j,
columna i).

Proposicin 1.3 Sean A y B, respectivamente, las traspuestas de las matrices


A y B, y sea k k un escalar; en estas condiciones se cumple que:
1. (A)  = A
14

2. (kA)  = kA
3. (A + B) = A + B
4. (A B) = B A

4 3 6
7 8 9
Ejemplo 1.9 A = 2 5 1 , B = 3 2 1
1
0
3
5 6 4

11 5 15
11 1 4
A + B = 1 7 0 , (A + B)  = 5 7 6
4 6 1
15 0 1

4 2 1
7 3 5
11 1 4
A = 3 5 0 , B = 8 2 6 , A + B = 5 7 6
6 1 3
9 1 4
15 0 1

11 1 4
11 1 4
Por tanto (A + B)  = 5 7 6 = A + B = 5 7 6
15 0 1
15 0 1

Matrices Cuadradas. Dentro de las matrices ms utilizadas en lgebra, se


encuentran las matrices cuadradas.
Definicin 1.21 (Matriz Cuadrada) Una matriz A se llama matriz cuadrada si el nmero de filas es igual al nmero columnas. Es decir n = m. Se dice
que una matriz cuadrada n n es de orden n y se le asigna el nombre de matriz
n-cuadrada:

a11 a12 a1n


a21 a22 a2n

..
..
..
.
.
.

an1 an2 ann


Las matrices cuadradas son de especial importancia. Es en estas matrices
donde surge el concepto de determinante y de traza. Adems poseen algunas
propiedades interesantes, por ejemplo toda matriz cuadrada se puede descomponer en la suma de una matriz simtrica y una matriz antisimtrica. Adems,
si A y B son matrices del mismo orden, entonces se pueden sumar entre s y
sus productos son vlidos en ambos sentidos, esto es, tanto AB como BA estn
definidos.

15

Definicin 1.22 (Traza de una Matriz Cuadrada) Sea A una matriz


cuadrada de orden n. La diagonal principal es la lnea formada por los elementos
a11 , a22 , ..., ann . La suma de los elementos de la diagonal principal de una
nmatriz
cuadrada A, se llama traza de la misma, y se denota como tr(A) =
aii .
i=1

1
2
3
2 5 1
Ejemplo 1.10 Sean A = 4 4 4 B = 0 3 2
5
6
7
1 2 4

Entonces A y B son matrices cuadradas de orden 3, y sus trazas son tr(A) =


4 y tr(B) = 1.
Definicin 1.23 (Matriz Triangular) Una matriz cuadrada A cuyos elementos aij = 0 para i j se llama triangular superior; una matriz cuadrada cuyos
elementos aij = 0 para i j se denomina triangular inferior. As, pues

a11
0

..
.
0

a11
a21

a31

..
.

an1

a1n
a2n

a3n
es una matriz triangular superior
..
.
ann

a12
a22
0
..
.

a13
a23
a33
..
.

..
.

0
a22
a32
..
.

0
0
a33
..
.

..
.

0
0
0
..
.

an2

an3

ann

es una matriz triangular inferior.

Definicin 1.24 (Matriz Diagonal) La matriz D que es triangular superior e inferior, se llama matriz diagonal. Se representa por:


D = diag a11

a22

a33

a11
0


ann = 0
..
.
0

0
a22
0
..
.

0
0
a33
..
.

..
.

0
0
0
..
.

ann

El producto AB de una matriz diagonal cuadrada de orden m,


A = diag (a11 , a22 , ...amm ) por otra matriz cualquiera B de orden n m se
obtiene multiplicando la primera fila de B por a11 , la segunda de B por a22 y
as sucesivamente. Esto es:

16


a11
0

..
.
0

0
a22
..
.

..
.

0
0
..
.

ann

a11 b11
a22 b21
..
.

amm bm1

b11
b21

..
.

bn1

b12
b22
..
.

..
.

bn2

a11 b12
a22 b22
..
.

..
.

a11 b1n
a22 b2n
..
.

amm bm2

amm bmn

b1n
b2n

..
.

b3n

Definicin 1.25 (Matriz Escalar y Matriz Unidad) Si en una matriz diagonal D se verifica que a11 = a22 = . . . = ann = k, entonces D recibe el nombre
de matriz escalar. Si adems k = 1, la matriz se denomina unidad o identica
y se representa por In .
Las matrices unitarias tienen algunas de las
todo caso, se verifica que:
Im Amn = Amn In = Im Amn In



1 0
1 0
Ejemplo 1.11 I2 =
I3 = 0 1
0 1
0 0

propiedades del entero 1. En


=A

0
0
1

Definicin 1.26 (Matrices Conmutativas y Anticonmutativas) Si A y B


son dos matrices cuadradas y se verifica que AB = BA dichas matrices se llaman permutables, conmutativas o que conmutan. Es fcil demostrar que si
A es una matriz cuadrada de orden n, conmuta consigo misma y tambin con
In .
En las condiciones anteriores, si A y B son tales que AB = BA, las
matrices A y B se llaman antipermutables o anticonmutativas




a b
c d
Ejemplo 1.12 Demostrar que las matrices
y
son permutables
b a
d c
para todos los valores de a, b, c, d. Esto se deduce de:

 
 

a b
c d
ac + bd ad + bd

=
=
b a
d c
bc + ad bc + ad

 
 

ca + db da + db
c d
a b
=

cb + da cb + da
d c
b a

17

Definicin 1.27 (Matriz Idempotente) Una matriz A de manera que


Ak+1 = A, se llama matriz idempotente de grado k la matriz A. Al grado
k tambin se le llama periodo.

2 2 4
4 Verificar si la matriz A es idempotente:
Ejemplo 1.13 A = 1 3
1 2 3

2 2 4
2 2 4
2 2 4
4 1 3
4 = 1 3
4 =A
A2 = 1 3
1 2 3
1 2 3
1 2 3

Definicin 1.28 (Matriz Nilpotente) Una matriz A tal que AP = 0, siendo


p un nmero entero y positivo, se llama nilpotente. Si p es el menor nmero
entero y positivo para la cual AP = 0, la matriz A se llama nilpotente de
ndice p.

1
1
3
2
6 Demostrar que A es una matriz nilpotente
Ejemplo 1.14 A = 5
2 1 3
de ndice 3.

1
1
3
1
1
3
0
0
0
2
6 5
2
6 = 3
3
9
A2 = 5
2 1 3
2 1 3
1 1 3

0
0
0
1
1
3
3
9 5
2
6 =0
A3 = A2 A = 3
1 1 3
2 1 3

Definicin 1.29 (Matriz Involutiva) Una matriz cuadrada A tal que A2 = I


se llama involutiva. Una matriz unidad, por ejemplo, es involutiva. La inversa
de una matriz involutiva es ella misma.
Proposicin 1.4 La condicin necesaria y suficiente para que una matriz A
sea involutiva es que (I A)(I + A) = 0
Demostracin. Supngase (I A)(I + A) = I A2 = 0; luego A2 = I y A
es involutiva.
Supngase que A es involutiva; entonces A2 = I y (I A)(I + A) =
I A2 = I I = 0
Definicin 1.30 (Matriz Simtrica) Una matriz cuadrada A tal que
A = A se llama simtrica. Por tanto, en una matriz cuadrada A = [aij ]simtrica
se verifica que aij = aji para todos los valores de i y de j.
18

1 2
3
Ejemplo 1.15 A = 2 4 5
3 5 6
kk

es simtrica y tambin kA para cualquier

Si A
es una matriz cuadrada
de orden n,
la matriz A + A es simtrica.
1 2
3
1 2
3
A = 2 4 5 , A = 2 4 5 entonces
3 5 6
3 5 6

2
4
6
8
10
A + A = 4
6 10 12

Definicin 1.31 (Matriz Antisimtrica) Una matriz cuadrada A tal que


A = A se llama hemisimtrica o antisimtrica. Por tanto, en una matriz
cuadrada A hemisimtrica se verifica que aij = aji para todos los valores de i
y de j . Evidentemente, los elementos de la diagonal principal deben ser nulos.

0 2 3
0 2 3
0 2 3
0 4 A = 2 0 4 = A = 2 0 4
Ejemplo 1.16 A = 2
3 4 0
3 4 0
3 4 0
La anterior es una matriz hemisimtrica, as como kA, cualquiera que sea el
escalar k k.
Proposicin 1.5 Toda matriz cuadrada A se puede descomponer en la
suma de una matriz simtrica B = 12 (A + A) y otra matriz antisimtrica
C = 12 (A A).
La inversa de una matriz juega un papl muy importante en el desarrollo
de diferentes procedimientos algebraicos y de clculo matricial. As como en R ,
para todo a R con a = 0, existe un b R que es el inverso multiplicativo, para
el caso de una matriz A anlogamente se plantea la posibilidad de que exista
una matriz B conformable, tal que AB = I.
Definicin 1.32 (Matriz Inversa) Sean A y B dos matrices cuadradas del
mismo orden, para las cuales se cumple que AB = BA = I. A la matriz B se
llama inversa de A y se escribe B = A1 (B igual a inversa de A), Recprocamente, la matriz A es la inversa de B, y se puede escribir A = B 1 .

1 2 3
6 2 3
1 0 0
0 = 0 1 0 = I
Ejemplo 1.17 Como 1 3 3 1 1
1 2 4
1 0
1
0 0 1
Cada una de las matrices del producto es inversa de la otra.
19

No todas las matrices poseen inversa. Se puede demostrar, sin embargo, que
si A posee matriz inversa, sta es nica.
Proposicin 1.6 (Propiedades de la Inversa) La inversa de una matriz
cumple con las siguientes propiedades
1. Si A es una matriz que tiene inversa, sta es nica
Demostracin. Sean A, B, C tres matrices cuadradas de forma que
AB = BA = I y CA = AC = I. En estas condiciones, (CA)B = C(AB)
y por tanto B = C. En otra forma, B = C = A1 es la nica inversa de
A.
2. (AB)1 = B 1 A1
Demostracin. Por definicin (AB)1 (AB) = (AB)(AB)1 = I. Ahora
bien:
(B 1 A1 )AB = B 1 (A1 A)B = B 1 IB = B 1 B = I
AB(B 1 A1 ) = A(BB 1 )A1 = AA1 = I
Como (AB)1 es nica, luego (AB)1 = B 1 A1
Una matriz que posee inversa se llama invertible o no singular.
Definicin 1.33 (Matriz Ortogonal) Se dice que una matriz A definida sobre un cuerpo k, es ortogonal si AAT = AT A = I. Una matriz ortogonal A es
necesariamente cuadrada e invertible, con una inversa A1 = AT

a1
Sea A = b1
c1

a2
b2
c2

Si A es ortogonal,

a1 a2
AAT = b1 b2
c1 c2

a3
b3
c3

entonces se debe cumplir:

a3
a1 b1 c1
1 0 0
b3 a2 b2 c2 = 0 1 0
c3
a3 b3 c3
0 0 1

Esto proporciona el siguiente conjunto de ecuaciones:

a21 + a22 + a23 = 1


a1 b1 + a2 b2 + a3 b3 = 0 a1 c1 + a2 c2 + a3 c3 = 0
b1 a1 + b2 a2 + b3 a3 = 0
b21 + b22 + b23 = 1
b1 c1 + b2 c2 + b3 c3 = 0
c1 a1 + c2 a2 + c3 a3 = 0 c1 b1 + c1 b1 + c1 b1 = 0
c21 + c22 + c23 = 1
o en otras palabras:
u1 u1 = 1 u1 u2 = 0 u1 u3 = 0
u2 u1 = 0 u2 u2 = 1 u2 u3 = 0
u3 u1 = 0 u3 u2 = 0 u3 u3 = 1
20

donde u1 = (a1 , a2 , a3 ) , u2 = (b1 , b2 , b3 ) , u3 = (c1 , c2 , c3 ) son las filas de A.


As las filas u1 , u2 y u3 son ortogonales entre s y tienen longitudes unidad o,
dicho de otro modo, forman un conjunto ortonormal de vectores


Definicin 1.34 (Matriz Escalonada) Sean
A
A

A
matri1
2
S

ces cuadradas de rdenes m1 m2 mS , respectivamente.

A1
0

La generalizacin A = .
..
0

0
A2
..
.

..
.

0
0
..
.

AS

= diag A1

de la matriz diagonal se llama suma directa o matriz


matrices .Ai



1 2
 
1 2
Ejemplo 1.18 Sean A1 = 2 , A2 =
, A3 = 2 0
3 4
4 1
La suma directa de A1, A2 , A3 es la matriz escalonada:

2
0

0
diag (A1, A2 , A3 ) =
0

0
0

0
1
3
0
0
0

0
2
4
0
0
0

0
0
0
1
2
0

A2

AS

escalonada de las

1
3
2

0 0
0 0

0 0

2 1

0 3
1 2

Tambien se puede ver a la matriz escalonada como una matriz particionada o


una matriz de bloques en la cual las submatrices no nulas estn sobre la diagonal
.
Definicin 1.35 (Determinante de una Matriz Cuadrada) El determinante de una matriz cuadrada se puede definir recursivamente mediante
desarrollos por columnas o por filas. Sea A = (aij ) una matriz n n, donde i
es el ndice de la fila y j es el ndice de la columna. Se nota por Aij la matriz
(n 1) (n 1) que se obtiene al quitar la fila i y la columna j de la matriz
A. Entonces
Desarrollo por la fila i : detA = |A| =

n

i+j
aij det(Aij).
j=1 (1)

Desarrollo por la columna j : detA = |A| =

n

i=1 (1)

i+j

aij det(Aij).

Aplicando repetidamente estas frmulas, se va reduciendo el orden de las


determinantes hasta llegar a determinantes de rdenes uno, dos o tres que se
pueden calcular usando las reglas de Sarrus:
21

|a11 | = a11


a11 a12
= a11 a22 a12 a21
a21 a22

a11
a21
a31

a12
a22
a32

a13
a23 = a11 a22 a33 + a12 a23 a31 + a21 a32 a13
a33

a13 a22 a31 a23 a32 a11 a21 a12 a33

El valor del determinante no depende de las filas o columnas escogidas,


mientras que la dificultad del clculo probablemente s.
Proposicin 1.7 (Propiedades del Determinante) Las principales propiedades de los determinantes de matrices cuadradas son las siguientes.
1. Si una columna es cero, el determinante es cero.
2. Si hay dos columnas iguales, el determinante es cero.
3. Si las columnas son ld, el determinante es cero.
4. El determinante cambia de signo al permutar dos columnas.
5. El determinante no cambia si a una columna se le suma una columna de
las restantes.
6. El determinante es lineal respecto a cada columna:
det(..., ci + ci , ...) = det(..., ci , ...) + det(..., ci , ...).
det(..., ci , ...) = det(..., ci , ...).
7. Las filas tambin cumplen las anteriores propiedades.
8. det(A) = n det(A).
9. El determinante del producto es igual al producto de determinantes:
det(AB) = detAdetB.
10. Una matriz A es invertible si y solo si detA = 0. Adems, det(A1 ) =
(detA)1 .
11. Una matriz y su traspuesta tienen el mismo determinante: det(AT ) =
detA.
12. El determinante de una matriz triangular es igual al producto de los elementos diagonales.
13. El determinante de una matriz triangular por bloques es igual al producto
de los determinantes de los bloques diagonales.

22

2.

Derivacin.

En esta seccin se exponen los conceptos fundamentales de la derivacin de


funciones reales, y algunas de las reglas principales. Se consideran principalmente las funciones algebraicas, y al final de la seccin se exponen las frmulas
de algunas funciones trigonomtricas y logartmicas que podrn ser utilizadas
posteriormente.
Definicin 2.1 (Pendiente) Se define la pendiente, en el punto donde x = a,
de la tangente a una curva cuya ecuacin es y = f (x), como

m = lmh0

f (a h) f (a)
h

De hecho, los lmites con esta forma surgen siempre al calcular una rapidez de
cambio en cualquier ciencia o rama de la ingeniera, como la rapidez de reaccin
en qumica o un costo marginal en economa. Dado que este tipo de lmite se
presenta con suma frecuencia, se le da un nombre y una notacin especial.
Definicin 2.2 (Derivada) La derivada de la funcin f en un nmero a representada por f  (a) es
f  (a) = lmh0

f (a + h) f (a)
dado el caso de que el lmite exista.
h

Si se escribe x = a + h, entonces h = x a y h 0 si y solo si x


a; por consiguiente de acuerdo con la determinacin de las tangentes, un modo
equivalente de enunciar la definicin de derivada, es
f  (a) = lmxa

f (x) f (a)
xa

Ejemplo 2.1 Determinar la derivada de la funcin f (x) = x2 8x + 9 en el


nmero a.
f  (a) lmh0

f (a + h) f (a)
h
[(a+h)2 8(a+h)+9][a2 8a+9]

f  (a) lmh0
h
2
2
2
+8a9
f  (a) lmh0 a +2ah+h 8a8h+9a
h
2ah+h2 8h
f  (a) lmh0
= lmh0 (2a + h 8)
h
f  (a) = 2a 8
El proceso de calcular la derivada de una funcin se llama derivacin.

23

Figura 1:
Notacin 2.1 (Derivada) Si se emplea la notacin tradicional y = f (x) para
indicar que la variable independiente es x y que la dependiente es y , hay otras
notaciones alternativas comunes de la derivada:
f  (x) = y =

dy
df
d
=
=
f (x) = Df (x) = Dx f (x)
dx
dx
dx

d
Los smbolos D y
se denominan operadores de diferenciacin porque indx
dican la operacin de diferenciacin, que es el proceso de calcular una derivada.
d
El smbolo
fue introducido por Leibniz y no se debe considerar como una
dx
relacin, solo es un smbolo de f (x). No obstante, es una notacin muy til y
sugerente, en especial cuando se usa con la notacin de incrementos.
2.0.3.

Interpretacin de la derivada como la pendiente de una tangente.

Si se parte de la definicin de que la lnea tangente o recta tangente a la curva


y = f (x) en el punto P (a, f (a)) es la lnea que pasa por P cuya pendiente es
m = lmxa

f (x) f (a)
xa

siempre que exista ese lmite

Como, segn la definicin 2.2 es la misma que la derivada f  (a) ahora se


puede decir que la recta tangente a y = f (x) en (a, f (a)) es la lnea que pasa
por (a, f (a)) cuya pendiente es igual a f  (a) la derivada de f en a As, la
interpretacin geomtrica de una derivada (como se tiene en la definicin 2.2)
es lo que registra la figura ??.

24

f (x) f (a)
f (a + h) f (a)
, b) f  (a) = lmxa
h
xa
= pendiente de tangente en P, =pendiente de tangente en P

f  (a) = lmh0

Al emplear la forma punto-pendiente de la ecuacin de la recta, se llega a:


Si existe f  (a) entonces una ecuacin de la recta tangente a la curva y = f (x)
en el punto (a, f (a)) es la siguiente:
y f (a) = f (a) (x a)
Ejemplo 2.2 Deducir una ecuacin de la tangente a la parbola y = x2 8x+9
en el punto (3, 6).
De acuerdo con el ejemplo anterior se sabe que la derivada de f (x) = x2
8x + 9, en el nmero a es f  (a) = 2a 8 . Entonces la pendiente de la tangente
en (3, 6) es f (3) = 2 (3) 8 = 2. As, la ecuacin de la recta tangente
y (6) = (2) (x 3) o sea y = 2x.
2.0.4.

Reglas de Derivacion.

Una funcin se dice diferenciable en un intervalo si lo es en cada uno de sus


puntos. Las funciones del clculo elemental son diferenciables, excepto posiblemente en puntos aislados, en sus intervalos de definicin.
Si siempre fuera necesario determinar las derivadas directamente a partir
de la definicin, las operaciones seran tediosas y se requerira mucho ingenio
para evaluar algunos lmites. Por fortuna, se han desarrollado varias reglas para
hallar derivadas que obvian ese proceso y simplifican mucho la diferenciacin.
Las reglas siguientes suponen que se trabaja con funciones diferenciables.
Regla 2.1 (Derivada de una Constante) Si f es una funcin constante,
f (x) = c, entonces f  (x) = 0
Este resultado es geomtricamente evidente porque la grfica de una funcin constante es una recta horizontal con pendiente 0; la demostracin formal
tambin es simple.
f  (x) = lmh0

f (x + h) f (x)
cc
= lmh0
= lmh0 0 = 0
h
h

En notacin de Leibniz, se escribe:

d
c=0
dx

Regla 2.2 (Regla de Potencias) Si f (x) = xn en donde n es un entero positivo, f (x) = nxn1
d
En la notacin de Leibniz la regla de potencias se expresa como: dx
(xn ) =
n1
nx
25

Demostracin. La
frmula

xn an = (x a) xn1 + xn2 a + . . . + xan2 + an1

Se comprueba multiplicando el lado derecho, o sumando el segundo factor


como una serie geomtrica. As, si se usa la ecuacin 2.2 para f  (a) y despus
se utiliza la expresin de arriba, se obtiene:
f (x) f (a)
xn an
= lmxa
xa
xa


f  (a) = lmxa xn1 + xn2 a + ... + xan2 + an1

f  (a) = lmxa

f  (a) = an1 + an2 + ... + xaan2 + an1

Demostracin. f (a) = nan1


f  (x) = lmh0

f (x + h) f (x)
(x + h)n xn
= lmh0
h
h

Al desarrollar (x + h)n de acuerdo con el teorema del binomio, se llega a:

f  (x) = lmh0


xn + nxn1 h +


 (x) = lmh0 nxn1 +

n(n1) n2 2
x
h
2

n(n1) n2
x
h + ...
2


+ ... + nxhn1 + hn xn

+ nxhn2 + hn1

f  (x) = nxn1
Por cuanto todos los trminos excepto el primero, tienen a h como factor;
por consiguiente, tienden a 0.
Ejemplo 2.3 Los siguientes ejemplos
Si y = t5 entonces

dy
dt

= 5t4

Du (um ) = mum1
Si y = x20 , entonces y = 20x19
d
dr

r = 6r5
26

d
dx x

d
dx

 1
1
x 2 = 12 x( 2 )1 =

2 x

3 2
x

Sea y =
Entonces

2
2
dy
d  2 
2 5
=
x 3 = x( 3 )1 = x 3
dx
dx
3
3

Derivar la funcin f (t) =

t (1 t) .

Aplicando la regla del producto se tiene:


f  (t) =

d
t dt (1 t) + (1 t) dt
t

f  (t) =

1
t (1) + (1 t) 21 t 2

f  (t) = t +

1t

2 t

13t

2 t

Si se utilizan primero las leyes de los exponentes, despus se podr proceder


directamente, sin recurrir a la regla del producto.

1
3
f (t) = t t t = t 2 t 2
1

f  (t) = 12 t 2 32 t 2 que equivale a la respuesta en la solucin anterior


Las frmulas de diferenciacin que siguen indican que la derivada de una
constante multiplicada por una funcin es igual a la constante multiplicada por
la derivada de la funcin, y que la derivada de una suma (o resta) de funciones
es igual a la suma (o resta) de las derivadas, siempre y cuando las derivadas
existan.
Para definir las siguientes reglas, se supone que c es una constante y que
tanto f (x) como g (x) existen.
Regla 2.3 Si g (x) = cf (x), entonces f  (x) existe y g (x) = cf (x)
Tambin se escribe:

d
df
(cf ) = c
dx
dx

27

Demostracin. g (x) = lmh0

f (x + h) f (x)
h

cf (x + h) cf (x)
h


f (x + h) f (x)
g (x) = lmh0 c
h
= lmh0

g (x) = c lmh0

f (x + h) f (x)
h

g (x) = cf  (x)
Regla 2.4 Si H (x) = f (x) g (x) , entonces H (x) existe, y
H (x) = f  (x) g (x)
d
df
dg
Tambin se escribe:
(f g) =

dx
dx dx
Este resultado se puede ampliar para la suma de cualquier nmero de funciones.
Demostracin. H (x) = lmh0

H (x_h) H (x)
h

[f (x + h) g (x + h)] [f (x) g (x)]


h


f (x + h) f (x) g (x + h) g (x)
H (x) = lmh0

h
h
H (x) = lmh0

H (x) = lmh0

f (x + h) f (x)
g (x + h) g (x)
lmh0
h
h

H (x) = f  (x) g (x)


De manera resumida, las dos reglas anteriores se pueden expresar como:
(cf )  = cf
(f g)  = f g
8

d
Ejemplo 2.4 dx
x + 12x5 4x4 + 10x3 6x + 5
=

d
dx

d
d
d
d
x + 12 dx
x 4 dx
x + 10 dx
x 6 dx
(x) +

= 8x7 + 12 5x4 4 4x3 + 10 3x2 6 (1) + 0

= 8x7 + 60x4 16x3 + 30x2 6

28

d
dx

(5)

Ejemplo 2.5 Si f (x) = x4 x3 + x2 x + 1, deducir la ecuacin de la tangente


a la grfica de f en el punto (1, 1).
La pendiente de f (1) que se calculara como sigue:
f  (x) = 4x3 3x2 + 2x 1
f  (1) = 4 3 + 2 1 = 2
Por tanto, la ecuacin de la tangente en (1, 1) es
y 1 = 2 (x 1) o bien 2x y 1 = 0
A continuacin se necesita una frmula para la derivada de un producto de
dos funciones; es posible sentirse inclinado a suponer, como lo hizo Leibniz hace
tres siglos, que la derivada de un producto es igual al producto de las derivadas;
pero se puede ver que tal hiptesis no es correcta si se considera un ejemplo
en particular. Sean f (x) = x y g (x) = x2 . Entonces, la regla de potencias
establece que f (x) = 1 y g (x) = 2x y se tendra f  g = 2x. Sin embargo,
si se toma h = f g = x3 y, por consiguiente, hl = (f g)  = 3x2 . Entonces
(f g)  =
f  g . Leibniz descubri la frmula correcta, la cual se llama regla
del producto.
Regla 2.5 (Regla del Producto) Si H (x) = f (x) g (x) y tanto f (x) como
g (x) existen a la vez, entonces
H (x) = f (x) g (x) + f  (x) g (x)
Tambin se puede expresar como:

d
dg
df
(f g) = f
+g
dx
dx
dx

y de manera abreviada: (f g)  = f g + fg


Demostracin. H (x) = lmh0
H (x) = lmh0

H (x + h) H (x)
h

f (x + h) g (x + h) f (x) g (x)
h

Para evaluar este lmite, se van a separar las funciones f y g sumando y


restando el trmino f (x + h) g (x) en el numerador
H (x) =
f (x + h) g (x + h) f (x + h) g (x) + f (x + h) g (x) f (x) g (x)
h


g (x + h) g (x)
f (x + h) f (x)
= lmh0 f (x + h)
+ g (x)
h
h

= lmh0

29

= lmh0 f (x + h) lmh0
+ lmh0 g (x) lmh0

g (x + h) g (x)
+
h

f (x + h) f (x)
h

H (x) = f (x) g (x) + f  (x) g (x)



Ejemplo 2.6 Determinar F  (x) si F (x) = 6x3 7x4


Segn la regla del producto:


d 4
4
d 3

F  (x) = 6x3
dx
7x
+
7x
dx
6x
F  (x) = 6x3 28x3 + 7x4 18x2
F  (x) = 168x6 + 126x6 = 294x6
Se podra comprobar la respuesta a este ejemplo en forma directa multiplicando primero los factores:

F (x) = 6x3 7x4 = 42x7 F  (x) = 42 7x6 = 294x6


(x)
Regla 2.6 (Regla del Cociente) Si F (x) = fg(x)
y existen f (x) y g (x) a
g (x) f  (x) f (x) g (x)
la vez, entonces existe F  (x) y F  (x) =
[g (x)]2

En la notacin de Leibniz:

d
dx

f (x)
g (x)

d
d
f (x) f (x) dx
g (x)
g (x) dx

[g (x)]2

 
f
gf fg
y de manera abreviada:
=
g
g2

Demostracin. F  (x) lmh0


F  (x) lmh0

F (x + h) F (x)
= lmh0
h

f (x+h)
g(x+h)

f (x)
g(x)

f (x + h) g (x) f (x) g (x + h)
hg (x + h) g (x)

Para separar f y g en esta expresin se suma y resta el trmino f (x) g (x)


al numerador:
F  (x) lmh0

f (x + h) g (x) f (x) g (x) + f (x) g (x) f (x) g (x + h)


hg (x + h) g (x)

30

F  (x) lmh0
F  (x)

f (x) g(x+h)g(x)
g (x) f (x+h)f(x)
h
h
g (x + h) g (x)

(x)
lmh0 g (x) lmh0 f (x+h)f
lmh0 f (x) lmh0
h
lmh0 g (x + h) lmh0 g (x)

F  (x) =

g(x+h)g(x)
h

g (x) f (x) f (x) g (x)


[g (x)]2

En palabras, la derivada de un cociente es igual al denominador multiplicado


por la derivada del numerador, menos el numerador multiplicado por la derivada
del denominador, y todo ello se divide entre el cuadrado del denominador.
Ejemplo 2.7 Sea y =
Entonces y =
y =

x2 x2
x3 +6

(x3 +6)D(x2 +x2)(x2 +x2)D(x3 +6)


(x3 +6)2

(x3 +6)(2x+1)(x2 +x2)(3x2 )


(x3 +6)2

y =

(2x4 +x3 +12x+6)(3x4 +3x3 6x2 )

y =

x4 2x3 +6x2 +12x+6


(x3 +6)2

(x3 +6)2

Tambin se puede emplear la regla del cociente para ampliar la regla de


potencias al caso en que el exponente es un entero negativo.
Regla 2.7 Si f (x) = xn , donde n es un entero positivo, f  (x) = nxn1
1

d
d
Demostracin. f (x) = dx
(xn ) = dx
xn
f  (x) =

f  (x) =

xn D(1)1D(xn )
(xn )2

nxn1
x2n

= nxn12n = nxn1

Ejemplo 2.8 Si y =
Entonces,
Ejemplo 2.9

dy
dx

d
dt

d
dx

t3

1
x

x
= x2 = x12

d
= 6 dt
t
= 6 (3) t4 = 18
t4
31

Ejemplo 2.10 Derivar la funcin f (t) =


ducto se tiene:
f  (t) =

d
t dt (1 t) + (1 t) dt
t

f  (t) =

1
t (1) + (1 t) 12 t 2

f  (t) = t +

1t

2 t

t (1 t) Aplicando la regla del pro-

13t

2 t

Si se utilizan primero las leyes de los exponentes, despus se podr proceder


directamente, sin recurrir a la regla del producto.
f (t) =

1
3
t t t = t2 t2
1

f  (t) = 12 t 2 32 t 2 que equivale a la respuesta en la solucin anterior


Ejemplo 2.11 En qu puntos de la hiprbola xy = 12 la tangente es paralela a
la recta 3x + y = 0?
Como xy = 12 se puede escribir en la forma y = 12
x
dy
dx

d
= 12 dy
x
= 12 x2 =

12
x2

Sea a la abscisa de uno de los puntos en cuestin. Entonces, la pendiente de


la tangente en ese punto es 12
a2 . Esa tangente ser paralela a la recta 3x +y = 0
o y = 3x, si tiene la misma pendiente, que es 3. Al igualar las pendientes se
llega a a122 = 3 , o sea a2 = 4 , o sea a = 2 Por consiguiente, los puntos
buscados son(2, 6) y (2, 6).
Regla 2.8 (Regla de la Cadena) Sean f, g dos funciones. Si existen a la vez
las derivadas g y f y si H = f g es la funcin compuesta definida por
H (x) = f (g (x)) , entonces H(x) existe y est dada por el producto H (x) =
f (g (x)) g (x)
En la notacin de Leibnitz, si y = f (u) y u = g(x) son dos funciones
diferenciables, entonces
dy
dx

dy du
du dx

Demostracin. Se desarrollar mediante el examen de dos casos.


du
dx = 0
Aqu u = 0 si x es suficientemente pequea (porque si no du/dx sera
0)pero en este caso se puede dividir entre y multiplicar por u en

32

1.

dy
dx

y
x

= lmx0

por tanto
dy
dx

y u
u x

= lmx0

y
= lmx0 u
lmx0
porque g es contnua
dy
dx

2.

dy
dx

= lmu0

dy
dx

du
dx

=0

y
u

lmx0

u
x

u 0 cuando x 0

u
x

dy du
du dx

Aqu u = 0 para algunos casos de x, y u = 0 para otros valores


de x. Si se tiene x 0 pasando por valores tales que u = 0 ,
podemos escribir
y
x

y
u

u
x

dy
du

du
dx

dy
du

0=0

Si x 0 pasando por valores tales que u = 0 , entonces\

y = f (u + u) f (u) = f (u) f (u) = 0


y as

y
x

=0

En ambos casos
y entonces

dy
dx

y
x

0,

=0=

dy du
du dx

En estas circunstancias se comprueba la regla de la cadena, porque ambos


lados son 0.
2.0.5.

Derivacin Parcial

Los casos expuestos anteriormente se aplican para funciones de una sola


variable. Cuando se trabaja con funciones de varias variables f (x, y, z, ...) el
proceso es similar, teniendo en cuenta que se puede derivar de manera separada
la funcin f con respecto a cada una de sus variables independientes. Para
simplificar la presentacin, se considerar en las lneas siguientes el caso de una
funcin de dos variables, pero cada caso se puede llevar por analoga a funciones
de tres o ms variables.
33

Definicin 2.3 Sea z = f (x, y) una funcin de dos variables independientes


x, y. Entonces, las derivadas parciales de z son las funciones fx y fy que se
definen como:
f (x + h, y) f (x, y)
h0
h
f (x, y + h) f (x, y)
fy (x, y) = lm
h0
h

fx (x, y) =

lm

Donde fx se denomina la primera derivada parcial de f(x, y) con respecto a


x, y fy se denomina la primera derivada parcial de f(x, y) con respecto a y.
Por tanto, fx permite calcular la variacin de f a medida que cambia x, con
todas las dems variables fijas, y equivalentemente para fy .
Notacin 2.2 Sea z = f(x, y). Entonces, las derivadas parciales de esta funcin con respecto a x y con respecto a y son:
f

=
f (x, y) =
x
x

f
=
f(x, y) =
fy (x, y) = fy =
y
y

fx (x, y) = fx =

34

z
= f1 = D1 f = Dx f
x
z
= f2 = D2 f = Dy f
y

3.

Derivacin Matricial

El clculo matricial es en gran manera una ampliacin de la notacin tradicional del clculo univariado, que permite una notacin ms compacta a la hora
de realizar clculo multivariado, en el cual las funciones pueden ser de un tipo
ms amplio, ya que la variable puede ser vectorial o matricial. En general, el
clculo matricial trabaja sobre espacios de matrices M (m, n) de tamao m n
definidas sobre k = R.
Antes de abordar el proceso de la derivacin matricial dada la complejidad
tcnica del problema, es preciso incorporar algunas nuevas operaciones entre
matrices que completan el clculo matricial tradicional. Por ello, se definen las
matrices de permutacin y los conceptos de producto Kronecker y vectorizacin
junto con sus propiedades.
Primero se exponen nuevos tipos de matrices que son de especial inters para
desarrollos del clculo matricial.
Nota 3.1 Es importante resaltar en todo caso, que en este escrito se identificarn explcitamente los espacios de matrices Mpn con Rpn y Mmq con Rmq ,
respectivamente.

3.1.

Funciones Matriciales

Dentro de esta seccin se presentarn los diversos casos de funciones de


acuerdo con su variable, hasta llegar al caso general de las funciones de variable
matricial.
Para ello, sea Mmn el espacio vectorial de las matrices de tamao m n, en
el cual se definen las matrices X, Y. Dentro del espacio vectorial M1n se definen
los vectores fila A, B. Adems se definen los escalares x, y k. Se define adems
una funcin f.
3.1.1.

Funciones de Variable Escalar

Sea Mmn el espacio vectorial de las matrices de tamao m n, y X, Y


matrices de Mmn . Sea M1n el espacio vectorial de los vectores fila de tamao n,
y sean A, B vectores de M1n . Sean x, y k escalares reales. Entonces se pueden
dar los siguientes casos:
Caso 3.1 f : R R
f (x) = y
Este es el caso usual, cuya derivacin y propiedades de la derivacin se ha
expuesto en la seccin 2.
Ejemplo 3.1 f (x) = x + 1

35

Caso 3.2 f : R M1n


f (x) = A
Es el caso de una funcin de variable escalar, cuya salida es un vector.
Ejemplo 3.2 f (x) = (2x, x2 )
Caso 3.3 f : R Mmn
f (x) = Y

Ejemplo 3.3 f (x) =

3.1.2.

1
x
x + 1 x2

Funciones de Variable Vectorial

Sea Mmn el espacio vectorial de las matrices de tamao m n, y X, Y


matrices de Mmn . Sea M1n el espacio vectorial de los vectores fila de tamao n,
y sean A, B vectores de M1n . Sean x, y k escalares reales. Entonces se pueden
dar los siguientes casos:
Caso 3.4 f : M1n R
f (A) = y
Caso 3.5 f : M1n M1n
f (A) = B
Es el caso de una funcin de variable vectorial, cuya salida es un vector.
Caso 3.6 f : M1n Mmn
f (A) = Y

36

3.1.3.

Funciones de Variable Matricial

Sea Mmn el espacio vectorial de las matrices de tamao m n, y X, Y


matrices de Mmn . Sea M1n el espacio vectorial de los vectores fila de tamao n,
y sean A, B vectores de M1n . Sean x, y k escalares reales. Entonces se pueden
dar los siguientes casos:
Caso 3.7 f : Mmn R
f (X) = y
Caso 3.8 f : Mmn M1n
f (X) = B
Es el caso de una funcin de variable vectorial, cuya salida es un vector.
Caso 3.9 f : Mmn Mmn
f (X) = Y

3.2.

Otras Matrices Especiales

Se definen las siguientes matrices:


Definicin 3.1 (Particin de una Matriz) Una matriz es particionada, si
es subdividida en matrices ms pequeas llamadas submatrices o bloques mediante lineas horizontales y verticales que demarcan filas y columnas completas:

a11
a21
..
.

a12

..
.

..
.

a1n
a2n
..
.

am1

am2

amn

Una matriz Amn se puede particionar de 2m+n2 1 maneras distintas,


con al menos una lnea de particin.
Definicin 3.2 (Matriz de Bloques) Una matriz a la que se ha realizado
una particin se llama matriz de bloques o Matriz Particionada..
Ejemplo 3.4 Dada la matriz A34 ,, se le pueden realizar 25 1 = 31 particiones diferentes. Una de ellas puede ser:



a11 a12 a13 a14
B C
A34 = a21 a22 a23 a24 =
D E
a31 a32 a33 a34
37

Donde a las submatrices o bloques se les ha denominado B, C, D, E y corresponden a:



a
B = 11
a21

a12
a22


 

a
a13
, C = 14 , D = a31
a24
a23

a32




a33 , E = a34

Definicin 3.3 (Matriz de Permutacin) Una matriz de permutacin P es


una matriz cuadrada de rden n, donde todos los elementos son 0, a excepcin
de uno cualquiera por cada fila y columna que tiene el valor 1
Existen n! matrices de permutacin de tamao n n. Las matrices de conmutacin de orden n forman un grupo [Her86], cuyo elemento neutro es la
matriz identidad de orden n, mientras que el elemento inverso es la transpuesta
de la matriz dada.
Ejemplo 3.5 Para n = 3 se tienen las siguientes matrices de permutacin:

1 0 0
1 0 0
0 1 0
0 1 0 0 0 1 1 0 0
0 0 1
0 1 0
0 0 1

0 1 0
0 0 1
0 0 1
0 0 1 1 0 0 0 1 0
1 0 0
0 1 0
1 0 0

Se les llama matrices de permutacin por cuanto al multiplicar por P otra


matriz conforme A, da como resultado una matriz con los mismos elementos
de la matriz original A, pero con sus posiciones permutadas de acuerdo con la
ubicacin de los elementos con valor 1 de P.
Definicin 3.4 (Matrices de Permutacin Par e Impar) A una matriz de
permutacin P que tiene determinante igual a 1 se le denomina matriz de permutacin par, y a la que tiene determinante igual a 1 se le denomina matriz de
conmutacin impar. La mitad de las matrices de permutacin de tamao n n
son matrices de permutacin pares, y la otra mitad son impares.
Definicin 3.5 (Matrices de Permutacin en Bloques) Una matriz de permutacin por bloques de orden mn, que se denota por Pm,n , es una matriz
cuadrada de orden mn, dividida en n m bloques o cajas cada una de ellas
de orden m n, de manera que el bloque (i, j) , i = 1, ..., n, j = 1, ..., m tiene
todos sus elementos nulos salvo el que est situado en su j-sima fila e i-sima
columna que es igual a la unidad
Esta definicin muestra que tanto el primer elemento como el ltimo elemento de una matriz de permutacin por bloques es 1.
38

Proposicin 3.1 (Propiedades Matrices de Permutacin por Bloques)


Las matrices de permutacin en bloques cumplen las siguientes propiedades:
1. Pm,1 = P1,m = Im

2. Pm,n
= Pn,m

3. Pm,n Pn,m = Inm


4. La matriz Pm,n es ortogonal
Demostracin. Se va a demostrar la propiedad 4; la demostracin de las
dems propiedades se hacen de manera anloga. Las demostraciones se pueden
consultar en [Bar98].

Pm,n
= Pn,m entonces de (3)., resulta

Pm,n Pn,m = Pn,m Pm,n
= In,m
1

de donde se deduce que Pm,n es ortogonal ya que Pm,n
= Pm,n

3.3.

Producto de Kronecker

En ocasiones el producto de matrices que se asocia a la composicin de


aplicaciones lineales es insuficiente. El producto de Kronecker que a continuacin
se define, en cierto sentido lo generaliza.
Definicin 3.6 (Producto de Kronecker) Sea A una matriz mn y B una
una matriz p q. El producto de Kronecker de la matriz A por la matriz B,
denotado como A B, es la matriz bloque C de tamao mp nq definida como:

a11 B a1n B

..
..
C = A B = ...
.
.
am1 B

amn B

y desarrollando las operaciones implcitas en cada bloque aij B, se tiene para


C = A B que

a11 b11 a11 b12 a11 b1q a1n b11 a1n b12 a1n b1q
a11 b21 a11 b21 a11 b2q a1n b21 a1n b22 a1n b2q

..
..
..
..
..
..
..
..
.
.
.
.
.
.
.
.

a11 bp1 a11 bp2 a11 bpq a1n bp1 a1n bp2 a1n bpq

..
..
..
..
..
..
..
.

.
.
.
.
.
.

C =
..
.
.
.
.
.
.
..
..
..
..
..
..
.

am1 b11 am1 b12 am1 b1q amn b11 amn b12 amn b1q

am1 b21 am1 b22 am1 b2q amn b22 am1 b21 amn b2q

.
..
..
..
..
..
..
..
..
.
.
.
.
.
.
.
am1 bp1

am1 bp2

am1 bpq

amn bp1

amn bp2

amn bpq

El producto de Kronecker tambin recibe el nombre de Producto Tensorial


o Producto Directo.
39

Se llama producto de Kronecker, denotado con , a una operacin sobre


dos matrices de tamao arbitrario que da como resultado una matriz bloque. El
producto de Kronecker no debe confundirse con el producto de matrices habitual, que es una operacin totalmente diferente. Debe su nombre al matemtico
alemn Leopold Kronecker.

a11
Ejemplo 3.6 a21
a31

a11 b11
a11 b21

a21 b11

a21 b21

a31 b11
a31 b21

a11 b12
a11 b22
a21 b12
a21 b22
a31 b12
a31 b22


a12
b
a22 11
b21
a32
a11 b13
a11 b23
a21 b13
a21 b23
a31 b13
a31 b23

b12
b22

a12 b11
a12 b21
a22 b11
a22 b21
a32 b11
a32 b21

a12 b12
a12 b22
a22 b12
a22 b22
a32 b12
a32 b22


 

1 2
5 6
Ejemplo 3.7

=
3 4
7 8

1,5
1,7

3,5
3,7

1,6
1,8
3,6
3,8

2,5
2,7
4,5
4,7


2,6
5 6 10

2,8
= 7 8 14
4,6 15 18 20
4,8
21 24 28


 

5 6
1 2
Ejemplo 3.8

=
7 8
3 4

5,1
5,3

7,1
7,3

5,2
5,4
7,2
7,4

6,1
6,3
8,1
8,3


b13
=
b23


6,2
5
15
6,4
=
8,2 7
8,4
21

a12 b13
a12 b23

a22 b13

a22 b23

a32 b13
a32 b23

12
16

24
32

10 6 12
20 18 24

14 8 16
28 24 32

Con el ejemplo 3.8 se muestra que el producto de Kronecker no es conmutativo. En general, AB y B A son matrices diferentes. Sin embargo disfruta de
otras propiedades, algunas de las cuales se recogen en la siguiente proposicin.
Proposicin 3.2 (Propiedades del Producto Kronecker) Sean, A1 , A2
Mmn y B1 , B2 Mpq . Para el producto Kronecker se verifican las siguientes
propiedades:

40

1. (A1 B1 ) + (A2 B1 ) = (A1 + A2 ) B1


(A1 B1 ) + (A1 B2 ) = A1 (B1 + B2 ) .
2. Dadas Amn , Bpq y R, se verifica (A B) = (A B) = (A B) .
3. Dadas las matrices Amn , Bpq , Crs , se verifica que [(A B) C] =
[A (B C)] .
4. Dadas A1 Mmn , A2 Mmp , B1 Mqr , B2 Mrs , si se consideran
las matrices
C1 = A1 B1 y C2 = A2 B2 de ordenes mqnr y nrps respectivamente,
entonces
C1 C2 = (A1 B1 ) (A2 B2 ) = A1 A2 B1 B2 .
5. Dadas A y B matrices de ordenes m n y p q, respectivamente, en
general A B = B A.
Esto quiere decir, el producto de Kronecker no es conmutativo, si bien se
verifica que Pm,p (A B) Pq,n = (B A)
6. Si A Mn y B Mm son dos matrices invertibles, entonces se verifica
que A B es invertible y su inversa
(A B)1 = A1 B 1 .

7. Supuestas A y B dos matrices cualesquiera, se verifica que (A B)  =


A B.
8. Dadas A y B dos matrices cuadradas de rdenes m y n, respectivamente,
se verifica que tr (A B) = tr (A) tr (B) .
9. Sean, A Mnn y B Mmm entonces se verifica que |A B| =
|Am | |B n | .
10. Dadas A y B matrices cualesquiera, se tiene que rg (A B) = rg (A)
rg (B) .

41

11. Si A es una matriz m n particionada en cuatro bloques Aij , i, j = 1, 2


de dimensiones mi nj , i, j = 1, 2 con m1 + m2 = m y n1 + n2 = n y B
es una matriz de orden p q, entonces

A11 B
AB =
A21 B

A12 B
A22 B

Se presenta ahora la demostracin de algunas de las anteriores


proposiciones.

Demostracin. Si para k = 1, 2 se tiene Ak = akij , i = 1, ..., m,


j = 1, ..., n, Bk = bkij , i = 1, ..., p, j = 1, ..., q entonces como


A1 B1 = a1ij B1 ij ,

A2 B1 = a2ij B1 ij
resulta que

(A1 B1 ) + (A2 B1 ) =

aij + a2ij B1 ij = (A1 + A2 ) B1

Anlogamente se comprueba la otra igualdad.


Demostracin. Dado que

a11 B a11 B
a11 B a11 B

AB = .
.. ,
..
.
a11 B a11 B

por definicin
de Kronecker resulta que

de matriz traspuesta y producto


a11 B a21 B am1 B

.. ,
..
(A B)  = ...
.
.
a1n B a2n B

amn B

tal como se quera probar.

Nota 3.2 Si se comparan las propiedades del producto ordinario de matrices y


del producto Kronecker se tiene:
Producto Matricial
(AB)  = BA
(AB)1 = B 1 A1
tr (AB) = tr (A) tr (B)
|AB| = |A| |B|
rg (AB) mn {rg (A) , rg (A)}

Producto Kronecker
(A B)  = A B
(A B)1 = A1 B 1
tr (A B) = tr (A) tr (B)
|A B| = |Am | |B n |
rg (A B) = rg (A) rg (B)
42

Ejemplo 3.9 Las matrices:



1 1 1
1 1
A=
B = 1 0 1
2 1
0 2 4

son tales que tr (A) = 2, tr (B) = 3; rg (A) = 2, rg (B) = 3; |A| = 3, |B| = 4

Entonces para

1
1

0
AB =
2

2
0

la matriz:

1 1
1 1 1
0 1 1 0
1

2 4
0 2 4

2 2 1 1
1

0 2 1
0 1
4 8
0
2
4

Sin necesidad de trabajar con ella directamente, en virtud de las propiedades


del producto de Kronecker se pueden calcular los siguientes valores:
tr (A B) = tr (A) tr (B) = 6
rg (A B) = rg (A) rgB = 6
|A B| = |A|3 |B|2 = 32 (4)2 = 432
Adems como rg (A B) = 6, la matriz A B es invertible, siendo su
inversa, de acuerdo con la propiedad 6:
(A B)1 = A1 B 1
por tanto, como:
A1 =

1
3
23

1
3
1
3

y B 1

se tiene que:

(A B)1

1
6
1
3
1
6
=
1
3
2
3
1
3

1
6
1
3
16
13
23
1
3

1
2
= 1
12
1
12

0
1
12
61

0
61

1
2

1
12
61

1
4

0
1
4

1
6
1
3
16
1
6
1
3
16

1
3
61
16
1
3
16

43

1
12

12
1
12

0
1
12

Un mbito en el que puede resultar til expresar una matriz como un vector
columna es el de la derivacin de matrices o expresiones matriciales. Por ello, a
continuacin se define lo que se entiende por vectorizacin de una matriz y se
analizan algunas de sus propiedades.
Definicin 3.7 (Vectorizacin de una Matriz) La vectorizacin de una matriz es una transformacin lineal que convierte una matriz en un vector columna.
Dada una matriz A de orden mn, la vectorizacin de A es el vector columna de
mn elementos que se obtiene escribiendo las columnas de A una a continuacin
de otra y se denota por vec (A) . Entonces:


a1
a1j
a2
a2j


vec (A) = . , con a1 = . , j = 1, ..., n.
..
..
an

anj

Ejemplo 3.10 Dada la matriz

1
5

3

2
1 2 1

0
A = 5 1
se tiene que vec (A) =
1

3
0
2
0
1

0
2

Proposicin 3.3 (Propiedades de la Vectorizacin)


de matrices verifica las siguientes propiedades:

La

vectorizacin

1. Sean A, B Mmn dos matrices cualesquiera, y sea R. Se verifica las


siguientes propiedades: vec (A + B) = vec (A) + vec (B)
vec (A) = vec (A)
2. Dadas las matrices Amn y Bnq se verifica que:
vec (AB) = (B Im ) vec (A) = (Ip A) vec (B) = (B A) vec (In )
3. Dada la matriz A de orden m n, se verifica que:
vec (A) = (In A) vec (In ) = (A Im ) vec (Im )
44

4. Dadas las matrices Amn , Bnp y Cpq , se verifica que:


vec (ABC) = (C A) vec (B) = (Iq AB) vec (C) = (CB Im ) vec (A)
5. Dada la matriz A de orden m n, se verifica:

vec (A) = Pm,n vec (A) , vec (A) = Pn,m vec (A)

6. Dada la matriz A de orden m n, se verifica:


[(vecIn )  Im ] [In vec (A)] = A

[vec (A)  Im ] [In vec (Im )] = A


[Im (vec (A)) ] [vec (Im ) In ] = A. [Im (vec (In )) ] [vec (A) In ] =
A
7. Dadas las matrices A y B de orden m n y C, D de orden m p, se tiene
que:
vec [(A + B) (C + D)] = [(Ip A) + (Ip B)] [vec (C) + vec (D)]
vec [(A + B) (C + D)] = [(C Im ) + (D Im )] [vec (A) + vec (B)]
8. Sean las matrices Amn y Bnm , entonces se tiene que
tr (AB) = (vec (A)) vec (B) = (vec (B)) vec (A)
En particular si n = m y B = In :
tr (A) = (vec (A)) vec (In ) = (vec (In )) vec (A)
Demostracin. La j-sima columna del producto AB es Abj , entonces por
definicin de vectorizacin y el producto de matrices particionadas de tiene


Ab1
A 0mXn
Ab2 0
A


vecAB = . = .
..
.. ..
.
Abp
0
0

..
.

0
0

..
.


b1
b2

..
.
bp

Ahora bien, teniendo en cuenta el producto Kronecker de matrices, esto se


puede expresar como
45

vec (AB) = (Ip A) vec (B)


Por otra parte, la j-sima columna de AB es

n


i=1

ai bij

pues la componenete k-sima de este vector 


coincide con el elemento de la
k-sima fila y la j-sima columna de AB que es ni=1 aki bij
Por tanto:


n

ai bi1

i=1

n

B 0pXn


ai bi2 0
B


vec (AB) = i=1
= .
..

..
.
.

0
0


n
ai bip

0
0

..
.

B

a1
a2

..
.

an

i=1

y por definicin de producto de Kronecker y vectorizacin, resulta:


vec (AB) = (B I) vec (A)
Demostracin. Como A = Im A por la proposicin 3.3,2:
vec (A) = vec (Im A) = (A Im ) vec (Im )

Anlogamente, como A = AIn , de nuevo por la proposicin 3.3,2:


vec (A) = vec (AIn ) = (In A) vec (In )
Demostracin. De acuerdo con la proposicin 3.3,2 se verifica que:
vec (ABC) = vec [(AB) C] = (Iq AB) vec (C)
vec (ABC) = vec [(AB) C] = ((BC)  Im ) vec (A)
vec (ABC) = vec [(AB) C] = (CB Im ) vec (A)
Adems, como en virtud de la proposicin 3.3, 1, se tiene tambin que
vec (ABC) = vec [(AB) C] = (C AB) vec (Ip )
entonces por la proposicin 3.3, 4 del producto de Kronecker,
(C AB) = (C A) (Ip B)
46

y, teniendo en cuenta la proposicin 3.3, 3, se obtiene finalmente


vec (ABC) = (C A) (Ip B) vec (Ip ) = (C A) vec (B)
Las proposicines 3.3, 2 y 8 pueden generalizarse para el producto de un
nmero finito de matrices. As, para matrices A1 , A2 , A3 y A4 de dimensiones
adecuadas, se tiene que:
vec (A1 A2 A3 A4 ) = (I A1 A2 A3 ) vec (A4 )
vec (A1 A2 A3 A4 ) = (A4 A1 A2 ) vec (A3 )
vec (A1 A2 A3 A4 ) = (A4 A3 A1 ) vec (A2 )
vec (A1 A2 A3 A4 ) = (A4 A3 A2 I) vec (A1 )
y
tr (A1 A2 A3 ) = (vec (A1 ))  (A3 I) vec (A2 )
tr (A1 A2 A3 ) = (vec (A1 ))  (I A2 ) vec (A3 )
tr (A1 A2 A3 ) = (vec (A2 ))  (I A3 ) vec (A1 )
tr (A1 A2 A3 ) = (vec (A2 ))  (A1 I) vec (A3 )
tr (A1 A2 A3 ) = (vec (A3 ))  (A2 I) vec (A1 )
tr (A1 A2 A3 ) = (vec (A3 ))  (I A1 ) vec (A2 )
que se pueden demostrar fcilmente, pues son consecuencia de la vectorizacin y traza del producto de dos matrices y de las propiedades del producto de
Kronecker. Resultados anlogos existen para el producto de un nmero finito
de matrices.
En algunas ocasiones, cuando se vectoriza una matriz, conviene hacerlo a
partir de sus filas.
Definicin 3.8 (Vectorizacin por Filas) Dada A una matriz de orden m
n, se define:

a1
a2

vec (A) = . con ai (ai1 , ..., ain ) , i = 1, ..., m


..

am

Es obvio y fcil de verificar que vec (A) = vec (A) . Por tanto, pueden enunciarse las propiedades de vec (A) . Por ejemplo:
vec (AB) = vec ((AB) ) = vec (BA) = [(A I) vec (B)]
vec (AB) = (A I) vec (B)
y
47

tr (AB) = (vec (A)) vec (B) = (vec (A)) vec (B)


tr (AB) = (vec (A))  vec (B)
Definicin 3.9 (vec)
 Dada una matriz simtrica A de orden n, puede definirse
una vectorizacin diferente de las ya indicadas de manera que en dicha vectorizacin, solo se recojan los elementos distintos de la matriz A. As, se denota
n (n + 1)
por vec
 (A) el vector columna de orden r =
dado por:
2

a11
a12

a22

a13

a23

a33

vec
 (A) = .

..

a1n

a2n

..
.
ann

En vec
 (A) se incluyen los elementos situados por encima de la diagonal
principal de cada una de las columnas de A. Por otra parte, la relacin entre
esta vectorizacin y la indicada en la defincin 3.7 se establece por la igualdad
vec
 (A) = Qvec (A) , (donde Q es la matriz diagonal por bloques de orden rn):

Q1

Q=

Q2

..

.
Qn

donde i = 1, ..., n, y el bloque Qi una matriz de orden i n dada por

1 0
0 1

Qi = . .
.. ..
0 0

0
0
....
..
1

i-sima columna

48

0
0

....
..
0

Nota 3.3 La vectorizacin se utiliza en conjunto con el producto Kronecker


para expresar la multiplicacin de matrices como una transformacin lineal sobre
las matrices. Por ejemplo, si A, B, X son matrices conformes:
vec(AXB) = (B T A)vec(X)

3.4.

Frmulas de Derivacin Matricial.

La derivada de una funcin matricial de variable matricial no difiere sustancialmente del concepto de derivada habitual. La diferencia y dificultad se
presenta cuando es preciso manipular estas derivadas matriciales, debido a su
dimensin y la ubicacin de sus elementos [Bar98].
En esta seccin se indican las definiciones de funciones escalares, vectoriales
y matriciales de variable escalar, vectorial o matricial, adoptando un criterio
comn para la colocacin de los distintos elementos que componen cada una
de estas derivadas. En las definiciones de las derivadas de funciones escalar o
vectorial, bien sean de variable escalar o vectorial, existe casi unanimidad en la
literatura en cuanto a su ordenacin.
Se acostumbra usar la variable en negrilla cuando se trata de una variable de
tipo vectorial o matricial; sin embargo, en las siguientes secciones no se utilizar
esta notacin ya que el contexto har claridad. As, si x Rn e y Rm , entonces
se puede observar que una notacin bastante usual se expone as:


y
y
y
=
...
, que es el caso de
x
x1 xn
las funciones escalares de variable vectorial.

Si y = y (x1 , ..., xn ) su derivada es

y1 (x)
y1 (x)
x
y .

Si y = y (x) = ... su derivada es


= .. , . que es el caso
x
ym (x)
yn (x)
x
de las funciones vectoriales de variable escalar.

y1

y1 (x1 , ..., xn )
x
y . 1

.
..
Si y = y (x) =
= ..
su derivada es
x
ym
yn (x1 , ..., xn )

x1
que es el caso de las funciones matriciales de variable vectorial

y1
xn

.. ,
.

ym
xn

Cuando se ha de calcular el gradiente de y = f (x) , se respeta la ordenacin


del vector fila x = (x1 , ..., xn ) de las variables explicativas; luego parece lgico
que este mismo criterio de ubicacin de elementos se adopte para definir la
derivada de una funcin escalar de variable matricial.[Bar98]. Siguiendo este
acuerdo se exponen las siguientes definiciones.

49

Definicin 3.10 Sea y = y (x) una funcin real de variable vectorial, es decir,
y es una funcin definida de Rn en R. La derivada de y respecto de x es el


y (x)
y (x)
y (x)
vector fila
=
, ...,
x
x1
xn
Se adopta esta notacin ya que se est derivando un escalar y (x) con respecto
y (x)
a un vector fila x = (x1 , ..., xn ). Obsrvese que
es el vector gradiente de
x
la funcin y (x) .
Si se precisa que el vector de variables x respecto a las que se efecta la
derivada de y se toma como columna, entonces se denotar por


y (x)
y (x)
=

x
x
es decir, este vector coincide con el traspuesto del vector gradiente de y.
Definicin 3.11 Sea y = y (x) una funcin vectorial de variable real, es decir

y1 (x)

y (x) = ...
yn (x)

es una funcin definida de R en Rm . La derivada de y respecto del escalar


x es el vector columna
y1 (x)
y (x)
=
x

..
.

ym (x)
x

Definicin 3.12 Sea y = y (x) una funcin vectorial de variable vectorial, es


decir, una funcin definida de Rn en Rm . Como

y1 (x)

y (x) = ... entonces:


ym (x)

y(x)
x

y1 (x)

..
.

ym (x)
x

1 (x)
x1

..
.

ym (x)
x1

y1 (x)
xn

ym (x)
xn|

50

..
.

Obsrvese que esta matriz de orden m n es el Jacobiano de la funcin y(x),


ya que cada una de sus filas es el gradiente de las funciones y1 (x) , ..., yn (x) ,
que son las componentes de y(x).
Definicin 3.13 Sea y = y (X) una funcin real de variable matricial, es decir,
la funcin y est definida de Mpn en R. La derivada de y respecto de la matriz
X de orden p n, es la matriz del mismo orden dada por

y (X)
=

y(X)
x11

y(X)
x1n

y(X)
xp1

y(X)
xpn

..
.

..
.

y (X)
xij

i=1,...,p
j=1,...,n

Definicin 3.14 Sea Y = Y (x) una funcin matricial de variable escalar, es


decir la funcin Y est definida de R en Mmq . La derivada de Y = Y (x) respecto
de la variable x est dada por la matriz de orden m q
y11 (x)

Y (x)
=
x

..
.

ym1 (x)
x

y1q (x)
x

ymq (x)
x

yij (x)
x

i=1,...,m
j=1,...,q

Definicin 3.15 Sea y = y(X) una funcin vectorial de variable matricial


definida de Mpn en R. La derivada de y(X) respecto de la matriz A de orden
p n es la matriz de orden pm n dada por
y1 (X)

y (X)
=
X

..
.

ym (X)
X

ya que, de acuerdo con la definicin 3.13, para cada k = 1, ..., m


yk (X)
=
X

yk (X)
xij

i=1,...,p
j=1,...,n

Definicin 3.16 Sea Y = Y (x) una funcin matricial de variable vectorial


definida de Rn en Mmq . La derivada de Y (x) respecto del vector x es la matriz
de orden m qn cuya expresin es
y11 (x)

Y (x)
=
x

..
.

ym1 (x)
x

y1q (x)
x

ymq (x)
x

..
.

51

donde, teniendo en cuenta la definicin 3.10,




yij (x)
yij (x)
yij (x)
=
, ...,
x
x1
xn
con i = 1, ..., m, j = 1, ..., q
Definicin 3.17 (Derivada Funcion Matricial de Variable Matricial)
Sea Y = Y (X) una funcin matricial de variable matricial, es decir, definida
de Mpn en Mmq . La derivada de Y (X) respecto de la matriz X est dada por
la matriz de orden pm nq
y11 (X)

Y (X)
=
X

..
.

ym1 (X)
X

y1q (X)
X

ymq (X)
X

..
.

ya que, teniendo en cuenta la definicin 3.14, para cada i 1, ..., m, j =


1, ..., q


yij (X)
yij (X)
=
k=1,...,p
X
xk
=1,...,n

La definicin 3.17 hace referencia al caso general que se puede tratar en el


caso de la derivacin matricial. Este caso se convierte en los casos particulares de
las definiciones 3.10 hasta la definicin 3.16 si se dan las siguientes condiciones:
1. p = q = m = q se obtiene la definicin 3.10
2. p = n = q = 1 se obtiene la definicin 3.11
3. p = q = 1 se obtiene la definicin 3.12
4. q = m = 1 se obtiene la definicin 3.13
5. p = n = 1 se obtiene la definicin 3.14
6. q = 1 se obtiene la definicin 3.15
7. p = 1 se obtiene la definicin 3.16
Existen mltiples formas de dar la expresin de derivadas matriciales, ya
que pueden considerarse distintas ordenaciones de los elementos de la matriz
final que se obtiene al derivar una matriz respecto de otra. Algunas derivadas
matriciales se pueden definir a travs de la vectorizacin de la matriz de variables
dependientes e incluso de la de variables independientes.

52

1. En el presente trabajo, empleando el concepto de vectorizacin de una matriz, pueden obtenerse las siguientes expresiones alternativas de las definiciones 3.13, 3.14, 3.15, 3.16 y 3.17 en trminos de vectorizacin:
y(X)
x

.11
..

y(X)
xp1



y (X)
y (X)

= ... = vec

vec(X)
(X)
y(X)
x1n
.
.
.
y(X)
xpn

y11 (x)
x11

.
..

y1m (x)
x


vecY (x)
..
= vec Y (x)

=
.
x
x
y1q (x)

x
..
.
ymq (x)
x

y (X)
=
vec(X)

siendo
nativa.

1 (X)
vec(X)

..
.

ym (X)
vec(X)

yi (X)
para i = 1, ..., m lo indicado en la primera expresin altervec(X)

y (X)
de orden mnp, teniendo en cuenta propiedades
vec(X)
del producto de Kronecker y de la vectorizacin, se puede expresar tambin
como
El vector columna

y (X)
=
vec(X)


y (X)
Ip (vecIp ) ,siendo
X

y (X)
=
X

y (X) 
X

53

.

Ntese que en este caso

y (X)
= vec
vec(X)

y11 (x)

11 (x)
x1

x
.
..
..
.


ym1 (x)
ym1 (x)

x x1
vecY (x)
..
.
=
=

..
x
y1q (x)
y1q (x)
x
x1

.. ..
. .
ymq (x)
x

Se observa que

ymq (x)
x1

y (X)
X

y11 (x)
xn

ym1 (x)

xn
..
.

y1q (x)
xn
..

.
..
.

ymq (x)
xn

vec (Y (x))
es una matriz de orden mq n, mientras que
x

Y (x)
es de orden m qn. Entre estas dos matrices puede establecerse la siguix
ente relacin:


Y (x)
vec (Y (x))
= Iq
(vec (Iq ) In )
x
x
Mediante las definiciones anteriores y las expresiones en trminos de la vectorizacin y las propiedades del producto de Kronecker se obtienen las siguientes
Y (X)
formas alternativas para el clculo de
:
X
y11 (X)
X

..

ym1 (X)
X 


vec (Y (X))
..
= Iq Y (X) (vec (Iq ) In )

=
.

X
X
y1q (X)
X

..

.
ymq (X)
X

Y (X)

vecX

11 (X)
vec(X)

..
.

ym1 (X)
vec(X)

y1q (X)
vec(X)

ymq (X)
vec(X)

..
.

54


Y (X)
Ip (Iq vec (Ip ))
X

vec (Y (X))
= vec
vec(X)

Y (X)
vecX



Y (X)
= Iq
Ip (vec (Iq ) vec (Ip ))
X

Alternativamente, es posible otra formulacin para la derivada de expresiones


matriciales. Para ello, es necesario considerar para cualquier m, n, p, q N y
cualquier funcin:
Y (X) : Mpn Mmq
la definicin
Y (X)
[Y (X))]

X
(vecX) 
Retomando lo expresado anteriormente, en este trabajo se identificarn explcitamente los espacios de matrices Mpn y Mmq con Rpn y Rmq , respectivamente.Lo que se est considerando generalmente es Y (X) como funcin vectorial
de variable vectorial definida de Rpn en Rmq , por lo que la expresin
vec [Y (X))]
(vecX) 
es el Jacobiano de dicha funcin vectorial. La eleccin de esta definicin
de derivada puede resultar til para aplicar a funciones matriciales resultados
matemticos relativos a funciones vectoriales.
Ejemplo 3.11 Dada la funcin y = y (x) de R2 en R2 definida por

  2

y1 (x1 , x2 )
x1 + x32
y (x) =
=
,
y2 (x1 , x2 )
2x1 x2
de acuerdo con la Definicin 3.12 se tiene que

y1 (x)
y1 (x)
y1 (x)


y (x)
x2
2x1
x x1

=
=
=
y2 (x)
y2 (x)
y2 (x)
2x2
x
x1
x2
x

3x22
2x1

Por otra parte, teniendo en cuenta la Definicin 3.16



 


y (x)
2 0 0 6x2
=
=
0 2 2 0
x
x
55

Observese que el resultado anterior difiere de





vec y(x)
x
x

2x1
2 0


2x22 = 0 2
=

3x2
0 6x2
x
2x1
2 0

Ejemplo 3.12 Dada la matriz A = (aij ) , i = 1, ..., m, j = 1, ..., q, se verifica


que la derivada de A respecto del primer vector fila que se denota por a1 es la
matriz de orden m q 2

a11
a1

A
= ..
a1 .

am1
a1

a1q
a1

...
..
.
...

..

amq
a1

1
0
..
.

0
0
..
.

0
0
..
.

0
0
..
.

1
0
..
.

0
0
..
.

0
0
..
.

0
0
..
.

1
0
..
.

Haciendo uso de la expresin alternativa se obtiene




A
vec (A)
= Iq
(vec (Iq ) Iq ) =

a1
a1

1
0
..
.

0
0
..
.

0
0
..
.

0
0
..
.

0
0
0
..
.

0
1
0
..
.

0
0
0
..
.

0
0
0
..
.

0
..
.

0
..
.

0
..
.

0
..
.

0
0
..
.

0
0
..
.

0
0
..
.

1
0
..
.

La derivada de la matriz A respecto de s misma viene dada por la matriz


de orden m2 q 2
56

a11
A

a1q
A

am1
A

amq
A

A .
= ..
A

.. = (vecI ) (vecI ) 
m
q
.

para cada i = 1, ..., m, j = 1, ..., q se tiene que

0 0
.. ..
. .

aij
=
0 0
A
. .
.. ..
0 0

0
..
.
1
..
.

0
..
.

0
i esima fila
..
.
0

y j-sima columna.

La derivada de la matriz A respecto de A es una matriz cuadrada de orden


mq definida como
a11
A

A .
= ..
A
a

1q

am1
A

...
..
.

..
. = P, m, q,

amq
A

...

para cada i = 1, ..., m, j = 1, ..., q

0 0
.. ..
. .

aij
=
0 0
A
.. ..
. .
0 0

0
..
.
1
..
.

0
..
.

0
j-sima fila
..
.
0

y la j-sima columna

Ejemplo 3.13 Sea y = y(A) una funcin definida de M22 en R2 dada por

 

a211 + 2a12 a222
y1 (A)
y = y(A) =
=
y2 (A)
(a11 + a22 )2 2a12 a21
donde A =


a11
a21

a12
a22

La derivada de la funcin y = y(A) respecto de la matriz A de variables


independientes, de acuerdo con la definicin 3.15 es

57

y(A)
=
A

y1 (A)
A
y2 (A)
A

2a11
0

=
2a11 + 2a22
2a12

y1 (A)
a11
y1 (A)
a21
y2 (A)
a11
y2 (A)
a21

2
2a22

2a21
2a11 + 2a22

y1 (A)
a12
y1 (A)
a22
y2 (A)
a12
y2 (A)
a22

y la derivada de y(A) respecto a la vectorizacin de A, teniendo en cuenta


la definicin 3.17, tiene la expresin

y1 (A)
y(A)
vec(A)
= y (A) =
2
vec (A)
vec(A)

2a11

0
=
2a11 + 2a22

2a21
0

2a11

=
2a11 + 2a22
2a21
=



y(A)
A

I2



y1 (A)
11

ya(A)
1
a21
y (A)
1
a12
y (A)
1
a22
y2 (A)

a11
y2 (A)

a21
y2 (A)

a12
y2 (A)
a22

0
2a11
0
2
0
2a11 + 2a22
0
2a21

2a11

2a

22

2a11 + 2a22

2a

12

2a21
2a11 + 2a22

0
0
2a22
0
2a12
0
2a11 + 2a22
0

0

1
0


2a22
0


0
0

2a12 1

0
2a11 + 2a22


0

 1
2a22
1 0
0

0 1 0
2a21
1
2a11 + 2a22
vec (I2 )

58

Ejemplo 3.14 Sea


Y (X)definida de M22 en
la funcin Y =
M32 por
y11 (X) y12 (X)
x11 + x12 2x12
ex21 ,
Y = Y (X) = y21 (X) y22 (X) = x222
y31 (X) y32 (X)
x11 + x12 x21 x12
siendo

y11 (X)

y X
21 (X)
X =
X
y31 (X)
X

y12 (X)
X

y22 (X)
X
y32 (X)
X

1
0
0
0
x22
0

1
0
0
2x22
0
x11

0
0
0
ex21
0
x12

2
0
0
0
x21
0

Ahora bien, de acuerdo con la expresin alternativa




vecY (X)
Y (X)
= I2
(vec (I2 ) I2 )
X
X

1
0

x22

0
=
0

0
0

1
0

x22

0
=
0

0
x
e 21

0
x12

1
0
0
2x22
0
x11
0
0
0
0
0
0

0
0
0
ex21
0
x12
0
0
0
0
0
0

2
0
0
0
x21
0
0
0
0
0
0
0

0
0
0
0
0
0
1
0
0
0
x22
0

0
0
0
0
0
0
1
0
0
2x22
0
x11

1
0

2x22

x11

x21
0

59

0
0
0
0
0
0
0
0
0
ex21
0
x12

0
0

0
1

0
0

0
0

0
0

2
0

0
0

0
1
0
0
x21
0

0
1

0
1

3.5.

Reglas de Derivacin.

La derivada de un vector o de una matriz respecto de un escalar, vector o


matriz, no difiere sustancialmente de la derivacin habitual de funciones. Sin
embargo esto no conlleva que sean vlidas, en general las reglas usuales para
derivar, por ejemplo, las de suma, el producto o la composicin de funciones.
Ahora bien, como se ver a continuacin, si se hace uso del producto Kronecker en lugar del producto matricial estandar, en algunos casos es posible
obtener reglas de derivacin anlogas a las habituales para funciones.
Proposicin 3.4 Sea C una matriz de variables independientes de orden p n
, esto es, C Mpn :
1. Derivada del Producto por Escalar. Sea A una matriz de orden mq cuyos
elementos dependen de los de la matriz C de orden p n. Entonces, para
cualquier R, se verifica que
(A)
A
=
C
C
2. Derivada de la Suma. Sean A y B dos matrices de orden m q, cuyos
elementos dependen de los de la matriz C de orden p n. Se verifica que
(A + B)
A B
=
+
.
C
C
C
3. Derivada de Producto. Sean A, B y C matrices de ordenes m q, q r,
p n, respectivamente, tales que los elementos de A y B son funciones de
los elementos de la matriz C. Entonces se verifica que
a) Si p = n = 1 m = q = 1
AB
A
B
=
B+A
C
C
C
b) Si p = 1, es decir, C es un vector fila de Rn , entonces
AB
A
B
=
(B In ) + A
C
C
C
c) Si p = 1 y n = 1
AB
A
B
=
(B In ) + (A Ip )
C
C
C

60

4. Derivada del Producto de Kronecker. Sean A, B y C matrices de ordenes


m q, t r, p n,respectivamente, tales que los elementos de A y B son
funcin de los elementos de la matriz C.Entonces se verifica que


A B
B
(A Ir )
= A
+ (Im B Ip )
C
C
C
donde


A
(A Ir )
= (Pr,m Ip )  Ir
(Pq,r In )
C
C
5. Regla de la Cadena. Sea y = y (A) uma funcin real de variable matricial, donde A es una matriz de orden t r cuyos elementos a su vez son
funciones de la matriz C de orden p n. Se verifica
y (A)
=
C

 

y (A)
vec (A)
Ip 
vec (A)
C

o tambin
y (A)
= [(vec (It ))  Ip ]
C

y (A) A

A
C

(vec (Ir ) In ) .

A
Demostracin. La derivada
de acuerdo con la definicin 3.17 es una
C
matriz de orden mp nq dada por


aij
A
=
C
C i=1,...,m
j=1,...,q

y como para cada i = 1, ...m ; j = 1, ..., q, segn la definicin 3.10,




aij
aij
aij
=
=
C
ck
ck k=1,...,p
=1,...,n

A
se obtiene que
=
C

A
C

Demostracin. La derivada
de orden mp qn

(A + B)
segn la definicin 3.17, es la matriz
C

61

(A + B)
=
C

(aij + bij )
C

i=1,...,m
j=1,...,q

Ahora bien, para cada i = 1, ...m ; j = 1, ..., q, a partir de la definicin 3.13


se obtiene
aij
bij
(aij + bij )
=
+
C
C
C
y sumando por bloques se puede concluir
A B
(A + B)
=
+
C
C
C

Demostracin.
a) Si p = n = 1, entonces
A
B
AB
=
B+A
,
C
C
C
ya que para cada i = 1, ...m ; j = 1, ..., r la derivada del elemento dij de la
matriz D = AB es
 q

dij (C)

=
aik (C) bkj (C)
C
C
k=1

k=1

k=1


dij (C)  aik (C)
bkj (C)
=
bkj (C) +
aik (C)
C
C
C
b) En el caso en que n = q = r = 1, segn la definicin 3.13 se tiene
AB
c11

cp1

A
c11

cp1

AB .
= ..
C
AB

AB .
= ..
C
A

AB
c1n

..
.

AB
cpn

A
c1n

B
c11

B
cp1

.
..
. B + A ..

A
cpn

62

B
c1n

..
. ,

B
cpn

dado que para cada i = 1, ...p ; j = 1, ..., n


(AB)
A
B
=
B+A
,
cij
cij
cij
y por tanto,
A
B
(AB)
=
B+A
C
C
C
c) Ahora, si p = 1, n = 1 y D = AB = (dij ) i = 1, ...m ; j = 1, ..., r, se tiene
que
q

k=1

k=1


dij (C)  aik (C)
bkj (C)
=
bkj (C) +
,
aik (C)
C
C
C
de donde

bij (C) In


b2j (C) In
dij (C)
ai1 aiq

=
...
bij (C) In

..
C
C
C

.
bqj (C) In

b1j (C)

+ (ai1 (C) Ip ...ain (C) Ip )

..
.

bqj (C)
C

y por la definicin de producto Kronecker y la definicin 3.12, resulta


dij (C)
ai
bj (C)
=
(bj (C) In ) + (ai (C) Ip )
,
C
C
C
y, por consiguiente,
(AB)
A
B
D
=
=
(B In ) + (A Ip )
.
C
C
C
C
Si p = 1 como Ip = 1, la expresin anterior se transforma en
(AB)
A
B
=
(B In ) + A
C
C
C
Demostracin. Atendiendo a la definicin de producto Kronecker

63

aij B
(A B)
=
,i=1,...,m ,
C
C j=1,...,q
y por la definicin 3.17, para cada i = 1, ...m ; j = 1, ..., q se tiene que
aij B
(aij bk )
=
.
k=1,...,t
C
c
=1,...,r
Ahora bien, en virtud del apartado anterior,
aij
aij bk
bk
=
bk + aij
.
c
C
C
As pues,
aij
C

aij B
=
C
a

ij

11
b11 + aij b
C
..
.

aij
C b1r

t1
bt1 + aij b
C

aij
C btr

1r
+ aij b
C

..

tr
+ aij b
C

o lo que es equivalente
aij B 
= B
C

Por tanto,

aij
C

+ aij

B
.
C



a11
B
B C + a11 C
(A B)

..
=
.

C


am1
B
B
+ am1
C
C

a11

 B C

B
(A B)
..
= A
+
.

C
C

am1
B
C




a1q
B
B
+ a1q
C
C

..



amq
B
B
+ amq
C
C

a1q
B
C

..

amq
B
C

(A B)
C


B
(A Ir )
Solucin 3.1 = A
+ (Im B Iq )
C
C

64

Ahora bien, a partir de la propiedad 5 del producto de Kronecker, se tiene


A Ir = Pr,m (Ir A) Pq,r
y aplicando dos veces la regla de derivacin del producto indicada en la
proposicin 3.4,3 se obtiene
(A Ir )
(Ir A)
= (Pr,m Ip )
(Pq,r In ) ,
C
C
lo que de acuerdo con la solucin 3.1, tomando A = Ir y B = A conduce a


(A Ir )
A
(Pq,r In ) .
= (Pr,m Ip ) Ir
C
C
Demostracin. Teniendo en cuenta la definicin 3.13,
y (A)
y (A)
=
, i=1,...,p
C
cij j=1,...,n
y por la regla de la cadena para el caso unidimensional
t

y (A)   y(A) akl (C)


=
.
akl
cij
cij
t=1
k=1

Por tanto,

y
a11

y
a1n

ap1

y
apn

y (A)
.
=
..
C
y

de donde

..

. =

t 
r


k=1 t=1

y (A)

akl

y (A)   y (A) akl (C)


=

C
akl
C
t=1
k=1

ahora bien, como




y (A)
vec (A)

=

y
y
y
y
, ...,
, ...,
, ...,
a11
at1
a1r
atr

65

kl (C)
c11

..
.

akl (C)
cp1

akl (C)
c1n

akl (C)
cpn

..
.

a11
C

..
.
at1

C
vec (A)
..
= .

C
a1r
C
.
..
atr
C

y (A)
resulta
=
C

Solucin 3.2 =



y (A)
vec (A)

 Ip

vec (A)
C


y (A)
vec (A)
Ip 
vec (A)
C

Para obtener la expresin alternativa de la regla de la cadena que se indica


en el enunciado, hasta tener en cuenta, que de acuerdo con la propiedad 3 de la
vectorizacin

 


y (A)
y (A)
y (A)
= vec
=
 It vec (It ) ,
vec (A)
A
C
lo que sustituido en la solucin 3.2 permite obtener



 

y (A)
y (A)
vec (A)
= vec
Ip 
C
A
C
y (A)
=
C

 

y (A)
A


!

vec (A)
 It vec (It ) Ip 
C


#
 vec (A)
y (A) " y(A) 
=
 It vec (It )  Ip
A
C
C




y (A)
y (A)
vec (A)
=
(vec (It )) 
It
Ip
,
C
A
C
y tomando B2 = Ip en la propiedad 4 del producto de Kronecker se tiene
y (A)
= ((vec (It ))  Ip )
C


y (A)
vec (A)
Itp
.
A
C

Finalmente de acuerdo con las formas alternativas, como




vec (A)
A
= Ir
(vec (Ir ) In )
C
C
66

vec (A)
y haciendo uso de nuevo de la propiedad 4 del
sustituyendo en
C
producto de Kronecker se tiene


vec (A)
y (A) A
= ((vec (It ))  Ip )

(vec (Ir ) In )
C
A
C
Ejemplo 3.15 Dadas las matrices



2
x2
y xy
(y + 1)
A=
,B=
3
x
x+1 y
e
ex+y
C=

como

x
w

z
y

0
0
0
0

x+y
1

A
=
C

2x
0
=
1
0

2y
0

x2
x
x2

w
(x+1)

x
(x+1)
w

0 0
0 1
0 0
0 3y 2

0
B
0
y
=
ex+y
C
0

x2
z
x2
y
(x+1)
z
(x+1)
y

y
0
ex
0

0
2 (y + 1)
0
ex+y

y
x
y
w
y 3
x
y 3
w

y
z
y
y
y 3
z
y 3
y

0
x

0
0
0
0
0
0

0
2
0
0

1
0
0
0

se tiene

2x
(A + B)
A B
0
=
+
=
C
C
C 1 + ex+y
0

Asi mismo se verifica que

6x


0
(3A)
A
=3
=
3
C
C
0

0
0
0
0

0 0
0 3
0 0
0 9y 2

67

xy
x
xy
w
ez
x
ez
w

xy
z

xy
y
ez
z
ez
y

0
1

0
0
0
2 (y + 1)
0
ex+y

3y
0
3ex
0

0
3x

0
0

0 0
0 3
0 0
0 3y 2

1+y
0
ex
0

0
1 + x

0
0

Ejemplo 3.16 Dadas las matrices A y C del ejemplo anterior y el vector

x+y
b = 2x
yz
Ab
A
b
=
(b I2 ) + (A I2 )
C
C
C

1 0
0 1

A
B
2 0

como ya se conoce
y,
=

C
C
0 0
0 y
0 z
teniendo en cuenta

sustituyendo en la expresin inicial resulta

2x
Ab
0
=
1
C
0

0
0
0
0

0 0
0 1
0 0
0 3y2

x2
0
y
2
0
x
0
+
x + 1
0
y3
0
x+1 0

0
y
0
y3

y
0
ex
0

xy
0
ex
0

x+y
0
0

x
2x
0
0
0 yz
0

1
0
0

xy
2
0
0
ex 0
0

0
x + y

2x

0
yz

0
1

y
z

3x2 + 2xy + y 2 z + 2y
xy2

0
x2 + 2xyz + 2x

=
2x + y + 2y3 + yzex + 1

yex
0
6y 2 x + x + zex + 1

Este resultado coincide con:




Ab

x3 + x2 y + 2xy + xy2 z
=
C
C x2 + xy + x + y + 2xy 3 + yzex

68

Ejemplo 3.17 Dadas las matrices A, B y C definidas por

x+y
A = xy
ex


2z
2y
x + z , B =
1
3
y

z
3z


x
, C = y
z

se verifica, de acuerdo con el apartado cuarto de la proposicin anterior




(A B)
B
(A I2 )
= A
+ (I3 B I3 )
C
C
C
siendo en este caso

0 0
2 0

B
0 2z

=
0 0
C

0 0
0 3



A
(A I2 )
= (P2,3 I3 ) I2
P2,2
C
C

donde

P2,3

A
=
C

As pues

1
0
0
0
0
0

0
0
1
0
0
0

1
1
0
y
x
0
ex
0
0

0
0
2
1
0
1
1
3y 2
0

0
0
0
0
1
0

0
1
0
0
0
0

0
0
0
1
0
0

0
0
0
0
0
1

0
, P2,2 =

69

0
0
1
0

0
1
0
0

0
0

0
1

(A B)
=

2y
2x + 4y
0
1
1
0
2y 2
4xy
0
y
x
0
2yex
2ex
0
ex
0
0

z2
z2
2xz + 2yz
3z
3z
3x + 3y
yz 2
xz 2
2xyz
3yz
3xz
3xy
z 2 ex
0
2zex
3zex
0
3ex

0
4z
4y
0
0
2
2y
2x + 2z
2y
1
0
1
0
8y 3
0
0
3y 2
0

0
0
6z 2
0
0
12z
z2
0
2xz + 3z 2
3z
0
3x + 6z
0
3y 2 z 2
2y 3 z
0
9y 2 z
3y 3



x w
Ejemplo 3.18 Si y = y (A) = |A| = xy zw donde A =
y cada
z y
elemento de A es funcin del vector c = (t, u) en la forma x = t + u, y = tu,
z = t2 + u, w = 2u, se verifica que

y (A)
= u2 2ut, 2ut t2 4u , pues por la regla de la cadena, y las
c
proposiciones 3.4 y 5
y (A)
=
c

= y

3.6.

 
 
 

y (A)
vec (A)
y (A)
vec (A)
I1 
=

vec (A)
c
vec (A)
c

1 1

0 2

x
2t 1 = y 2tw + xu y 2x w + xt
u t

Propiedades de Derivacin de Funciones Matriciales.

En esta seccin se recogen algunas de las que aparecen con mayor frecuencia.
Los resultados que se indican se obtienen utilizando las definiciones propuestas
en este trabajo, las reglas de derivacin y las diferentes propiedades tanto del
producto de Kronecker como de la vectorizacin de matrices.

70

Proposicin 3.5 Sea A una matriz m n y sean x y z vectores de Rn y Rm ,


respectivamente. Entonces

1. Si y (x) = Ax se verifica que

y (x)
= A.
x

2. Si y (x, z) = zAx se verifica que


y
= zA
x

y
= xA.
z

3. Si m = n e y (x) = xAx, se verifica que


y (x)
2 y (x)
= x (A + A) ,
= (A + A) ,
x
xx
y si adems A es una matriz simtrica se tiene que
2 y (x)
y (x)
= 2xA,
= 2A.
x
xx
4. Si m = n, A es simtrica, X es una matriz de orden np e Y (X) = XAX,
se verifica que
Y (X)
= Pn,p (AX Ip ) + (vec (AX)) (vecIp ) .
X
Demostracin. Si y(x) = Ax entonces

n


a1j xj

j=1

a2j xj

y(x) = Ax = j=1

..

.
n

amj xj
j=1

y teniendo en cuenta la definicin 3.12

71

y(x)
x

n


a1j xj

j=1


n
a11



a

a
x
2j
j
x
21
= .
=
j=1

.
.

..

a
.

m1



a x

a12
a22
..
.

am2

a1n
a2n

.. = A
.

amn

mj j

j=1

Demostracin. Dado que y (x, z) = zAx = (zA) x, por la proposicin 3.5,


1 resulta
y
(zA) x
=
= zA
x
x
Por otra parte, como y = zAx = y = (xA) z, razonando de forma anloga
se tiene que
y
= xA.
x
Demostracin. Si y(x) = xAx dado que y =

n 
n


xi xj aij , entonces,

j=1 i=1

como para cada k = 1, ..., n, se tiene que


n
n


y
=
akj xj +
aik xi = xak + xak
xk
i=1
kj=1

aplicando la definicin 3.10 resulta




y (x)
y
y
=

= xA + xA = x (A + A)


x
x1
xn
teniendo en cuenta esta expresin y la proposicin 3.5, 1, se deduce que

2 y (x)
=
xx
x

y (x)
x

[x (A + A)] = (A + A)  = A + A


x

lo que coincide con


2 y (x)

=
xx
x

y (x)
x



y (x)
x

 
 =

[(A + A) x] = A + A

Si A es una matriz simtrica, los resultados son inmediatos.


72

Demostracin. Si Y (X) = XAX = X (AX) aplicando la regla de derivacin de un producto 3, se tiene


X (AX)
X
AX
=
(AX Ip ) + (X In )
X
X
X
y aplicndola nuevamente al producto AX resulta
X
X (AX)
= Pn,p (AX Ip ) + (X In ) + (A In )
X
X
ya que

A
X
= Pn,p y
es la matriz nula.
X
X

Finalmente a partir de las propiedades 4 del producto de Kronecker y la


propiedad 2 de la vectorizacin, se concluye
X (AX)
= Pn,p (AX Ip ) + (X In ) (vecIn ) (vecIp ) 
X
X (AX)
= Pn,p (AX Ip ) + (vec(AX)) (vecIp ) ,
X
ya que vec(AX) = vec(AX) por se A una matriz simtrica.
Proposicin 3.6 Sea A una matriz regular de orden m. Entonces se verifica

1.

A1
= vec A1 vec A1 .
A

vec A1
= A1  A1 .
2.
(vecA) 
Si adems se supone que los elementos de la matriz A son funciones del
vector x Rn , entonces
3.


 1

A1 (x)
A
(vecA)
= (Im (vecIm ) )
Im

x
A
x


 (vecA)
vec A1 (x)
4.
= (A)1 A1
x
x

73

Demostracin. Si A es una matriz regular, entonces existe A1 verificando


AA1 = Im ,
y aplicando en esta expresin la regla de derivacin de un producto resulta
0m2 =

A1
AA1
A 1
=
A Im + (A Im )
,
A
A
A

de donde

A1
= (A Im )1
A

A
A

Ahora bien como

A Im .

A
= (vecIm ) (vecIm ) 
A
a partir de las propiedades 6, 7 del producto de Kronecker y la propiedad 3
de la vectorizacin se obtiene

A1
= A1 Im (vecIm ) (vecIm )  A1 Im
A


A1
= A1 Im (vecIm ) A1  Im vecIm 
A


A1
= vec A1  vec A1 
A

Demostracin. Dado que AA1 = Im , aplicando el resultado 3a de la


Proposicin 3.4 para cada i, j = 1, ..., m se tiene que

AA1
A 1
A1
= 0m =
A +A
aij
aij
aij
y, por tanto,
A1
A 1
= A1
A .
aij
aij
Como
j

74

A1
aij

0 0
.. ..
. .

=
0 0
. .
.. ..
0 0

0
..
.
1
..
.
0

0
..
.

0
i
..
.
0

si se denota por ai y aj la fila i esima y la columna j esima de A1 ,


respectivamente, se obtiene

A1
aij
ai aj .

a1
a2

=
..

.
am

0 0
. .
.. ..

0 0

. .
.. ..

0 0

0
..
.
1
..
.
0

0
..
|
.

a1
0

..
|
.
0

am =
|

que de acuerdo con la segunda expresin alternativa y la propiedad 2 de la


vectorizacin de matrices, resulta

vec A1
= vec (ai aj ) = (Im ai ) vecaj = (aj ai )
aij
de donde


vec A1
vec A1 vec A1
vec A1
=
,
, ...,
aj
a1j
a2j
amj

= [aj a1 , aj a2 , ..., aj am ] = aj A1 ,

y por tanto



vec A1
= a1 A1 , a2 A1 , ..., am A1 =
vec
(A)




A1  A1

Demostracin. Si los elementos de la matriz A son funcin del vector x


Rn , entonces, para cada i, j = 1, ..., m, la derivada del elemento aij de A1
respecto de x, en virtud de la regla de la cadena (Proposicin 3.4, 5) es
aij
=
x

aij
vec (A)

vec (A)
aij vec (A)
=
,
x
(vecA)  x

y por tanto
75

A1
=
x

vec (A)
A1

(vecA) 
x

Ahora bien, como


A1
=
(vecA) 


A1 

vec (A)

 1 
A1 
A
=

A
A
de acuerdo con las formas alternativas



A1 
A1 
=
Im (Im vec (Im )) =
vec (A)
A


A1
A

 Im (Im vec (Im )) ,

de donde
A1
=
x



A1
A


!
vec (A)
 Im (Im vec (Im )) 
,
x

o lo que es igual

 1

A1
A
vec (A)
= (Im vec (Im ) )
Im

.
x
A
x
Pero como de acuerdo con las expresiones alternativas


vec (A)
A
= Im
(vec (Im ) In )
x
x
se obtiene finalmente

 1
 


A1 (x)
A
A
= (Im (vecIm ) )
Im Im
(vec (Im ) In ) .
x
A
x
Demostracin. Como ya se indic antes
aij
=
x

aij
(vecA) 



vec (A)
x

76

as pues, de acuerdo con la proposicin 3.6, 2 resulta



 vec (A)


vec A1 vec (A)
vec A1
=
= A1  A1
.
x
(vecA) 
x
x
Proposicin 3.7 sean A, B y X matrices de ordenes m m , m n , y n m
respectivamente. Entonces
1. Si y (A) = tr (A) , se tiene que

y (A)
tr (A)
=
= Im
A
A

2. Si y (X) = tr (BX) , se tiene que


tr (BX)
y (X)
=
= B
X
X
3. Si y (X) = tr (BXA) , se tiene que
tr (BXA)
y (X)
=
= BA
X
X
4. Si C es una matriz de orden n e y (X) = tr (AXCX) , se tiene que
tr (AXCX)
y (X)
=
= CXA + CXA
X
X
y si adems C es una matriz simetrica y A = I/m , entonces
Demostracin. Dado que tr (A) =
3.13, es trivial obtener

m

i=1 aii ,

y (X)
= 2CX
X

de acuerdo con la Definicin

tr (A)
y (A)
=
= Im
A
A
m n
bik xki
Demostracin. Si y (X) = tr (BX) , entonces y (X) =
k=1
i=1
y por tanto,
m n




bik xki

m n
 x1. i=1 k=1


tr (BX)

.
..
=
bik xki =
=

X
X i=1 k=1
m n





bik xki
xn. i=1 k=1
77

b.1
..
. = B
b.n

Demostracin. Teniendo en cuenta que tr (BXA) = tr (ABX) , aplicando


la proposicin 3.7, 2 , resulta
tr (ABX)
y (X)
=
= (AB)  = BA
X
X
Demostracin. De acuerdo con las propiedades 8 y 2 de la vectorizacin
de una matriz y la propiedad 4 del producto de Kronecker se tiene
tr (AXCX) = [vec (AX) ] vec (CX) = [vec (XA)] vec (CX)
= [(A In ) vec (X)]  (Im C) vec (X)
= [vec (X)]  (A C) vec (X)
La derivada de esta expresin respecto a vec (X) es, en virtud de la Proposicin 3.5,3


tr (AXCX)
tr (AXCX)
=
 = ((vec (X))  [(A C) + (A C)]) 
vec (X)
[vec (X)]
= [(A C) vec (X)] + [(A C) vec (X)]
= vec (CXA) + V EC (CXA) = vec (CXA + CXA)
Por ultimo, teniendo en cuenta la primera expresin alternativa, como


tr (AXCX)
tr (AXCX)
=
= vec (CXA + CXA)
vec
X
vec (X)
se concluye que
tr (AXCX)
= CXA + CXA
X
y, en caso de ser C simetrica y A = Im , es inmediato que
tr (XCX)
= 2CX
X
Proposicin 3.8 Sea A una matriz cuadrada de orden m y X una matriz de
orden m p . Entonces
78

1. Si y (A) = |A| , se tiene que

|A|
y (A)
=
= Adj (A) 
A
A

2. Si A es simetrica e y (X) = |XAX| , se tiene que


y (X)
= 2AX Adj (XAX)
X
3. Si A es simetrica e y (X) = In |XAX| con XAX no singular, se tiene
que
y (X)
2
=
AX Adj (XAX) = 2AX (XAX)1
X
|XAX|
Si se supone que los elementos de la matirz A son funciones de x Rn ,
entonces
4. Si y (x) = |A (x)| , se tiene que


A (x)
y (x)
= [vec (Adj (A) )]  Im
(vec (Im ) In )
x
x
verificandose tambien que si A (x) es no singular
 

In |A(x)|
A(x)
= tr (A1 )
x
xi
i=l,...,n
Demostracin. Dada A matriz cuadrada de orden m, si para cada elemento
aij i, j = 1, ..., n se denota por A ij su cofactor correspondiente, se tiene que
|A| =

n


aik Aik

k=1

Entonces
 n



|A|
=
aik Aik = Aij
aij
aij
k=1

Teniendo en cuenta la Definicin 3.12 resulta

A11 A12 A1n


|A| .
..
.. = Adj (A) 
= ..
.
.
aij
An1 An2 Ann
79

Demostracin. Si se denota por bij i, j = 1, ..., p a los elementos de la matriz


B = XAX , aplicando la regla de la cadena, resulta para cada k = 1, ..., m,
7 = 1, ..., p
p

y (X)   |B| bij


=
xk
bij xk
i=1 j=1
Como para cada i, j = 1, ..., p
tiene
p

|B|
es el cofactor correspondiente Bij , se
bij

y (X)
|XAX|  
bij
=
=
Bij
=
xk
xk
x
k
i=1 j=1
[vec (Adj (XAX))] vec

XAX
xk

que de acuerdo con la propiedad 8 de la vectorizacin se puede reducir a




|XAX|
XAX
= tr Adj (XAX)
xk
xk
Teniendo en cuenta la derivada de un producto (Proposicin 3, 3a), para
cada k = 1, ..., m , 7 = 1, ..., p , se verifica
XAX
X
X
=
AX + XA
donde
xk
xk
xk
X
X
p

= em
= em
 ek y
k ek
xk
xk
p
adems, em
k y ek representan dos vectores columna de m y p elementos todos
ellos nulos salvo el k-simo y el 7-esimo, respectivamente, que son iguales a la
unidad. En virtud de esto y teniendo en cuenta las propiedades de la traza,


|XAX|
p
m p
= tr Adj (XAX) em
 ek AX + XAek e
xk

p
m p
= Adj (XAX) em
 ek AX + tr XAek e Adj (XAX)

= tr (b ak X) + tr (Xak b )
= tr (ak Xb ) + tr (ak Xb
 )
= ak Xb + ak Xb


80

siendo b y b la 7-sima columna y fila, respectivamente, de la matriz


Adj (B) = Adj (XAX) y ak y ak la k-sima columna y fila, respectivamente,
de la matriz A
De acuerdo con la Definicin 3.13,
|XAX|
x (X)
=
= AX Adj (XAX) + AX (Adj (XAX))  =
X
X
2AXAdj (XAX)
ya que tanto A como XAX y, por consiguiente, Adj (XAX) , son matrices
simtricas
Demostracin. Aplicando la regla de la cadena y teniendo en cuenta el
apartado anterior, resulta
x (X)
In |XAX| |XAX|
=
X
|XAX|
X
=

1
2AXAdj (XAX)
|XAX|

= 2AX (XAX)1
pues por hiptesis, XAX es simtrica y no singular
Demostracin. Si y (x) = |A (x)| con x Rn , por la regla de la cadena,
|A (x)|
=
x

|A (x)|
vecA (x)




|A (x)|
vecA (x)
vecA (x)
= vec


x
A (x)
x

de donde, en virtud de la demostracin 3.6 se obtiene




A (x)
|A (x)|
= [vec (Adj (A (x)) )]  Im
(vecIm In )
x
x
considerando ahora que A (x) es una matriz no singular para cada x Rn ,
por definicin se tiene que
In |A (x)|
=
x

In |A (x)|
In |A (x)|
, ,
x1
xn

Para cada i = 1, ..., n


In |A (x)|
In |A (x)| |A (x)|
1 |A (x)|
=
=
xi
|A (x)|
xi
|A (x)| xi
81

y segn la regla de la cadena




vec (A (x))
vec (A (x))
|A (x)|
|A (x)|
=

= [vec (Adj (A (x)) )] 
xi
vec (A (x))
xi
xi
se tiene



vec (A (x))
In |A (x)|
1
= vec
Adj (A (x))  
xi
|A (x)|
xi





A (x)
= vec A1 vec
xi

y utilizando la propiedad 8 de la vectorizacin, se obtiene







A (x)
In |A (x)|
A (x) 1

= tr
A
 = tr A1 
xi
xi
xi

Por tanto

 



1
A (x)
1
A (x)
In |A (x)|
= tr A

, ..., tr A

x
x1
xn
Ejemplo 3.19 Sea la funcin y (x) = x Ax con A matriz simtrica y no singular de orden n. Supngase que se desea conocer si y (x) tiene mximo o mnimo
global en algn punto x Rn . para ello habr que estudiar si y (x) tiene puntos
crticos, lo que presupone resolver el sistema de ecuaciones
y (x)
=0
x
es decir, de acuerdo con la Proposicin 3.5, 3
y (x)
= 2xA = 0
x
Cuya solucin es x = 0 por ser A no singular.
Si y (x) tiene mximo, mnimo o punto de silla lo alcanzar en x = 0. Para
poder decidir el comportamiento de y (x) en x bastar utilizar condiciones de
segundo orden, y como en este caso
2 y (x)
= 2A
xx
para todo x Rn se verificar que
x = 0 es mnimo global si A es definida o semidefinida positiva
x = 0 es mximo global si A es definida o semidefinida negativa
x = 0 es punto de silla si A es indefinida
82

Ejemplo 3.20 Sea la matriz




a11 a12
A=
a21 a22
cuyos elementos dependen de x = (x1 , x2 , x3 ) de forma que
a11 = a22 = x1 + x3
a12 = x1 + x2
a21 = x1 x2
De acuerdo con las proposiciones 3.6 y 3, se verifica que para todo x R3++
 vec [A (x)]
 1
A1 (x) 

= (I2 (vecI2 ) ) A
2
A
x
x

dado que
a1 =

1
|A|

a22
a21

a12
a11

resulta

A1
= vec A1  vecA1  =
A

a22

2
a12
1

a22 a21 a12

|A| a21
a11

a222
1
a12 a22
=
|A| a21 a22
a11 a22

a21 a22
a12 a21
a221
a11 a21

a12 a22
a212
a12 a21
a12 a11

Por otra parte se obtiene que

vec [A (x)]

a11 (x)
x
a21 (x)
x
a12 (x)
x
a22 (x)
x

a11

a22 a11
a12 a11

a21 a11
a211

1 0 1

1 1 0
=

1 1 0

1 0 1

Por tanto, efectuando los correspondientes productos y teniendo en cuenta


la propiedad 2 del producto de Kronecker, se tiene que
A1 (x)
tr (A)
=
x
|A|2
83



a22

0
a22

a21
0

0
a21

a12
0

0
a12

a11
0

0
a11

1 0 1
1 1 0

1 1 0
1 0 1

Ejemplo 3.21 Sea la funcin y (x) = tr (AX) donde

1 3
A = 2 0
1 1

X=


x11
x21

x12
x22

x13
x23

como tr (AX) = x11 + 3x21 + 2x12 x13 + x23 entonces




tr (AX)
1 2 1
=
= A
3 0 1
X

tal como se indica en la Proposicin 3.7, 2


Ejemplo 3.22 Sea A una matriz no singular de orden n , entonces aplicando
la regla de la cadena
In |A|
1 |A|
=
A
|A| A
y, de acuerdo con la Proposicin 3.8, 1, se tiene
In |A|
1
=
Adj (A)  = A1
A
|A|
es decir, en virtud de la Definicin 3.13, para cada i, j = 1, ..., n
In |A|
1
=
Aji
aij
|A|

a11
Ejemplo 3.23 Dada A =
a21

a12
a22

cuyos elementos dependen de x = (x1 , x2 ) de forma que aij = ix1 + jx2 con
x1  0 y x2 0 , i , j = 1, 2, se verifica que
In (a11 (x) a22 (x) a21 (x) a12 (x))
In |A (x)|
=
x
x


1 (a11 (x) a22 (x) a21 (x) a12 (x)) (a11 (x) a22 (x) a21 (x) a12 (x))
=
,
|A|
x1
x2
84

1 1
,
x1 x2

que coincide con lo que se seala en la Proposicin 3.8, 4


 



1
A (x)
1
A (x)
In |A (x)|


= tr A
, tr A
pues como
x
x1
x2
A (x) =

x1 + x2
2x1 + x2

x1 + 2x2
2x1 + 2x2

entonces
A1 =

1
x1 + x2



2 (x1 + x2 )
x1 + 2x2
2x1 + x2
(x1 + x2 )

y




A (x)
A (x)
1 1
1 2
=
,
=
2 2
1 2
x1
x2
y, por tanto


1
A (x)
1
1
tr A

=
(2x2 x2 ) =
x1
x1 x2
x1



1
A (x)
1
1
tr A

=
(2x1 x1 ) =
x2
x1 x2
x2
Cuando la matriz respecto de la que se deriva es simtrica, debe de tenerse en
cuenta esta caracterstica pues, en caso contrario, pueden obtenerse resultados
aparentemente contradictorios [Bar98]. Por ejemplo si
y (A) = a211 + a222 + a212 , donde
A=


a11
a12

a21
a22

y cada elemento de la matriz A es funcin del vector x = (x1 , x2 ) en la forma:


a11 = x1 + 2x2 , a22 = x1 , a12 = x1 x2
al aplicar la regla de la cadena (Proposiciones 3.4, 4) resulta
y (A)
=
x

y (A)
vec (A)

vec (A (x))
x
85


= 2a11

2a12

2a12


= 4x1 + 4x2 + 4xs1 x22

x2
2a22
x2
1

2
x1

x1
0

4x1 + 8x2 + 4x21 x2

sustituyendo directamente y considerando que


y (A (x)) = (x1 + 2x2 )2 + x21 + (x1 x2 )2 = 2x21 + 4x22 + 4x1 x2 + x21 x22
al calcular el gradiente se obtiene un resultado diferente, debido a que

y = 4x1 + 4x2 + 2x1 x22 , 8x2 + 4x1 + 2x21 x2

Hay una aparente contradiccin, que se debe a que tras sustituir se ha considerado y (A) como una funcin de tres variables a11 , a12 , a22 cuando en realidad
es una funcin de R4 R, la cual est definida en puntos cuyas componentes
segunda y tercera son iguales. Al tener esto en cuenta, los calculos de la derivada
coinciden. Para manejar esta aparente disparidad en los resultados al calcular la
derivada respecto de una matriz simtrica A , usualmente se deriva nicamente
respecto de los elementos distintos de A, utilizando la vec
 (A) cuya descripcin
se encuentra en la definicin 3.9.

86

APLICACIN A REDES NEURONALES


CAPA 0

1.0

CAPA 1

CAPA 2

b11

b21

S11

W111

f 1(S11 )

y11

W121

1
3

W112

b22

b12

d1

2
21

y10

S12

( )

f 2 S12

y12

e12

e1

W122

W211

S21

f 1(S21 )

y12

2
22

d2

W311
1
22

W132

1
32

S31

f 1(S31)

y31

S22

( )

f 2 S22

y22

e2

e22

W232

y20

Figura 2:

4.
4.1.

Aplicacines
Redes Neuronales

A continuacin se expone el desarrollo completo de una aplicacin tpica de


la derivacin de funciones vectoriales y matriciales, que es el caso de la solucin
de problemas mediante las redes neuronales artificiales.Esta aplicacin es un
trabajo realizado por [Per07]
Utilizando notacin matricial, es fcil comprobar que una red multicapa
cuyas funciones de activacin son lineales se pueden reducir a una red de una
capa lineal; por ello es preciso utilizar funciones de activacin no lineales. El
algoritmo Backpropagation es un algoritmo iterativo que permite entrenarredes
multicapa. La figura ?? muestra una red neuronal tpica, donde y son las entradas, S las salidas, W los pesos, e el error y f (s) la salida deseada

4.1.1.

Caractersticas del Algoritmo

1. Busca el mnimo de la funcin error a partir de un conjunto de patrones


de entrenamiento.
2. Precisa que la funcin de activacin sea diferenciable (fcilmente).
3. Entrenar consiste en modificar los pesos de la red.
87

4. Los pesos se modifican hacia la direcci descendente de la funcin error.


5. La red entrenada es capaz de generalizar, clasificando correctamente patrones ruidosos o incompletos.
6. indica cunto cambian los pesos.
7. Si es muy pequeo, la velocidad de aprendizaje es muy lenta. Si es
muy grande aparecen efectos oscilatorios.
1
1
 
 2
y1
b1
e
b
,e = 1
, y 1 = y21
, b2 = 12
b1 = b12
e2
b2 nn(2)x1
1
1
y3 nn(1)x1
b3 nn(1)x1

1
 2
 2
S1
S
y
S 1 = S21
, S 2 = 12
, y 2 = 12
S2 nn(2)x1
y2 nn(2)x1
1
S3 nn(1)x1

1
2
W11 W12
W11 W12
1
1
2
2
W22
W22
W 1 = W21
, W 2 = W21
1
1
2
2
W31 W32 nn(1)nn(0)
W31 W32
nn(2)nn(1)
nn (k) = nmero de neuronas de la capa k, nc = ndice de la ltima capa
En general
 
e nn(nc)x1
4.1.2.

 k
 
 


S nn(k)x1 , y k nn(k)x1 , bk nn(k)x1 , W k nn(k)xnn(k1) ,

Propagacin hacia adelante.

Clculo
1 0
1 0
S11 = W11
y1 + W12
y2 + b11
1 0
1 0
S21 = W21
y1 + W22
y2 + b12
1 0
1 0
S31 = W31
y1 + W32
y2 + b13

1
W11
1
Matricialmente S 1 = W21
1
W31

1
1
 0
W12
b1
y
1
1
1
W22
0 + b2
y2
1
W32
b13

1
1 0
1
Por lo tanto,
S k = W k yk1 + bk
1
S 1 = W1 y 1+

b 1, y en1 general,
1

1
1
y1 = f1 S1 , y2 = f2 S2 , y3 = f3 S3

88

1 1

1 1 1

f1 S1

f1 S1

y1


y21 = f21 S21 , haciendo F 1 S 1 = f21 S21 , queda y 1 = F 1 S 1

y31
f31 S31
f31 S31
En general:

yk = F k S k

e1 = d1 y12

e2 = d2 y22

     2
e1
d
y
= 1 12 e = d y 2 , en general e = d y nc
y2
e2
d2
donde nc = ndice de la ltima capa

El error cuadrtico 8 = e21 + e22 = e1
4.1.3.

 
 e1
e2
= eT e
e2

Propagacin hacia atrs.

Escalarmente

Wij2 (n + 1) = Wij2 (n)


b2i (n + 1) = b2i (n)

8 (n)
Wij2 (n)

8 (n)
b2i (n)

donde n indica el nmero de iteracin


 2

2
2
W11 (n + 1) W12
(n + 1) W13
(n + 1)
=
2
2
2
W21
(n + 1) W22
(n + 1) W23
(n + 1)
 )(n)
 2

2
2
2
W11 (n) W12
(n) W13
(n)
11 (n)
W
2
2
2
)(n)
W21
(n) W22
(n) W23
(n)
2
W21 (n)

Es decir, W 2 (n + 1) = W 2 (n)

)(n)
2 (n)
W12
)(n)
2 (n)
W22

8 (n)
W 2 (n)

y escalarmente:
8
8 ei yi2 Si2
8 Si2
=
=
Wij2
ei yi2 Si2 Wij2
Si2 Wij2

89

)(n)
2 (n)
W13
)(n)
2 (n)
W23

Matricialmente
8
8 S 2
=
W 2
S 2 W 2
8
= derivada de una funcin escalar con respecto a un vector
S 2
S 2
= derivada de una funcin vectorial de argumento matricial con resW 2
pecto a una matriz
Escalarmente
8
8 ei yi2
=
2
Si
ei yi2 Si2
Matricialmente se debe tener en cuenta que si z es una funcin de p, la
cual es una funcin de y, que a su vez es una funcin del vector x, entonces
dz
dy p z
=
dx
dx y p
Teniendo en cuenta lo anterior
y 2 e 8
8
y2 e 8 S 2
8
=

S 2
S 2 y2 e
W 2
S 2 y 2 e W 2
Teniendo en cuenta que


T
dAx
S 2
2 1
= xT
=
W y + b2 = y1
2
2
dA
W
W
En general,

2
y1
y 2
S12

= y2
1
S 2
2
S2

y22
S12
,
y22
S22

T
S k
= y k1
W k

yi2
ya que yi2 = fi2 Si2 , entonces,
= 0, para
Sj2

yi2
i = j y
= fi2  Si2
Sj2
2

y1
2
0

2
y 2
S1
, como yi2 = fi2 Si2 yi = fi2  Si2
=
2
2
y
2
2
S
Si
0
S 2
2

90

y2
y 2 = F 2 S 2 se puede hacer F 2  S 2 =
S 2
 e
1
e
y12
=
e1
y 2
y22
ei
= 1
y
yi2
e
=
y 2

 e

e2
y12
e2
y22

y12

e2
y22

, ya que ei = di yi2 , entonces



1 0
=
0 1

ei
= 0, para i = j
yj2

 

e
=
e e = 2e = 2 1
e2
e
e
Acoplando todos estos resultados
2
y1

S12
=
W 2
0

=2
W 2

y12
S
12

0
y22
S22

y12
S 2

1
= 2

W 2
0

e1
y12

0
e2
y22

 

e1
y11
e2


 
1 0
e1  1

y1
y22
0 1 e2
2
0

S2

 
e1  1

y1
y 2 e2
22
S2
0

y21

y21

y31

y21

y31

y31

y12
S
e1  1

2

y1 y21 y31 =
= 2 y21
2
2
W
S 2 e2
2

2
y 2
y 2
y
2e1 S12 y11 2e1 S12 y21 2e1 S12 y31
1
1
1

y2
y 2
y 2
2e2 S22 y11 2e2 S22 y21 2e2 S22 y31
2

Si se hace

y 2
S12

2
1
= 2 = 2
S
0
Matricialmente

 
 2 2
  2
y12
2
e
e1 = S212 1 = 2f12  S12
e1 = 12
2
y
y
e2
2f2  S2 e2
2
22
2 22 e2
0

S2

S2

91

 2 2

f  S1
0


2 = 2F 2  S 2 e donde F 2  S 2 = 1
0
f22  S22
Entonces,

= 2 y1
2
W

recordando que

W 2 (n + 1) = W 2 (n)

(n)
donde n es el contador de iteraciones
W 2 (n)


T
1
W 2 (n + 1) = W 2 (n) + 2 (n) y(n)
Ahora

b2 (n + 1) = b2 (n)

(n)
b2 (n)

S 2
S 2
=
= 2 2
2
2
2
b
b S
b
pero S 2 = W 2 y1 + b2 recurdese que yk+1 = W k S K + bk
2

S
=
b2

S12
b212
S1
b22

S22
b21
S22
b22



1 0
0 1

 2

 

1
1 0 21
= 2
=

0 1 22
22
b2
Por lo tanto
b2 (n + 1) = b2 (n) + 2
En general, para los pesos y el BAS de la ltima capa se tiene
nc = 2F nc  (S nc ) e

= nc ync1
nc
W


T
nc1
W nc (n + 1) = W nc (n) + 2 (n) y(n)
92


= nc y bnc (n + 1) = bnc (n) + nc
(n) donde nc es el nmero de capas
bnc
de la red
Ahora es necesario hallar la frmula para la actualizacin de W 1 y b1
W 1 (n + 1) = W 1 (n)

(n)
W 1 (n)

S 1

y1 S 2 y 2
y 1 S 2
S 2
=
y
=
=
=
W 1
S 1 W 1 S 1
S 1 y 1 S 2 y 2 e
S 1 y 1 S 2
S 1 S 2
y1

y 1

S 1

1
S11
y11
S21
y11
S31

y21
S11

y31
S11

y21
S21

y31
S21

y21
S31

y31
S31

yi1
yi1
Recordando que yi1 = fi1 Si1
=
0,
i
=

j

= f 1  Si1
1
1
Sj
Si
y1

y 1
= 0
S 1
0

1 1

f1  S1
0

0
f21  S21
0
= F 1  S 1
0
=

0
0
f31  S31
y31

S11

y21
S21

S31

T

S 2
= 1 W 2 y 1 + b2 = W 2
1
y
y

Es decir
S 2
S 2
=

y 1

1
y11
S12
y21
S12
y31

S22
y11

S22
y21
S22
y31

recordando que

2 1
2 1
2 1
S12 = Wi1
y1 + Wi2
y2 + Wi3
y3 + b2i

2
W
S 2 11
2
W12
=
y 1
2
W13

2
W21

T
2
W22
= W2
2
W23

Recordando que

8
= 2
S 2

93

Si2
= Wij2
yj1

y1

S11

8
=
0
S 1
0

y21
S21

2
W11
2
0
W12
2
1
W13
y3
0

S31

2
 2
W21
2 1
W22
22
2
W23

= F 1  S 1 W 2 2
1
S

T


haciendo 1 = F 1  S 1 W 2 2

= 1
S 1


T
W 1 y 0 + b1
S 1
=
= y0
1
1
W
W

en general

T
S k
= y k1
W k

S 1
=
= 1 y0
1
1
1
W
S W

En general

S k

=
W k
S k W k

S k+1
=
S k
S k S k+1

S k+1
y k S k+1
y k
=

= F k  Sk
k
k
k
k
S
S y
S

W k+1 yk + bk+1
S k+1
S k+1 k+1
T
=

= W
y k
y k
yk

T
S k+1
= F k  S k W k+1
y k

= k+1
= F k  S k W k+1 k+1
k+1
k
S
S

Si se generaliza

k = k k = F k  S k W k+1 k+1 k =
k+1 S

T k+1

W
F k  Sk

ya que F k  S k es simtrica
94

k1
T

S k
k
y
=
=

W k
S k W k


T
0
W 1 (n + 1) = W 1 (n) + 1(n) y(n)
y, en general

T

k1
W k (n + 1) = W k (n) + k(n) y(n)

Ahora se determina la frmula de actualizacin para b1


b1 (n + 1) = b1 (n)

(n)
b1 (n)

S 1
=
1
b
b1 S 1
S 1

S 1

b11

S21
b11

S31
b11

S11
b13

S21
b12
S21
b13

S31
b12
S31
b13

S 1
11
= S
1
1
b
b2

= 1

1 0 0

 

= 0 1 0 = I nn(1)

0 0 1

En general,
S k  
= I nn(k)
bk

b1

1 0 0
= 0 1 0 1 = 1
0 0 1

En general,

 

= I nn(k) k = k
k
b
b1 (n + 1) = b1 (n) + 1 (n)
bk (n + 1) = bk (n) + k (n)

95

4.1.4.

Resumen (Algoritmo)

Datos de Entrada
Patrones de entrenamiento X con su salida deseada.
 
X nn(0)Xnp donde np = nmero de patrones.
 
d nn(c)Xnp donde nc = nmero de capas de la red (recuerde que la capa
de entrada no se considera como una capa de la red).

Nmero mximo de iteraciones: N U MIT


Valor de la tasa de aprendizaje:
Valor de la tolerancia: T OL
Inicializar:
1
2
nc
W(1)
, W(1)
, ..., W(1)

b1(1) , b2(1) , ..., bnc


(1)
con valores aleatorios pequeos,
 k
Wij nn(k)Xnn(k1)
 k
bi nn(k)

n = 0,

[0,5, 0,5]

[0,5, 0,5]
=0

Mientras que n <= N U MIT < T OL

0
y(n)
= X(n) , donde X(n) es un vector de entrada escogido aleatoriamente

96

4.1.5.

Propagacin hacia adelante.

Para k = 1 hasta nc
k1
k
k
+ bk(n)
S(n)
= W(n)
y(n)



k
k
y(n)
= F k S(n)
Fin para k.
e(n) = d(n) y nc (n)
(n) = e(n)T e(n)
4.1.6.

Propagacin hacia atrs.

nc (n) = 2F nc  (S nc (n)) e (n)


T
W nc (n + 1) = W nc (n) + nc (n) y nc1 (n)
bnc (n + 1) = bnc (n) + nc (n)
Para k = nc 1 hasta 1

T
k (n) = F k  S k (n) W k+1 (n) k+1 (n)

T
W k (n + 1) = W k (n) + k (n) y k1 (n)

bk (n + 1) = bk (n) + k (n)
Fin para k

97

APLICACIN A REDES NEURONALES

1 .0

S11

y 11

1
1+ e

S11

S12

tanh( S12 )

y12

y 10

S 21

y12

1
1

1 + e S2

y20

S 31

tanh( S 22 )

y22

y 31

1
1+ e

S22

S31

Figura 3:
Ejemplo 4.1
n x1
1 1
2 1
3
1
4
1

Entrenar una red neuronal para aprender los siguientes patrones


x2 d1 d2
1 1 1
1
1
1
1 1
1
1
1
1

Utilice una red 2-3-2 (2 entradas, 3 neuronas en la capa oculta y dos neuronas
en la capa de salida.
Utilice funcin logstica como funcin de activacin para todas las neuronas
de la capa oculta (capa 1) y tanh para todas las neuronas de la capa de salida
(capa 2).
Se va a trabajar con = 0,5
La figura ?? muestra la red propuesta.
Primer Patrn n = 0
Inicializacin:



0,7826
0,609
0,0636 0,6596 2,0639
W 1 (1) = 1,4372 1,6513 , W 2 (1) =
0,582 1,8127 2,2377
2,713 2,8013



0,437
0,7279
b1 (1) = 1,298 , b2 (1) =
1,9579
2,2137
98

y 0 (1) = X(1) =


  
x1 (1)
1
=
x2 (1)
1

S 1 (1) = W 1 (1) y 0 (1) + b1 (1)

0,7826
0,609  
0,437
1
S 1 (1) = 1,4372 1,6513
+ 1,298
1
2,713 2,8013
2,2137

0,9576
S 1 (1) = 1,7905
7,728

1 1

1
f1 S1 (1)

0,27796067
1+eS1

y 1 (1) = f21 S21 (1)


=
1+eS21 = 0,85698857
1
1
1
0,99955987
f3 S3 (1)
S1
1+e

S 2 (1) = W 2 (1) y 1 (1) + b2 (1)


 0,27796067


0,0636 0,6596 2,0639
0,7279
0,85698857 +
S 2 (1) =
0,582 1,8127 2,2377
1,9579
0,99955987
S 2 (1) =

y 2 (1) =



3,33848298
1,11287495

 
 2 2
 

f1 S1 (1)

tanh S12 (1)

tanh (3,33848298)
=
=
tanh (1,11287495)
f22 S22 (1)
tanh S22 (1)



0,99748398
y (1) =
0,80507629
2

e (1) = d (1) y 2 (1)

  
 

1
0,99748398
0,00251602
e (1) =

=
1
0,80507629
0,19492371

99

4.1.7.

Propagacin hacia atrs.


Ejemplo 4.2
1. 2 (1) = 2F 2  S 2 (1) e (1)

Recuerde que:

f 21 S12 (1) = tanh S22 (1) = y12 (1)


2
f 21  S12 (1) = 1 y12 (1)

f 22 S22 (1) = tanh S22 (1) = y22 (1)


2
f 22  S22 (1) = 1 y22 (1)
 2 2

f 1  S1 (1)
0

2F 2  S 2 (1) =
0
f 22  S22 (1)



2
1 y12 (1)
0
=

2
0
1 y22 (1)



1 (0,99748398)
0
0,00251602
2
(1) = 2
0
1 (0,80507629) 0,19492371


2,52896 X 105
2 (1) =
0,13716866

T
W 2 (2) = W 2 (1) + 2 (1) y1 (1)


0,0636 0,6596 2,0639
W 2 (2) =
+
0,582 1,8127 2,2377



2,52896 X 105 
0,27796067 0,85698857 0,99955987
0,5
0,13716866


0,0636 0,6596 2,0639
W 2 (2) =
+
0,582 1,8127 2,2377


3,514775 X 106 1,08364 X 105 1,2639 X 105
0,019063746
0,0587755987
0,06855414


0,063596485 0,659610836 2,063912639
W 2 (2) =
0,562936254 1,871475987 2,169145856
b2 (2) = b2 (1) + 2 (1)


0,7279
b2 (2) =
+ 0,5
1,9579

T
1 (1) = F 1  S 1 (1) W 2 (1) 2 (1)

y1 (1) 1 y11 (1)


0
0

1 (1) =
0
y21 (1) 1 y21 (1)
0 1

1
0
0
y3 (1) 1 y3 (1)
100


0,0636
0,582 
5
0,6596 1,8127 2,52896 X 10
0,13716866
2,0639 2,2377

0,01602252
1 (1) = 0,03047584
0,00013501

T
W 1 (2) = W 1 (1) + 1 (1) y0 (1)

0,7826
0,609
0,01602252 

W 1 (2) = 1,4372 1,6513 + 0,5 0,03047584 1 1
2,713 2,8013
0,00013501

0,7826
0,609
0,00801126
0,00801126
W 1 (2) = 1,4372 1,6513 + 0,01523792
0,01523792
2,713 2,8013
6,7506 X 105 6,7506 X 105

0,79061126
0,61701126
W 1 (2) = 1,45243792 1,66653792
2,71293249 2,80123249

b1 (2) = b1 (1) + 1 (1)

0,437
0,01602252
b1 (2) = 1,298 + 0,5 0,03047584
2,2137
0,00013501

0,42898874
b1 (2) = 1,28276208
2,21363249

4.2.

Derivadas Matriciales en Matlab.

Aprovechando las funciones bsicas y las operaciones que con respecto a matrices se pueden utilizar en Matlab, se disearon unas pequeas funciones que
permiten a travs de la utilizacin de las propiedades de la derivacin matricial,
empleando la vectorizacin y el producto de Kronecker, resolver derivadas matriciales. Se adjuntan los cdigos fuente de las mismas, las cuales son solo un
ejemplo, teniendo en cuenta que las funciones f1, f2 y dems que se presentan,
pueden ser modificadas de acuerdo con la necesidad de solucin.
Un exmen previo de las figuras 4 hasta la 8 puede facilitar la lectura de
esta seccin, ya que el lenguaje Matlab es bastante intuitivo. Inicialmente se
han creado dos funciones vec() que realiza la vectorizacin de una matriz por
columnas, tal como se observa en la figura 4 y vecf () que realiza la vectorizacin
por filas de una matriz, tal como se observa en la figura 5.
En primera instancia, se debe tener claro que es posible definir funciones
nuevas y archivos de sencuencia de comandos (script) en Matlab. De hecho, las
101

function [vec] = vec(mat)


%vectorizacion (columna)
%CAPTURA TAMAO
[m,n] = size(mat);
%LEE ELEMENTOS Y REUBICA
for I = 1:m,
for J = 1:n,
pos=n*(Ipos=n*(I-1)+J;
vecf(pos) = mat(I,J);
end
end
%TRANSPONE
vec=vecf.';
end
end

Figura 4: Vectorizacin de una matriz.

function [vecf] = vecf(mat)


%CAPTURA TAMAO
[m,n] = size(mat);
%LEE ELEMENTOS Y REUBICA
for I = 1:m,
for J = 1:n,
pos=n*(Ipos=n*(I-1)+J;
vecf(pos) = mat(I,J);
end
end
end

Figura 5: Vectorizacin por filas de una matriz.

% CREA VARIABLES
syms v
syms w
syms x
syms y
syms z
%CREA MATRICES IDENTICAS DE ORDEN 1 HASTA 5
I1=eye(1);
I2=eye(2);
I3=eye(3);
I4=eye(4);
I5=eye(5);
return

Figura 6: Inicializacin, crea variables simblicas y matrices idnticas.

102

% CASO:
% DERIVACIN DE f(x,y,z,...) RESPECTO DE CADA VARIABLE INDEPENDIENTE
% BORRA VARIABLES DE LA MEMORIA
clear
% INICIALIZA VARIABLES Y CREA MATRICES UTILITARIAS
ini
% USUARIO: SE DEFINEN FUNCIONES
%EJEMPLO:
f1=x^2+y^3;
f2=2*x*y;
%Fn=...
% USUARIO: SE DEFINEN VECTORES O MATRICES
% EJEMPLO:
Y=[f1 ; f2];
X=[x y];
%%% PROCESANDO... %%%
% EXTRAE EL TAMAO DE LOS VECTORES O MATRICES:
[P,N]=size(X);
[M,Q]=size(Y);
% EXPANSION:
for I = 1:M,
for J = 1:Q,
%DERIVAR CADA ELEMENTO DE Y RESPECTO A MATRIZ
MATRIZ X:
for K=1:P,
for L=1:N,
%DERIVACIN INDIVIDUAL:
R(P*(IR(P*(I-1)+K,N*(J1)+K,N*(J-1)+L)=diff(Y(I,J),X(K,L));
end
end
end
end
R

Figura 7: Codigo completo para realizar una derivacin matricial simple.


figuras referenciadas muestran cdigo de cada uno de ellos. Tanto las funciones
como los scripts pueden utilizar funciones de control de flujo para detallar la
forma como se desea ejecutar una secuencia de procesos. Por ejemplo, en Matlab
se dispone de los comandos: for, if, else, elseif, while, return, break, con un uso
bastante similar al de otros programas ms conocidos, aunque con una sintaxis
ligeramente diferente.
De inters particular para este trabajo, se encuentran las funciones para la
generacin, manipulacin de matrices y operaciones con matrices. Algunas de
ellas son:
trace(M): calcula la traza de una matriz.M
kron(M, N) : desarrolla el producto de kronecker de las matrices M y N.
eye(M, N): devuelve una matrz idntica de tamao M N.
ones(M, N): devuelve una matrz de unos de tamao M N.
103

%BORRA VARIABLES DE LA MEMORIA


clear
%INICIALIZA VARIABLES Y CREA IDENTICAS
ini
%SE DEFINEN FUNCIONES
f1=2*x+3*y;
f2=x^2+2*y;
f3=exp(x);
f4=2*x*y;
f5=1/x;
f6=4*yf6=4*y-x^2;
%SE DEFINEN MATRICES
X=[f1 f2 ; f3 f4; f5 f6];
[filas,col]=size(X);
dXrX=(vec(eye(filas))*vecf(eye(col)))
dXrX=(vec(eye(filas))*vecf(eye(col)))
R=kron(eye(col),dXrX)*kron(vec(eye(col)),eye(col))

Figura 8: Desarrollo de

vec(X)
utilizando las propiedades.
X

zeros(n): devuelve una matrz idntica de tamao M N.


: (dos puntos) crea un vector espaciado regularmente.
linspace: crea un vector espaciado linealmente.
logspace: crea un vector espaciado logartmicamente.
diag: crea o extrae diagonales.
reshape: cambia la dimensin de la matriz.
tril: extrae la matriz triangular inferior.
triu: extrae la matriz triangular superior.
det: calcula el determinante de una matriz.
eig: calcula los autovalores y autovectores.
expm: calcula la exponencial de una matriz.
logm: calcula el logaritmo de una matriz.
Se pueden consultar funciones adicionales mediante el men de ayuda del
programa o mediante el comando help de Matlab.
El cdigo que muestra la figura 6 tiene por objeto crear variables simblicas,
con el fin de poder utilizarlas dentro de expresiones ms complejas. Adems,
crea un conjunto de matrices idnticas, para utilizar cuando se necesiten.

104

En la figura 7, se expone el cdigo necesario para derivar una funcin matricial de variable matricial, aunque se ha desarrollado como primer ejemplo el
caso particular en que tanto la funcin como la variable son vectoriales.
vec(X)
En el ejemplo de la figura 8 se muestra como resolver el problema de
.
X
Para ello, despus de observar las propiedades que cumple este desarrollo, se
ha planteado la solucin como lo indica el cdigo all expuesto. Al utilizar las
propiedades de la derivacin, el proceso se hace ms simple y menos costoso
computacionalmente.
Los resultados de la ejecucin de los ejercicios expuestos coinciden plenamente con los desarrollos mediante otros paquetes o tcnicas,siempre y cuando
se definan correctamente los tipos de datos (entero, real, etc).
Mediante la aplicacin iterativa de las frmulas presentadas, se pueden obtener las derivadas de orden superior o la aplicacin de la regla de la cadena. En
primera instancia, hay una gran cantidad de opciones para desarrollar en este
caso, cada una de las cuales requiere que se definan correctamente las variables
dependientes e independientes, la relacin funcional, y las matrices o vectores
que intervienen.
Matlab es un lenguaje de programacin que facilita el trabajo con matrices. Dado que la representacin interna de Matlab es en forma matricial, los
programas finales son compactos y relativamente sencillos.

105

5.

Conclusiones

Al finalizar el trabajo, es necesario presentar algunos puntos importantes,


considerados como vitales en la comprensin y realizacin del mismo.
Al iniciar el estudio de la derivacin matricial es fundamental tener claridad
en conceptos y definiciones de la teora bsica del lgebra lineal y del clculo
diferencial.
Antes de introducirse directamente en el tema, es necesario comprender las
operaciones que complementan el lgebra lineal y que son el soporte de la derivacin matricial, tales como la permutacin de matrices por bloques, el producto
de Kronecker y la vectorizacin de matrices por fila y por columna.
Al abordar la derivacin matricial es fundamental analizar las propiedades
del producto de Kronecker, de la vectorizacin de matrices, las reglas de derivacin matricial y las formas alternativas de derivacin con el fin de minimizar la
solucin de problemas, teniendo en cuenta que en algunos casos la expansin de
las matyrices es bastante amplia y utilizando adecuadamnte la o las reglas enumeradas anteriormente, el procedimiento de solucin es ms gil, ms eficiente
y esposible que la expansin de las matrices sea ms reducida.
A nivel personal puedo concluir que adquir el conocimiento de nuevas operaciones del lgebra lineal y el del tema central: el clculo matricial, lo que
significa un avance personal muy interesante, que aunque mnimo si se tiene en
cuenta la amplitud del campo matemtico, si muy importante en el desarrollo
y el conocimiento de nuevos temas relacionados con la matemtica.
A nivel profesional, es como haber dado el primer paso en la profundizacin
de conceptos y conocimientos, los cuales se logran solo a travs del tiempo y con
la dedicacin necesaria que permiten realmente formar al verdadero matemtico.
Por ltimo, espero que el trabajo haya respondido a las expectativas de las
directivas y docentes de la Fundacin y que sirva como un aporte interesante no
solo para los matemticos, sino para los profesionales que de una u otra forma
en sus aplicaciones requieren de la derivacin matricial.

106

Referencias
[Her86] I. Herstein, lgebra Abstracta. Mxico: Grupo Editorial Iberoamericano
(1985).
[Bar98] R. Barbolla, P. Sans, lgebra Lineal y Teora de Matrices. Madrid:
Prentice-Hall (1998).
[San94] R. Snchez, A. Velasco, Curso Bsico de Algebra Lineal. Bogot: Ed
Trillas (1994).
[Mey07] C. Meyer, Matrix Analysis and
http://www.matrixanalysis.com/ (2007)

Applied

Linear

Algebra.

[Rad99] C. Radhakrishna, H. Toutenburg, Linear Models: Least Squares and


Alternatives. New York: Springer (1999).
[Per07] P Rengifo. Borradores de Trabajo y Notas de Clase Sistemas Basados
en el Conocimiento. FUKL. (2007)
[Mag06] J. Magnus, Matrix Calculus and Econometrics. Tilburg University
(2006)

107

You might also like