You are on page 1of 42

Programa de Ciencias de los Datos:

Matemática para Ciencias de los Datos

Autor: M. Sc. Saúl Calderón Ramírez


Instituto Tecnológico de Costa Rica,
Escuela de Computación, Bachillerato en Ingeniería en Computación,
PAttern Recongition and MAchine Learning Group (PARMA-Group)
11 de febrero de 2019

Resumen
Este material está basado en el repaso de algebra lineal del profesor
Andrew Ng, de la Universidad de Stanford (http://cs229.stanford.
edu/materials.htm), y conceptos básicos del libro Pattern recognition de
Cristopher Bishop[1]. Además se incluye una corta definición de los siste-
mas lineales, tomada del libro Análisis de señales, de Pablo Irarrazabal[3],
y un repaso del cálculo multivariable, del libro Cálculo en varias variables
cuyas figuras también fueron tomadas de tal libro [2].

1. Sistemas lineales
Gran parte del curso se basará en el estudio de sistemas o modelos linea-
les para realizar desde el filtrado de una señal (ya sea para eliminar aspectos
no deseados, o mejorar cualidades de importancia), hasta la construcción de
modelos de clasificación.
Aunque gran parte de los sistemas reales son no lineales, modelos aproxi-
mados lineales de tales sistemas facilitan su análisis. Se presentan entonces el
concepto básico de linealidad, fundamental en el desarrollo del curso.

1.1. Linealidad
Sea L {·} un operador, f (x), f (x1 ) y f (x2 ) funciones de una variable x ∈ R
(que en señales unidimensionales corresponde usualmente al tiempo), con los
escalares α ∈ R y β ∈ R. Se dice que el operador L es lineal si cumple con
las propiedades de homogeneidad (también conocida como escalamiento) y
superposición, que respectivamente corresponden a:

L {αf (x)} = αL {f (x)}

1
1.1 Linealidad

L {f1 (x) + f2 (x)} = L {f1 (x)} + L {f2 (x)}


Lo cual se puede resumir en una sola ecuación como:

L {αf1 (x) + βf2 (x)} = αL {f1 (x)} + βL {f2 (x)}

Ejemplos Sean los siguientes sistemas L cuya entrada es la función u(t) y la


salida es g(t) con h(t) cualquiera.
g(t) = 5 u(t). Con una entrada dada por αu1 (t) + βu2 (t), se tiene que:

L {αu1 (t) + βu2 (t)} = 5 (αu1 (t) + βu2 (t))


= α 5 u1 (t) + β 5 u2 (t)
= αL {u1 (t)} + βL {u2 (t)}

por lo tanto el sistema es lineal.


p
g(t) = u(t). Con una entrada dada por αu1 (t) + βu2 (t), se tiene que:
p
L {αu1 (t) + βu2 (t)} = (αu1 (t) + βu2 (t))
p p
6= α u1 (t) + β u2 (t)
= αL {u1 (t)} + βL {u2 (t)}

por lo tanto el sistema no es lineal.


g(t) = u(t) cos (ωt). Con una entrada dada por αu1 (t) + βu2 (t), se tiene
que:

L {αu1 (t) + βu2 (t)} = αu1 (t) cos (ωt)+βu2 (t) cos (ωt) = αL {u1 (t)}+βL {u2 (t)}

por lo tanto el sistema es lineal.


1
g(t) = 1+exp(−u(t)) . Con una entrada dada por αu1 (t) + βu2 (t), se tiene
que:
1
L {αu1 (t) + βu2 (t)} =
1 + exp (−αu1 (t) − βu2 (t))
1
=
1 + exp (−αu1 (t)) exp (−βu2 (t))
y dado que
α β
αL {u1 (t)} + βL {u2 (t)} = +
1 + exp (−u1 (t)) 1 + exp (−u2 (t))
α (1 + exp (−u2 (t))) + β (1 + exp (−u1 (t)))
=
(1 + exp (−u1 (t))) (1 + exp (−u2 (t)))
por lo que entonces en este caso L {αu1 (t) + βu2 (t)} 6= αL {u1 (t)} +
βL {u2 (t)}, por lo que el sistema es no lineal.

2
Figura 1: Vector con magnitud y dirección en R2 y R3 , tomado de [2].

2. Algebra lineal
2.1. Vectores
Tal como se mencionó, un vector de dimensionalidad n o con n componen-
tes se define de la siguiente manera:
 
v1
 v2 

−v = . 
 
 .. 
vn

donde se dice que el vector está definido en un espacio Rn . Presenta un pun-


to de origen A = (a1 , a2 , . . . , an ) y un punto de destino o final B = (b1 , b2 , . . . , bn )
y viene entonces dado por:
 
b1 − a1
−−→  b2 − a2 

−v = AB = (b1 , b2 , . . . , bn ) − (a1 , a2 , . . . , an ) = 
 
.. 
 . 
bn − an

2.1.1. Ilustración de conceptos con vectores en R2


Un vector tiene una dirección y una magnitud asociados, como lo sugiere
el siguiente diagrama para un vector →
−v ∈ R2: 
v
El ángulo por ejemplo de un vector →
−v = 1 en un espacio R2 , respecto al
v2
eje x, está dado por:  
v2
θ = arctan
v1

3
2.1 Vectores


− →


a · b = k→
Figura 2: Magnitud de la proyección de los vectores →
− −
a k b cos (θ) ,
y los vectores →

a ·→−
u = k→ −a k cos (θ) , con k→

u k = 1, tomado de http://
mathinsight.org/dot_product.

 

− v
La magnitud se define, para un vector v = 1 en un espacio R2 como :
v2
q
k→

vk= v12 + v22

y en general para un vector en un Rn como:


q
k→
−v k = v12 + . . . vn2

recordemos además, que es un vector unitario todo aquel vector v̂ que cumpla
con kv̂k = 1.
Producto punto o producto interno o producto escalar para un vector: la
función producto punto, para dos vectores →

w y→ − v de dimensión n está dada
por:
n
s=→ −
v ·→

w =→−
vT→ −
X
w = v1 w1 + v2 w2 + . . . + vn wn = vi w i
i=1
1
donde se dice que s es un escalar que pues s ∈ R .
En el espacio euclidiano, el producto punto tiene la siguiente equivalencia
geométrica:

−v ·→−
w = k→−
v k k→

w k cos (θ)

− →

donde el ángulo entre los vectores v y w está dado por θ. El producto punto,
gráficamente se refiere a la noción de la sombra o magnitud de la proyección
del vector →
−v en →
−w , como muestra la Figura 2.
Esto quiere decir que si los dos vectores son co-direccionales θ = 0 ⇒
cos (θ) = 1 por lo que entonces:


v ·→

w = k→

v k k→

wk,

4
2.1 Vectores

lo cual significa que si calculamos el producto punto del vector →



v consigo mis-
mo:


v ·→−v = k→
− 2
vk ,
por lo que podemos llegar a la definición de la magnitud o norma en `2 puede
expresarse entonces en términos del producto punto como:

vk= →
k→
− −
v ·→−v.
La magnitud de un vector puede interpretarse como la proyección en el espa-
cio R1 en dirección del vector unitario → −v u , una operación básica que permite
reducir la dimensionalidad de un vector (la reducción de la dimensionalidad
es un concepto fundamental en el reconocimiento
  de
 patrones).
  
1 0 0
Por ejemplo, los vectores unitarios î = 0, ĵ = 1 y k̂ = 0 son vectores
0 0 1
unitarios.
Si el ángulo entre los dos vectores u ortogonales → −
v y→−
w es de 90o , se tiene
que entonces por la definición geométrica del producto punto:


v ·→

w =→

vT→

w =0
Los vectores pueden dibujarse en MATLAB como sigue (en R2 ):
1 M = [ −0.4 0 . 7 0 . 2 ; −0.5 0 . 1 0 . 5 ] ;
2 p l o t v (M, ’− ’ )
Operaciones básicas en vectores: En general, la suma y resta de dos vecto-
res ~r = ~a ± ~b con ~a, ~b ∈ Rn y se define como sigue:
 
a1 ± b1
~r =  ..
.
 
.
a n ± bn


La Figura 3 muestra la graficación de dos vectores → −
a ∈ R2 y b ∈ R2 sus sumas
y restas respectivas.
Se pueden también definir los operadores de multiplicación y división por
componente de vectores, denotados respectivamente como .· y ./ por lo que en-
tonces el producto por componente de dos vectores ~a, ~b ∈ Rn se define como:
 
a1 · b1
~a. · ~b =  ... 
 

an · bn
y de manera similar, la división por componente está dada por:
 
a1 /b1
~a./~b =  ...  .
 

an /bn

5
2.1 Vectores

Figura 3: Suma y resta de vectores en R2 .

~ ∈ Rn y a, b ∈ R:
Propiedades de las operaciones con los vectores, con ~u, ~v , w
~u + ~v = ~v + ~u
~u + ~0 = ~u
~0 · ~u = 0

a (b ~u) = (a b) ~u
(a + b) ~u = a ~u + b ~u
(~u + ~v ) + w
~ = ~u + (~v + w)
~
~u + (−~u) = 0
1~u = ~u
a (~u + ~v ) = a ~u + a ~v

2.1.2. Normas:
El concepto de magnitud o norma visto anteriormente, se conoce como la
distancia Eucliciana o norma `2 , la cual se refiere al largo de un vector, como
vimos. La norma euclidiana se puede reescribir como:
v
u n
uX
k~xk2 = t x2i (1)
i=1

2
y ya se demostró la equivalencia k~xk2 = ~xT ~x. Formalmente, la norma es cual-
quier función f : Rn → R que satisface las siguientes 4 propiedades, para todo
~x ∈ Rn , ~y ∈ Rn y t ∈ R:

6
2.1 Vectores

No negatividad: , f (~x) ≥ 0.
Nulidad: f (~x) = 0 si y solo si ~x = 0 (vector nulo).
Homogeneidad absoluta: f (t ~x) = |t| f (~x).
Desigualdad triangular: f (~x + ~y ) ≤ f (~x) + f (~y ) .
Generalizando la ecuación 1 como una norma `p , con p ≥ 1, se tiene que:
n
!1/p
X p
k~xkp = |xi | (2)
i=1

A partir de tal definición general, se tiene la norma `1 también conocida


como Manhattan o distancia de bloques:
n
!
X
k~xk1 = |xi | (3)
i=1

La norma `∞ se define entonces como:


n
!1/∞

X
k~xk∞ = |xi | . (4)
i=1

Esta definición parece un tanto confusa. Sin embargo, se puede notar que la
máxima entrada o componente denotado por xm del arreglo ~x viene a hacer
que, al elevarse al infinito sea, por mucho, el mayor componente del vector:
x∞ ∞
m  xi , ∀i 6= m

por lo que entonces se puede decir que la sumatoria de los componentes del
vector ~x tiende al valor x∞
m (en términos de aproximación numérica), con ello
se tiene que:
n

X
|xi | → x∞
m. (5)
i=1
por ello se puede reescribir la ecuación de la norma como:
1/∞
k~xk∞ = (x∞
m) = |xm | = máx (|xi |) . (6)

La norma de tipo `p del vector diferencia d~ = ~v − w


~ entre dos vectores, ~v y w
~ se
conoce como la distancia `p , por ejemplo se definen la distancia Euclidiana y la
distancia Manhattan.
Existen también distintas normas definidas para matrices, como por ejem-
plo, la norma de Frobenius, la cual se define como sigue, para una matriz
A∈ Rm×n : v
um X n
uX q
2
kAkF = t Ai,j = tr (AT A)
i=1 j=1

7
2.2 Funciones y cálculo multivariable

Figura 4: Plano en R3 . Tomado de [2]

2.2. Funciones y cálculo multivariable


Antes de pasar a las funciones de n variables o con dominio definido en
Rn examinaremos con más detalle los planos o en general hiperplanos, corres-
pondientes a las líneas o pendientes definidas como y = f (x) = m x + b que
conocemos para funciones en una variable.

2.3. Rectas
Una recta L en un espacio Rn que pasa por un punto P0 = (x1 , . . . , xn ) y
paralela al vector ~v ∈ Rn , con lo que L está compuesta por todo punto P que
−−→
haga que el vector P0 P sea paralelo al vector ~v , lo que implica que se tiene que
cumplir lo siguiente:
−−→
P0 P = t ~v ⇒ P − P0 = t ~v ,
para algún escalar t ∈ R, con lo que el valor de t depende de la posición del
punto P en el espacio. Una recta se extiende de forma infinita, por lo que en-
tonces se cumple que −∞ < t < ∞. Despejando la ecuación anterior se obtiene
la ecuación paramétrica de una recta:

P = r (t) = P0 + t ~v , (7)

se le llama ecuación paramétrica pues el parámetro de tal ecuación es el escalar


t.

2.4. Planos e hiperplanos


Un plano (llamado así en un espacio R3 ) o hiperplano (para cualquier es-
pacio Rn ) corresponde a una superficie completamente planar que se extiende
hacia el infinito en todas las dimensiones.

8
2.5 Funciones multivariable

3
Observe la Figura
  4 donde se grafica un plano en un espacio R con un vec-
a
tor normal ~n =  b  y sobre el cual existen un punto cualquiera (desconocido)
c
P = (x, y, z) y un punto conocido P0 = (x0 , y0 , z0 ). Ya concluimos que cuan-
do dos vectores son perpendiculares, su producto punto es cero, por lo que
entonces podemos escribir la ecuación vectorial de un hiper-plano como:
−−→
~n · P0 P = 0,

si establecemos los vectores con origen en (0, 0, 0) hacia los puntos P0 y P ,


respectivamente, como P~0 y P~ y desarrollando la ecuación vectorial se tiene
que:
⇒ ~n · (P − P0 ) = 0 ⇒ ~n · P~ = ~n · P~0
⇒ ax + by + cz = ax0 + by0 + bz0 ,
donde dado que conocemos el vector normal y el punto P0 , podemos hacer
d = ax0 + by0 + bz0 , con lo que entonces obtenemos la ecuación cartesiana de
un plano, compuesto por todo punto P = (x, y, z) que haga cumplir:

a x + b y + c z = d, (8)

lo cual se puede reescribir como la ecuación de una pendiente en un espacio de


dimensionalidad mayor:
y=m ~ T ~x + k, (9)
 
  x
con m~ T = a b c y ~x = y . Observe que a diferencia de la ecuación de la
z
recta, que extiende el vector en una sola dirección, la ecuación de un plano está
dada por todos los puntos satisfacen la ecuación del plano.

2.5. Funciones multivariable


Un plano en R3 puede conceptualizarse como una función z = f (x, y),
con dominio en R2 y codominio en R, por lo que basados en la ecuación 8, la
función vendría dada por:

d a b
z= − x − y,
c c c
donde en general la ecuación de una función plano está entonces dada por:

z = f (x, y) = a1 x + a2 y + a3

El siguiente código dibuja dos funciones o planos f (x, y) = 2,1 x + y y


g (x, y) = 0 en MATLAB, mostrados en la Figura 5.

9
2.5 Funciones multivariable

Figura 5: Graficación de dos planos.

1 x = −10:.1:10;
2 [ X , Y ] = meshgrid ( x ) ;
3 Z = 2 . 1 ∗X + Y ;
4 Z1 = Z . ∗ 0 ;
5 f i g u r e ; surf (X , Y , Z) ;
6 shading f l a t
7 xlabel ( ’x ’ ) ;
8 ylabel ( ’y ’ ) ;
9 zlabel ( ’z ’ )
10 hold on ;
11 s u r f ( X , Y , Z1 ) ;
12 hold on ;
En general, una función con múltiples variables de entrada y una de salida,
correspondiente a un dominio Rn y un codominio en R generan lo que se llama
superficies en un espacio Rn+1 .
Las siguientes son algunas superficies conocidas (observe que para expre-
sar tales superficies en términos de una función z = f (x, y) con dominio en R2
y codominio en R, es necesario despejar z) y se ilustran en la Figura 6:
y2 x2
Paraboloide hiperbólica b2 − a2 = zc , c > 0
x2 y2
Paraboloide elíptica a2 + b2 = zc , c > 0

10
2.6 Curvas de nivel

Figura 6: Superficies cuadricas de ejemplo, paraboloide .[2]

2.6. Curvas de nivel


Una curva de nivel en z0 es un corte o intersección con un plano con un
valor de z constante z0 , es decir, un plano con todos sus puntos con dominio
o preimágenes en x, y con imagen z0 . La Figura 7 muestra el ejemplo de una
función multivariable g (x, y) que forma una parabolide hiperbólica, interseca-
do con un plano en z0 = 40. Observe que la intersección o curva de nivel en
este caso corresponde a una parábola. Además la Figura 7 muestra otro ejem-
plo de curva de nivel en una superficie cuádrica, e ilustra el concepto con las
curvas de nivel que se pueden encontrar en los mapas geográficos, para indicar
la forma de montañas en la dimensión z.
Finalmente, observe la Figura 5, donde se intersecan dos planos correspon-
diente a una superficie del funcional f (x, y) = 2,1x + y y un plano constante
g (x, y) = 0. Es fácil notar que la intersección entre ambos planos es una línea
recta cuya ecuación se puede calcular de la siguiente manera. Para el plano f
tómese un valor en z = 0 (donde ambos planos coinciden) y despeje función f
en z = 0 se tiene que −y = 2,1x. Si nos damos dos valores de x, x = 0 y x = 1,
se obtienen los puntos P0 , P ∈ R2 para los planos x y y:

P0 = (0, 0)
,
P = (1, −2,1)

por lo que entonces un vectorparalelo


 a la línea de intersección entre los dos
−−→ 1
planos viene dado por P0 P = con la ecuación vectorial de la línea recta
 −2,1

1
dada por r (t) = (0, 0) + t .
−2,1

11
2.7 El vector gradiente

Figura 7: Ejemplos de curvas de nivel. Tomado de [2]

2.7. El vector gradiente


A continuación se define la función derivada parcial de una función de dos
variables z = f (x, y) con dominio en R2 y codominio en R respecto a x como:

df f (x + h, y) − f (x, y)
= lı́m ,
dx h→0 h
donde se observa que el desplazamiento por h se hace únicamente en el eje
x, dejando el otro eje intacto. Conceptualmente la derivada parcial respecto
a una variable x corresponde al cambio en el funcional en esa dimensión. La
evaluación de tal funcional en un punto (x0 , y0 ) viene entonces dada por:

df f (x0 + h, y0 ) − f (x0 , y0 )
= lı́m
dx (x0 ,y0 ) h→0 h
2 2
Por ejemplo, para la función f (x, y) = yb2 − xa2 se tiene que df 2
dx = − a2 x y
respecto a y como df 2
dy = b2 y. La evaluación de ambas derivadas parciales en el
df df
punto (1, 1) vendrían a ser dx (1,1) = − a22 y dy (1,1) = 2
b2 , respectivamente.
n
En general, para una función con dominio en R y codominio en R, z =
f (x1 , . . . , xn ), la derivada parcial respecto a la variable xi está dada por:

df f (x1 , . . . , xi + h, . . . , xn ) − f (x1 , . . . , xn )
= lı́m .
dxi h→0 h

12
2.7 El vector gradiente

Veamos ahora la definición formal del vector gradiente, primero para una
función de con dominio en R2 y codominio en R, f (x, y) evaluado en cualquier
punto (x0 , y0 ):
df df
∇f(x0 ,y0 ) = î + ĵ
dx (x0 ,y0 ) dy (x0 ,y0 )
y en general para una función con dominio en Rn el vector gradiente en cual-
quier punto (u1 , . . . un ) viene dado por:

df df
∇f(u1 ,...un ) = iˆ1 + . . . + iˆn .
dx1 (u1 ,...un ) dxn (u1 ,...un )

El vector gradiente denota entonces la dirección para la cual una superficie


definida por la función f cambia. Observe que ese vector cambia de acuerdo al
punto (u1 , . . . un ) en el que se evalúe.
Siguiendo el ejemplo de del plano f (x, y) = 2,1x + y , calculando su vector
gradiente se obtiene que ∇f = 2,1 î + ĵ. Observe primero que el mismo es
constante, sin importar el punto (x0 , y0 ) sobre el que se evalúa. Recordemos
además que el vector paralelo  a la recta que constituye la curva de nivel en
−−→ 1
z = 0 está dado por P0 P = . Cual es la relación entre estos vectores?
−2,1
Intiuitivamente, la curva de nivel es un corte que en este caso está dado por una
recta en R2 , al igual que el vector gradiente, el cual indica la dirección hacia la
que el plano crece o se orienta, por lo que entonces es natural pensar que ambos
vectores son ortogonales entre ellos:
 
−−→ 1  
∇f · P0 P = 2,1 1 = 0.
−2,1

Para graficar la superficie y ambos vectores hacemos en MATLAB:


1 x = −10:.1:10;
2 [ X , Y ] = meshgrid ( x ) ;
3 Z = 2 . 1 ∗X + Y ;
4 Z1 = Z . ∗ 0 ;
5 f i g u r e ; surf (X , Y , Z) ;
6 shading f l a t
7 xlabel ( ’x ’ ) ;
8 ylabel ( ’y ’ ) ;
9 zlabel ( ’z ’ )
10 hold on ;
11 s u r f ( X , Y , Z1 ) ;
12 hold on ;
13 M = [1 2.1 ;
14 −2.1 1 ] ;
15 p l o t v (M, ’− ’ ) ;

13
2.7 El vector gradiente

Figura 8: Plano, vectores gradiente (rojo) y curva de nivel (azul).

La gráfica del vector gradiente (en rojo) y el vector paralelo a la curva de


nivel se muestra en la Figura 8.
Ejemplo 2
Tómese la siguiente función multi-variable f : R2 → R, f (x, y) = 32x +
5 + 2x + y 4 . El vector gradiente para una función de dos variables está dado
4y

en general por:
df df
∇f = î + ĵ
dx dy
y en este caso cada derivada parcial está dada por (recordando que para una
función f (x) = ax ⇒ f 0 (x) = ax x0 ln (a)):

df
= 2 32x ln (3) + 2
dx

df
= 4 54y ln (5) + 4y 3
dy
 df
⇒ ∇f = 2 32x ln (3) + 2 î + 4 54y ln (5) + 4y 3


dy
Como último ejemplo, en la Figura 9 se muestra la superficie correspon-
2 2
diente a la función Gaussiana multivariable f (x, y) = e(−x −y ) , y se grafican
los vectores gradientes en varios puntos usando el siguiente código:
1 [ X , Y ] = meshgrid ( − 2 : . 2 : 2 ) ;
2 Z = exp(−X. ^ 2 − Y . ^ 2 ) ;
3 [DX,DY] = g r a d i e n t ( Z ) ;

14
2.8 Matrices

Figura 9: Graficación de la función gaussiana y los vectores gradiente en varios


puntos.

4 figure
5 contour ( X , Y , Z )
6 hold on
7 q u i v e r ( X , Y , DX,DY)
8 hold o f f
Observe que los vectores gradiente varían en cada punto.

2.8. Matrices
La álgebra lineal facilita la expresión de múltiples operaciones, como por
ejemplo las operaciones en ecuaciones lineales, como el siguiente sistema de
ecuaciones:
4x1 − 5x2 = −13
−2x1 + 3x2 = 9
el sistema de ecuaciones anterior tiene igual número de ecuaciones y varia-
bles, por lo que presenta una solución única si las ecuaciones son linealmente
independientes (ninguna de las ecuaciones es combinación lineal de otra). En
notación matricial, el sistema de ecuaciones anterior se expresa de la siguiente
forma:
A ~x = b
con    
4 −5 −13
A= , b=
−2 3 9
En el material del curso se utilizará la siguiente notación:

Con A ∈ Rm×n se define una matriz con m filas y n columnas, donde en


este caso todas las entradas de A son números reales.

15
2.9 La matriz identidad y diagonal

Con ~x ∈ Rn×1 = Rn se denota un vector con n entradas. Por conven-


ción, un vector n dimensional se define como una matriz de n filas y 1
columna, conocido como el vector columna:
 
x1
 x2 

−x = . 
 
 .. 
xn

y el elemento i del vector se denota como xi . Un vector fila se define


entonces de la siguiente forma (usando la definición de la transpuesta):

−x T = x1 x2 . . . x n
 

Para denotar los elementos de una matriz se usa la notación ai,j o (Aij ,
Ai,j ,A (i, j), etc), y para definir una entrada de la matriz A en la fila i y la
columna j:  
a1,1 a1,2 . . . a1,n
 a2,1 a2,2 . . . a2,n 
A= .
 
.. .. .. 
 .. . . . 
am,1 am,2 am,n
y con la columna j de la matriz A definida como aj o A:,j , de modo que
la matriz A está definida en términos de vectores columna por:
 
| | ... |
A = →−a :,1 →

a :,2 . . . →

a :,n 
| | ... |

y se define la fila i de tal matriz como ~aTi,: o Ai,: , por lo que en términos
de tales vectores fila la matriz A se expresa como:

− ~aT1,: −
 
− ~aT2,: −
A=
 
.. 
 . 
T
− ~am,: −

2.9. La matriz identidad y diagonal


La matriz identidad, definida como una matriz cuadrada I∈ Rn×n y está
formada por una diagonal de unos, y el resto de entradas de la matriz está en
cero: (
1 i=j
Ii,j =
0 i 6= j

16
2.10 La matriz transpuesta

y es el neutro de la multiplicación matricial, por lo que para toda A∈ Rm×n se


tiene que:
AI = A
la matriz identidad es un caso particular de una matriz diagonal, donde todos
los elementos no diagonales son 0, lo que se denota como: D = diag (d1 , d2 , . . . , dn )
con: (
di i = j
Di,j =
0 i 6= j
por lo que entonces I = diag (1, 1, . . . , 1).

2.10. La matriz transpuesta


La transpuesta de una matriz es el resultado de cambiar las filas a columnas.
Sea una matriz A∈ Rm×n , su transpuesta se escribe como AT ∈ Rn×m y sus
entradas están dadas por:
AT i,j = Aj,i .


Las siguientes son propiedades de la transpuesta:


T
AT =A
T
(A B) = B T AT
T
(A + B) = AT + B T .

2.11. Matrices simétricas


Una matriz cuadrada A∈ Rn×n es simétrica si A = AT y es anti simétrica si
A = −AT , Para toda matriz A∈ Rn×n es fácil demostrar que la matriz A + AT
es simétrica y la matriz A − AT es anti-simétrica, por lo que se puede seguir
que cualquier matriz cuadrada puede expresarse en términos de una matriz
simétrica y anti-simétrica:
1  1
A + AT − A − AT .

A=
2 2
Se define entonces el conjunto de matrices simétricas de dimensiones n × n
como Sn por lo que A ∈ Sn si es simétrica. Las matrices simétricas son muy
frecuentes en el reconocimiento de patrones, y presentan una serie de propie-
dades muy útiles que veremos más adelante.

2.12. La traza de una matriz


La traza de una matriz cuadrada A∈ Rn×n denotada como tr (A) es la suma
de los elementos en la diagonal de una matriz:
n
X
tr (A) = Ai,i
i=1

17
2.13 Producto de matrices

La traza tiene las siguientes propiedades:



tr (A) = tr AT

Superposición tr (A + B) = tr (A) + tr (B)


Homogeneidad: Sea t ∈ R, tr (t A) = t tr (A)
Para A y B cuadradas, se tiene que tr (A B) = tr (B A)

2.13. Producto de matrices


El producto de dos matrices A ∈ Rm×n y B ∈ Rn×p es la matriz:

C = A ◦ B = A B ∈ Rm×p

donde
n
X
Ci,j = Ai,1 B1,j + . . . + Ai,n Bn,j = Ai,k Bk,j
k=1

observe que para efectuar el producto matricial la cantidad de columnas en A


debe ser igual a la cantidad de filas de la matriz B. A continuación se examinan
los casos particulares del producto de matrices

2.14. Producto vector-vector o producto punto


Sean dos vectores →−
x,→−
y ∈ Rn el producto interno o producto punto se
puede definir, en términos del producto entre tales vectores de la siguiente
forma:
 
v1
 v2  X n


x ·→−y =→ −xT →

y ∈ R1 = x1 x2 · · · xn  .  =
   
xi yi
 ..  i=1
vn

Observe entonces que el producto interno es un caso especial de la multiplica-


ción de matrices, y que además, siempre se cumple que


x T→

y =→

y T→

x.

El producto externo en cambio, está dado para dos vectores →



x ∈ Rm×1 , → −
y ∈
1×n
R (no necesariamente de la misma dimensionalidad) se define como:
   
x1 x1 y1 x1 y2 · · · x1 yn
 x2 y1 x2 y2 · · · x2 yn 
 x2     


x →−y = ~x~y T ∈ Rm×n =  .  y1 y2 · · · yn =  .
 
. . .
 ..   .. .. .. .. 

xm xm y1 xm y2 ··· xm yn

18
2.15 Producto matriz-vector

El producto externo permite, por ejemplo, crear una matriz A ∈ Rm×n cu-


yas columnas sean igual a un vector x ∈ Rm usando un vector unitario 1 ∈ Rn ,
como sigue:
 
x1    
 x2   | | | | | |

− →
−T   
x 1 =  .  1 1 · · · 1n = ~x ~x · · · ~x = ~x ~x · · · ~x
 ..  | | | | | |
xm

2.15. Producto matriz-vector


Sea una matriz A ∈ Rm×n y un vector (columna) → −
x ∈ Rn×1 su producto es


el vector y ∈ R m×1
.
Si se escribe a la matriz A por columnas, entonces se puede expresar a A →

x
como:
− ~aT1,: − − ~aT1,: −
      T 
x1 ~a1,: ~x
− ~aT2,: − − ~aT2,: −  x2   ~aT2,: ~x 
~y = A →
− →
x = − x =   ..  =  .. 
     
.. ..
 .   .  .   . 
− ~aTm,: − − ~aTm,: − xn ~aTm,: ~x
En otras palabras, la fila i de y , yi es igual al producto interno de la fila bi con
el vector →

x.
Alternativamente, si se escribe la matriz A en forma de columnas, el pro-
ducto matriz-vector se puede expresar como:
 
  x1
| | ... |  x2 

−y = A→ −
x = ~a:,1 ~a:,2 . . . ~a:,n   .  = [~a:,1 ] x1 + [~a:,2 ] x2 + . . . + [~a:,n ] xn .
 
| | ... |  .. 
xn
ello es fácilmente corroborable si hacemos la multiplicación de sus transpues-
tas:
− ~aT:,1 −
 
T
− ~a:,2 −


−y T = ~xT AT = x1 x2 · · · xn 

 = x1 ~aT:,1 +x2 ~aT:,1 +. . .+xn ~aT:,n .
     
..
 . 
− ~aT:,n −
Lo anterior representa el hecho de que el vector →

y es una combinación lineal
de las columnas de la matriz A, donde los coeficientes están definidos en el
vector →

x.

2.16. Producto matriz-matriz


El producto matriz-matriz en general de dos matrices A ∈ Rm×n y B ∈
n×p
R dado por C ∈ Rm×p se puede definir en términos de las filas y columnas,

19
2.17 Independencia lineal y el rango de una matriz

donde para cada entrada Ci,j el producto interno de la fila i de A y la columna


j de B, simbólicamente esto se expresa como sigue:

~aT1,:~b1,: ~aT1,:~b2,: ~aT1,:~bp,:


 
− ~aT1,: ···
 
−  
− ~aT2,: − | | ... |  ~a2,:~b1,:
 T
~aT2,:~b2,: ··· ~aT2,:~bp,: 
 ~
 b1,: ~b2,: . . . ~bp,:  = 

C = AB =   .. .. .. 

.. ..
 . 
| | ... |  . . . . 

T
− ~aTm,: − ~aTm,:~b1,: a~ ~b2,:
0 ··· ~aTm,:~bp,:
m
 
| | ... |
C = A B = A~b1,: A~b2,: . . . A~bp,: 
| | ... |
La última igualdad representa el hecho de que la columna j de la matriz C es
una combinación lineal de los vectores columna de la matriz A con los coefi-
cientes definidos por el vector columna ~bj,: .
Las siguientes son propiedades fácilmente corroborables para el producto
matricial:
Asociatividad: (A B) C = A (B C).
Distributividad: A (B + C) = A B + A C.
No conmutatividad: A B 6= B A.

2.17. Independencia lineal y el rango de una matriz


Un conjunto de vectores {~x1 , ~x2 , . . . , ~xn } ⊂ Rm se dice que es linealmente
independiente, si ningún vector de tal conjunto puede ser representado como
una combinación lineal del resto de vectores. De lo contrario, si uno de los
vectores en tal conjunto puede ser representado como una combinación lineal
del resto de vectores, entonces los vectores son linealmente dependientes, lo
que se expresa como:
n−1
X
~xj = αi ~xi
i=1

para cualquier conjunto de valores escalares α1 , . . . , αn−1 ∈ R se dice que el


vector ~xj ∈ Rm es linealmente dependiente de los vectores ~xi .
El rango de columnas de la matriz A ∈ Rm×n corresponde a la cantidad
más grande de columnas en la matriz A linealmente independientes, de mane-
ra similar, el rango de filas se refiere a la cantidad más grande de filas en tal
matriz linealmente independientes.
Para cualquier matriz A ∈ Rm×n se puede comprobar que el rango de filas y
el de columnas es el mismo, por lo que entonces la cantidad de filas y columnas
linealmente independiente se le refiere con el rango:
rango (A) ,con las siguientes propiedades:

20
2.18 La matriz inversa

∀A ∈ Rm×n , rango (A) ≤ mı́n (m, n), y si rango (A) = min (m, n) se dice
que A de rango completo.

rango (A) ≤ rango AT

rango (A B) ≤ mı́n (rango (A) , rango (B))


rango (A + B) ≤ rango (A) + rango (B)
Ejemplo:
Observe la siguiente matriz:
 
1 2 −1 3 −2
2 1 0 1 1
 
2
 4 −2 6 −4

0 0 0 0 0
5 4 −1 5 0

Fácilmente puede notarse que la fila f3 = 2f1 y además que f5 = 2f2 + f1 ,


y que dado que la fila f4 es nula, entonces puede ser expresada en términos de
cualquier otra fila en una combinación lineal.

2.18. La matriz inversa


La inversa de la matriz cuadrada A ∈ Rn×n se denota como A−1 es la única
matriz que cumple lo siguiente:

A−1 A = I = A A−1

Nótese que no todas las matrices tienen inversas, por ejemplo las matrices no
cuadradas no tienen inversas por definición, e incluso, pueden existir matrices
cuadradas sin inversas.

Se dice que A es una matriz invertible o no singular si A−1 existe, si la


matriz A presenta rango completo, lo que quiere decir que las matrices
con filas o columnas que son combinación lineal de otras filas o columnas,
no son invertibles.
Si la matriz A−1 no existe, se dice que la matriz es no invertible o singu-
lar.
Las siguientes son las propiedades de la inversa, asumiendo que A, B ∈ Rn×n
son no-singulares:
−1
A−1 = A.
−1
(A B) = B −1 A−1 .
T −1
A−1 = AT

21
2.19 Matrices ortogonales

2.19. Matrices ortogonales


Anteriormente se mencionó que dos vectores ~x, ~y ∈ Rn son ortogonales si
~x ~y = 0. Se dice dice que un vector ~x ∈ Rn es normalizado si k~xk2 = 1.
T

Una matriz cuadrada U ∈ Rn×n es ortogonal si todas las columnas son


ortogonales entre ellas. Si además, todos los vectores están normalizados, se
dice que la matriz es ortonormal.
Las siguientes son propiedades de las matrices ortogonales:
Para toda matriz ortonormal U ∈ Rn×n , se cumple que:U T U = I = U U T
y sabiendo que U U −1 = I se arriba a que U T = U −1 . Si U ∈ Rm×n
y n < m pero sus columnas son ortonormales, entonces se cumple que
U T U = I pero U U T 6= I.
Para toda matriz ortogonal U ∈ Rn×n y vector ~x ∈ Rn , se cumple que el
operar el vector con una matriz ortogonal, la norma euclidiana no cam-
bia:
kU ~xk2 = k~xk2

2.20. Rango y espacio nulo de la matriz


Un espacio generado de un conjunto de vectores {~a1 , ~a2 , . . . , ~am } ~ai ∈
Rn es el conjunto de vectores que pueden ser expresados como combinación
lineal de tales vectores {~a1 , ~a2 , . . . , ~am }:
( m
)
X
1
espacioGenerado ({~a1 , ~a2 , . . . , ~am }) = ~v : ~v = xi~ai xi ∈ R .
i=1

Puede demostrarse que si el conjunto de vectores {~a1 , ~a2 , . . . , ~am } ~ai ∈ Rn


es linealmente independiente (con m ≥ n), el espacio generado por tal con-
junto de vectores es:

espacioGenerado ({~a1 , ~a2 , . . . , ~am }) = Rn .


 
1
Por ejemplo, los vectores unitarios anteriormente presentados î = 0, ĵ =
    0
0 0
1 y k̂ = 0 son linealmente independientes, por lo que entonces es fácil
0 1
observar que la combinación lineal de tales vectorespuede generar cualquier
3
vector en el espacio R3 . Por ejemplo, un vector ~v = 5 se puede representar
7
como:      
1 0 0
~v = 3î + 5ĵ + 7k̂ = 3 0 + 5 1 + 7 0
0 0 1

22
2.20 Rango y espacio nulo de la matriz

n o
por lo que entonces ~v ∈ espacioGenerado ~i, ~j, ~k = R3 , con en este caso
x1 = 3, x2 = 5 y x3 = 7.
La proyección de un vector ~y ∈ Rn en el espacio generado por el conjunto
de vectores {~a1 , ~a2 , . . . , ~am } ~ai ∈ Rn corresponde al vector:

~v ∈ espacioGenerado ({~a1 , ~a2 , . . . , ~am })


tal que ~v ∈ R esté lo más cerca posible del vector ~y ∈ Rn , medido con por
n

ejemplo una norma euclidiana k~v − ~y k2 y se puede definir formalmente como:


proy (~y ; {~a1 , ~a2 , . . . , ~am }) = argmin~v∈espacioGenerado({~a1 ,~a2 ,...,~am }) k~v − ~y k2 .

Por otra parte, el espacio de columnas de una matriz A ∈ Rm×n denotado


como C (A) corresponde al espacio generado por las columnas de la matriz A,
lo cual se representa como sigue:
C (A) = ~v ∈ Rm : ~v = A ~x, ~x ∈ Rm , A ∈ Rn×m ,


donde recordemos que la multiplicación matricial A ~x corresponde a una com-


binación lineal del vector ~x:
 
  x1
| | ... |  x2 
A→−x = ~a:,1 ~a:,2 . . . ~a:,n   .  = x1 [~a:,1 ] + x2 [a:,2 ] + . . . + xn [a:,n ] ,
 
 .. 
| | ... |
xn
por lo que entonces el espacio de columnas de la matriz A equivale a:
( n
)
X
1
C (A)=espacioGenerado ({~a:,1 , ~a:,2 , . . . , ~a:,n }) = v : v = xi~a:,i xi ∈ R .
i=1

Asumiendo que A es de rango completo y que n < m se tiene que la proyección


del vector ~y ∈ Rn en el espacio de columnas de la matriz A está dado por:
p
proy (~y ; A) = argmin~v∈C(A) k~v − ~y k2 = argmin~x (A ~x − ~y ) · (A ~x − ~y )
q
T
⇒ proy (~y ; A) = argmin~x (A ~x − ~y ) (A ~x − ~y )
T
El encontrar el vector que minimice la ecuación (A ~x − ~y ) (A ~x − ~y ) se le lla-
ma el problema de los mínimos cuadrados. Nos preocupamos de tal ecuación,
pues usualmente se eleva el cuadrado la ecuación original de la proyección,
dado que tomar su cuadrado no altera el mínimo:
2
argmin~v∈C(A) k~v − ~y k2 = argmin~x (A ~x − ~y ) · (A ~x − ~y ) .

Este tema se retomará al final del presente documento, una vez que se haya
definido el concepto de gradiente matricial y se demostrará que:
−1 T
proy (~y ; A) = argmin~v∈C(A) k~v − ~y k2 = A AT A A ~y

23
2.20 Rango y espacio nulo de la matriz

Figura 10: Proyección de vector ~a sobre ~b.

Para el caso en que A está formada por una sola columna ~a ∈ Rm (corres-
pondiente a un espacio generador de un vector), se tiene el caso especial de la
proyección de un vector sobre otro vector:

~a ~aT
proy (~y ; ~a) = ~y
~aT ~a
Observe que en tal caso de fijar un conjunto generador de un solo vector, el
subespacio generado corresponde únicamente al escalamiento de tal vector,
pero la dimensionalidad del vector proyectado tiene la misma dimensionali-
dad original (por lo que se denomina una proyección a un sub-espacio). La
Figura 10 muestra la proyección de un vector sobre otro vector.
1 function proyectar
2 v1 = [ 3 ; 7 ] ;
3 v2 = [ 9 ; 1 ] ;
4 proy = p r o y e c t a r V e c t o r ( v1 , v2 ) ;
5 figure ;
6 p l o t v ( [ proy v1 ] ) ;
7 figure ;
8 p l o t v ( [ v2 v1 ] ) ;
9 end
10 f u n c t i o n proyec = p r o y e c t a r V e c t o r ( b , a )
11 %p r o y e c t a b s o b r e a
12 coefMatricial = (( a ∗ a ’ ) / (a ’ ∗ a) ) ;
13 proyec = c o e f M a t r i c i a l ∗ b ;
14 end
El espacio nulo de una matriz A ∈ Rm×n , se define como el conjunto de
todos los vectores que al multiplicarse con la matriz A resultan en 0, y se denota

24
2.20 Rango y espacio nulo de la matriz

como
N (A) = {~x ∈ Rn : A ~x = 0}

Ejemplo 1 (m = n, igual número de vectores en la base que dimensionali-


dad):
     
0,5 0 0
Sean los vectores ~a1 =  0 , ~a2 = 0,25 y ~a3 = 0, los cuales forman la
0 0 2
matriz:  
0,5 0 0
A =  0 0,25 0
0 0 2
determine
  el vector de proyección proy (~y ; A) ∈ R3 , para el caso en que ~y =
1
2. Observe que los vectores son linealmente independientes, y además, la
3
cantidad de vectores m es menor a la dimensionalidad n de ~y . La proyección
de ~y sobre el espacio de columnas de A está dado por el vector que resulta de:

proy (~y ; A) = x1~a1 + x2~a2 + x3~a3


       
0,5 0 0 1
⇒ proy (~y ; A) = 2  0  + 8 0,25 + 1,5 0 = 2
0 0 2 3
por lo que entonces en este caso, x1 = 2, x2 = 8, x3 = 1,5 son los coeficientes
que permiten calcular el vector proyección proy (~y ; A) en el espacio generado
por las columnas de A. Si usamos la fórmula para determinar tal vector pro-
yección:
 
1 −1 T
proy (~y ; A) = 2 = argmin~v∈C(A) k~v − ~y k2 = A AT A A ~y
3

implementando el siguiente código de MATLAB:


1 A = [0.5 0 0; 0 0.25 0; 0 0 2 ] ;
2 y = [1; 2; 3];
3 proyY_A = A∗ inv (A’ ∗ A) ∗ A’ ∗ y ;
4 x = inv (A) ∗ proyY_A ;
5 %Otra manera de o b t e n e r x1
6 x1 = ( dot ( y , A ( : , 1 ) ) ) /norm (A ( : , 1 ) ) ;
7 %e q u i v a l e a
8 c o e f M a t r i c i a l = ( (A ( : , 1 ) ∗ A ( : , 1 ) ’ ) / (A ( : , 1 ) ’ ∗ A ( : , 1 ) ) )
;
9 y1 = c o e f M a t r i c i a l ∗ y ;
10 x1 = norm ( y1 , 2 ) ;

25
2.20 Rango y espacio nulo de la matriz

Observe que como los vectores son indepedientes entre si, es posible en-
contrar un vector proyección que hace que argmin~v∈C(A) k~v − ~y k2 , por lo cual
en este caso kproy (~y ; A) − ~y k2 = 0.
De no conocer los coeficientes x1 = 2, x2 = 8, x3 = 1,5 , los mismos se
pueden calcular siguiendo la ecuación:

proy (~y ; A) = A ~x ⇒ A−1 proy (~y ; A) = ~x


 T
Lo cual para este caso resulta en ~x = 2 8 1,5 . La magnitud de la
proyección en cada uno de los vectores de la base viene dada por:

~y · a~i ~ai ~aTi



kproy (~y ; a~1 )k = = ~
y 6= xi
ka~i k ~aTi ~ai

Ejemplo 2 (vectores linealmente dependientes):


     
0,5 1 0
Sean los vectores ~a1 =  0 , ~a2 = 0 y ~a3 = 1, los cuales forman la
0 0 2
matriz:  
0,5 1 0
A =  0 0 1
0 0 2
determine
  el vector de proyección proy (~y ; A) ∈ R3 , para el caso en que ~y =
1
2. Observe que en este caso los vectores ~a1 y ~a2 son combinación lineal uno
3
del otro, por lo que la matriz A no es de rango completo, y por tanto no inver-
−1 T
tible, con lo que la ecuación de la proyección proy (~y ; A) = A AT A A ~y no
tiene solución, al no ser posible calcular A−1 .

Ejemplo 3 (m > n, más vectores en la base que dimensionalidad):


       
0,5 0 0 23
Sean los vectores ~a1 =  0 , ~a2 = 0,25, ~a3 = 0, ~a3 =  5 , los cuales
0 3 2 3
 
0,5 0 0 23
forman la matriz: A =  0 0,25 0 5  determine el vector de proyección
0 3 2 3
 
1
proy (~y ; A) ∈ R3 , para el caso en que ~y = 2.
3
Sabemos que el vector proyección viene dado entonces por proy (~y ; A) =
−1 T
A AT A A ~y . Para calcular lo anterior, se necesita que A sea una matriz

26
2.20 Rango y espacio nulo de la matriz

cuadrada, por lo que formalmente no se puede calcular la inversa de tal ma-


triz. Es por ello que recurrimos al cálculo de la pseudo-inversa, usando el mé-
todo de Moore-Penrose, con lo que se obtiene una proyección con error cero.
Implementando el siguiente código de MATLAB, se obtiene que proy (~y ; A) =
 T
1 2 3 .
1 A = [0.5 0 0 23; 0 0.25 0 5; 0 3 2 3 ] ;
2 y = [1; 2; 3];
3 proyY_A = A ∗ pinv (A’ ∗ A) ∗ A’ ∗ y ;

Ejemplo 4 (m < n, menos vectores en la base que dimensionalidad):


   
5 0
Sean los vectores ~a1 =  7  y ~a2 = 13, los cuales forman la matriz:
  21 9
5
A =  7 13 determine el vector de proyección proy (~y ; A) ∈ R3 , para el caso
21 9 
1,2
en que ~y = 1,3.
1,5
Sabemos que el vector proyección viene dado entonces por proy (~y ; A) =
−1 T
A AT A A ~y . Para calcular lo anterior, se necesita que A sea una matriz
cuadrada, por lo que formalmente no se puede calcular la inversa de tal matriz.
Es por ello que recurrimos al cálculo de la pseudo-inversa, usando el método
de Moore-Penrose. Implementando el siguiente código de MATLAB, se obtiene
 T
que proy (~y ; A) = 1,1542 13,3663 14,9695 . Obsérvese que en el caso en
que se disponen menos vectores en la base respecto a la dimensionalidad del
vector a proyectar, por lo que la proyección tiene un error distinto de cero.
1 A = [ 5 0 ; 7 1 3 ; 21 9 ] ;
2 y = [1.2; 1.3; 1.5];
3 proyY_A = A ∗ pinv (A’ ∗ A) ∗ A’ ∗ y ;
4 x = pinv (A) ∗ proyY_A ;
5 u1 = dot ( y , A ( : , 1 ) ) / norm (A ( : , 1 ) ) ;
6 u2 = dot ( y , A ( : , 2 ) ) / norm (A ( : , 2 ) ) ;
7 figure ;
8 q u i v e r 3 ( 0 , 0 , 0 , A( 1 , 1 ) , A( 2 , 1 ) , A( 3 , 1 ) ) ;
9 hold on ;
10 q u i v e r 3 ( 0 , 0 , 0 , A( 1 , 2 ) , A( 2 , 2 ) , A( 3 , 2 ) ) ;
11 hold on ;
12 quiver3 ( 0 , 0 , 0 , y ( 1 ) , y ( 2 ) , y ( 3 ) ) ;
13 hold on ;
14 q u i v e r 3 ( 0 , 0 , 0 , u1 , u2 , 5 ) ;

27
2.21 Determinante de una matriz

Para reducir la dimensionalidad del vector ~y en una dimensión, en este


caso, se construye un vector ~u en R2 cuyos componentes están definidos por la
proyección :

~y · a~1
u1 = = 2,0534
ka~1 k
~y · a~2
u2 = = 1,9227
ka~2 k
Observe que las operaciones anteriores pueden resultaren un número ne-
T
gativo, por lo que preservan la dirección T del vector ~u = 2,0534 1,9227
~
a ~
a
en R2 , a diferencia de usar |ui | = ~aiT ~aii ~y . El vector ~x en proy (~y ; A) = A ~x

i
nos indica los coeficientes en un espacio expresado en términos de los vecto-
res base de A, pero como seguimos dibujando en un espacio R2 cuya base son
los vectores unitarios î, ĵ, la reduccción de dimensionalidad se hace usando la
proyección de ~y sobre cada vector base ~ai .

2.21. Determinante de una matriz


El determinante de una matriz cuadrada A ∈ Rn×n es una función denota-
da con det (A) : Rn×n → R. Antes de detallar la fórmula que define al determi-
nante, examinaremos la interpretación geométrica del determinante. Sea una
matriz compuesta por múltiples filas:
− ~aT1,: −
 
− ~aT2,: −
A=
 
.. 
 . 
T
− ~an,: −
considere el conjunto de puntos S ⊂ Rn formado al tomar todas las combi-
naciones lineales posibles de los vectores fila ~aTi,: , donde los coeficientes de tal
combinación lineal cumplen que 0 ≤ αi ≤ 1, i = 1, . . . , n, lo cual formalmente
se denota como:
( n
)
X
n
S = ~v ∈ R : ~v = αi~ai,: , 0 ≤ αi ≤ 1, i = 1, . . . , n
i=1

El valor absoluto del determinanate de la matriz A, |det (A)|, corresponde a


una medida del “volumen” de todo el conjunto S.
Por ejemplo, para la matriz A ∈ R2×2 :
 
1 3
A=
3 2
cuyos vectores fila están dados por:
   
1 3
~a1,: = ~a2,: =
3 2

28
2.21 Determinante de una matriz

Figura 11: Región S de ejemplo.

se muestra en la Figura 11, sombreado,


  el conjunto de puntos S. Observe que
4
el punto “extremo” ~a1,: + ~a2,: = , viene dado cuando α1 = α2 = 1. El
5
determinante para una matriz de 2 × 2 se define como:
 
a b
det = ad − bc
c d

y para cualquier matriz de n × n dimensiones, el determinante se define recur-


sivamente como:
  
det (A) = A1,1 det A\1,\1 − A1,2 det A\1,\2 + . . . ± A1,n det A\1,\n

lo cual es equivalente también a escoger cualquier fila o columna a eliminar:


n
X n
i+j X i+j
det (A) = (−1) Ai,j A\i,\j = (−1) Ai,j A\i,\j
i=1 j=1

Observe que el determinante consiste en la combinación lineal de los de-


terminantes de las submatrices
 resultantes de eliminar la fila y columna i (de-
notado como det A\i,\j  ), multiplicado por el elemento A1,i . Con la matriz
1 3
de ejemplo A = , el determinante viene entonces dado por: det (A) =
3 2
1 · 2 − 3 · 3 = −7, y tomando su valor absoluto, se tiene que |det (A)| = 7, lo
que corresponde al área del paralelogramo formado por el conjunto de puntos
S (en n dimensiones, se refiere como paralelótopo).
Las siguientes son propiedades de la función determinante det (A) para una
matriz cuadrada A ∈ Rn×n :
El volumen de un hipercubo unitario es det (I) = 1.
Homogeneidad: Sea un escalar s ∈ R, det (s A) = s det (A)

29
2.22 Autovalores y auto-vectores


det (A) = det AT
det (A B) = det (A) det (B)
det (A) = 0, implica que A es una matriz singular (no invertible), por lo
que entonces no tiene rango completo, y sus columnas son linealmente
dependientes, por lo que entonces la superficie S no tiene volumen, al
un vector no contribuir en cerrar el cuerpo.
det A−1 = 1/det (A)


2.22. Autovalores y auto-vectores


Sea una matriz cuadrada A ∈ Rn×n , decimos que λ ∈ C es un auto-valor o
eigen-valor de A y el vector ~x ∈ Cn es su auto-vector o eigen-vector si:

A ~x = λ~x, ~x 6= 0 (10)

Intituivamente, la ecuación anterior significa que la multiplicación de la matriz


A por un vector ~x es igual a la multiplicación de tal vector ~x por el escalar λ
también referido como el escalamiento del vector ~x.
Los auto-vectores son vectores normalizados (con norma 1), puesto que
cualquier vector escalado de ~x, ~v = c ~x hace que la ecuación A ~v = λ~v se si-
ga cumpliendo. Siguiendo la ecuación 10, se tiene que:

A ~x − λ~x = (λI − A) ~x = 0, ~x 6= 0 (11)

La ecuación anterior tiene solución no nula o no-cero si y solo sí la matriz


(λI − A) tiene un espacio nulo no vacío, lo cual es el caso si y solo sí tal ma-
triz es singular (no-invertible), por lo que en términos del determinante debe
cumplir que:
det ((λI − A)) = 0
Esto pues en general, si un sistema de ecuaciones A~x = ~b, se tiene que A es
invertible, existe entonces una solución única ~x = A−1~b . Si la matriz A no es
invertible, existen múltiples soluciones.
De esta forma, con el cálculo del determinante, se construye el polinomio
en términos de la variable λ y de grado n, para lo cual se encuentran las raíces
de tal polinomio. Una vez conocidos los auto-valores λ, se procede a buscar sus
autovectores correspondientes ~x, resolviendo la ecuación matricial (λI − A) ~x =
0. Un ejemplo puede dilucidar mejor el procedimiento:
Sea la matriz  
0 1
A=
−2 −3
La matriz para cuyo espacio nulo se realizará el cálculo viene dada por:
     
λ 0 0 1 λ −1
(λI − A) = − =
0 λ −2 −3 2 λ+3

30
2.22 Autovalores y auto-vectores

y su determinante está dado entonces por:


 
λ −1
det (λI − A) = det = λ2 + 3λ + 2 = 0
2 λ+3

Resolviendo tal ecuación cuadrática se obienen las raíces y por ende auto-
vectores λ1 = −1 y λ2 = −2. Se procede entonces a encontrar los auto vectores
~x1 y ~x2 . Para el auto-vector ~x1 :
    
λ1 −1 −1 −1 x1
(λ1 I − A) ~x1 = 0 ⇒ ~x = 0 ⇒ =0
2 λ1 + 3 1 2 2 x2

Resolviendo tal sistema de ecuaciones, se obtiene que el auto-vector ~x1 viene


dado por:  
1
~x1 = k1
−1
y de manera similar, se obtiene el auto-vector ~x2 :
 
1
~x2 = k2
−2

Sin embargo, la notación anterior de los auto-vectores no está normalizada, por


lo que usualmente se expresan de forma normalizada:
 √ 
~x1 1/ √2
x
b1 = k1 = k1
k~x1 k2 −1/ 2
 √ 
~x2 1/ √5
x
b2 = k2 = k2
k~x2 k2 −2/ 5
En MATLAB los auto-vectores y auto-valores pueden calcularse como sigue:
1 >> A=[0 1; −2 −3]
2 >> [ v , d ] = e i g (A)
Dada la complejidad de resolver el determinante para matrices grandes, se
implementan otros métodos numéricos para calcular los auto-valores y auto-
vectores.
Detallando más la interpretación geométrica de los auto-vectores, recorda-
mos la igualdad en términos de la matriz cuadrada A ∈ Rn×n , los auto-valores
y auto-vectores A ~v = λ~v , la matriz A actúa como una transformación del auto-
vector ~v , la cual “envía” el vector a un nuevo punto del espacio, como se obser-
va en la Figura 12. Recuerde que la multiplicación A ~x realiza una combinación
lineal de los componentes de ~v :
        
a1,1 a1,2 v1 a1,1 v1 + a1,2 v2 a1,1 a1,2
= = v + v
a2,1 a2,2 v2 a2,1 v1 + a2,2 v2 a2,1 1 a2,2 2

31
2.22 Autovalores y auto-vectores

Figura 12: Transformación A ~x, tomado de http://setosa.io/ev/


eigenvectors-and-eigenvalues/ .

Observe entonces que la ecuación de los auto-vectores A ~v = λ~v corres-


ponde a los vectores que transformados por la matriz A, son escalados por
su auto-valor correspondienteλ, es decir, son los vectores que conservan su
dirección al ser transformados por la matriz A. Esto se puede verificar fácil-
mente, si es posible dibujar una línea recta entre los puntos (0, 0), y el final de
los vectores ~v y A~v . En la Figura 12, el primer caso puede corresponder a un
auto-vector, mientras que el segundo, posiblemente no, pues la dirección del
mismo es modificada al transformarse por la matriz A. Además, es fácil ver
que todos los vectores con la misma dirección de un auto-vector ~v , son tam-
bién auto-vectores de tal matriz A, como se observa en la Figura 13, donde el
auto-vector ~s1 es colinear con el vector ~v . Finalmente, es importante notar que

32
2.22 Autovalores y auto-vectores

un auto-vector ~s1 con su auto-valor λ1 < 1 denota una transformación A que


“encoge” al auto-vector ~s1 , y si λ1 > 1 más bien lo “alarga”, como se ve en la
Figura 13. En la gráfica, en realidad cada recta s1 y s2 contienen una infinidad
de auto vectores, por lo que se les llama auto espacios.

Figura 13: Auto-vectores ~s1 y ~s2 , tomado de http://setosa.io/ev/


eigenvectors-and-eigenvalues/

La magnitud del auto valor λi respecto al resto de autovalores, define la


contribución de ese autovector en la representación de todos los vectores de
A. Por ejemplo, en la Figura 14, si ambos vectores columna dentro de A, son
perpendiculares, los autovectores describirán tales ejes perpendiculares. uno
de los autovalores tendrá mayor magnitud respecto al otro, en la medida en
que una de las columnas en A tenga mayor magnitud respecto a la otra.

33
2.22 Autovalores y auto-vectores

Figura 14: Ejemplo de vectores →



a :,1 y →

a :,2 , y sus autoespacios. Tomado de
tomado de http://setosa.io/ev/eigenvectors-and-eigenvalues/

34
2.22 Autovalores y auto-vectores

Las siguientes son propiedades de los auto-valores y los auto-vectores, don-


de A ∈ Rn×n , ~x ∈ Rn y λ ∈ R:
La traza de la matriz A es igual a la suma de sus auto-valores:
n
X
tr (A) = λi .
i=1

El determinante de la matriz A es igual al producto de sus auto-valores:


n
Y
det (A) = λi
i=1

El rango de la matriz A es igual al número de auto-valores no nulos.


Lo anterior tiene mucho sentido, pues si por ejemplo, con una matriz
A ∈ R2×2 con una columna combinación lineal de la otra, la contribución
independiente de una de ellas en A como transformación lineal es nula,
como se ilustra en la Figura 15.

Figura 15: Auto-vectores de una matriz con columnas que son combina-
ción lineal de la otra. Tomado de tomado de http://setosa.io/ev/
eigenvectors-and-eigenvalues/

Si A es no-singular (invertible), entonces 1/λi es un auto-valor de A−1


con su auto-vector asociado ~xi , por lo que entonces A−1 ~xi = (1/λi ) ~xi .
Los auto-valores de una matriz diagonal D = diag (d1 , . . . dn ) correspon-
den a tales entradas diagonales d1 , . . . dn .
Para una matriz simétrica A ∈ Rn×n existen {v1 , v2 , . . . , vn } auto-vectores
mutuamente ortogonales.

35
2.22 Autovalores y auto-vectores

Es usual que para expresar más facilmente los auto-vectores y auto-valores en


una sola ecuación:
AX = X Λ
con la matriz X ∈ Rn×n la cual agrupa los auto-vectores por columnas como:
 
| | ... |
X = ~x1,: ~x2,: . . . ~xn,: 
| | ... |

y la matriz Λ = diag (λ1 , . . . λn ) con los auto-valores de la tranformación A en


su diagonal. Note que los auto-vectores de A pueden ser linealmente depen-
dientes, por lo que solo si los vectores columna son linealmente independientes
se puede escribir:
A = X Λ X −1
si lo anterior es posible de escribir, se dice que la matriz A es diagonaliza-
ble.

2.22.1. Auto-valores y auto-vectores de matrices simétricas


Las siguientes son propiedades de los auto-valores y auto-vectores para
cualquier matriz simétrica A ∈ Sn , A = AT :
Los auto-valores de la matriz son siempre reales.

Los auto-vectores son ortonormales, es decir, la matriz A X = X Λ es una


matriz ortogonal, por lo que la matriz con los auto-vectores X se denota
como U , por ello: A = U Λ U −1 , y recordando que la transpuesta de una
matriz inversa equivale a la transpuesta, se tiene que:

A = U Λ UT

2.22.2. Formas cuadráticas y matrices positivamente definidas


Sea una matriz cuadrada A ∈ Rn×n , un vector ~x ∈ Rn×1 , se le llama al
escalar ~xT A ~x ∈ R:
n X
X n
q = ~xT A ~x = Ai,j xi xj .
i=1 j=1

Se le llama forma cuadrática, pues suponiendo que el vector ~x correspon-


de a variables desconocidas, y la matriz A está compuesta por coeficientes
conocidos, entonces ~xT A ~x corresoponde a un polinomio de forma cuadráti-
ca (por ejemplo si ~x ∈ R2 un polinomio de forma cuadrática viene dado por
a x21 + b x1 x2 + c y 2 ). Para ilustrar lo anterior, considere la matriz:
 
1 2
A=
2 1

36
2.22 Autovalores y auto-vectores

    
 1 2 x1  x1
q = ~xT A ~x = x1
 
x2 = x1 + 2x2 2x1 + x2
2 1 x2 x2

⇒ q = x21 + 2x1 x2 + 2x1 x2 + x22 = x21 + 4x1 x2 + x22 ,


lo cual corresponde a una forma cuadrática, y se puede ver gráficamente en .
A continuación se probará que A es simétrica, primero, sabiendo que la
transpuesta de un escalar es igual a él mismo:
T
~xT A ~x = ~xT A ~x
T
lo cual, según la propiedad de la transpuesta que establece (A B) = B T AT :
T
~xT A ~x = ~xT A ~x = ~xT AT ~x

y recordando que cualquier matriz cuadrada puede ser escrita entérminos de


una parte simétrica y otra anti-simétrica 21 A + AT − 12 A − AT , por lo que
entonces se tiene que al ser A en este caso simétrica A = 12 A + AT y con ello:
 
T T
T T T T 1 1 T
~x A ~x = ~x A ~x = ~x A ~x = ~x A+ A ~x
2 2

A continuación se dan las siguientes definiciones, para una matriz A ∈ Sn


(espacio de las matrices simétricas positivas) y los vectores no nulos ~x ∈ Rn :
Matriz positiva definida: A es positiva definida si ~xT A ~x > 0.

Matriz positiva semidefinida: A es positiva semidefinida si ~xT A ~x ≥ 0.


Matriz negativa definida: A es negativa definida si ~xT A ~x < 0.
Matriz negativa semidefinida: A es negativa semidefinida si ~xT A ~x ≤ 0.

Matriz indefinida: A es indefinida si existen al menos dos vectores ~x1 y


~x2 x~1 T A x~1 < 0 y x~2 T A x~2 < 0.con
Observe que si A es positiva definida, entonces −A es negativa definida.
Una propiedad importante es que las matrices positivas y negativas de-
finidas son siempre de rango completo, por lo tanto invertibles y con todas
sus columnas independientes linealmente. Probemos lo  anterior a través de un

| | ... |
contra-ejemplo. Suponga una matriz A ∈ Rn×n , A = ~a1,: ~a2,: . . . ~an,: 
| | ... |
la cual no es de rango completo, y por tanto, tiene una columna linealmente
dependiente del resto de columnas: =
X
~aj = xi~ai
i6=j

37
2.23 Cálculo matricial

con los coeficientes de combinación lineal x1 , . . . , xn ∈ R. Si fijamos a xj = −1,


se tiene que:  
x1
 x2  X n
A ~x = A  .  = xi~ai = 0
 
 ..  i=1
xn
lo que demuestra que existe un vector no nulo que hace ~xT A ~x = 0, por lo que
entonces A no puede ser definida, y queda demostrado que para que A sea
tanto positiva o negativamente definida, debe ser de rango completo.

2.23. Cálculo matricial


A continuación se presentan conceptos básicos del cálculo matricial, el cual
consiste en extender en espacios de mayor dimensionalidad los conceptos del
cálculo diferencial e integral.

2.23.1. El gradiente
Suponga una función multivariable, la cual toma múltiples entradas (repre-
sentadas en la matriz A ∈ Rm×n ) y retorna una salida escalar s ∈ R, por lo que
f : Rm×n → R.
El gradiente de la función f con respecto a su entrada A ∈ Rm×n es la
matriz de derivadas parciales definidas como:
 
∂f (A) ∂f (A) ∂f (A)
∂A1,1 ∂A1,2 . . . ∂A1,n
 ∂f
 (A) ∂f (A) . . . ∂f (A) 

m×n ∂A
 2,1 ∂A 2,2 ∂A2,n 
∇A f (A) ∈ R = . .. .. .. 
 .. . . . 
 
∂f (A) ∂f (A) ∂f (A)
∂Am,1 ∂Am,2 . . . ∂Am,n

en notación compacta, cada entrada viene dada por:

∂f (A)
(∇A f (A))i,j =
∂Ai,j

en particular, para una entrada definida en un vector ~x ∈ Rn el gradiente se


define como:  ∂f (A) 
∂x1

∇~x f (~x) =  .. 
.
 . 
∂f (A)
∂xn

Es importante remarcar que el gradiente sólo está definido si la función re-


torna un escalar. Esto quiere decir que por ejemplo, no es posible tomar el
gradiente de A ~x, pues el resultado de tal producto matricial es un vector, y no
un escalar.

38
2.23 Cálculo matricial

La derivada matricial parcial es también un operador lineal, tal como la


derivada parcial de una función multivariable, por lo que entonces cumple las
propiedades de homogeneidad y superposición:
∇~x (f (~x) + g (~x)) = ∇~x f (~x) + ∇~x g (~x)
Para un escalar s ∈ R, ∇~x (s f (~x)) = s ∇~x f (~x)
Un ejemplo de una función multidimensional con un vector de entrada es la
función f : Rn → R
n
X
f (~z) = ~zT ~z = zi2
i=1
la cual
 como se observa, calcula el producto punto ~z · ~z de su vector entrada
z1
~z =  ...  .
 

zm
Examinando cada una de las m derivadas parciales ∂f (~
z)
∂zk ( se puede obviar
el hecho de que la entrada está dada por un vector y tratar como cualquier
función multivariable) se tiene que:
0 0 2 zk 0
∂f (~z) ∂  ∂  ∂  ∂ 
= z2 + z2 + . . . + z2 + . . . + z 2 = 2 zk .
∂zk ∂zk 1 ∂zk 2 ∂zk k ∂zi n
Es por ello que el vector gradiente está dado por:
 ∂f (~z)   
∂z1 2 z1
 .   . 
 ..  =  ..  = 2 ~z.
∇~z f (~z) =  
∂f (~
z) 2 zn
∂zn

por lo que entonces el equivalente de la derivada de una función cuadrática de


una variable es:

∇~z f (~z) = ∇~z ~zT ~z = 2 ~z.




¿Qué sucede si a la entrada de la función se multiplica por una matriz A ∈


Rm×n , de modo que se calcule el gradiente ∇f (A ~x), con ~x ∈ Rn ? Se debe
interpretar el gradiente de f como la evaluación del mismo en el punto A ~x = ~z,
por lo que entonces el gradiente viene dado por:
 
T
∇f (A ~x) = ∇ (A ~x) (A ~x) = 2 (A ~x) = 2 A ~x ∈ Rm

Generalizando la función anterior, la cual recibe un vector ~x ∈ Rn como


entrada, y con un vector conocido ~b ∈ Rn :
n
X
f (~x) = ~bT ~x = bi xi
i=1

39
2.23 Cálculo matricial

con lo que su derivada parcial viene entonces dada por:


n
∂f (~x) ∂ X
= bi x i = bk
∂xk ∂xk i=1

Es por ello que se tiene entonce que:


 
∇~x ~bT ~x = ~b

Considere ahora la función cuadrática (la cual como ya se vió resulta en un


escalar):

− ~aT1,: −
    T 
x1 ~a1,: ~x
− ~aT2,: −  x2    ~aT2,: ~x  X n X
n
f (~x) = ~xT A ~x = ~xT 

= x . . . x = Ai,j xi xj
    
.. . 1 n .
  ..   ..  i=1 j=1
    
 .
− ~aTm,: − xn ~aTm,: ~x

Para calcular la derivada parcial ∂f (~


x)
∂xk para cada componente xk del vector de
entrada ~x, se descomponen las sumatorias anidadas en los casos en que no la
fila y columna de tal sumatoria es distinta a k, en que la fila es igual a k, además
del caso en que la columna es igual a k, y finalmente, cuando se está en la fila
y columna k:
n n
∂f (~x) ∂ XX
= Ai,j xi xj
∂xk ∂xk i=1 j=1

 
n n n n
∂f (~x) ∂ X X X X
⇒ = Ai,j xi xj + Ai,k xi xk + Ak,j xk xj + Ak,k x2k 
∂xk ∂xk
i6=k j6=k i6=k j6=k

n n n n
∂f (~x) X X X X
⇒ = Ai,k xi + Ak,j xj + 2Ak,k xk = Ai,k xi + Ak,j xj
∂xk i=1 j=1
i6=k j6=k

Dado que se asume que en la forma cuadrática A es simétrica, lo que implica


que A = AT ⇒ Ai,j = Aj,i , se tiene que:
n n n
∂f (~x) X X X
⇒ = Ai,k xi + Ak,j xj = 2 Ak,i xi .
∂xk i=1 j=1 i=1

Es por ello que se concluye que el gradiente de la forma cuadrática está dado
por:
∇~x ~xT A ~x = 2 A ~x.


Se concluyen entonces las siguientes derivadas matriciales:



∇ ~xT ~x = 2 ~x

40
2.24 Mínimos cuadrados

 
T
∇ (A ~x) (A ~x) = 2 A ~x
 
∇~x ~bT ~x = ~b

∇~x ~xT A ~x = 2 A ~x

2.24. Mínimos cuadrados


El problema de los mínimos cuadrados en este caso se definirá para encon-
trar, dadas la matriz de rango completo A ∈ Rm×n , y por ende, invertible y un
vector ~b ∈ Rm×1 , el vector ~x ∈ Rn×1 más cercano al espacio de columnas de
la matriz A, el cual recordamos es denotado como C (A) y corresponde al espa-
cio generado por las columnas de la matriz A, combinadas linealmente por lo
componentes xi del vector ~x:

C (A) = ~v ∈ Rm : ~v = A ~x, ~x ∈ Rn , A ∈ Rm×n ,




Asumiendo que A es de rango completo y que n < m se tiene que la proyec-


ción del vector ~b ∈ Rm×1 al cuadrado para simplificar su minimización en el
espacio de columnas de la matriz A está dado por:
  2    
proy ~b; A = argmin~v∈C(A) ~v − ~b = argmin~x A ~x − ~b · A ~x − ~b

2
 T  
Es necesario entonces encontrar el vector que minimice la ecuación A ~x − ~b A ~x − ~b ,
la cual desarrollandola viene dada por:
 T     
A ~x − ~b A ~x − ~b = ~xT AT − ~bT A ~x − ~b = ~xT AT A~x−~xT AT ~b−~bT A~x+~bT ~b
(12)
Observe con atención los términos ~xT AT ~b y ~bT A ~x. El primer término corres-
ponde a un producto de matrices con dimensiones 1 × n n × m m × 1 lo cual
resulta en un escalar, al igual que el segundo término asociado al producto
1 × m m × n n × 1. Esto quiere decir que el tomar la transpuesta del primer
término por ejemplo, el escalar sigue siendo el mismo, por lo que entonces
 T  T T
~xT AT ~b = ~bT A ~x, puesto que ~xT AT ~b = ~bT ~xT AT = ~bT A ~x. Es por
esto que la ecuación 12 se simplifica como sigue:
 T  
A ~x − ~b = A ~x − ~b = ~xT AT A ~x − 2 ~bT A ~x + ~bT ~b.

Para realizar la minimización:


   
f (~x) = argmin~x A ~x − ~b · A ~x − ~b

se calculará el gradiente de tal producto punto y se igualará a cero, para en-


contrar su punto mínimo. Recuerde que para toda función que resulta en un

41
REFERENCES

escalar f (~x), calcular el vector gradiente:


 T  
∇~x A ~x − ~b A ~x − ~b = 0
 
⇒ ∇~x ~xT AT A ~x − 2 ~bT A ~x + ~bT ~b = 0
   
⇒ ∇~x ~xT AT A ~x − ∇~x 2 ~bT A ~x + ∇~x ~bT ~b = 0



Observe
 que para el gradiente en el primer término se tiene que ~xT AT A ~x =
~xT K ~x con K = AT A una matriz cuadrada, lo que corresponde a la forma
cuadrática, parala cual ya se había demostrado que el gradiente viene dado
por: ∇~x ~xT K ~x
 = 2 K ~x. Respecto al segundo término se puede reescribir
como 2 b A ~x = 2 ~k T ~x , pues observe que del producto ~bT A resulta un
~ T

vector con valores conocidos ~bT A = ~k T ∈ R1×n dado que los términos del pro-
ducto se hacen con las dimensiones 1 × m m × n. Para una expresión similar,
dejando
 fuera el escalar 2, ya demostramos que
  el gradiente
 viene dado por
~ T ~ ~ T T~T
∇~x k ~x = k. Por la regla del gradiente ∇~x 2 b A ~x = 2A b . Finalmente,
el tercer término corresponde a una constante, por lo que su gradiente es nulo,
con lo que se arriba a:
⇒ 2 AT A ~x − 2 ~bT A = 0
y tomando la transpuesta del segundo término escalar:

⇒ 2 AT A ~x − 2 AT ~b = 0

⇒ AT A ~x = AT ~b
−1 T
⇒ ~x = AT A A ~b
−1 T
⇒ ~v = A AT A A ~b

References
[1] Christopher M Bishop. Pattern recognition and machine learning. springer,
2006.
[2] Thomas Finney. Cálculo de una y varias variables, 1998.
[3] Pablo Irarrázaval. Análisis de señales. McGraw-Hill Interamericana, 1999.

42

You might also like