Professional Documents
Culture Documents
Resumen
Este material está basado en el repaso de algebra lineal del profesor
Andrew Ng, de la Universidad de Stanford (http://cs229.stanford.
edu/materials.htm), y conceptos básicos del libro Pattern recognition de
Cristopher Bishop[1]. Además se incluye una corta definición de los siste-
mas lineales, tomada del libro Análisis de señales, de Pablo Irarrazabal[3],
y un repaso del cálculo multivariable, del libro Cálculo en varias variables
cuyas figuras también fueron tomadas de tal libro [2].
1. Sistemas lineales
Gran parte del curso se basará en el estudio de sistemas o modelos linea-
les para realizar desde el filtrado de una señal (ya sea para eliminar aspectos
no deseados, o mejorar cualidades de importancia), hasta la construcción de
modelos de clasificación.
Aunque gran parte de los sistemas reales son no lineales, modelos aproxi-
mados lineales de tales sistemas facilitan su análisis. Se presentan entonces el
concepto básico de linealidad, fundamental en el desarrollo del curso.
1.1. Linealidad
Sea L {·} un operador, f (x), f (x1 ) y f (x2 ) funciones de una variable x ∈ R
(que en señales unidimensionales corresponde usualmente al tiempo), con los
escalares α ∈ R y β ∈ R. Se dice que el operador L es lineal si cumple con
las propiedades de homogeneidad (también conocida como escalamiento) y
superposición, que respectivamente corresponden a:
1
1.1 Linealidad
L {αu1 (t) + βu2 (t)} = αu1 (t) cos (ωt)+βu2 (t) cos (ωt) = αL {u1 (t)}+βL {u2 (t)}
2
Figura 1: Vector con magnitud y dirección en R2 y R3 , tomado de [2].
2. Algebra lineal
2.1. Vectores
Tal como se mencionó, un vector de dimensionalidad n o con n componen-
tes se define de la siguiente manera:
v1
v2
→
−v = .
..
vn
3
2.1 Vectores
→
−
→
−
a · b = k→
Figura 2: Magnitud de la proyección de los vectores →
− −
a k
b
cos (θ) ,
y los vectores →
−
a ·→−
u = k→ −a k cos (θ) , con k→
−
u k = 1, tomado de http://
mathinsight.org/dot_product.
→
− v
La magnitud se define, para un vector v = 1 en un espacio R2 como :
v2
q
k→
−
vk= v12 + v22
recordemos además, que es un vector unitario todo aquel vector v̂ que cumpla
con kv̂k = 1.
Producto punto o producto interno o producto escalar para un vector: la
función producto punto, para dos vectores →
−
w y→ − v de dimensión n está dada
por:
n
s=→ −
v ·→
−
w =→−
vT→ −
X
w = v1 w1 + v2 w2 + . . . + vn wn = vi w i
i=1
1
donde se dice que s es un escalar que pues s ∈ R .
En el espacio euclidiano, el producto punto tiene la siguiente equivalencia
geométrica:
→
−v ·→−
w = k→−
v k k→
−
w k cos (θ)
→
− →
−
donde el ángulo entre los vectores v y w está dado por θ. El producto punto,
gráficamente se refiere a la noción de la sombra o magnitud de la proyección
del vector →
−v en →
−w , como muestra la Figura 2.
Esto quiere decir que si los dos vectores son co-direccionales θ = 0 ⇒
cos (θ) = 1 por lo que entonces:
→
−
v ·→
−
w = k→
−
v k k→
−
wk,
4
2.1 Vectores
an · bn
y de manera similar, la división por componente está dada por:
a1 /b1
~a./~b = ... .
an /bn
5
2.1 Vectores
~ ∈ Rn y a, b ∈ R:
Propiedades de las operaciones con los vectores, con ~u, ~v , w
~u + ~v = ~v + ~u
~u + ~0 = ~u
~0 · ~u = 0
a (b ~u) = (a b) ~u
(a + b) ~u = a ~u + b ~u
(~u + ~v ) + w
~ = ~u + (~v + w)
~
~u + (−~u) = 0
1~u = ~u
a (~u + ~v ) = a ~u + a ~v
2.1.2. Normas:
El concepto de magnitud o norma visto anteriormente, se conoce como la
distancia Eucliciana o norma `2 , la cual se refiere al largo de un vector, como
vimos. La norma euclidiana se puede reescribir como:
v
u n
uX
k~xk2 = t x2i (1)
i=1
2
y ya se demostró la equivalencia k~xk2 = ~xT ~x. Formalmente, la norma es cual-
quier función f : Rn → R que satisface las siguientes 4 propiedades, para todo
~x ∈ Rn , ~y ∈ Rn y t ∈ R:
6
2.1 Vectores
No negatividad: , f (~x) ≥ 0.
Nulidad: f (~x) = 0 si y solo si ~x = 0 (vector nulo).
Homogeneidad absoluta: f (t ~x) = |t| f (~x).
Desigualdad triangular: f (~x + ~y ) ≤ f (~x) + f (~y ) .
Generalizando la ecuación 1 como una norma `p , con p ≥ 1, se tiene que:
n
!1/p
X p
k~xkp = |xi | (2)
i=1
Esta definición parece un tanto confusa. Sin embargo, se puede notar que la
máxima entrada o componente denotado por xm del arreglo ~x viene a hacer
que, al elevarse al infinito sea, por mucho, el mayor componente del vector:
x∞ ∞
m xi , ∀i 6= m
por lo que entonces se puede decir que la sumatoria de los componentes del
vector ~x tiende al valor x∞
m (en términos de aproximación numérica), con ello
se tiene que:
n
∞
X
|xi | → x∞
m. (5)
i=1
por ello se puede reescribir la ecuación de la norma como:
1/∞
k~xk∞ = (x∞
m) = |xm | = máx (|xi |) . (6)
7
2.2 Funciones y cálculo multivariable
2.3. Rectas
Una recta L en un espacio Rn que pasa por un punto P0 = (x1 , . . . , xn ) y
paralela al vector ~v ∈ Rn , con lo que L está compuesta por todo punto P que
−−→
haga que el vector P0 P sea paralelo al vector ~v , lo que implica que se tiene que
cumplir lo siguiente:
−−→
P0 P = t ~v ⇒ P − P0 = t ~v ,
para algún escalar t ∈ R, con lo que el valor de t depende de la posición del
punto P en el espacio. Una recta se extiende de forma infinita, por lo que en-
tonces se cumple que −∞ < t < ∞. Despejando la ecuación anterior se obtiene
la ecuación paramétrica de una recta:
P = r (t) = P0 + t ~v , (7)
8
2.5 Funciones multivariable
3
Observe la Figura
4 donde se grafica un plano en un espacio R con un vec-
a
tor normal ~n = b y sobre el cual existen un punto cualquiera (desconocido)
c
P = (x, y, z) y un punto conocido P0 = (x0 , y0 , z0 ). Ya concluimos que cuan-
do dos vectores son perpendiculares, su producto punto es cero, por lo que
entonces podemos escribir la ecuación vectorial de un hiper-plano como:
−−→
~n · P0 P = 0,
a x + b y + c z = d, (8)
d a b
z= − x − y,
c c c
donde en general la ecuación de una función plano está entonces dada por:
z = f (x, y) = a1 x + a2 y + a3
9
2.5 Funciones multivariable
1 x = −10:.1:10;
2 [ X , Y ] = meshgrid ( x ) ;
3 Z = 2 . 1 ∗X + Y ;
4 Z1 = Z . ∗ 0 ;
5 f i g u r e ; surf (X , Y , Z) ;
6 shading f l a t
7 xlabel ( ’x ’ ) ;
8 ylabel ( ’y ’ ) ;
9 zlabel ( ’z ’ )
10 hold on ;
11 s u r f ( X , Y , Z1 ) ;
12 hold on ;
En general, una función con múltiples variables de entrada y una de salida,
correspondiente a un dominio Rn y un codominio en R generan lo que se llama
superficies en un espacio Rn+1 .
Las siguientes son algunas superficies conocidas (observe que para expre-
sar tales superficies en términos de una función z = f (x, y) con dominio en R2
y codominio en R, es necesario despejar z) y se ilustran en la Figura 6:
y2 x2
Paraboloide hiperbólica b2 − a2 = zc , c > 0
x2 y2
Paraboloide elíptica a2 + b2 = zc , c > 0
10
2.6 Curvas de nivel
P0 = (0, 0)
,
P = (1, −2,1)
11
2.7 El vector gradiente
df f (x + h, y) − f (x, y)
= lı́m ,
dx h→0 h
donde se observa que el desplazamiento por h se hace únicamente en el eje
x, dejando el otro eje intacto. Conceptualmente la derivada parcial respecto
a una variable x corresponde al cambio en el funcional en esa dimensión. La
evaluación de tal funcional en un punto (x0 , y0 ) viene entonces dada por:
df f (x0 + h, y0 ) − f (x0 , y0 )
= lı́m
dx (x0 ,y0 ) h→0 h
2 2
Por ejemplo, para la función f (x, y) = yb2 − xa2 se tiene que df 2
dx = − a2 x y
respecto a y como df 2
dy = b2 y. La evaluación de ambas derivadas parciales en el
df df
punto (1, 1) vendrían a ser dx (1,1) = − a22 y dy (1,1) = 2
b2 , respectivamente.
n
En general, para una función con dominio en R y codominio en R, z =
f (x1 , . . . , xn ), la derivada parcial respecto a la variable xi está dada por:
df f (x1 , . . . , xi + h, . . . , xn ) − f (x1 , . . . , xn )
= lı́m .
dxi h→0 h
12
2.7 El vector gradiente
Veamos ahora la definición formal del vector gradiente, primero para una
función de con dominio en R2 y codominio en R, f (x, y) evaluado en cualquier
punto (x0 , y0 ):
df df
∇f(x0 ,y0 ) = î + ĵ
dx (x0 ,y0 ) dy (x0 ,y0 )
y en general para una función con dominio en Rn el vector gradiente en cual-
quier punto (u1 , . . . un ) viene dado por:
df df
∇f(u1 ,...un ) = iˆ1 + . . . + iˆn .
dx1 (u1 ,...un ) dxn (u1 ,...un )
13
2.7 El vector gradiente
en general por:
df df
∇f = î + ĵ
dx dy
y en este caso cada derivada parcial está dada por (recordando que para una
función f (x) = ax ⇒ f 0 (x) = ax x0 ln (a)):
df
= 2 32x ln (3) + 2
dx
df
= 4 54y ln (5) + 4y 3
dy
df
⇒ ∇f = 2 32x ln (3) + 2 î + 4 54y ln (5) + 4y 3
ĵ
dy
Como último ejemplo, en la Figura 9 se muestra la superficie correspon-
2 2
diente a la función Gaussiana multivariable f (x, y) = e(−x −y ) , y se grafican
los vectores gradientes en varios puntos usando el siguiente código:
1 [ X , Y ] = meshgrid ( − 2 : . 2 : 2 ) ;
2 Z = exp(−X. ^ 2 − Y . ^ 2 ) ;
3 [DX,DY] = g r a d i e n t ( Z ) ;
14
2.8 Matrices
4 figure
5 contour ( X , Y , Z )
6 hold on
7 q u i v e r ( X , Y , DX,DY)
8 hold o f f
Observe que los vectores gradiente varían en cada punto.
2.8. Matrices
La álgebra lineal facilita la expresión de múltiples operaciones, como por
ejemplo las operaciones en ecuaciones lineales, como el siguiente sistema de
ecuaciones:
4x1 − 5x2 = −13
−2x1 + 3x2 = 9
el sistema de ecuaciones anterior tiene igual número de ecuaciones y varia-
bles, por lo que presenta una solución única si las ecuaciones son linealmente
independientes (ninguna de las ecuaciones es combinación lineal de otra). En
notación matricial, el sistema de ecuaciones anterior se expresa de la siguiente
forma:
A ~x = b
con
4 −5 −13
A= , b=
−2 3 9
En el material del curso se utilizará la siguiente notación:
15
2.9 La matriz identidad y diagonal
Para denotar los elementos de una matriz se usa la notación ai,j o (Aij ,
Ai,j ,A (i, j), etc), y para definir una entrada de la matriz A en la fila i y la
columna j:
a1,1 a1,2 . . . a1,n
a2,1 a2,2 . . . a2,n
A= .
.. .. ..
.. . . .
am,1 am,2 am,n
y con la columna j de la matriz A definida como aj o A:,j , de modo que
la matriz A está definida en términos de vectores columna por:
| | ... |
A = →−a :,1 →
−
a :,2 . . . →
−
a :,n
| | ... |
y se define la fila i de tal matriz como ~aTi,: o Ai,: , por lo que en términos
de tales vectores fila la matriz A se expresa como:
− ~aT1,: −
− ~aT2,: −
A=
..
.
T
− ~am,: −
16
2.10 La matriz transpuesta
17
2.13 Producto de matrices
C = A ◦ B = A B ∈ Rm×p
donde
n
X
Ci,j = Ai,1 B1,j + . . . + Ai,n Bn,j = Ai,k Bk,j
k=1
18
2.15 Producto matriz-vector
El producto externo permite, por ejemplo, crear una matriz A ∈ Rm×n cu-
→
−
yas columnas sean igual a un vector x ∈ Rm usando un vector unitario 1 ∈ Rn ,
como sigue:
x1
x2 | | | | | |
→
− →
−T
x 1 = . 1 1 · · · 1n = ~x ~x · · · ~x = ~x ~x · · · ~x
.. | | | | | |
xm
19
2.17 Independencia lineal y el rango de una matriz
20
2.18 La matriz inversa
∀A ∈ Rm×n , rango (A) ≤ mı́n (m, n), y si rango (A) = min (m, n) se dice
que A de rango completo.
rango (A) ≤ rango AT
A−1 A = I = A A−1
Nótese que no todas las matrices tienen inversas, por ejemplo las matrices no
cuadradas no tienen inversas por definición, e incluso, pueden existir matrices
cuadradas sin inversas.
21
2.19 Matrices ortogonales
22
2.20 Rango y espacio nulo de la matriz
n o
por lo que entonces ~v ∈ espacioGenerado ~i, ~j, ~k = R3 , con en este caso
x1 = 3, x2 = 5 y x3 = 7.
La proyección de un vector ~y ∈ Rn en el espacio generado por el conjunto
de vectores {~a1 , ~a2 , . . . , ~am } ~ai ∈ Rn corresponde al vector:
Este tema se retomará al final del presente documento, una vez que se haya
definido el concepto de gradiente matricial y se demostrará que:
−1 T
proy (~y ; A) = argmin~v∈C(A) k~v − ~y k2 = A AT A A ~y
23
2.20 Rango y espacio nulo de la matriz
Para el caso en que A está formada por una sola columna ~a ∈ Rm (corres-
pondiente a un espacio generador de un vector), se tiene el caso especial de la
proyección de un vector sobre otro vector:
~a ~aT
proy (~y ; ~a) = ~y
~aT ~a
Observe que en tal caso de fijar un conjunto generador de un solo vector, el
subespacio generado corresponde únicamente al escalamiento de tal vector,
pero la dimensionalidad del vector proyectado tiene la misma dimensionali-
dad original (por lo que se denomina una proyección a un sub-espacio). La
Figura 10 muestra la proyección de un vector sobre otro vector.
1 function proyectar
2 v1 = [ 3 ; 7 ] ;
3 v2 = [ 9 ; 1 ] ;
4 proy = p r o y e c t a r V e c t o r ( v1 , v2 ) ;
5 figure ;
6 p l o t v ( [ proy v1 ] ) ;
7 figure ;
8 p l o t v ( [ v2 v1 ] ) ;
9 end
10 f u n c t i o n proyec = p r o y e c t a r V e c t o r ( b , a )
11 %p r o y e c t a b s o b r e a
12 coefMatricial = (( a ∗ a ’ ) / (a ’ ∗ a) ) ;
13 proyec = c o e f M a t r i c i a l ∗ b ;
14 end
El espacio nulo de una matriz A ∈ Rm×n , se define como el conjunto de
todos los vectores que al multiplicarse con la matriz A resultan en 0, y se denota
24
2.20 Rango y espacio nulo de la matriz
como
N (A) = {~x ∈ Rn : A ~x = 0}
25
2.20 Rango y espacio nulo de la matriz
Observe que como los vectores son indepedientes entre si, es posible en-
contrar un vector proyección que hace que argmin~v∈C(A) k~v − ~y k2 , por lo cual
en este caso kproy (~y ; A) − ~y k2 = 0.
De no conocer los coeficientes x1 = 2, x2 = 8, x3 = 1,5 , los mismos se
pueden calcular siguiendo la ecuación:
26
2.20 Rango y espacio nulo de la matriz
27
2.21 Determinante de una matriz
~y · a~1
u1 = = 2,0534
ka~1 k
~y · a~2
u2 = = 1,9227
ka~2 k
Observe que las operaciones anteriores pueden resultaren un número ne-
T
gativo, por lo que preservan la dirección
T del
vector ~u = 2,0534 1,9227
~
a ~
a
en R2 , a diferencia de usar |ui | =
~aiT ~aii ~y
. El vector ~x en proy (~y ; A) = A ~x
i
nos indica los coeficientes en un espacio expresado en términos de los vecto-
res base de A, pero como seguimos dibujando en un espacio R2 cuya base son
los vectores unitarios î, ĵ, la reduccción de dimensionalidad se hace usando la
proyección de ~y sobre cada vector base ~ai .
28
2.21 Determinante de una matriz
29
2.22 Autovalores y auto-vectores
det (A) = det AT
det (A B) = det (A) det (B)
det (A) = 0, implica que A es una matriz singular (no invertible), por lo
que entonces no tiene rango completo, y sus columnas son linealmente
dependientes, por lo que entonces la superficie S no tiene volumen, al
un vector no contribuir en cerrar el cuerpo.
det A−1 = 1/det (A)
A ~x = λ~x, ~x 6= 0 (10)
30
2.22 Autovalores y auto-vectores
Resolviendo tal ecuación cuadrática se obienen las raíces y por ende auto-
vectores λ1 = −1 y λ2 = −2. Se procede entonces a encontrar los auto vectores
~x1 y ~x2 . Para el auto-vector ~x1 :
λ1 −1 −1 −1 x1
(λ1 I − A) ~x1 = 0 ⇒ ~x = 0 ⇒ =0
2 λ1 + 3 1 2 2 x2
31
2.22 Autovalores y auto-vectores
32
2.22 Autovalores y auto-vectores
33
2.22 Autovalores y auto-vectores
34
2.22 Autovalores y auto-vectores
Figura 15: Auto-vectores de una matriz con columnas que son combina-
ción lineal de la otra. Tomado de tomado de http://setosa.io/ev/
eigenvectors-and-eigenvalues/
35
2.22 Autovalores y auto-vectores
A = U Λ UT
36
2.22 Autovalores y auto-vectores
1 2 x1 x1
q = ~xT A ~x = x1
x2 = x1 + 2x2 2x1 + x2
2 1 x2 x2
37
2.23 Cálculo matricial
2.23.1. El gradiente
Suponga una función multivariable, la cual toma múltiples entradas (repre-
sentadas en la matriz A ∈ Rm×n ) y retorna una salida escalar s ∈ R, por lo que
f : Rm×n → R.
El gradiente de la función f con respecto a su entrada A ∈ Rm×n es la
matriz de derivadas parciales definidas como:
∂f (A) ∂f (A) ∂f (A)
∂A1,1 ∂A1,2 . . . ∂A1,n
∂f
(A) ∂f (A) . . . ∂f (A)
m×n ∂A
2,1 ∂A 2,2 ∂A2,n
∇A f (A) ∈ R = . .. .. ..
.. . . .
∂f (A) ∂f (A) ∂f (A)
∂Am,1 ∂Am,2 . . . ∂Am,n
∂f (A)
(∇A f (A))i,j =
∂Ai,j
38
2.23 Cálculo matricial
zm
Examinando cada una de las m derivadas parciales ∂f (~
z)
∂zk ( se puede obviar
el hecho de que la entrada está dada por un vector y tratar como cualquier
función multivariable) se tiene que:
0 0 2 zk 0
∂f (~z) ∂ ∂ ∂ ∂
= z2 + z2 + . . . + z2 + . . . + z 2 = 2 zk .
∂zk ∂zk 1 ∂zk 2 ∂zk k ∂zi n
Es por ello que el vector gradiente está dado por:
∂f (~z)
∂z1 2 z1
. .
.. = .. = 2 ~z.
∇~z f (~z) =
∂f (~
z) 2 zn
∂zn
39
2.23 Cálculo matricial
− ~aT1,: −
T
x1 ~a1,: ~x
− ~aT2,: − x2 ~aT2,: ~x X n X
n
f (~x) = ~xT A ~x = ~xT
= x . . . x = Ai,j xi xj
.. . 1 n .
.. .. i=1 j=1
.
− ~aTm,: − xn ~aTm,: ~x
n n n n
∂f (~x) ∂ X X X X
⇒ = Ai,j xi xj + Ai,k xi xk + Ak,j xk xj + Ak,k x2k
∂xk ∂xk
i6=k j6=k i6=k j6=k
n n n n
∂f (~x) X X X X
⇒ = Ai,k xi + Ak,j xj + 2Ak,k xk = Ai,k xi + Ak,j xj
∂xk i=1 j=1
i6=k j6=k
Es por ello que se concluye que el gradiente de la forma cuadrática está dado
por:
∇~x ~xT A ~x = 2 A ~x.
40
2.24 Mínimos cuadrados
T
∇ (A ~x) (A ~x) = 2 A ~x
∇~x ~bT ~x = ~b
∇~x ~xT A ~x = 2 A ~x
41
REFERENCES
Observe
que para el gradiente en el primer término se tiene que ~xT AT A ~x =
~xT K ~x con K = AT A una matriz cuadrada, lo que corresponde a la forma
cuadrática, parala cual ya se había demostrado que el gradiente viene dado
por: ∇~x ~xT K ~x
= 2 K ~x. Respecto al segundo término se puede reescribir
como 2 b A ~x = 2 ~k T ~x , pues observe que del producto ~bT A resulta un
~ T
vector con valores conocidos ~bT A = ~k T ∈ R1×n dado que los términos del pro-
ducto se hacen con las dimensiones 1 × m m × n. Para una expresión similar,
dejando
fuera el escalar 2, ya demostramos que
el gradiente
viene dado por
~ T ~ ~ T T~T
∇~x k ~x = k. Por la regla del gradiente ∇~x 2 b A ~x = 2A b . Finalmente,
el tercer término corresponde a una constante, por lo que su gradiente es nulo,
con lo que se arriba a:
⇒ 2 AT A ~x − 2 ~bT A = 0
y tomando la transpuesta del segundo término escalar:
⇒ 2 AT A ~x − 2 AT ~b = 0
⇒ AT A ~x = AT ~b
−1 T
⇒ ~x = AT A A ~b
−1 T
⇒ ~v = A AT A A ~b
References
[1] Christopher M Bishop. Pattern recognition and machine learning. springer,
2006.
[2] Thomas Finney. Cálculo de una y varias variables, 1998.
[3] Pablo Irarrázaval. Análisis de señales. McGraw-Hill Interamericana, 1999.
42