08.1 - Machine Learning - Repaso Calculo Sobre Matrices y Probabilidad

Repaso probabilidad y calculo sobre matrices
Mauricio A. Alvarez, PhD
Facultad de Ingenieras

Universidad Tecnologica de Pereira
1 / 25
Contenido
Repaso de Probabilidad
Repaso de Matrices
2 / 25

Nociones Basicas I
q Sean dos variables aleatorias X = {x1 , . . . , xM } y Y = {y1 , . . . , yL }.
q Se tienen N realizaciones de X y Y .
q Se define la probabilidad conjunta como

nij
p(X = xi , Y = yj ) = ,
N
donde nij se define como el numero
de realizaciones en las que X = xi
y Y = yj .
3 / 25

Nociones Basicas II
q Sea ci el numero
de realizaciones en las que X toma el valor xi (ind.
del valor de Y).
q Se define la probabilidad marginal de X = xi como

L
ci 1 X X
p(X = xi ) = = nij = p(X = xi , Y = yj ).
N N
j j=1
ci
yj
}
nij }r
j
xi
4 / 25

Nociones Basicas III
q Se define la probabilidad condicional de Y = yj dado X = xi como
nij
p(Y = yj |X = xi ) = .
ci

Ademas,
nij nij ci
p(X = xi , Y = yj ) = =
N ci N
= p(Y = yj |X = xi )p(X = xi ).
P
q Regla de la suma: p(X ) = Y p(X , Y ).
q Regla del producto:
p(X , Y ) = p(Y |X )p(X )

= p(X |Y )p(Y ).
5 / 25

Nociones Basicas IV
q Teorema de Bayes:
p(X |Y )p(Y )
p(Y |X ) = .
p(X )
q Independencia:
p(Y |X ) = p(Y ), p(X , Y ) = p(X )p(Y )
6 / 25
Ejemplo
Suponga que X toma 9 valores y Y toma dos valores. Se tienen N = 60
realizaciones.
p(X, Y ) p(Y )
Y =2
Y =1
p(X) p(X|Y = 1)
X X
7 / 25
Densidad de probabilidad I
q de densidad de probabilidad p(x) debe cumplir que
La funcion
p(x) 0
Z
p(x)dx = 1.

q Para un intervalo
Z b
p(x (a, b)) = p(x)dx.
a
q de distribucion
La funcion de probabilidad (o distribucion

acumulativa) se define como
Z x
P(x) = p(z)dz.

Igualmente,
dP(x)
p(x) = .
dx
8 / 25
Densidad de probabilidad II
P (x)
p(x)
x x
9 / 25
Vectores aleatorios
q
Supongase un conjunto de D variables aleatorias X1 , X2 , . . . , XD .
q Estas variables aleatorias pueden representarse como un vector
columna de dimensiones D 1,

X1
X2
X= .

..
XD
q Un valor especfico de X se denota como x = (x1 , x2 , . . . , xD )> .
10 / 25
Densidad de probabilidad conjunta
q La densidad de probabilidad conjunta para X, p(x) = p(x1 , . . . , xD ),
debe satisfacer
p(x) 0
Z
p(x)dx = 1.

q Regla de la suma:
Z
p(x) = p(x, y)dy.
q Regla del producto:
p(x, y) = p(y|x)p(x) = p(x|y)p(y).
q Teorema de Bayes:
p(x|y)p(y)
p(y|x) = .
p(x)
11 / 25
Valor esperado y Covarianza I
q f (x) esta definida
El valor esperado o la esperanza de una funcion
como
X Z
E[f ] = p(x)f (x), E[f ] = p(x)f (x)dx.
x
q f (x) se define como

La esperanza muestral de una funcion
N
1 X
E[f ] f (xi ).
N
i=1
q f (x) dado Y = y se define

La esperanza condicional de una funcion
como
X
Ex [f |y ] = p(x|y)f (x).
x
q f (x) esta definida como

La varianza de una funcion
var[f ] = E[f (x) E[f (x)]]2 = E[f (x)2 ] E[f (x)]2 .
12 / 25
Valor esperado y Covarianza II
q La covarianza de dos variables aleatorias X y Y se define como
cov[x, y] = Ex,y [{x E[x]}{y E[y]}]

= Ex,y [xy ] E[x]E[y].
q La esperanza de un vector de variables aleatorias X, se define como

E[x1 ]
E[x2 ]
E[x] = .

..
E[xD ]
q La covarianza para el caso de vectores de variables aleatorias X y Y,

se defin como
cov[x, y] = Ex,y [{x E[x]}{y> (E[y])> }]

= Ex,y [xy> ] E[x](E[y])> .
13 / 25
Valor esperado y Covarianza III
q se considera un vector de variables aleatorias X

Si solo
cov[x] cov[x, x].
q La anterior cantidad es una matriz, la matriz de covarianza,

cov[x1 , x1 ] cov[x1 , x2 ] cov[x1 , xD ]
cov[x2 , x1 ] cov[x2 , x2 ] cov[x2 , xD ]
cov[x] =

.. ..
. .
cov[xD , x1 ] cov[xD , x2 ] cov[xD , xD ]
14 / 25
Gaussiana I
Distribucion
q Gaussiana en el caso univariado se define como
La distribucion

1 1
N (x|, 2 ) = exp (x ) 2
.
(2 2 )1/2 2 2
q Esperanza
Z
E[x] = xN (x|, 2 )dx = .
q Varianza
var[x] = E[x 2 ] E[x]2 = 2
q Para el caso multivariado,

1 1 > 1
N (x|, ) = exp (x ) (x ) .
(2)D/2 ||1/2 2
15 / 25
Gaussiana II
Distribucion
N (x|, 2 )
16 / 25
Referencias
Meyer, Paul (1986): Probabilidad y Aplicaciones Estadsticas.

Addison-Wesley Iberoamericana. 1986.
17 / 25

Identidades basicas de matrices I
q Una matriz A tiene elementos Aij , donde i indexa las filas y j indexa las
columnas.
q N N. Si no hay
IN denota la matriz identidad de dimension
ambiguedad, se usa I.
q La matriz traspuesta A> tiene elementos (A> )ij = Aji .
q De lo anterior se puede demostrar que
(AB)> = B> A> .
q La matrix inversa de A, denotada como A1 , satisface

AA1 = A1 A = I.
q De lo anterior se puede demostrar que
(AB)1 = B1 A1 .
q se tiene
Tambien
(A> )1 = (A1 )> .
18 / 25

Identidades basicas de matrices II
q La siguiente es una identidad muy util

que involucra inversas de
matrices
(P1 + B> R1 B)1 B> R1 = PB> (BPB> + R)1 .
q Suponga que P es N N y R es M M (luego B es M N).

q Si M N, es mas
barato evaluar el lado derecho que el izquierdo.
q Otra identidad importante es la identidad de Woodbury,
(A + BD1 C)1 = A1 A1 B(D + CA1 B)1 CA1 .
q cuando A es grande y diagonal, y de aqu

La anterior identidad es util
de invertir, mientras B tiene muchas filas, pero pocas columnas (y
facil
por consiguiente C), de manera que el lado derecho es mas barato de
evaluar que el izquierdo.
19 / 25
Trazas y determinantes
q Las trazas y los determinantes aplican a matrices cuadradas.
q La traza tr(A) de una matriz A se define como la suma de los
elementos de la diagonal principal.
q Se puede demostrar que
tr(AB) = tr(BA).
q Igualmente,
tr(ABC) = tr(CAB) = tr(BCA).
q El determinante del producto dos matrices esta dado como
|AB| = |A||B|.
q El determinante de la inversa de una matriz esta dado como
1
|A1 | = .
|A|
q N M, luego
Si A y B son matrices de tamano
|IN + AB> | = |IM + A> B|.
20 / 25
Derivadas de matrices I
q En algunas oportunidades es necesario considerar las derivadas de

vectores y matrices con respecto a escalares.
q La derivada de un vector a con respecto a una escalar x es un vector,
con componentes

da ai
= .
dx i x
q para la derivada de una matriz con respecto a una escalar

La definicion
es igual.
q se definen las derivadas de una escalar x con respecto a un
Tambien
vector a o una matriz, por ejemplo

dx x
= .
da i ai
21 / 25
Derivadas de matrices II
q Igualmente, la derivada de una vector a con respecto a otro vector b es

da ai
= .
db ij bj
> >
(x a) = (a x) = a.
x x
q Similarmente,
A B
(AB) = B+A .
x x x
q La derivada de la inversa de una matriz se puede obtener como
(A1 ) A 1
= A1 A .
x x
22 / 25
Derivadas de matrices III

1 A
ln |A| = tr A .
x x
q Si x es un elemento de A, se tiene

tr(AB) = Bji .
Aij
q compacta como
El resultado anterior se puede escribir de forma mas

tr(AB) = B> .
A
23 / 25
Derivadas de matrices IV
q Del resultado anterior se tienen las siguientes propiedades

tr(A> B) = B
A

tr(A) = I
A

tr(ABA> ) = A(B + B> ).
A
q Igualmente se puede demostrar que

ln |A| = (A1 )> .
A
24 / 25
Referencias
Minka, Thomas P. (2000): Old and New Matrix Algebra Useful for
Statistics.
Petersen, Kaare B. and Pedersen, Michael S. (2007): The Matrix

Cookbook.
Brookes, Mike (2011): The Matrix Reference Manual, http:

//www.ee.imperial.ac.uk/hp/staff/dmb/matrix/intro.html.
Magnus, J. R. and Neudecker, H. (1999): Matrix Differential Calculus with

Applications to Statistics and Econometrics. Wiley.
25 / 25

08.1 - Machine Learning - Repaso Calculo Sobre Matrices y Probabilidad

Uploaded by

Document Information

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

08.1 - Machine Learning - Repaso Calculo Sobre Matrices y Probabilidad

Uploaded by

Copyright:

Available Formats

Repaso probabilidad y calculo sobre matrices

Mauricio A. Alvarez, PhD

q Sean dos variables aleatorias X = {x1 , . . . , xM } y Y = {y1 , . . . , yL }.

q Se define la probabilidad conjunta como

q Se define la probabilidad marginal de X = xi como

q Regla del producto:

p(X , Y ) = p(Y |X )p(X )

p(Y |X ) = p(Y ), p(X , Y ) = p(X )p(Y )

q Un valor especfico de X se denota como x = (x1 , x2 , . . . , xD )> .

q Regla del producto:

p(x, y) = p(y|x)p(x) = p(x|y)p(y).

q f (x) se define como

q f (x) dado Y = y se define

q f (x) esta definida como

var[f ] = E[f (x) E[f (x)]]2 = E[f (x)2 ] E[f (x)]2 .

cov[x, y] = Ex,y [{x E[x]}{y E[y]}]

q La esperanza de un vector de variables aleatorias X, se define como

q La covarianza para el caso de vectores de variables aleatorias X y Y,

cov[x, y] = Ex,y [{x E[x]}{y> (E[y])> }]

q se considera un vector de variables aleatorias X

cov[x] cov[x, x].

q La anterior cantidad es una matriz, la matriz de covarianza,

var[x] = E[x 2 ] E[x]2 = 2

q Para el caso multivariado,

Meyer, Paul (1986): Probabilidad y Aplicaciones Estadsticas.

(AB)> = B> A> .

q La matrix inversa de A, denotada como A1 , satisface

(A> )1 = (A1 )> .

q La siguiente es una identidad muy util

(P1 + B> R1 B)1 B> R1 = PB> (BPB> + R)1 .

q Suponga que P es N N y R es M M (luego B es M N).

(A + BD1 C)1 = A1 A1 B(D + CA1 B)1 CA1 .

q cuando A es grande y diagonal, y de aqu

q En algunas oportunidades es necesario considerar las derivadas de

q para la derivada de una matriz con respecto a una escalar

q Se puede demostrar que

q Se puede demostrar que

q Del resultado anterior se tienen las siguientes propiedades

Petersen, Kaare B. and Pedersen, Michael S. (2007): The Matrix

Brookes, Mike (2011): The Matrix Reference Manual, http:

Magnus, J. R. and Neudecker, H. (1999): Matrix Differential Calculus with

You might also like