Análisis PCA y Análisis Discriminante

Anlisis de Componentes
Principales y Anlisis
Discriminante
Elaborado por Gino Sedano Zevallos

CONTENIDO
Anlisis Factorial con Componentes Principales
Anlisis Discriminante
Casos aplicados

Anlisis Factorial con
Componentes Principales

Introduccin
El anlisis factorial es una tcnica multivariada que
consiste en reducir un conjunto de variables a un
menor nmero de factores hipteticos
subyacentes que contienen aproximadamente la
misma informacin pero sin estar relacionados
entre si.
Facilitan la aplicacin de otros mtodos como la
regresin mltiple, anlisis discriminante, regresin
logstica, etc.
Introduccin
Anlisis Factorial:
Identificar los ratios financieros mas
representativos para predecir posibles quiebras
futuras.
Reducir el nmero de variables explicativas, con
el fin de obtener indicadores sectoriales
representativos.
Comparar hiptesis acerca de ratios financieros
en diferentes sectores: productivos, geogrficos,
etc.
Repaso de Matrices y Estadstica
Propiedades bsicas de las matrices:
AT= (aji) ,Transpuesta de A.
A+B = (aij + bij)
A+B = (aij - bij)
cA = (c*aij) , c es escalar.
AB = A(nxp)B(pxm) = C(nxm) =
A+B = B+A, cuando A y B son de mxn
A(B+C) = AB + AC, A es mxn, B es nxp y C es nxp
A(BC) = (AB)C , A es mxn, B es nxp y C es pxq
(AT)T = A
(AB)T= BTAT , A es mxn, B es nxp
(A+B)T= AT+BT
A(nxn),B(nxn), y c R:
tr(A+B) = trA + trB
tr(cA) = c tr A
det(cA) = cn det(A)
det(AB) = det (BA) = det(A)*det(B)
A(nxp),B(nxp):
tr(AB) = tr(BA)
rank(A) <= min(n,p)
rank(A) => 0
rank(A) = rank(AT)
rank(ATA) = rank(A)
rank(A+B) <= rank(A)+rank(B)
rank(AB) <= min {rank(A),rank(B)}
A(nxp),B(pxq), C(qxn):
tr(ABC) = tr(BCA) = tr(CAB)
rank(ABC) = rank(B) cuando det(A) 0 y det(B) 0
A(pxp):
det(A-1) = det(A)-1
rank(A) = p , si y solo si A es no singular.
det(A) = det() = j
tr(A) =

Matrices y vectores importantes:
Escalar: Es una matriz de 1x1 que se denota como
un escalar a.
Vector columna: Es una matriz nx1 que se denota
como un vector a. Normalmente los vectores
columna se denotan como letras minsculas.
Vector fila: Es una matriz 1xn que se denota como
aT donde a es una vector columna.
Vector de unos: Es una matriz nx1 y se denota
como 1n con elementos aij=1.

Vector de ceros: Es una matriz nx1 y se denota
como 0n con elementos aij=0.
Matriz cuadrada: Es una matriz nxn y se denota
como A(nxn).
Matriz diagonal: Es una matriz cuadrada donde se
cumple aij = 0 cuando i j y se denota como
diag(aii).
Matriz identidad: Es una matriz diagonal donde se
cumple aij = 1 cuando i = j y se denota como In.
Matriz unidad: Es una matriz cuadrada donde se
cumple que aij = 1.
Matriz simtrica: Es una matriz cuadrada donde
se cumple que aij= aji .
Matriz nula: Es una matriz donde aij=0.
Matriz triangular : Es una matriz cuadrada cuyos
elementos por encima o por debajo de la diagonal
son igual a 0.
Matriz triangular superior: Es una matriz
triangular donde aij = 0 cuando i < j.
Matriz triangular inferior: Es una matriz
triangular donde aij = 0 cuando i > j.
Valores y vectores propios
Se definen para cada matriz cuadrada A(pxp). Si es un
escalar y es un vector y se cumple:
A=
Entonces a se le llama valor propio y a se le llama
vector propio.
Se cumple que: det(A- Ip) = 0
Se tienen p valores propios de A.
Por cada valor propio i se tiene un vector propio
correspondiente i.

Al conjunto de valores propios se denota como
una matriz diagonal:
=diag(1 ,2, p)
Al conjunto de vectores propios normalizados se
denota como una matriz:
= (N1 ,N2 ,,Np)
donde cada vector propio es normalizado es
decir su mdulo es 1 (o vector unitario).

Descomposicin matricial:
Hemos visto que para hallar la solucin de un sistema de
ecuaciones lineales necesitamos hallar la matriz inversa de A.
Adems hemos visto que hallar la matriz inversa es complicado,
especialmente para sistemas grandes de ecuaciones.
Por este motivo se han establecido mtodos para simplificar la
obtencin de la matriz inversa.
Uno de ellos es el empleo de la descomposicin de Jordan y
descomposicin de valor singular.

Descomposicin de Jordan:
Toda matriz simtrica A puede escribirse como:
A = T donde =diag(1 ,2, p) y = (N1
,N2 ,,Np)
donde N1 ,N2 ,,Np son los vectores propios
normalizados de la matriz A. Normalizados quiere
decir que se dividen entre su norma 2 (distancia).

Definicin de matriz-covarianza poblacional:
Si X es una variable aleatoria de p dimensiones:
La matriz varianza-covarianza de X se define como:
donde xixj es la covarianza entre Xi y Xj. Cuando i

= j , xixi = Var(Xi) , i=1,2,..,p

Definicin de matriz-covarianza muestral:
Si x es una variable aleatoria de p dimensiones y X es una
matriz de muestra de datos respecto a la variable aleatoria X:
Cada columna contiene los datos de la muestra de cada variable.

La matriz varianza-covarianza muestral de x en base a X se define como:
Si n es mayor a 30 se puede usar 1/n en vez de 1/(n-1)

Definicin de matriz de correlacin:
Si x es una variable aleatoria de p dimensiones y X es una
matriz de muestra de datos respecto a la variable aleatoria
X:

Tenemos el siguiente vector aleatorio (o variable
multivariable):
Se cumple:

Propiedad bsica de la matriz varianza-covarianza:
= E( Z(nxn))
nx1 1xn
donde X es el vector de variables aleatorias.
Otra forma de expresar lo mismo:
Matriz varianza-covarianza entre 2 vectores aleatorios:

Otras propiedades:
X,X1 y X2 son vectores aleatorios de dimensiones

px1,Y es un vector aleatorio de dimensiones qx1, a es
un vector de dimensiones qx1, A y B son matrices qxp.
1.
2. es positiva semi definida.
3.
4.
5.
6. Si X e Y son vectores aleatorios con iguales dimensiones:
7.
8. Si X e Y son independientes:

Anlisis de Componentes Principales
Teorema : Maximizacin de la forma cuadrtica
Si A y B son simtricas y B > 0 (definida positiva, zTBz >0 para
todo z Rn), el mximo de xTAx bajo las restricciones de
xTBx=1 est dado por el mayor valor propio, como se
muestra a continuacin:
donde 1, .,p son los valores propios de B-1A.

El vector x* que maximiza (minimiza) xTAx bajo la restriccin
de xTBx=1 es el vector propio de B-1A correspondiente al
mximo(mnimo) valor propio de B-1A.
Se escoge un vector unitario tal que la Varianza de las
proyecciones de la matriz de datos X sobre aquel vector sea
mxima.
y
Para obtener se usa el Teorema anterior.
A=Var(X) y como TI = T = 1 entonces B = I.

* vendra a ser el vector propio correspondiente al mximo valor
propio de B-1A=I*Var(X) = Var(X). Es decir el vector propio cuyo
valor propio es el mximo tiene la direccin de mxima varianza.
Proyeccin de los datos
Teorema de transformacin de los datos en las
componentes principales
Para X (, ) y haciendo Y = T(X- )
donde los vectores propios normalizados de estn ordenados de
izquierda a derecha en rden a sus valores propios correspondientes.
La proyeccin de mxima varianza es aquella en la
direccin 1 correspondiente al vector propio relativo
al mximo valor propio 1 , de la matriz de covarianza
de la data.
Luego de hacer la transformacin PC, Y = T(X- ),
tenemos que 1 = Var(Y1) donde Y1 es la primera
componente principal y la de mayor varianza y es la
matriz de vectores propios normalizados
(transformados a unitarios) correspondientes a los
valores propios ordenados de mayor a menor (de
izquierda a derecha).
Modelo Factorial
Forma algebraica:
Para una data X de p dimensiones se asume que existen k < p
factores y errores ej de tal forma que xj se puede expresar de la
siguiente forma:
Forma matricial: X = QF+ + U ,

Se asume que:
F es un vector de k dimensiones.
U es vector de errores o diferencias no explicadas por los
factores .
E(U) = 0, E(F) = 0 y Var(F) = Ik , es decir los factores F no
estn correlacionados entre si y E(QF) = 0 y E(X) = .
Modelo Factorial
Representacin del modelo factorial
X = Q . F + U +
(px1) (p x k) (k x 1) (p x 1) (p x 1)
F y U son vectores aleatorios.

Se asume que:
E(F)=0,
Var(F)=Ik,
E(U)=0,
Cov(Ui,Uj)=0 para i j, Cov(F,U)=0
Var(U) = = diag(11, 22, pp)
Modelo Factorial
Algebraicamente podemos expresar el modelo como sigue:
con:
Varianza Total:
Varianza comn o Comunalidad (Explicada por los factores):
Varianza especfica (o varianza del error): Var(Uj) = jj
La matriz covarianza puede escribirse como:

=
=
Modelo Factorial
Representacin grfica (para k=2, 2 factores y p=4,

1 2
4 variables) X1
q11
2f1= 1 q12 12
22
X=QF++U q21
f1 X2 13
q31 q22
f12= 0 23 14
32
q41 q32
f2 X3 24
34
2f2= 1
q42 42
X4
Aplicacin del Anlisis Factorial
Estimacin del Modelo Factorial:

A partir de una matriz de covarianzas muestral S se
puede estimar Q y :
Se recomienda hacer la transformacin Y=D-1/2(X- ) con

Yd=HXdD-1/2 ,
H= I n-11n1nT , centra la data alrededor de las medias .
Xd: La data disponible de X con n datos y p variables.
D =diag(sx1x1,sxpxp)
Yd: Data X estandarizada con
Test de Esfericidad de Bartlett.
Permite evaluar si el anlisis factorial es til para extraer factores k <
p, de la muestra de datos empleados.
Contrasta bajo la hiptesis de normalidad multivariante, si la matriz
de correlacin R = I
H0: |Rp|=1 o Rp=I, p variables originales.
Estadstico:
dR = -[n-1-(1/6)*(2p+5)]*ln|R|
= -[n-(2p+11)/6]*ln(1* 2* p)
Bajo la hiptesis nula este estadstico sigue una distribucin 2 con
p*(p-1)/2 grados de libertad .
Si el estadstico es mayor que 2,p*(p-1)/2 entonces se rechaza la
hiptesis nula a un nivel de significancia con p(p-1)/2 grados
de libertad.
Estimacin de Q por medio del mtodo de los componentes
principales
Consiste en hallar un valor adecuado de Q a partir de S.
1. Se descompone la matriz de covarianza S con
2. A partir de estos y se forma Q:
Se escoge los primeros k componentes como los k factores.
Para seleccionar el nmero de factores se considera la proporcin de varianza

acumulada explicada. Se recomienda al menos 75%:
Para un anlisis factorial con S:( )
Para un anlisis factorial con R:( )
3. Se obtiene con la diagonal de

4. El error residual se estima con:
Determinacin del nmero de factores
Determinacin a priori: Cuando se tiene idea previa de los factores mas
relevantes se elige el nmero de factores correspondiente.
Regla de Kaiser: Nmero de valores propios de la matriz correlacin R

con un valor que puede ser como mnimo 0.7.
Porcentaje acumulado de varianza explicada: Nmero de factores

suficiente para que la proporcin acumulada de la varianza explicada sea al
menos 75%.
Grfico de sedimentacin o Scree plot: Grfica de los valores propios

en rden de tamao. Tpicamente el grfico muestra la clara ruptura entre
las pendientes de los valores propios mas importantes y aquellos menos
importantes en magnitud.
Interpretacin de los factores:
Observar la matriz de correlacin de X con los factores F.
Intentardar un nombre a los factores, en base a la estructura

de las correlaciones.
Obtener un nuevo Q mas fcilmente interpretable mediante

rotacin.
Graficar los pesos de factores en pares y observar como estn

distribuidos.
Estimar y observar las puntuaciones factoriales.

Observacin de las puntuaciones de los factores

obtenidos
Los valores de los factores llamados scores factoriales sirven
para evaluar el modelo e interpretar los factores:
1. A partir del modelo factorial se obtienen estimados de los
scores factoriales cuando no se transforman los datos:
2. A partir del mismo modelo factorial pero usando matriz de

correlacin R y datos transformados:
con
En resumen se siguen los siguientes pasos para el PCA:
1. Formulacin del problema
2. Anlisis de la matriz de correlacin
3. Extraccin de factores
4. Determinacin del nmero de factores
5. Interpretacin de factores
6. Rotacin de factores
7. Clculo de puntuaciones factoriales y seleccin de las variables
representativas
8.Validacin del modelo
9. Anlisis posteriores: Regresin, discriminante, Conglomerados,
etc.
Ejemplo:
En un MBA se tienen las siguientes notas para 3 cursos:
Finanzas, Marketing y Recursos Humanos.
Estudiante Finanzas Marketing Recursos
Humanos
1 6 12 10
2 14 6 6
3 20 18 16
4 6 18 14
5 20 12 10
Realizar un anlisis factorial con el mtodo de componentes
principales para determinar el mnimo nmero de factores que
expliquen adecuadamente a los datos presentados. Haga al
validacin respectiva del modelo.

El anlisis de discriminante consiste en clasificar
una observacin en algunas de las poblaciones o
conglomerados identificados o definidos a
priori.
El AD debe proveer de una regla para asignar la
nueva observacin a una de las poblaciones.
Estos conglomerados pueden ser tambin
obtenidos mediante anlisis de poblaciones.

Algunos ejemplos de aplicacin:
Clasificacin de tipos de clientes en un estudio de
mercado
Estudios de comportamiento
Evaluacin crediticia de un cliente.
Evaluacin de la situacin financiera de una
empresa.
Estudios biolgicos

Supuestos generales:
Se tienen poblaciones identificadas a priori.
Las poblaciones identificadas siguen
aproximadamente una distribucin normal.
El modelo tiene un poder discriminante
significativo respecto a los datos de las diferentes
poblaciones.
Es posible obtener una muestra lo
suficientemente grande para la estimacin del
modelo.

Representacin general del modelo:
Se tienen las siguientes poblaciones i,j=1,2,,J
Se quiere clasificar una observacin x a uno de
estos grupos.
Se extrae una muestra de una poblacin.
El anlisis discriminante permite dividir la muestra
en conjuntos Rj.
Si x Ri se clasifica a la observacin en i.
El AD busca Rjs tal que los errores tipo I y II de
clasificacin sean pequeos.

En poblaciones con distribuciones de una
variable independiente tenemos:
Las distribuciones de ambas
R1 R2
poblaciones se intersectan
por lo que si se definen dos
regiones al dividir el
espacio por una lnea
vertical implicar una
probabilidad de error en la
clasificacin.
1|2 2|1
Lnea discriminante

Errores Tipo I y Tipo II:
Si 1 es la poblacin de clientes cumplidos y 2 es la poblacin de
clientes no cumplidos:
Error Tipo I=P(2 | 1)
Error Tipo II=P(1 | 2)
Si el elemento x se
R2
encuentra en la regin R1
R1 se clasifica como
cliente cumplido,
si x se encuentra en la
regin R2 se clasifica
como cliente no cumplido.
Error 1|2 Error 2|1
Tipo II Tipo I
Lnea discriminante
Regla discriminante de mxima verosimilitud:
Se tiene las poblaciones j con densidad fj(x).
La regla consiste en clasificar a una observacin x en
aquella j tal que .
Mediante esta regla se definen los conjuntos Rj:
O equivalentemente:
Error en clasificacin (para 2 grupos):

Regla de mxima verosimilitud para dos
poblaciones con distribucin normal con una
sola variable independiente:
Tenemos:
Si xR1 se clasifica x en 1
Si xR2 se clasifica x en 2

Reemplazando L1(x)=f1(x) y L2(x)=f2(x) tenemos:
Si 1= 2 tenemos:
para 1< 2

Ejemplo para 2 poblaciones con distribuciones normales con una
sola variable independiente y con 1 2:
Analisis discriminante con la regla de maxima verosimilitud
1
0.9
0.8
0.7
0.6
Densidad
0.5
0.4 R1 R2 R1
0.3
0.2
0.1
0
-6 -4 -2 0 2 4 6

Regla de mxima verosimilitud con mltiples
poblaciones con distribucin normal de
mltiples variables independientes:
Tenemos: . Se asume las matrices covarianza
iguales para todas las poblaciones.
Se clasifica x en j cuando es tal que i=j y
donde la distancia cuadrada de Mahalanobis entre x y ui es
mnima:
Cuando J=2:
donde: y

Probabilidad de error en la clasificacin para la regla de mxima
verosimilitud con matrices covarianza iguales y dos poblaciones:
Tenemos:
Para probabilidad de error al clasificar en 1 cuando en realidad
perteneca a 2:
p12 = P(xR1| 2) = P {T(x-)>0 | 2}
y
donde
es la distancia cuadrada de Mahalanobis entre dos poblaciones.
En este caso ambas probabilidades son iguales:
=

Definicin de poblaciones a partir de muestras con
matriz covarianza comn:
Se modifican las notaciones: por j y Sj por j
La covarianza comn de las poblaciones se estima con:
Se estima la distancia de Mahalonobis entre x y la

poblacin i para covarianzas comunes con:

Prueba de hiptesis de la significancia del AD para
2 poblaciones a partir de 2 muestras y un nmero
p de variables independientes:
Se emplea el siguiente estadstico:
n1 y n2 son el tamao de las dos muestras.

p es el nmero de variables independientes.
2 es la distancia cuadrada de Mahalanobis entre dos poblaciones.
Si el valor crtico F(p,n1+n2-p-1) < Z entonces se rechaza la

hiptesis de que 1 = 2 a una significancia de .

En una tabla F identificamos el valor
correspondiente a la siguiente grfica:
Si = 1% y F < Z esto significara que a un 99% de

confianza 1 2 y las p variables independientes
tienen aceptable significancia para un AD.
Estimacin de probabilidad de error en
clasificacin a partir de muestras:
Se estima la distancia cuadrada de Mahalonobis
entre dos poblaciones :
= estimado de 2
Mtodo de re-sustitucin:
donde nij es el nmero de errores con la poblacin i
dado que x pertenece a la poblacin j y nj es el
nmero de datos en la poblacin j.

Proyeccin de los datos sobre la direccin unitaria y definicin del
score y regla discriminante de dos poblaciones
Grupo 1
Grupo 2

Casos aplicados

Análisis PCA y Análisis Discriminante

Uploaded by

Document Information

Original Description:

Original Title

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

Análisis PCA y Análisis Discriminante

Uploaded by

Copyright:

Available Formats

Anlisis de Componentes

Elaborado por Gino Sedano Zevallos

Elaborado por Gino Sedano Zevallos

Elaborado por Gino Sedano Zevallos

Elaborado por Gino Sedano Zevallos

Elaborado por Gino Sedano Zevallos

Elaborado por Gino Sedano Zevallos

Elaborado por Gino Sedano Zevallos

Elaborado por Gino Sedano Zevallos

Elaborado por Gino Sedano Zevallos

La matriz varianza-covarianza de X se define como:

donde xixj es la covarianza entre Xi y Xj. Cuando i

Elaborado por Gino Sedano Zevallos

Cada columna contiene los datos de la muestra de cada variable.

Si n es mayor a 30 se puede usar 1/n en vez de 1/(n-1)

Elaborado por Gino Sedano Zevallos

Elaborado por Gino Sedano Zevallos

Elaborado por Gino Sedano Zevallos

Matriz varianza-covarianza entre 2 vectores aleatorios:

Elaborado por Gino Sedano Zevallos

X,X1 y X2 son vectores aleatorios de dimensiones

Elaborado por Gino Sedano Zevallos

donde 1, .,p son los valores propios de B-1A.

Para obtener se usa el Teorema anterior.

A=Var(X) y como TI = T = 1 entonces B = I.

Forma matricial: X = QF+ + U ,

F y U son vectores aleatorios.

Algebraicamente podemos expresar el modelo como sigue:

Varianza comn o Comunalidad (Explicada por los factores):

Varianza especfica (o varianza del error): Var(Uj) = jj

La matriz covarianza puede escribirse como:

Representacin grfica (para k=2, 2 factores y p=4,

Estimacin del Modelo Factorial:

Se recomienda hacer la transformacin Y=D-1/2(X- ) con

Se escoge los primeros k componentes como los k factores.

Para seleccionar el nmero de factores se considera la proporcin de varianza

3. Se obtiene con la diagonal de

Regla de Kaiser: Nmero de valores propios de la matriz correlacin R

Porcentaje acumulado de varianza explicada: Nmero de factores

Grfico de sedimentacin o Scree plot: Grfica de los valores propios

Intentardar un nombre a los factores, en base a la estructura

Obtener un nuevo Q mas fcilmente interpretable mediante

Graficar los pesos de factores en pares y observar como estn

Estimar y observar las puntuaciones factoriales.

Observacin de las puntuaciones de los factores

2. A partir del mismo modelo factorial pero usando matriz de

Elaborado por Gino Sedano Zevallos

Elaborado por Gino Sedano Zevallos

Elaborado por Gino Sedano Zevallos

Elaborado por Gino Sedano Zevallos

Elaborado por Gino Sedano Zevallos

Elaborado por Gino Sedano Zevallos

Elaborado por Gino Sedano Zevallos

Elaborado por Gino Sedano Zevallos

Elaborado por Gino Sedano Zevallos

Elaborado por Gino Sedano Zevallos

Elaborado por Gino Sedano Zevallos

Elaborado por Gino Sedano Zevallos

Se estima la distancia de Mahalonobis entre x y la

Elaborado por Gino Sedano Zevallos

n1 y n2 son el tamao de las dos muestras.

Si el valor crtico F(p,n1+n2-p-1) < Z entonces se rechaza la