You are on page 1of 58

Anlisis de Componentes

Principales y Anlisis
Discriminante

Elaborado por Gino Sedano Zevallos


CONTENIDO
Anlisis Factorial con Componentes Principales
Anlisis Discriminante
Casos aplicados

Elaborado por Gino Sedano Zevallos


Anlisis Factorial con
Componentes Principales

Elaborado por Gino Sedano Zevallos


Introduccin
El anlisis factorial es una tcnica multivariada que
consiste en reducir un conjunto de variables a un
menor nmero de factores hipteticos
subyacentes que contienen aproximadamente la
misma informacin pero sin estar relacionados
entre si.
Facilitan la aplicacin de otros mtodos como la
regresin mltiple, anlisis discriminante, regresin
logstica, etc.
Introduccin
Anlisis Factorial:
Identificar los ratios financieros mas
representativos para predecir posibles quiebras
futuras.
Reducir el nmero de variables explicativas, con
el fin de obtener indicadores sectoriales
representativos.
Comparar hiptesis acerca de ratios financieros
en diferentes sectores: productivos, geogrficos,
etc.
Repaso de Matrices y Estadstica
Propiedades bsicas de las matrices:
AT= (aji) ,Transpuesta de A.
A+B = (aij + bij)
A+B = (aij - bij)
cA = (c*aij) , c es escalar.
AB = A(nxp)B(pxm) = C(nxm) =
A+B = B+A, cuando A y B son de mxn
A(B+C) = AB + AC, A es mxn, B es nxp y C es nxp
A(BC) = (AB)C , A es mxn, B es nxp y C es pxq
(AT)T = A
(AB)T= BTAT , A es mxn, B es nxp
(A+B)T= AT+BT
Elaborado por Gino Sedano Zevallos
Repaso de Matrices y Estadstica
Propiedades bsicas de las matrices:
A(nxn),B(nxn), y c R:
tr(A+B) = trA + trB
tr(cA) = c tr A
det(cA) = cn det(A)
det(AB) = det (BA) = det(A)*det(B)
A(nxp),B(nxp):
tr(AB) = tr(BA)
rank(A) <= min(n,p)
rank(A) => 0
rank(A) = rank(AT)
rank(ATA) = rank(A)
rank(A+B) <= rank(A)+rank(B)
rank(AB) <= min {rank(A),rank(B)}
Elaborado por Gino Sedano Zevallos
Repaso de Matrices y Estadstica
Propiedades bsicas de las matrices:
A(nxp),B(pxq), C(qxn):
tr(ABC) = tr(BCA) = tr(CAB)
rank(ABC) = rank(B) cuando det(A) 0 y det(B) 0
A(pxp):
det(A-1) = det(A)-1
rank(A) = p , si y solo si A es no singular.
det(A) = det() = j
tr(A) =

Elaborado por Gino Sedano Zevallos


Repaso de Matrices y Estadstica
Matrices y vectores importantes:
Escalar: Es una matriz de 1x1 que se denota como
un escalar a.
Vector columna: Es una matriz nx1 que se denota
como un vector a. Normalmente los vectores
columna se denotan como letras minsculas.
Vector fila: Es una matriz 1xn que se denota como
aT donde a es una vector columna.
Vector de unos: Es una matriz nx1 y se denota
como 1n con elementos aij=1.

Elaborado por Gino Sedano Zevallos


Repaso de Matrices y Estadstica
Matrices y vectores importantes:
Vector de ceros: Es una matriz nx1 y se denota
como 0n con elementos aij=0.
Matriz cuadrada: Es una matriz nxn y se denota
como A(nxn).
Matriz diagonal: Es una matriz cuadrada donde se
cumple aij = 0 cuando i j y se denota como
diag(aii).
Matriz identidad: Es una matriz diagonal donde se
cumple aij = 1 cuando i = j y se denota como In.
Matriz unidad: Es una matriz cuadrada donde se
cumple que aij = 1.
Elaborado por Gino Sedano Zevallos
Repaso de Matrices y Estadstica
Matrices y vectores importantes:
Matriz simtrica: Es una matriz cuadrada donde
se cumple que aij= aji .
Matriz nula: Es una matriz donde aij=0.
Matriz triangular : Es una matriz cuadrada cuyos
elementos por encima o por debajo de la diagonal
son igual a 0.
Matriz triangular superior: Es una matriz
triangular donde aij = 0 cuando i < j.
Matriz triangular inferior: Es una matriz
triangular donde aij = 0 cuando i > j.
Elaborado por Gino Sedano Zevallos
Repaso de Matrices y Estadstica
Valores y vectores propios
Se definen para cada matriz cuadrada A(pxp). Si es un
escalar y es un vector y se cumple:
A=
Entonces a se le llama valor propio y a se le llama
vector propio.
Se cumple que: det(A- Ip) = 0
Se tienen p valores propios de A.
Por cada valor propio i se tiene un vector propio
correspondiente i.

Elaborado por Gino Sedano Zevallos


Repaso de Matrices y Estadstica
Al conjunto de valores propios se denota como
una matriz diagonal:
=diag(1 ,2, p)
Al conjunto de vectores propios normalizados se
denota como una matriz:
= (N1 ,N2 ,,Np)
donde cada vector propio es normalizado es
decir su mdulo es 1 (o vector unitario).

Elaborado por Gino Sedano Zevallos


Repaso de Matrices y Estadstica
Descomposicin matricial:
Hemos visto que para hallar la solucin de un sistema de
ecuaciones lineales necesitamos hallar la matriz inversa de A.
Adems hemos visto que hallar la matriz inversa es complicado,
especialmente para sistemas grandes de ecuaciones.
Por este motivo se han establecido mtodos para simplificar la
obtencin de la matriz inversa.
Uno de ellos es el empleo de la descomposicin de Jordan y
descomposicin de valor singular.

Elaborado por Gino Sedano Zevallos


Repaso de Matrices y Estadstica
Descomposicin de Jordan:
Toda matriz simtrica A puede escribirse como:
A = T donde =diag(1 ,2, p) y = (N1
,N2 ,,Np)
donde N1 ,N2 ,,Np son los vectores propios
normalizados de la matriz A. Normalizados quiere
decir que se dividen entre su norma 2 (distancia).

Elaborado por Gino Sedano Zevallos


Repaso de Matrices y Estadstica
Definicin de matriz-covarianza poblacional:
Si X es una variable aleatoria de p dimensiones:

La matriz varianza-covarianza de X se define como:

donde xixj es la covarianza entre Xi y Xj. Cuando i


= j , xixi = Var(Xi) , i=1,2,..,p

Elaborado por Gino Sedano Zevallos


Repaso de Matrices y Estadstica
Definicin de matriz-covarianza muestral:
Si x es una variable aleatoria de p dimensiones y X es una
matriz de muestra de datos respecto a la variable aleatoria X:

Cada columna contiene los datos de la muestra de cada variable.


La matriz varianza-covarianza muestral de x en base a X se define como:

Si n es mayor a 30 se puede usar 1/n en vez de 1/(n-1)

Elaborado por Gino Sedano Zevallos


Repaso de Matrices y Estadstica
Definicin de matriz de correlacin:
Si x es una variable aleatoria de p dimensiones y X es una
matriz de muestra de datos respecto a la variable aleatoria
X:

Elaborado por Gino Sedano Zevallos


Repaso de Matrices y Estadstica
Tenemos el siguiente vector aleatorio (o variable
multivariable):

Se cumple:

Elaborado por Gino Sedano Zevallos


Repaso de Matrices y Estadstica
Propiedad bsica de la matriz varianza-covarianza:
= E( Z(nxn))
nx1 1xn
donde X es el vector de variables aleatorias.
Otra forma de expresar lo mismo:

Matriz varianza-covarianza entre 2 vectores aleatorios:

Elaborado por Gino Sedano Zevallos


Repaso de Matrices y Estadstica
Otras propiedades:

X,X1 y X2 son vectores aleatorios de dimensiones


px1,Y es un vector aleatorio de dimensiones qx1, a es
un vector de dimensiones qx1, A y B son matrices qxp.
1.
2. es positiva semi definida.
3.
4.
5.
6. Si X e Y son vectores aleatorios con iguales dimensiones:

7.
8. Si X e Y son independientes:

Elaborado por Gino Sedano Zevallos


Anlisis de Componentes Principales
Teorema : Maximizacin de la forma cuadrtica
Si A y B son simtricas y B > 0 (definida positiva, zTBz >0 para
todo z Rn), el mximo de xTAx bajo las restricciones de
xTBx=1 est dado por el mayor valor propio, como se
muestra a continuacin:

donde 1, .,p son los valores propios de B-1A.


El vector x* que maximiza (minimiza) xTAx bajo la restriccin
de xTBx=1 es el vector propio de B-1A correspondiente al
mximo(mnimo) valor propio de B-1A.
Anlisis de Componentes Principales
Anlisis de Componentes Principales
Se escoge un vector unitario tal que la Varianza de las
proyecciones de la matriz de datos X sobre aquel vector sea
mxima.
y

Para obtener se usa el Teorema anterior.

A=Var(X) y como TI = T = 1 entonces B = I.


* vendra a ser el vector propio correspondiente al mximo valor
propio de B-1A=I*Var(X) = Var(X). Es decir el vector propio cuyo
valor propio es el mximo tiene la direccin de mxima varianza.
Anlisis de Componentes Principales
Proyeccin de los datos
Anlisis de Componentes Principales
Teorema de transformacin de los datos en las
componentes principales
Para X (, ) y haciendo Y = T(X- )
donde los vectores propios normalizados de estn ordenados de
izquierda a derecha en rden a sus valores propios correspondientes.
Anlisis de Componentes Principales
La proyeccin de mxima varianza es aquella en la
direccin 1 correspondiente al vector propio relativo
al mximo valor propio 1 , de la matriz de covarianza
de la data.
Luego de hacer la transformacin PC, Y = T(X- ),
tenemos que 1 = Var(Y1) donde Y1 es la primera
componente principal y la de mayor varianza y es la
matriz de vectores propios normalizados
(transformados a unitarios) correspondientes a los
valores propios ordenados de mayor a menor (de
izquierda a derecha).
Modelo Factorial
Forma algebraica:
Para una data X de p dimensiones se asume que existen k < p
factores y errores ej de tal forma que xj se puede expresar de la
siguiente forma:

Forma matricial: X = QF+ + U ,


Se asume que:
F es un vector de k dimensiones.
U es vector de errores o diferencias no explicadas por los
factores .
E(U) = 0, E(F) = 0 y Var(F) = Ik , es decir los factores F no
estn correlacionados entre si y E(QF) = 0 y E(X) = .
Modelo Factorial
Representacin del modelo factorial

X = Q . F + U +
(px1) (p x k) (k x 1) (p x 1) (p x 1)

F y U son vectores aleatorios.


Se asume que:
E(F)=0,
Var(F)=Ik,
E(U)=0,
Cov(Ui,Uj)=0 para i j, Cov(F,U)=0
Var(U) = = diag(11, 22, pp)
Modelo Factorial

Algebraicamente podemos expresar el modelo como sigue:

con:
Varianza Total:

Varianza comn o Comunalidad (Explicada por los factores):

Varianza especfica (o varianza del error): Var(Uj) = jj

La matriz covarianza puede escribirse como:


=
=
Modelo Factorial

Representacin grfica (para k=2, 2 factores y p=4,


1 2
4 variables) X1
q11
2f1= 1 q12 12
22
X=QF++U q21
f1 X2 13
q31 q22
f12= 0 23 14
32
q41 q32
f2 X3 24
34
2f2= 1
q42 42
X4
Aplicacin del Anlisis Factorial

Estimacin del Modelo Factorial:


A partir de una matriz de covarianzas muestral S se
puede estimar Q y :

Se recomienda hacer la transformacin Y=D-1/2(X- ) con


Yd=HXdD-1/2 ,
H= I n-11n1nT , centra la data alrededor de las medias .
Xd: La data disponible de X con n datos y p variables.
D =diag(sx1x1,sxpxp)
Yd: Data X estandarizada con
Aplicacin del Anlisis Factorial
Test de Esfericidad de Bartlett.
Permite evaluar si el anlisis factorial es til para extraer factores k <
p, de la muestra de datos empleados.
Contrasta bajo la hiptesis de normalidad multivariante, si la matriz
de correlacin R = I
H0: |Rp|=1 o Rp=I, p variables originales.
Estadstico:
dR = -[n-1-(1/6)*(2p+5)]*ln|R|
= -[n-(2p+11)/6]*ln(1* 2* p)
Bajo la hiptesis nula este estadstico sigue una distribucin 2 con
p*(p-1)/2 grados de libertad .
Si el estadstico es mayor que 2,p*(p-1)/2 entonces se rechaza la
hiptesis nula a un nivel de significancia con p(p-1)/2 grados
de libertad.
Aplicacin del Anlisis Factorial
Estimacin de Q por medio del mtodo de los componentes
principales
Consiste en hallar un valor adecuado de Q a partir de S.
1. Se descompone la matriz de covarianza S con
2. A partir de estos y se forma Q:

Se escoge los primeros k componentes como los k factores.

Para seleccionar el nmero de factores se considera la proporcin de varianza


acumulada explicada. Se recomienda al menos 75%:
Para un anlisis factorial con S:( )
Para un anlisis factorial con R:( )

3. Se obtiene con la diagonal de


4. El error residual se estima con:
Aplicacin del Anlisis Factorial
Determinacin del nmero de factores
Determinacin a priori: Cuando se tiene idea previa de los factores mas
relevantes se elige el nmero de factores correspondiente.

Regla de Kaiser: Nmero de valores propios de la matriz correlacin R


con un valor que puede ser como mnimo 0.7.

Porcentaje acumulado de varianza explicada: Nmero de factores


suficiente para que la proporcin acumulada de la varianza explicada sea al
menos 75%.

Grfico de sedimentacin o Scree plot: Grfica de los valores propios


en rden de tamao. Tpicamente el grfico muestra la clara ruptura entre
las pendientes de los valores propios mas importantes y aquellos menos
importantes en magnitud.
Aplicacin del Anlisis Factorial
Interpretacin de los factores:
Observar la matriz de correlacin de X con los factores F.

Intentardar un nombre a los factores, en base a la estructura


de las correlaciones.

Obtener un nuevo Q mas fcilmente interpretable mediante


rotacin.

Graficar los pesos de factores en pares y observar como estn


distribuidos.

Estimar y observar las puntuaciones factoriales.


Aplicacin del Anlisis Factorial

Observacin de las puntuaciones de los factores


obtenidos
Los valores de los factores llamados scores factoriales sirven
para evaluar el modelo e interpretar los factores:
1. A partir del modelo factorial se obtienen estimados de los
scores factoriales cuando no se transforman los datos:

2. A partir del mismo modelo factorial pero usando matriz de


correlacin R y datos transformados:
con
Aplicacin del Anlisis Factorial
En resumen se siguen los siguientes pasos para el PCA:
1. Formulacin del problema
2. Anlisis de la matriz de correlacin
3. Extraccin de factores
4. Determinacin del nmero de factores
5. Interpretacin de factores
6. Rotacin de factores
7. Clculo de puntuaciones factoriales y seleccin de las variables
representativas
8.Validacin del modelo
9. Anlisis posteriores: Regresin, discriminante, Conglomerados,
etc.
Aplicacin del Anlisis Factorial
Ejemplo:
En un MBA se tienen las siguientes notas para 3 cursos:
Finanzas, Marketing y Recursos Humanos.
Estudiante Finanzas Marketing Recursos
Humanos
1 6 12 10
2 14 6 6
3 20 18 16
4 6 18 14
5 20 12 10
Realizar un anlisis factorial con el mtodo de componentes
principales para determinar el mnimo nmero de factores que
expliquen adecuadamente a los datos presentados. Haga al
validacin respectiva del modelo.
Anlisis Discriminante

Elaborado por Gino Sedano Zevallos


Anlisis Discriminante
El anlisis de discriminante consiste en clasificar
una observacin en algunas de las poblaciones o
conglomerados identificados o definidos a
priori.
El AD debe proveer de una regla para asignar la
nueva observacin a una de las poblaciones.
Estos conglomerados pueden ser tambin
obtenidos mediante anlisis de poblaciones.

Elaborado por Gino Sedano Zevallos


Anlisis Discriminante
Algunos ejemplos de aplicacin:
Clasificacin de tipos de clientes en un estudio de
mercado
Estudios de comportamiento
Evaluacin crediticia de un cliente.
Evaluacin de la situacin financiera de una
empresa.
Estudios biolgicos

Elaborado por Gino Sedano Zevallos


Anlisis Discriminante

Supuestos generales:
Se tienen poblaciones identificadas a priori.
Las poblaciones identificadas siguen
aproximadamente una distribucin normal.
El modelo tiene un poder discriminante
significativo respecto a los datos de las diferentes
poblaciones.
Es posible obtener una muestra lo
suficientemente grande para la estimacin del
modelo.

Elaborado por Gino Sedano Zevallos


Anlisis Discriminante
Representacin general del modelo:
Se tienen las siguientes poblaciones i,j=1,2,,J
Se quiere clasificar una observacin x a uno de
estos grupos.
Se extrae una muestra de una poblacin.
El anlisis discriminante permite dividir la muestra
en conjuntos Rj.
Si x Ri se clasifica a la observacin en i.
El AD busca Rjs tal que los errores tipo I y II de
clasificacin sean pequeos.

Elaborado por Gino Sedano Zevallos


Anlisis Discriminante
En poblaciones con distribuciones de una
variable independiente tenemos:
Las distribuciones de ambas
R1 R2
poblaciones se intersectan
por lo que si se definen dos
regiones al dividir el
espacio por una lnea
vertical implicar una
probabilidad de error en la
clasificacin.
1|2 2|1

Lnea discriminante

Elaborado por Gino Sedano Zevallos


Anlisis Discriminante
Errores Tipo I y Tipo II:
Si 1 es la poblacin de clientes cumplidos y 2 es la poblacin de
clientes no cumplidos:
Error Tipo I=P(2 | 1)
Error Tipo II=P(1 | 2)
Si el elemento x se
R2
encuentra en la regin R1
R1 se clasifica como
cliente cumplido,
si x se encuentra en la
regin R2 se clasifica
como cliente no cumplido.
Error 1|2 Error 2|1
Tipo II Tipo I
Lnea discriminante
Elaborado por Gino Sedano Zevallos
Anlisis Discriminante
Regla discriminante de mxima verosimilitud:
Se tiene las poblaciones j con densidad fj(x).
La regla consiste en clasificar a una observacin x en
aquella j tal que .
Mediante esta regla se definen los conjuntos Rj:

O equivalentemente:
Error en clasificacin (para 2 grupos):

Elaborado por Gino Sedano Zevallos


Anlisis Discriminante
Regla de mxima verosimilitud para dos
poblaciones con distribucin normal con una
sola variable independiente:
Tenemos:

Si xR1 se clasifica x en 1

Si xR2 se clasifica x en 2

Elaborado por Gino Sedano Zevallos


Anlisis Discriminante
Reemplazando L1(x)=f1(x) y L2(x)=f2(x) tenemos:

Si 1= 2 tenemos:

para 1< 2

Elaborado por Gino Sedano Zevallos


Anlisis Discriminante
Ejemplo para 2 poblaciones con distribuciones normales con una
sola variable independiente y con 1 2:
Analisis discriminante con la regla de maxima verosimilitud
1

0.9

0.8

0.7

0.6
Densidad

0.5

0.4 R1 R2 R1

0.3

0.2

0.1

0
-6 -4 -2 0 2 4 6

Elaborado por Gino Sedano Zevallos


Anlisis Discriminante
Regla de mxima verosimilitud con mltiples
poblaciones con distribucin normal de
mltiples variables independientes:
Tenemos: . Se asume las matrices covarianza
iguales para todas las poblaciones.
Se clasifica x en j cuando es tal que i=j y
donde la distancia cuadrada de Mahalanobis entre x y ui es
mnima:
Cuando J=2:
donde: y

Elaborado por Gino Sedano Zevallos


Anlisis Discriminante
Probabilidad de error en la clasificacin para la regla de mxima
verosimilitud con matrices covarianza iguales y dos poblaciones:
Tenemos:
Para probabilidad de error al clasificar en 1 cuando en realidad
perteneca a 2:
p12 = P(xR1| 2) = P {T(x-)>0 | 2}
y
donde
es la distancia cuadrada de Mahalanobis entre dos poblaciones.
En este caso ambas probabilidades son iguales:
=

Elaborado por Gino Sedano Zevallos


Anlisis Discriminante
Definicin de poblaciones a partir de muestras con
matriz covarianza comn:
Se modifican las notaciones: por j y Sj por j
La covarianza comn de las poblaciones se estima con:

Se estima la distancia de Mahalonobis entre x y la


poblacin i para covarianzas comunes con:

Elaborado por Gino Sedano Zevallos


Anlisis Discriminante
Prueba de hiptesis de la significancia del AD para
2 poblaciones a partir de 2 muestras y un nmero
p de variables independientes:
Se emplea el siguiente estadstico:

n1 y n2 son el tamao de las dos muestras.


p es el nmero de variables independientes.
2 es la distancia cuadrada de Mahalanobis entre dos poblaciones.

Si el valor crtico F(p,n1+n2-p-1) < Z entonces se rechaza la


hiptesis de que 1 = 2 a una significancia de .

Elaborado por Gino Sedano Zevallos


Anlisis Discriminante
En una tabla F identificamos el valor
correspondiente a la siguiente grfica:

Si = 1% y F < Z esto significara que a un 99% de


confianza 1 2 y las p variables independientes
tienen aceptable significancia para un AD.
Elaborado por Gino Sedano Zevallos
Anlisis Discriminante
Estimacin de probabilidad de error en
clasificacin a partir de muestras:
Se estima la distancia cuadrada de Mahalonobis
entre dos poblaciones :
= estimado de 2

Mtodo de re-sustitucin:
donde nij es el nmero de errores con la poblacin i
dado que x pertenece a la poblacin j y nj es el
nmero de datos en la poblacin j.
Elaborado por Gino Sedano Zevallos
Anlisis Discriminante

Elaborado por Gino Sedano Zevallos


Anlisis Discriminante
Proyeccin de los datos sobre la direccin unitaria y definicin del
score y regla discriminante de dos poblaciones

Grupo 1
Grupo 2

Elaborado por Gino Sedano Zevallos


Casos aplicados

Elaborado por Gino Sedano Zevallos

You might also like