Professional Documents
Culture Documents
CIMPA-UCR
Anlisis en Componentes
Principales
ACP
Anlisis en Componentes Principales
ACP: Ilustracin
CIMPA-UCR
Plano principal:
Anlisis en Componentes Principales
CIMPA-UCR
ACP: Los Datos
p variables cuantitativas
n individuos X n p X = xij( ) n p
j
Columna j representa a la variable j-sima: x j
n
j
(
x = x1j , x2j ,..., x n ) =x
j T
i
j
fi
i =1
CIMPA-UCR
ACP: Objetivos
1. Buscar la recta de mejor ajuste de la nube
H
Criterio:
mxima informacin
Varianza mxima
Inercia proyectada mxima
Error mnimo
Anlisis en Componentes Principales
FILAS
n puntos en RP
i
RP
i
p
DISTANCIA: d (i, i) = xij xi j
2
( )2
j =1
COLUMNAS
j j
p puntos en Rn
Rn
n
DISTANCIA: d
2
( j, j) = (xi j
xi j
)
2
i =1
Anlisis en Componentes Principales
i =1
x3
x2
g
x1 xn
Anlisis en Componentes Principales
CIMPA-UCR
Inercia
Proximidad de la nube N a un punto a: I a = xi a
2
i
2
Teorema de Huyghens: I a = I g + a
Mnimo de la Ia cuando a =g Sea M = I
Si M es identidad: Ig =traza V
2
2 2
I g = xi
2
= x i
j
fj = xi f j j
= xi ( ) j 2
fj
i i j i j i j
= xi ( ) = (x ) = var(x ) = trazaV
j 2
i
j 2 j
i j j i j
Ig = IH + IH
Anlisis en Componentes Principales
Inercia proyectada
CIMPA-UCR
Inercia proyectada:
~ n
( ) d
I N = 1
n
2
(~xi ,0)
i =1
Dispersin multidimensional
Anlisis en Componentes Principales
Inercia proyectada
CIMPA-UCR
H
i
xi
xi = i + i i i
Sumando:
pi xi = pi i + pi i
2 2 2
i i
I g (N ) = IH (N ) + IH (N )
Proximidad entre N y el subespacio H:
n
I H ( N ) = pi xi i = pi i
2 2
i =1 i
Anlisis en Componentes Principales
CIMPA-UCR
Teorema de inclusin
Sea Ek 1 ptimo dim(Ek 1 ) = k 1
Ek 1 Ek con Ek : ptimo, dim(Ek ) = k
Sea Fk E , dim(Fk ) = k
Sea H = Fk + Ek1
Fk I Ek1 {0} pues dim(F ) = k
k
( )
dim Ek1 = p (k 1) = p k + 1
0, Fk I Ek1. Sea : eje gen.
Sea G: suplementario M-ortogonal de : en Fk:
Fk = G
Anlisis en Componentes Principales
Entonces:
I Fk (N ) = I G (N ) + I (N )
I Ek ( N ) = I Ek 1 ( N ) + I ( N )
mn
I Ek 1 (N ) I G (N ) I Ek (N ) I Fk ( N )
Por construccin, Ek 1 E k
Anlisis en Componentes Principales
I Fk ( N ) se minimiza si I es mnima ( )
N
Procedimiento:
1. Buscar eje E1 = 1 / I 1 ( N ) sea mnima
2. Buscar eje 2 , 2 M 1 / I 2 ( N ) sea mnima
I u = u t MVMu u1 M = 1
Sea i proyeccin de xi sobre u: ri = ci ur c = xr , ur = xT Mu
i i i
r 2 r2
u
= i i M = i i M = i i2 = T T = T
Anlisis en Componentes Principales
CIMPA-UCR
ACP: Primer Eje
Recta u Vector u, u = 1 :
Iu sea mnima
Iu sea mxima
2
PROBLEMA: Max{F (u ) = u MVMu} RESTRICCIN:
T
u =1
,
SOLUCIN: L u = u T MVMu u T Mu ( 1)
POR MULTIPLICADORES DE LAGRANGE:
L
= 2VMu 2u = 0 VMu = u
u
u es vector propio de VM
Anlisis en Componentes Principales
F (u ) = u T MVMu = u T M (u ) = u T Mu = 1 =
F es mximo si es mximo
PRIMER EJE: u1
CIMPA-UCR
ACP: Segundo Eje
Recta u Vector u, u = 1, u1 u , Max { }
I
u
PROBLEMA: RESTRICCIONES:
2
Max{F (u ) = u T MVMu} u = 1, u u1
SOLUCIN:
(
L(u , , ) = u T MVMu u T Mu 1 u T Mu1) ( )
POR MULTIPLICADORES DE LAGRANGE:
L
= 2VMu 2Mu Mu1 = 0
u
T T T T
2u1 VMu 2 u1 Mu u1 Mu1 0 2u1 VMu 0 0
=0
Anlisis en Componentes Principales
u1
EJES PRINCIPALES u , u ,..., u
1 2 k
1 2 ... k
Vectores propios de VM, asociados a los primeros k
valores propios de VM.
Anlisis en Componentes Principales
ACP Normado
CIMPA-UCR
Para eliminar el efecto de escala en las variables:
P. ej: PESO Gramos, Onzas, Kilogramos, etc.
j
j
j
xi x j: desv. Estndar de variable xj
xi
j
Matriz a diagonalizar: R = D VD
1 1
= 2(1 corr (x , x )) j k
Anlisis en Componentes Principales
CIMPA-UCR
ACP: notas escolares
MATE CIEN. ESPA HIS. GIM
LUCIA 7.0 6.5 9.2 8.6 8.0
PEDRO 7.5 9.4 7.3 7.0 7.0
INES 7.6 9.2 8.0 8.0 7.5
LUIS 5.0 6.5 6.5 7.0 9.0
ANDRES 6.0 6.0 7.8 8.9 7.3
ANA 7.8 9.6 7.7 8.0 6.5
CARLOS 6.3 6.4 8.2 9.0 7.2
JOSE 7.9 9.7 7.5 8.0 6.0
SONIA 6.0 6.0 6.5 5.5 8.7
MARA 6.8 7.2 8.7 9.0 7.0
CIMPA-UCR Correlaciones
MATE CIEN ESPA HISTO GIM
MATE 1 0.85 0.38 0.21 -0.79
CIEN 0.85 1 -0.02 -0.02 -0.69
ESPA 0.38 -0.02 1 0.82 -0.37
HISTO 0.21 -0.02 0.82 1 -0.51
GIM -0.79 -069 -0.37 -0.51 1
Notas escolares
3.5
3.0 57.86%
2.5
2.0
32.57%
1.5
Valor propios
1.0
0.5 6.93%
2.45%
.18%
0.0
-0.5
0.0 0.5 1.0 1.5 2.0 2.5 3.0 3.5 4.0 4.5 5.0 5.5 6.0
Numero del valor propio
Anlisis en Componentes Principales
Correlaciones Principales
CIMPA-UCR
Crculo de Correlaciones
CIMPA-UCR
1.0
Ciencias
0.5
Matematica
Factor 2 : 32.57%
0.0
Ed.Fisica
-0.5
Espanol
Historia
-1.0
Plano Principal
CIMPA-UCR
2.0
Pedro
1.5 Jose Sonia
Ana
1.0
Ines
0.5 Luis
Factor 2: 32.57%
0.0
-0.5
-1.0
Andres
Maria Carlos
-1.5
Lucia
-2.0
-2.5
-3.0
-4 -3 -2 -1 0 1 2 3 4 5
Active
Factor 1: 57.86%
Anlisis en Componentes Principales
CIMPA-UCR
Matriz de correlaciones
MATE FISC FRAN LATN
FRAN 1 0.951
LATN 1
Anlisis en Componentes Principales
Calidad de la representacin
CIMPA-UCR
CIMPA-UCR
ACP: Solucin
Diagonalizar la matriz de varianzas-covarianzas VM
valor propio de VM r r
: VMv = v
r vector propio de VM
v
Caso estandarizado: diagonalizar R (matriz de correlaciones)
i > 0
P vectores propios: ortogonales de norma 1 u1 ,..., u p ( )
Componentes Principales j
C = XM u j
Propiedades:
( ) j
var C = j
(ortogonales)
rj
C = 0
( j
C ,C = 0
k
)
Anlisis en Componentes Principales
Tx = x
El signo es arbitrario
x
Vx = x
V ( x ) = Vx = (x ) = ( x )
Anlisis en Componentes Principales
Diagonalizar la matriz de
correlaciones
CIMPA-UCR
(
R = (rjk )p p , rjk = x j , x k )
Existen 1 , 2 , 3 ,..., p 0 y existen vectores u1 , u 2 ,..., u p R
tales que: Ru j = j u j
R
uj Ru j = j u j
Au j
Signo: ( )
R u j = Ru j = j u j = j u j ( )
Anlisis en Componentes Principales
~
x cos 2 = 2
~ x
x1
Por T. Pitgoras: x = ~
x1 + ~ = ~
x1 + ~
2 2 2 2
x2 x2
~
x1 + ~
2
x2
2 ~
x1
2 ~
x2
2
cos 2 = 2
= 2
+ 2
x x x
= cos 2 1 + cos 2 2
Anlisis en Componentes Principales
2 (x j , C k ) 0.5
Anlisis en Componentes Principales
2
Valores Propios
% in.
VAP % Inercia % Acumulado
1 1 40% 40%
% in
2 2 0 % 60%
3 15% 75%
Anlisis en Componentes Principales
1 2 3 4 5 6 7
3. Interpretabilidad:
Variables: c , x 0.7
k j
Individuos: cos ( xi , xi ) 0.5
2
Anlisis en Componentes Principales
Tomar solo c tq k 1 k = var c
k k
Variables suplementarias
Variable cuantitativa
CIMPA-UCR
Z: centrada
Anlisis Z
Variable cualitativa
Variable Nominal
con m modalidades
Anlisis m
Anlisis en Componentes Principales
Interpretacin de resultados
CIMPA-UCR
Interpretacin de resultados
CIMPA-UCR
CIMPA-UCR
Datos de prediagnstico
1. Calinda 220 x 3
2. Las Juntas 240 x 3
3. Cartagena 235 x 3
4. San Pablo 240 x 3
5. El Esfuerzo 240 x 3
6. Palo Verde 239 x 3
Anlisis en Componentes Principales
Variables
CIMPA-UCR
Individuos
CIMPA-UCR
Correlaciones
CIMPA-UCR
Medio
Bueno Pobre
Anlisis en Componentes Principales
Bueno Pobre
Anlisis en Componentes Principales
Bueno Pobre
Anlisis en Componentes Principales
Bueno Pobre
Anlisis en C o m p o n e n t e s Principales
Bueno Pobre
Medio
Anlisis en Componentes Principales
Pobre
B u e n o
Anlisis en Componentes Principales
medio
CIMPA-UCR
C a r t a g e n a : A C P s i n
Anlisis en Componentes Principales
Pobre
Bueno
Anlisis en Componentes Principales
Pobre
Bueno
Anlisis en Componentes Principales
Pobre
Bueno
Anlisis en Componentes Principales
CIMPA-UCR
Anlisis de los horizontes
4o horizonte
1er horizonte
3er horizonte
2o horizonte
Anlisis en Componentes Principales
Crculo de correlaciones
CIMPA-UCR
Profundidad
Superficie