You are on page 1of 68

Anlisis en Componentes Principales

CIMPA-UCR

Anlisis en Componentes
Principales
ACP
Anlisis en Componentes Principales

CIMPA-UCR ACP: resumen


Situacin: se tiene una tabla de datos cuantitativos
Objetivo:
obtener una representacin en pocas dimensiones de los
objetos, perdiendo el mnimo de informacin
obtener (pocas) variables sintticas, basadas en las variables
originales y no correlacionadas entre ellas
son objetivos equivalentes

Solucin matemtica: calcular los valores y vectores propios de


la matriz de correlaciones
Variables sintticas componentes principales
Anlisis en Componentes Principales

ACP: Ilustracin
CIMPA-UCR

Plano principal:
Anlisis en Componentes Principales

CIMPA-UCR
ACP: Los Datos
p variables cuantitativas

n individuos X n p X = xij( ) n p

Fila i representa al individuo i-simo: xi


i p
(
x i = xi1 , xi2 ,..., x i ) =x e
p T
i
j
j
j =1
Anlisis en Componentes Principales

ACP: Los Datos


CIMPA-UCR

j
Columna j representa a la variable j-sima: x j
n
j
(
x = x1j , x2j ,..., x n ) =x
j T
i
j
fi
i =1

Las variables son cuantitativas.


Anlisis en Componentes Principales

CIMPA-UCR
ACP: Objetivos
1. Buscar la recta de mejor ajuste de la nube
H

2. Buscar el plano de mejor ajuste en la nube

4. Buscar el espacio de mejor ajuste de la nube


ETC.
Anlisis en Componentes Principales

CIMPA-UCR Ajuste en ACP


MEJOR AJUSTE: que se respeten lo mejor posible las distancias
entre los individuos.
1
( )
Max d H i, i Max d H i, 0
2 2
( )
(H )
i i (H )
i

TEOREMA: El plano de mejor ajuste contiene a la recta de


mejor ajuste.
El espacio de mejor ajuste contiene al plano de
mejor ajuste.
Anlisis en Componentes Principales

CIMPA-UCR ACP: Objetivo dual


1 2 q
Encontrar q variables sintticas c , c ,..., c :
j
combinacin lineal de las x
k k

no correlacionadas entre s: c , c = 0

que contengan el mximo de informacin:
varianza mximo: MaxVar c
k


Criterio:
mxima informacin
Varianza mxima
Inercia proyectada mxima
Error mnimo
Anlisis en Componentes Principales

ACP: Principios Geomtricos


CIMPA-UCR

FILAS
n puntos en RP
i
RP
i
p
DISTANCIA: d (i, i) = xij xi j
2
( )2

j =1

COLUMNAS
j j
p puntos en Rn

Rn
n
DISTANCIA: d
2
( j, j) = (xi j
xi j
)
2

i =1
Anlisis en Componentes Principales

Inercia: concepto intuitivo


CIMPA-UCR

Nube de puntos: x1 , x 2 ,..., x n R p


p variables centradas: x = 0
j
( g = 0)
( )
n
I (N ) = 1
n xi , 0 Dispersin de la nube
d 2

i =1
x3

x2

g
x1 xn
Anlisis en Componentes Principales

CIMPA-UCR
Inercia
Proximidad de la nube N a un punto a: I a = xi a
2

i
2
Teorema de Huyghens: I a = I g + a
Mnimo de la Ia cuando a =g Sea M = I

Si M es identidad: Ig =traza V
2
2 2
I g = xi
2
= x i
j
fj = xi f j j
= xi ( ) j 2
fj
i i j i j i j

= xi ( ) = (x ) = var(x ) = trazaV
j 2
i
j 2 j

i j j i j

Ig = IH + IH
Anlisis en Componentes Principales

Inercia proyectada
CIMPA-UCR

Inercia proyectada:

~ n
( ) d
I N = 1
n
2
(~xi ,0)
i =1

Dispersin multidimensional
Anlisis en Componentes Principales

Inercia proyectada
CIMPA-UCR
H
i
xi
xi = i + i i i

Por Teorema de Pitgoras


i 2 2 2 2
H
xi = i + i = i + i

Sumando:
pi xi = pi i + pi i
2 2 2

i i

I g (N ) = IH (N ) + IH (N )
Proximidad entre N y el subespacio H:
n
I H ( N ) = pi xi i = pi i
2 2

i =1 i
Anlisis en Componentes Principales

CIMPA-UCR
Teorema de inclusin
Sea Ek 1 ptimo dim(Ek 1 ) = k 1
Ek 1 Ek con Ek : ptimo, dim(Ek ) = k

Sea Fk E , dim(Fk ) = k
Sea H = Fk + Ek1
Fk I Ek1 {0} pues dim(F ) = k
k

( )
dim Ek1 = p (k 1) = p k + 1
0, Fk I Ek1. Sea : eje gen.
Sea G: suplementario M-ortogonal de : en Fk:
Fk = G
Anlisis en Componentes Principales

CIMPA-UCR Teorema de inclusin


Sea Ek = Ek 1

Entonces:
I Fk (N ) = I G (N ) + I (N )
I Ek ( N ) = I Ek 1 ( N ) + I ( N )

mn
I Ek 1 (N ) I G (N ) I Ek (N ) I Fk ( N )

Por construccin, Ek 1 E k
Anlisis en Componentes Principales

CIMPA-UCR Clculo de los ejes principales


Sea Ek-1 ptimo de dimensin k-1
Para cualquier Fk de dim k que contiene a Ek-1:
/ Fk = Ek 1 con M Ek 1
I Fk ( N ) = I Ek 1 ( N ) + I ( N )

I Fk ( N ) se minimiza si I es mnima ( )
N
Procedimiento:
1. Buscar eje E1 = 1 / I 1 ( N ) sea mnima
2. Buscar eje 2 , 2 M 1 / I 2 ( N ) sea mnima

k. Buscar eje k , k M Ek 1 / I k ( N ) sea mnima


Anlisis en Componentes Principales

CIMPA-UCR Tctica del ACP


1. Buscar la recta u1 : I u1 sea mnima, u1 = 1
2. Buscar la recta u2 : I u 2 sea mnima, u 2 = 1, u1 u 2
3. Buscar la recta u3 : I u 3 sea mnima, u3 = 1, u3 u1 , u3 u 2
ETC.
I g = I u + I u
I u es Mnimo I es Mximo
u

I u = u t MVMu u1 M = 1
Sea i proyeccin de xi sobre u: ri = ci ur c = xr , ur = xT Mu
i i i
r 2 r2

u
= i i M = i i M = i i2 = T T = T
Anlisis en Componentes Principales

CIMPA-UCR
ACP: Primer Eje
Recta u Vector u, u = 1 :
Iu sea mnima
Iu sea mxima
2
PROBLEMA: Max{F (u ) = u MVMu} RESTRICCIN:
T
u =1
,
SOLUCIN: L u = u T MVMu u T Mu ( 1)
POR MULTIPLICADORES DE LAGRANGE:
L
= 2VMu 2u = 0 VMu = u
u
u es vector propio de VM
Anlisis en Componentes Principales

ACP: Primer Eje


CIMPA-UCR

F (u ) = u T MVMu = u T M (u ) = u T Mu = 1 =
F es mximo si es mximo

PRIMER EJE: u1

Con u1 unitario, vector propio asociado a 1 el mayor valor


propio de la matriz VM
Anlisis en Componentes Principales

CIMPA-UCR
ACP: Segundo Eje
Recta u Vector u, u = 1, u1 u , Max { }
I
u

PROBLEMA: RESTRICCIONES:
2
Max{F (u ) = u T MVMu} u = 1, u u1
SOLUCIN:
(
L(u , , ) = u T MVMu u T Mu 1 u T Mu1) ( )
POR MULTIPLICADORES DE LAGRANGE:
L
= 2VMu 2Mu Mu1 = 0
u
T T T T
2u1 VMu 2 u1 Mu u1 Mu1 0 2u1 VMu 0 0
=0
Anlisis en Componentes Principales

ACP: Segundo Eje


CIMPA-UCR

2VMu 2Mu = 0 VMu = Mu


es vector propio de V y F(u) =
u est asociado a 2, el segundo valor propio de VM

PLANO PRINCIPAL: Generado a u1 y u2, vect. Propios


de V asociados a 1 y 2 los dos primeros valores propis de V
u2

u1
EJES PRINCIPALES u , u ,..., u
1 2 k

1 2 ... k
Vectores propios de VM, asociados a los primeros k
valores propios de VM.
Anlisis en Componentes Principales

ACP Normado
CIMPA-UCR
Para eliminar el efecto de escala en las variables:
P. ej: PESO Gramos, Onzas, Kilogramos, etc.
j
j
j
xi x j: desv. Estndar de variable xj
xi
j
Matriz a diagonalizar: R = D VD
1 1

Ejes Principales: Vectores propios de R


( )
var x j = 1, j
d (x , x ) = var(x ) + var(x ) 2corr (x , x )
2 j k j k j k

= 2(1 corr (x , x )) j k
Anlisis en Componentes Principales

CIMPA-UCR
ACP: notas escolares
MATE CIEN. ESPA HIS. GIM
LUCIA 7.0 6.5 9.2 8.6 8.0
PEDRO 7.5 9.4 7.3 7.0 7.0
INES 7.6 9.2 8.0 8.0 7.5
LUIS 5.0 6.5 6.5 7.0 9.0
ANDRES 6.0 6.0 7.8 8.9 7.3
ANA 7.8 9.6 7.7 8.0 6.5
CARLOS 6.3 6.4 8.2 9.0 7.2
JOSE 7.9 9.7 7.5 8.0 6.0
SONIA 6.0 6.0 6.5 5.5 8.7
MARA 6.8 7.2 8.7 9.0 7.0

PROM 6.79 7.65 7.74 7.9 7.42


Anlisis en Componentes Principales

CIMPA-UCR Correlaciones
MATE CIEN ESPA HISTO GIM
MATE 1 0.85 0.38 0.21 -0.79
CIEN 0.85 1 -0.02 -0.02 -0.69
ESPA 0.38 -0.02 1 0.82 -0.37
HISTO 0.21 -0.02 0.82 1 -0.51
GIM -0.79 -069 -0.37 -0.51 1

Cmo resumir esta informacin?


Cmo proyectar en pocas dimensiones?
Cmo obtener variables sintticas?
Anlisis en Componentes Principales

CIMPA-UCR Valores propios


VALORES PROPIO VARIANZA ACUMULADA

1 2.89 57.9% 57.9%

2 1.63 32.6% 90.4%

3 0.35 6.9% 97.4%

4 0.12 2.4% 99.8%

5 0.01 0.2% 100.0%


Anlisis en Componentes Principales

Grafico de valores propios


CIMPA-UCR

Notas escolares
3.5

3.0 57.86%

2.5

2.0
32.57%
1.5

Valor propios
1.0

0.5 6.93%
2.45%
.18%
0.0

-0.5
0.0 0.5 1.0 1.5 2.0 2.5 3.0 3.5 4.0 4.5 5.0 5.5 6.0
Numero del valor propio
Anlisis en Componentes Principales

Correlaciones Principales
CIMPA-UCR

MATEM CIEN ESPA HISTO GIM

COMP.1 -0.90 -0.72 -0.61 -0.60 0.91

COMP.2 0.35 0.65 -0.72 -0.75 -0.2


A n lisis en C o m p o n e n t e s P r i n c i p a l e s

Crculo de Correlaciones
CIMPA-UCR

Notas Escolares: Circulo de Correlaciones

1.0

Ciencias

0.5
Matematica
Factor 2 : 32.57%

0.0
Ed.Fisica

-0.5

Espanol
Historia

-1.0

-1.0 -0.5 0.0 0.5 1.0


Active
Factor 1 : 57.86%
Anlisis en Componentes Principales

Plano Principal
CIMPA-UCR

Notas escolares: Plano principal 1-2


2.5

2.0
Pedro
1.5 Jose Sonia
Ana
1.0
Ines
0.5 Luis
Factor 2: 32.57%

0.0

-0.5

-1.0
Andres
Maria Carlos
-1.5
Lucia

-2.0

-2.5

-3.0
-4 -3 -2 -1 0 1 2 3 4 5
Active
Factor 1: 57.86%
Anlisis en Componentes Principales

Tabla de notas francesas


CIMPA-UCR

MATE FISC. FRAN LATN


JEAN 6 6 5 5.5
ALAIN 8 8 8 8
ANNE 6 7 11 9.5
DIDIER 14 14 12 12.5
ANDRE 11 10 5.5 7
MONIQUE 14.5 14.5 15.5 15
PIERRE 5.5 7 14 11.5
BRIGITTE 13 12.5 8.5 9.5
EVELYNE 9 9.5 12.5 12
Anlisis en Componentes Principales

CIMPA-UCR
Matriz de correlaciones
MATE FISC FRAN LATN

MATE 1 0.983 0.227 0.508

FISC 1 0.397 0.652

FRAN 1 0.951

LATN 1
Anlisis en Componentes Principales

CIMPA-UCR Valores propios


NMERO VALOR % %
PROPIO TRAZA ACUMULADO
1 2.88 71.892 71.892

2 1.12 27.992 99.884

3 0.00 0.089 99.974

4 0.00 0.026 100.000


Anlisis en Componentes Principales

Calidad de la representacin
CIMPA-UCR

EJE 1 EJE 2 EJE 3 COS 1 COS 2 COS 3 CALID. 3


JEAN 2.74 -0.43 0.02 97.616 2.370 0.007 99.993

ALAIN 1.24 -0.15 0.00 98.474 1.493 0.001 99.968

ANNE 1.03 1.05 -0.06 49.039 50.804 0.157 99.999

DIDIER -2.05 -0.63 -0.02 91.353 8.556 0.013 99.922

ANDRE 0.97 -1.50 0.03 29.573 70.348 0.021 99.943

MONIQUE -3.14 0.19 0.01 99.627 0.349 0.001 99.977

PIERRE 0.33 1.94 -0.06 2.896 97.023 0.079 99.998

BRIGITTE -0.62 -1.29 -0.07 18.711 81.068 0.213 99.993

EVELYNE -0.51 0.82 0.14 27.140 70.782 2.022 99.944


Anlisis en Componentes Principales

CIMPA-UCR
ACP: Solucin
Diagonalizar la matriz de varianzas-covarianzas VM
valor propio de VM r r
: VMv = v
r vector propio de VM
v
Caso estandarizado: diagonalizar R (matriz de correlaciones)
i > 0
P vectores propios: ortogonales de norma 1 u1 ,..., u p ( )
Componentes Principales j
C = XM u j
Propiedades:
( ) j
var C = j
(ortogonales)
rj
C = 0
( j
C ,C = 0
k
)
Anlisis en Componentes Principales

Signo del valor propio


CIMPA-UCR

Tx = x
El signo es arbitrario
x

Vx = x

V ( x ) = Vx = (x ) = ( x )
Anlisis en Componentes Principales

Diagonalizar la matriz de
correlaciones
CIMPA-UCR

(
R = (rjk )p p , rjk = x j , x k )
Existen 1 , 2 , 3 ,..., p 0 y existen vectores u1 , u 2 ,..., u p R
tales que: Ru j = j u j
R
uj Ru j = j u j

Au j

Signo: ( )
R u j = Ru j = j u j = j u j ( )
Anlisis en Componentes Principales

CIMPA-UCR Consecuencia del Teorema de


Pitgoras
~
x2 x
~
x
2

~
x cos 2 = 2
~ x
x1

Por T. Pitgoras: x = ~
x1 + ~ = ~
x1 + ~
2 2 2 2
x2 x2
~
x1 + ~
2
x2
2 ~
x1
2 ~
x2
2

cos 2 = 2
= 2
+ 2
x x x

= cos 2 1 + cos 2 2
Anlisis en Componentes Principales

Representacin de los individuos


CIMPA-UCR

Reconstruir las posiciones originales de los individuos en el


plano principal: u1 u2
Se proyecta xi en u1 y en u2
En u1 : i = ci u i , ci = X iT Mu
En u2 : i = d i u 2 , d i = X iT Mu2 u2
~
i i x ~
xi :proyeccin de x i
i ~ 2
xi
cos 2 = M
Calidad de la Representacin: xi
2
M
Anlisis en Componentes Principales

Representacin de las variables


CIMPA-UCR

Examinar las correlaciones


principales

2 (x j , C k ) 0.5
Anlisis en Componentes Principales

CIMPA-UCR Calidad de la representacin


Sea u i un eje principal: I uk = k
I u = ukT MVMuk = ukT M (k uk ) = k ukT Muk = k
k
( )
k es la inercia explicada por el eje uk
Inercia total: I ( N ) = traza (VM ) = 1 + 2 + ... + p
1 % de Inercia explicada por el eje
1 + ... + p principal

1 + 2 % de Inercia explicada por el plano


1 + ... + p principal
Anlisis en Componentes Principales

CIMPA-UCR Calidad de la representacin


1 + ... + k % de Inercia explicada por los k
1 + ... + p primeros ejes principales

2
Valores Propios
% in.
VAP % Inercia % Acumulado

1 1 40% 40%
% in
2 2 0 % 60%

3 15% 75%
Anlisis en Componentes Principales

CIMPA-UCR Nmero de ejes


1. Inercia explicada mnima:
2 k
1
c , c ,..., c tq 1 + 2 + ... + q mn% I (N )

2. Criterio del codo:

1 2 3 4 5 6 7

3. Interpretabilidad:
Variables: c , x 0.7
k j
Individuos: cos ( xi , xi ) 0.5
2

Anlisis en Componentes Principales

Nmero de ejes (cont.)


CIMPA-UCR

4. Si M = D1 variables estandarizadas var x = 1


j


Tomar solo c tq k 1 k = var c

k k

5. Informacin independiente: nmero equivalente


Anlisis en Componentes Principales

Variables suplementarias
Variable cuantitativa
CIMPA-UCR

Z: centrada

Anlisis Z
Variable cualitativa

Variable Nominal
con m modalidades

Anlisis m
Anlisis en Componentes Principales

Interpretacin de resultados
CIMPA-UCR

Interpretar es dar sentido


a) Situacin de un punto respecto al conjunto de filas y
columnas la tabla.
b) Elementos suplementarios: referencia.
c) Experiencia del analista

Inercia de los factores


valores propios
% inercia
# factores
Anlisis en Componentes Principales

Interpretacin de resultados
CIMPA-UCR

Interpretacin de los factores


contribucin de individuos
variables activas: *eje x, *planos
variables suplementarias: ampliar el contexto
coordenadas de los individuos: aspecto general, prototipos,
tipologas
individuos suplementarios
Casos particulares:
factor ~ elemento aberrante factor de escala
factor de oposicin efecto talla
factor ~ grupo
factor ~ participacin
Anlisis en Componentes Principales

CIMPA-UCR
Datos de prediagnstico

1. Calinda 220 x 3
2. Las Juntas 240 x 3
3. Cartagena 235 x 3
4. San Pablo 240 x 3
5. El Esfuerzo 240 x 3
6. Palo Verde 239 x 3
Anlisis en Componentes Principales

Variables
CIMPA-UCR

Circunferencia de la madre (cm)


CircMadr
Altura del Hijo (cm)
AltHijo
Nmero de manos
#Manos
Anlisis en Componentes Principales

Individuos
CIMPA-UCR

3 sitios por finca:


Bueno (B)
Medio (M)
Pobre (P)
20 casos para cada sitio
4 repeticiones c/u
Total: 240 casos (en teora) por finca
Anlisis en Componentes Principales

Correlaciones
CIMPA-UCR

CircMadre CircMadre AltHijo


AltHijo #Manos #Manos
Calinda 0.617 0.870 0.658
Cartagena 0.689 0.881 0.670
El Esfuerzo 0.734 0.816 0.617
Las Juntas 0.717 0.756 0.645
Palo Verde 0.682 0.685 0.597
San Pablo 0.730 0.851 0.731
Anlisis en Componentes Principales

Calinda: ACP completo


CIMPA-UCR

Medio
Bueno Pobre
Anlisis en Componentes Principales

Calinda: ACP completo


CIMPA-UCR

Bueno Pobre
Anlisis en Componentes Principales

Calinda: ACP sin sitio medio


CIMPA-UCR

Bueno Pobre
Anlisis en Componentes Principales

Calinda: ACP sin sitio medio


CIMPA-UCR
Anlisis en Componentes Principales

Las Juntas: ACP sin medio


CIMPA-UCR

Bueno Pobre
Anlisis en C o m p o n e n t e s Principales

Las Juntas: ACP sin medio


CIMPA-UCR
Anlisis en Componentes Principales

Cartagena: ACP completo


CIMPA-UCR

Bueno Pobre

Medio
Anlisis en Componentes Principales

Cartagena: ACP completo


C I M P A -UCR
Anlisis en Componentes Principales

Cartagena: ACP sin medio


CIMPA-UCR

Pobre
B u e n o
Anlisis en Componentes Principales

medio
CIMPA-UCR
C a r t a g e n a : A C P s i n
Anlisis en Componentes Principales

San Pablo: ACP sin medio


CIMPA-UCR

Pobre
Bueno
Anlisis en Componentes Principales

San Pablo: ACP sin medio


CIMPA-UCR
Anlisis en Componentes Principales

El Esfuerzo: ACP sin medio


CIMPA-UCR

Pobre
Bueno
Anlisis en Componentes Principales

El Esfuerzo: ACP sin medio


CIMPA-UCR
Anlisis en Componentes Principales

Palo Verde: ACP sin medio


CIMPA-UCR

Pobre

Bueno
Anlisis en Componentes Principales

Palo Verde: ACP sin medio


CIMPA-UCR
Anlisis en Componentes Principales

CIMPA-UCR
Anlisis de los horizontes

4o horizonte

1er horizonte
3er horizonte

2o horizonte
Anlisis en Componentes Principales

Crculo de correlaciones
CIMPA-UCR

Profundidad
Superficie

You might also like