You are on page 1of 25

Analyse en composantes

principales
Christine Decaestecker & Marco Saerens
ULB & UCL

LINF 2275

Stat. explor. multidim.

A.C.P.: Analyse en Composantes Principales


Analyse de la structure de la matrice variance-covariance
c--d de la variabilit, dispersion des donnes.
Except si lune des variables peut sexprimer comme une fonction dautres, on a
besoin des p variables pour prendre en compte toute la variabilit du systme

Objectif de lACP: dcrire laide de q < p composantes un maximum de


cette variabilit.
Ce qui permet :
- une rduction des donnes q nouveaux descripteurs
- une visualisation des donnes 2 ou 3 dimensions (si q = 2 ou 3)
- une interprtation des donnes : liaisons inter-variables
Etape intermdiaire souvent utilise avant dautres analyses !

LINF 2275

Stat. explor. multidim.

Recherche des composantes principales


Composantes : C1 , C2 ,, Ck ,, Cq
Ck = nouvelle variable = combinaison linaire des variables dorigine X1,, Xp:
Ck = a1k X1 + a2k X2 + ... + apk Xp
coefficients ajk dterminer
telle que les Ck soient: - 2 2 non corrles,
- de variance maximale,
- dimportance dcroissante.
C1 = 1re composante principale doit tre de variance maximale
Gomtriquement : C1 dtermine une nouvelle direction dans le nuage de points qui
suit laxe dallongement (tirement) maximal du nuage.
, x ip)

,
ci1 = coordonne du point i sur laxe C1
x
, i2
C1
i = (x i1
projection de xi sur C1
p

ci1

ci1 = a1 j xij
j =1

les projections ci1 sont les plus disperses possible.


C1 de variance maximale
Pour fixer la droite, on impose quelle passe par g (centre de gravit) !
(sinon lensemble des droites parallles conviennent)
LINF 2275

Stat. explor. multidim.

C1 = droite passant par le centre de gravit ralisant le meilleur ajustement possible du


nuage c--d : qui conserve au mieux la distance entre les points (aprs projection)
=> droite de projection assurant une distorsion minimale.
C2 = 2me composante, orthogonale C1 et de variance maximale.
Gomtriquement : C2 dtermine une droite perpendiculaire C1 (au point g), suivant un
axe (perpendiculaire au 1er) dallongement maximum.
=> C1 et C2 dterminent le plan principal : le meilleur plan de projection (de distorsion
p2
minimum).
C2

2
1

p1

f2

f1

C1

C1 est telle que la moyenne des d2 (i , i ) max.


C2 est C1 et telle que la moyenne des d2 (i , i ) max.
=> C1 et C2 dterminent le plan tel que d2 (fi , fi ) soit maximum.
=> C3 est la droite C1 et C2 (par g) telle que la variance des coord. soit maximum ...
LINF 2275

Stat. explor. multidim.

Dcomposition de la variance
La variance se dcompose de la manire suivante

LINF 2275

Stat. explor. multidim.

Projection sur une droite


Loprateur de projection orthogonale, , sur une droite de vecteur
directeur unitaire v scrit

Avec

La variance des observations projetes scrit alors

LINF 2275

Stat. explor. multidim.

Recherche de la projection de variance


maximale
Nous avons donc

LINF 2275

Stat. explor. multidim.

Recherche de la projection de variance


maximale (suite)
Et donc

Observons que la matrice est la matrice variance-covariance


Cette matrice est symtrique dfinie positive
LINF 2275

Stat. explor. multidim.

Recherche de la projection de variance


maximale (suite)
Nous devons donc maximiser cette variance des observations projetes

Il sagit dun problme doptimisation sous contrainte


Nous formons donc la fonction de Lagrange

Et nous calculons les conditions ncessaires doptimalit

LINF 2275

Stat. explor. multidim.

Recherche de la projection de variance


maximale (suite)
Nous obtenons ainsi lquation aux valeurs propres

Comme la matrice variance-covariance est symtrique dfinie positive,


les valeures propres sont relles positives
Les vecteurs propres peuvent tre choisis orthonorms

LINF 2275

Stat. explor. multidim.

10

Recherche de la projection de variance


maximale (suite)
La variance des observations projetes scrit alors

Et donc la solution est de projeter les donnes sur le vecteur propre


ayant la valeur propre la plus leve

LINF 2275

Stat. explor. multidim.

11

Recherche des projections de variance


maximale orthogonales au premier axe
Afin de trouver le second axe de variance maximale, nous recherchons

Avec v1 tant le premier vecteur propre valeur propre maximale


Comme les vecteurs propres de sont naturellement orthonorms, la
solution est de choisir le deuxime vecteur propre de ( deuxime
valeur propre maximale)

LINF 2275

Stat. explor. multidim.

12

Matrice variance-covariance
Notons que si X est la matrice de donnes
Qui contient les vecteurs (xi g)T en ligne
La matrice = (n 1)1 XTX

LINF 2275

Stat. explor. multidim.

13

Interprtation des valeurs propres


La somme des valeurs propres correspond la variance totale

Chaque valeur propre mesure la part de variance explique par laxe


factoriel correspondant

LINF 2275

Stat. explor. multidim.

14

Approche alternative de la PCA


Nous prsentons une approche alternative de la PCA
En utilisant cette fois-ci la notion de vecteur alatoire
Et donc en ne partant pas des donnes empiriques comme prcdemment

Soit x = [x1, x2,, xn] le vecteur alatoire des n variables alatoires


(caractristiques) mesures sur les individus
Nous dfinissons une nouvelle variable y qui est une combinaison
linaire des variables alatoires xi

Nous supposons que v est normalis

LINF 2275

Stat. explor. multidim.

15

Approche alternative de la PCA


Nous recherchons la projection du vecteur alatoire x qui maximise la
variance projete:

Calculons dabord la moyenne de y

LINF 2275

Stat. explor. multidim.

16

Approche alternative de la PCA


Et ensuite la variance:

Il faut donc calculer le maximum de cette variance par rapport v, ce


qui nous ramne au problme doptimisation suivant (le mme que
pour lapproche prcdente)

LINF 2275

Stat. explor. multidim.

17

Approche alternative de la PCA


Avec S tant la matrice variance-covariance (notons que tait la
matrice variance-covariance empirique):

Et S peut tre estim partir de lchantillon par

Nous sommes donc amens, comme prcdemment, calculer les


valeurs/vecteurs propres de
LINF 2275

Stat. explor. multidim.

18

Rsultats:
LACP remplace les p variables de dpart (variances , corrlation inter-variable)
en q nouvelles composantes (q p) Ck
orthogonales 2 2 c--d cov(Ck , Ck) = 0 (pour tout k k ), et

de variances maximales

On peut noter que


V(C1) V(C2) V(Cq) dimportance dcroissante
le nombre maximum de composantes principales q p
avec q < p ds que lune des variables dorigine est une combinaison linaire
dautres!
mise en vidence de relations linaires dans les donnes
les donnes occupent, en ralit, un sous-espace de dimensions rduites (q < p )
Le nombre maximum de composantes principales = dimension intrinsque des donnes

LINF 2275

Stat. explor. multidim.

19

Choix des r premires composantes principales


r << p
rduction de la dimension
objectif : garder un maximum dinformation des donnes initiales.
Mesure de cette information : le % de variance explique
r

V (C )
k

k =1

Inertie totale

Si les variables originales sont fortement corrles entre elles, un nombre


rduit de composantes permet dexpliquer 80% 90% de variance !
Gomtriquement : revient projeter les donnes dans un sous-espace de
dimension r, centr sur g, reprenant les r premiers axes principaux
dallongement du nuage ! les projections cij sont les plus disperses possibles
!!
LINF 2275

Stat. explor. multidim.

20

Exemple : donnes initiales 3 dimensions distribues dans un ballon de rugby


C1

.
.

Projection
.
.
C2

proximit sur le plan C1 , C2


proximit dans lespace initial

Plus le nuage est aplati sur C1 , C2 moins de variance sur la 3i dimension.


% de variance explique par C1 , C2
En gnral :
- Le % de variance explique par C1 , C2 , , Cr = mesure daplatissement du nuage
sur le sous-espace des composantes ( r dim.). Plus ce % est grand, meilleure est la
reprsentation des donnes dans le sous-espace !
- Les composantes principales sont entirement dtermines par la matrice V variancecovariance (vecteurs propres).
=> toute modification de V
LINF 2275

modification des composantes !!


Stat. explor. multidim.

21

Remarques :
Si certaines variables initiales sont trs disperses (j2), elles vont prendre le
pas sur les autres.
=> les composantes principales tenteront essentiellement dexpliquer la variance due
ces variables !
=> on peut travailler en donnes rduites (variables normalises par sj)
=> toutes les variables auront la mme importance (il se peut quon perde de linformation)
> donnes centres-rduites
=> matrice variance-covariance = R et lACP explique la structure de R !

Autre possibilit : travailler sur les rangs


=> ACP non-paramtrique
=> plus robuste : - pour des donnes trs htrognes
- aux dissymtries des distributions
- aux valeurs extrmes ! (augmente anormalement la variance !)
=> permet dintgrer des variables qualitatives ordinales !

LINF 2275

Stat. explor. multidim.

22

Contributions des variables aux composantes


Composante = combinaison linaire des variables : Ck = a1k X1 + a2k X2 + . + apk Xp
coeff. ajk = contribution de la variable Xj la composante Ck

Interprtation des rsultats


1/ Reprsentation des individus dans le plan principal
=> peut faire apparatre des groupes dindividus
prsentant des similitudes.
proximits abusives dues aux projections

C2

.
.

.
. .

.
. .
. ...
. .

C1

!
=> la reprsentation nest valable que si le % de variance explique par C1 et C2 est
suffisamment grand ! (nuage assez aplati sur le plan)
=> vrifier si les proximits se maintiennent dans dautres plans de projection:
C1 - C3 , C2 - C3 ,
les individus les mieux reprsents: points proches du plan (projection peu importante).

LINF 2275

Stat. explor. multidim.

23

2/ Interprtation des composantes principales


corrlations avec les variables initiales

reprer les variables trs corrles


( r 1 ou r -1 )

X1

C1
r11

C2
r12

X2
M
Xp

r21
M
rp1

r22
M
rp 2

C3
r13
23

M
rp 3

K
K
K
K
K

Interprtation des 2 premires composantes C1 , C2 : cercle des corrlations :


C1 et C2 tant non-corrles, on a r2 ( c1, xj ) + r2 ( c2, xj ) 1
=> chaque variable reprsente par les coordonnes : (r ( c1 , xj ) , r ( c2 , xj )) est dans
un cercle de rayon 1
C2

.X1

.X5
.X8

LINF 2275

.X6
.X7

groupes de variables lies ou opposes


.X2
.X3
.X4

C1

! si proches de la circonfrence, bien


reprsentes par les 2 composantes !

Stat. explor. multidim.

24

3/ Projection de points supplmentaires sur le plan principal aprs le calcul


des composantes
- individus typiques de groupes dindividus : exemple
C2

.t 1

pour 3 groupes

.t2 permet de voir si les composantes C1 et C2 sont mme


.t 3
de les distinguer
C1

LINF 2275

t1 , t2 , t3

ide de ce qui est distinguable (t1 des autres) ou non (t2, t3)!

Stat. explor. multidim.

25

You might also like