Professional Documents
Culture Documents
principales
Christine Decaestecker & Marco Saerens
ULB & UCL
LINF 2275
LINF 2275
,
ci1 = coordonne du point i sur laxe C1
x
, i2
C1
i = (x i1
projection de xi sur C1
p
ci1
ci1 = a1 j xij
j =1
2
1
p1
f2
f1
C1
Dcomposition de la variance
La variance se dcompose de la manire suivante
LINF 2275
Avec
LINF 2275
LINF 2275
LINF 2275
LINF 2275
10
LINF 2275
11
LINF 2275
12
Matrice variance-covariance
Notons que si X est la matrice de donnes
Qui contient les vecteurs (xi g)T en ligne
La matrice = (n 1)1 XTX
LINF 2275
13
LINF 2275
14
LINF 2275
15
LINF 2275
16
LINF 2275
17
18
Rsultats:
LACP remplace les p variables de dpart (variances , corrlation inter-variable)
en q nouvelles composantes (q p) Ck
orthogonales 2 2 c--d cov(Ck , Ck) = 0 (pour tout k k ), et
de variances maximales
LINF 2275
19
V (C )
k
k =1
Inertie totale
20
.
.
Projection
.
.
C2
21
Remarques :
Si certaines variables initiales sont trs disperses (j2), elles vont prendre le
pas sur les autres.
=> les composantes principales tenteront essentiellement dexpliquer la variance due
ces variables !
=> on peut travailler en donnes rduites (variables normalises par sj)
=> toutes les variables auront la mme importance (il se peut quon perde de linformation)
> donnes centres-rduites
=> matrice variance-covariance = R et lACP explique la structure de R !
LINF 2275
22
C2
.
.
.
. .
.
. .
. ...
. .
C1
!
=> la reprsentation nest valable que si le % de variance explique par C1 et C2 est
suffisamment grand ! (nuage assez aplati sur le plan)
=> vrifier si les proximits se maintiennent dans dautres plans de projection:
C1 - C3 , C2 - C3 ,
les individus les mieux reprsents: points proches du plan (projection peu importante).
LINF 2275
23
X1
C1
r11
C2
r12
X2
M
Xp
r21
M
rp1
r22
M
rp 2
C3
r13
23
M
rp 3
K
K
K
K
K
.X1
.X5
.X8
LINF 2275
.X6
.X7
C1
24
.t 1
pour 3 groupes
LINF 2275
t1 , t2 , t3
ide de ce qui est distinguable (t1 des autres) ou non (t2, t3)!
25