L’ANALYSE EN COMPOSANTES PRINCIPALES
A.C.P.
Remarque: Les aspects mathématiques et les
démonstrations
seront développés en cours
Pierre-Louis Gonzalez
INTRODUCTION
Données : n individus observés sur p variables quantitatives. L’A.C.P. permet d’explorer les liaisons entre variables et les ressemblances entre individus.
Résultats : Visualisation des individus (Notion de distances entre individus) Visualisation des variables (en fonction de leurs corrélations)
2
IN TERPRÉTA TI ON DES RÉSULT AT S
Mesurer la qualité des représentations obtenues :
critère global
critères individuels
« Donner des noms aux axes »
Expliquer la position des individus
Utilisation éventuelle de variables supplémentaires
(illustratives)
3
I.
L’AN AL YSE EN COMPOSAN TES PRIN CIPALES LE PROBLÈME
1.
LES DONN ÉES
p variables quantitatives observées sur n individus. X 1
X (n,p)
n
X 2
X j
X p
x11
x j1
x1
x2
1
x2
j
x2
x2
1
x ji
xi
1
xn
j
xn
xn
p p
p
individu e'i
p
Variable X j p INDIVIDU = Élément de R p VARIABLE = Élément de R n
4
On cherche à représenter le nuage des individus.
A chaque individu noté e i, on peut associer un point dans R p = espace des individus.
X
x 3i
3
ei
x1i
X
1
x 2i
X
2
A chaque variable du tableau X est associé un axe de R p. Impossible à visualiser dès que p > 3.
5
2. PRINCI PE DE L’A .C.P.
On cherche une représentation des n individus e1 , e 2 . .. e n ,
dimension k
dans un sous-espace Fk de R p de (k petit 2 ; 3 ...) (par exemple un plan)
Autrement dit, on cherche à définir k nouvelles variables combinaisons linéaires des p variables initiales qui feront perdre le moins d’information possible. Ces variables seront appelées
« composantes principales »,
les axes qu’elles déterminent :
« axes principaux »
les formes linéaires associées :
« facteurs principaux »
6
Fk devra être « ajusté » le mieux possible au nuage
des e i : la somme des carrés des distances des e i à Fk doit être minimale.
Fk est le sous-espace tel que le nuage projeté
ait une inertie (dispersion) maximale.
et sont basés sur les notions de :
distance projection orthogonale
7
ei
ej
Δ2
βi
β j
f i
αi
f j
α j
Δ1
La distance entre f i et f j est inférieure à la distance entre ei et ej
8
3. LE CHOIX DE LA DISTANCE ENTRE INDIVI DUS
B
y B
Dans le plan :
A
y A
d 2 (A , B) = (x B
2
− x A ) + (y B − y A )
xB
x A
Dans l’espace R p à p dimensions, on généralise cette notion : la distance euclidienne entre deux individus s’écrit : ei
= ( x1i x 2i ...
x ip
)
ej
= (x1j x 2j ...
x pj
)
d
2
(e , e ) = ( x i
j
1 i
−x
p
d
2
(e , e ) = ∑ ( x i
!
j
k =1
k i
1 2 j
) + (x
2 i
−x
2 2 j
)
+
(
. .. x
p i
p 2 j
−x
)
k 2 j
−x
)
Le problème des unités ?
9
2
Pour résoudre ce problème, on choisit de transformer les données en données centrées-réduites. L’observation x ik est alors remplacée par : x ik x k UNI TÉS D’ÉCART TYPE : sk
où : x k = moyenne de la variable X k
Δ k = écart-type de la variable
X k
Ex e m p l e :
Puissance moyenne de 30 voitures
= 92 ch
Ecart-type
= 24 ch
Renault 21 TXI : 140 ch La Renault 21 TXI a une puissance qui est de : 140 − 92 24
= 2 écarts-type au-dessus de la moyenne.
10
4. INERTIE TOTAL E
n
Ig
1 2 d (e i , g) n
=∑ i
= somme pondérée des carrés des distances des individus au centre de gravité g . L’inertie mesure la dispersion totale du nuage de points. L’inertie est donc aussi égale à la somme des variances des variables étudiées. En notant V la matrice de variances-covariances :
⎛ s .12 ⎜ . . V = ⎜ . . ⎜ . ⎝ sp1
s12 ........ s .1p ⎞ s22
. . ⎟ . . ⎟ . ⎟ s2p ⎠
p
Ig
=∑
Ig
= Tr ( V)
i =1
s2i
Rem arque 1 :
Dans le cas où les variables sont centrées réduites, la variance de chaque variable vaut 1. L’inertie totale est alors égale à p (nombre de variables).
11
Rem arque 2 : Equivalence des deux critères concernant la « perte
d’information » Projection orthogonale du nuage sur un sous-espace ei
f i
g
F
Soit F un sous-ensemble de R p f i
la projection orthogonale de e i sur F
On va chercher F tel que : n
∑ i =1
pi ei
− f i
2
soit minimal
, ce qui revient d’après le
théorème de Pythagore à maximiser : n
∑p i =1
ei
2
−g =
n
Donc :
i
∑= p
i
ei
fi ei
−g
i 1
− g , car on a : 2
− fi + 2
quantité fixe
2
−
fi
−g
2
∀i = 1 ...
n
∑= p
i
ei
− fi
2
n n
=
i 1
minimiser cette ⇔ quantité (carrés des distances entre points individus et leurs projections
∑= p
i
fi
−g
2
i 1
maximiser l’inertie du nuage projeté
12
II . LA SOLU TI ON DU PROBLÈME POSÉ
La recherche d’axes portant le maximum d’inertie équivaut à la construction de nouvelles variables (auxquelles sont associées ces axes) de variance maximale. En d’autres termes, on effectue un changement de repère dans R p de façon à se placer dans un nouveau système de représentation où le premier axe apporte le plus possible de l’inertie totale du nuage, le deuxième axe le plus possible de l’inertie non prise en compte par le premier axe, et ainsi de suite. Cette réorganisation s’appuie sur la diagonalisation de la matrice de variances-covariances.
13
1. SOLUTION
Axes principaux
On appelle axes principaux d’inertie les axes de direction des vecteurs propres de V normés à 1. Il y en a p. Le premier axe est celui associé à la plus grande valeur propre λ 1 . On le note u1 . Le deuxième axe est celui associé à la deuxième valeur propre λ 2 . On le note u 2 . Co m p o s a n t e s p r i n c i p a l e s
A chaque axe est associé une variable appelée composante principale. La composante c1 est le vecteur renfermant les cordonnées des projections des individus sur l’axe 1. La composante c 2 est le vecteur renfermant les cordonnées des projections des individus sur l’axe 2. Pour obtenir ces coordonnées, on écrit que chaque composante principale est une combinaison linéaire des variables initiales. c
1
= u11 x1 + u12
x
2
+
... u1p x
p
14
2. PROPRIÉT ÉS DES COMPOSANT ES PRINCI PAL ES
La variance d’une composante principale est
égale à
l’inertie apportée par l’axe principal qui lui est associé.
1ère composante c1
variance : λ 1
2ème composante c 2
variance : λ 2
3ème composante c 3
variance : λ 3
Les composantes principales sont non corrélées deux à deux.
En effet, les axes associés sont orthogonaux.
15
3. REPRÉSENTA TI ON DES IN DIVI DUS
La jème composante principale
⎛ c j1 ⎞ ⎜ c j ⎟ ⎜ . . .2 ⎟ j c = ⎜ . . . . ⎟ ⎜ . ⎟ ⎜⎝ c j ⎠⎟ n
fournit les coordonnées des n individus sur le jème axe principal.
Si on désire une représentation plane des individus, la meilleure sera celle réalisée grâce aux deux premières composantes principales. e i
2 c2i
g
1
c1i
ej
!
16
4. REPRÉSENTA TI ON DES VA RIAB LES
Les « proximités » entre les composantes principales et les variables initiales sont mesurées par les covariances, et surtout les corrélations.
(
j
r c ,x
i
)
est le coefficient de corrélation linéaire entre c j et x i .
c
(
2
r c ,x
i
2
x
) (
1
i
r c ,x
i
)
1
c
CERCLE DES CORRÉLAT ION S
17
5.
IN TERPRETAT ION DES « PROXI MI TÉS » ENTRE
VARIABLES
On utilise un produit scalaire entre variables permettant d’associer aux paramètres courants : écart-type, coefficient de corrélation linéaire des représentations géométriques. 1 n
n
(x , x ) = ∑= x i
j
i k
x jk
k 1
On suppose les variables centrées .
(x , x ) = Cov (x , x ) i
x x
j
i 2
i 2
x
i
= (x , x ) = i
j
j
n
1 n
∑ (x ) k =1
= s2i = variance de
i 2
= écart-type de
x
x
2
i
i
Coefficient de corrélation linéaire X , X ) Cov (X , X ) ( Cos (X , X ) = = =r i
i k
i
j
i
j
X
i
X
j
si s j
j
(X , X ) i
j
18
X
3
X
1
X
X
2
1
et X 2 ont une corrélation proche de 1.
1
et X 3 ont une corrélation proche de 0.
X
19
II I. VA LI DITÉ DES REPRÉSENTA TI ONS
1. CRIT ÈRE GLOBAL
λi λ1 + λ 2 +
Exem ple :
...
mesure la part d’inertie expliquée par l’axe i.
λp
λ1 + λ 2 p
∑= λ
i
est la part d’inertie expliquée par le premier plan principal.
i 1
Ce critère (souvent exprimé en pourcentage) mesure le degré de reconstitution des carrés des distances. La réduction de dimension est d’autant plus forte que les variables de départ sont plus corrélées.
20
Co m b i e n d ’a x e s ? Di f f é r e n t e s p r o c é d u r e s :
Pourcentage d’inertie souhaité : a priori Diviser l’inertie totale par le nombre de variables initiales inertie moyenne par variable : I.M. Conserver tous les axes apportant une inertie supérieure à cette valeur I.M. (inertie > 1 si variables centrées réduites). Histogramme
4 3 2 1
..
.
λ1 = 4,5 λ 2 = 3,8 λ 3 = 2,9
....
λ1 λ 2 λ 3 λ 4 λ5 λ 6 λ 7 cassure
21
2. CRIT ÈRES IN DIVI DUELS
Pour chaque individu e i , la qualité de sa représentation est définie par le carré du cosinus de l’angle entre l’axe de projection et le vecteur e i . ei
axe 2
θ2 θ
θ1
y
f i
axe 1
cos2 θ = cos2 θ1 + cos2 θ2
En général, les qualités de représentation sont données axe par axe. Pour avoir la qualité de représentation dans un plan, on additionne les critères correspondant aux axes étudiés.
!
Ce critère n’a pas de signification pour les individus proches de g . regarder les distances des individus au centre de gravité g utiliser le critère de cos2 pour les individus suffisamment éloignés de g .
22
CONTRIBUTIONS Il est très utile aussi de calculer pour chaque axe la contribution apportée par les divers individus à cet axe.
Considérons la k ème composante principale c k , soit c ik la valeur de la composante pour le ième individu. n
1 k ci n
∑= ( ) i 1
2
= λ k
La contribution de l’individu e i à la composante n° k est définie par : 1 k c n i
( )
2
λ k
Remarque :
Il n’est pas souhaitable qu’un individu ait une contribution
excessive (car facteur d’instabilité)
éliminer les individus
dont la contribution est trop importante.
Problème des enquêtes par sondage
23
3. REPRÉSENTA TI ON DES VA RIAB LES
Le cercle des corrélations est la projection du nuage des variables sur le plan des composantes principales. c orrélation = c osinus
c
2
1
c
Les variables bien représentées sont celles qui sont proches du cercle : celles qui sont proches de l’origine sont mal représentées.
24
4. INT ERPRÉTATI ON EXTERNE : VARIAB LES ET IN DIVIDUS SUPPLÉMENTAI RES (ILLUSTRATIFS)
Variables
• Variable quantit ative : On calcule le coefficient de corrélation entre la variable supplémentaire et les composantes principales. Ceci permet sa représentation sur le cercle des corrélations.
Variable qualitat ive :
Identification des individus de chaque catégorie de la
variable
25
Représentation de chaque catégorie par son centre de gravité.
Calcul du rapport de corrélation entre la variable qualitative supplémentaire et chaque composante principale (test de FischerSnedecor) ou valeur-test dans SPAD.
Individus Individu de poids nul ne participant pas à l’analyse (fichier test). Appliquer aux coordonnées de l’individu les expressions définissant les composantes principales.
26