Cours d’analyse d’analys e de donn´ ees ees Jean-Marc Lasgouttes
Introduction
[email protected]
Magist` Magi st`ere ere de Finance Fina nce de Paris 1, 2`e ann´ee ee
qu’est-ce que l’analyse de donn´ees ?
http://www-rocq.inria.fr/~lasgoutt/ana-donnees/
Cours d’analyse de donn´ees Jean-Marc Lasgouttes ann´ ee ee 2 009-2010.
Cours d’analyse de donn´ees Jean-Marc Lasgouttes ann´ee 2009-2010.
Exemple Exempl e : la temp´erature erature en France
1
La temp´erature eratur e en France (2) d=2
ajac ange ange ango ango besa besa biar bord bres bres cler cler dijo dijo embr embr gren gren lill lill limo limo lyon lyon mars mont
janv janv 7.7 4.2 4.2 4.6 4.6 1.1 1.1 7.6 5.6 6.1 6.1 2.6 2.6 1.3 1.3 0.5 0.5 1.5 1.5 2.4 2.4 3.1 3.1 2.1 2.1 5.5 5.6
fev 8.7 4.9 5.4 2.2 8.0 6.6 5.8 3.7 2.6 1.6 3.2 2.9 3.9 3.3 6.6 6.7
mars mars 10.5 7.9 7.9 8.9 8.9 6.4 6.4 10.8 10.3 10.3 7.8 7.8 7.5 7.5 6.9 6.9 5.7 5.7 7.7 7.7 6.0 6.0 7.4 7.4 7.7 7.7 10.0 9.9
avri 12.6 10.4 11.3 9.7 9.7 12.0 12.8 9.2 9.2 10.3 10.4 9.0 9.0 10.6 8.9 8.9 9.9 9.9 10.9 13.0 12.8 12.8
mai mai 15.9 15. 9 13.6 13.6 14.5 14.5 13.6 13.6 14.7 14.7 15.8 15.8 11.6 11.6 13.8 13.8 14.3 14.3 13.0 13.0 14.5 14.5 12.4 12.4 13.3 13.3 14.9 14.9 16.8 16.8 16.2
juin 19.8 17.0 17.0 17.2 17.2 16.9 16.9 17.8 19.3 14.4 14.4 17.3 17.3 17.7 17.7 16.4 16.4 17.8 17.8 15.3 15.3 16.8 16.8 18.5 18.5 20.8 20.1 20.1
juil juil 22.0 18.7 19.5 18.7 18.7 19.7 20.9 20.9 15.6 15.6 19.4 19.6 18.9 18.9 20.1 17.1 17.1 18.4 18.4 20.7 23.3 22.7
aout aout 22.2 18.4 18.4 19.4 19.4 18.3 18.3 19.9 21.0 16.0 16.0 19.1 19.1 19.0 19.0 18.3 18.3 19.5 19.5 17.1 17.1 17.8 17.8 20.1 20.1 22.8 22.3
sept 20.3 16.1 16.1 16.9 16.9 15.5 15.5 18.5 18.6 18.6 14.7 14.7 16.2 16.2 15.9 15.9 15.3 15.3 16.7 16.7 14.7 14.7 15.3 15.3 16.9 16.9 19.9 19.3 19.3
oct 16.3 11.7 12.5 10.4 10.4 14.8 13.8 12.0 12.0 11.2 10.5 10.1 10.1 11.4 10.4 10.4 10.7 10.7 11.4 15.0 14.6
nov 11.8 7.6 8.1 5.7 10.9 9.1 9.0 6.6 5.7 4.6 6.5 6.1 6.7 6.7 10.2 10.0 10.0
dec dec 8.7nanc nanc 4.9 4.9nant nant 5.3 5.3nice 2.0 2.0nime 8.2orle orle 6.2pari pari 7.0 7.0perp 3.6 3.6reim reim 2.1 2.1renn renn 0.5 0.5roue roue 2.3 2.3stqu stqu 3.5 3.5stra stra 3.8 3.8toul 3.1 3.1tlse tlse 6.9tour tour 6.5vich vich
janv janv fev 0.8 1.6 1.6 5.0 5.3 5.3 7.5 8.5 5.7 6.8 2.7 3.6 3.6 3.4 4.1 4.1 7.5 8.4 1.9 2.8 2.8 4.8 5.3 5.3 3.4 3.9 3.9 2.0 2.9 2.9 0.4 1.5 1.5 8.6 9.1 4.7 5.6 5.6 3.5 4.4 4.4 2.4 3.4 3.4
mars mars 5.5 5.5 8.4 8.4 10.8 10.1 10.1 6.9 6.9 7.6 7.6 11.3 6.2 6.2 7.9 7.9 6.8 6.8 6.3 6.3 5.6 5.6 11.2 9.2 9.2 7.7 7.7 7.1 7.1
avri 9.2 9.2 10.8 13.3 13.0 9.8 9.8 10.7 13.9 9.4 9.4 10.1 9.5 9.5 9.2 9.2 9.8 9.8 13.4 11.6 10.6 9.9 9.9
mai mai juin 13.3 13.3 16.5 16.5 13.9 13.9 17.2 17.2 16.7 20.1 20.1 16.6 16.6 20.8 13.4 13.4 16.6 16.6 14.3 14.3 17.5 17.5 17.1 21.1 21.1 13.3 13.3 16.4 16.4 13.1 13.1 16.2 16.2 12.9 12.9 15.7 15.7 12.7 12.7 15.6 15.6 14.0 14.0 17.2 17.2 16.6 20.2 20.2 14.9 14.9 18.7 18.7 13.9 13.9 17.4 17.4 13.6 13.6 17.1 17.1
juil juil 18.3 18.3 18.8 22.7 23.6 23.6 18.4 18.4 19.1 23.8 18.3 18.3 17.9 17.6 17.6 17.4 17.4 19.0 19.0 22.6 20.9 19.1 19.3 19.3
aout aout 17.7 17.7 18.6 18.6 22.5 22.9 18.2 18.2 18.7 18.7 23.3 17.9 17.9 17.8 17.8 17.2 17.2 17.4 17.4 18.3 18.3 22.4 20.9 20.9 18.7 18.7 18.8 18.8
sept 14.7 14.7 16.4 16.4 20.3 19.7 19.7 15.6 15.6 16.0 16.0 20.5 15.1 15.1 15.7 15.7 15.0 15.0 15.0 15.0 15.1 15.1 20.5 18.3 18.3 16.2 16.2 16.0 16.0
oct 9.4 12.2 16.0 14.6 10.9 10.9 11.4 15.9 10.3 10.3 11.6 11.0 11.0 10.5 10.5 9.5 16.5 13.3 11.7 11.0 11.0
nov 5.2 8.2 11.5 9.8 6.6 7.1 11.5 6.1 7.8 6.8 6.1 4.9 12.6 8.6 7.2 6.6
dec dec 1.8 5.5 5.5 8.2 6.5 3.6 3.6 4.3 4.3 8.6 3.0 3.0 5.4 5.4 4.3 4.3 3.1 3.1 1.3 9.7 5.5 5.5 4.3 4.3 3.4 3.4
nanc embr stra
bres
lill stqu reim besa roue orle limo dijo vich cler gren renn pari angetour lyon nant
lill stqu roue
reim pari
ango
nanc
bres renn ange
tlse
nant
tour
dijo besa
bord
biar
ango limo
vich cler
bord
nime mars
embr
ajac nice
Cours d’analyse de donn´ees Jean-Marc Lasgouttes ann´ee 2009-2010.
2
perp
Cours d’analyse de donn´ees Jean-Marc Lasgouttes ann´ee 2009-2010.
lyon gren
mont
toul
stra
orle
biar
nime mont mars toul
tlse
nice
perp
3
Individus et variables
L’analyse de donn´ ees
Population groupe ou ensemble d’ individus que l’on analyse.
But synth´etiser, structurer l’information contenue dans des donn´ees multidimensionnelles (n individus, p variables).
Recensement ´etude de tous les individus d’une population donn´ee. Sondage ´etude d’une partie seulement d’une population appel´ee ´echantillon. Variables ensemble de caract´eristiques d’une population. – quantitatives : nombres sur lesquels les op´erations usuelles (somme, moyenne,...) ont un sens ; elles peuvent ˆetre discr`etes (ex : nombre d’´el´ements dans un ensemble) ou continues (ex : prix, taille) ; – qualitatives : appartenance `a une cat´egorie donn´ee ; elles peuvent ˆetre nominales (ex : sexe, CSP) ou ordinales quand les cat´egories sont ordonn´ees (ex : tr`es r´esistant, assez r´esistant, peu r´esistant).
Cours d’analyse de donn´ees Jean-Marc Lasgouttes ann´ee 2009-2010.
4
But du cours
Deux groupes de m´ ethodes – m´ethodes de classification : r´eduire la taille de l’ensemble des individus en formant des groupes homog`enes ; – m´etho des factorielles : r´eduire le nombre de variables en les r´esumant par un petit nombre de composantes synth´etiques. Deux types de m´ ethodes factorielles – analyse en composantes principales : variables num´eriques ; – analyse des correspondances : variables qualitatives.
Cours d’analyse de donn´ees Jean-Marc Lasgouttes ann´ee 2009-2010.
5
Ce que ce cours n’est pas Un cours de math´ematiques financi`eres il n’y a pas de mod`eles probabilistes de processus financiers (cours de bourse...).
M´ ethodes couvertes par le cours – analyse en composantes principales (ACP) ; – analyse (factorielle) des correspondances (AFC) ; – analyse des correspondances multiples (ACM).
Un cours de statistique inf´erentielle il ne sera presque pas question ici de tests, d’estimateurs, de pr´evision statistique. Un cours uniquement orient´ e « utilisateur » mˆeme si le but ultime est de savoir utiliser les m´ethodes d’analyse de donn´ees, ce cours s’attache `a exposer les fondements math´ematiques de ces m´ethodes.
Comp´etences recherch´ ees – savoir interpr´eter les tables et graphiques issus de ces m´ethodes ; – comprendre les fondements math´ematiques des m´ethodes ; – ˆetre capable de mener soi-mˆeme une telle ´etude.
Un cours appliqu´e aux donn´ees financi`eres ce cours est avant tout un cours de m´ethode ; la plupart des exemples abord´es ne seront pas issus de cette application. Un cours « pratique » Les contraintes d’effectif et de mat´eriel ne permettent pas d’effectuer des travaux pratiques.
Cours d’analyse de donn´ees Jean-Marc Lasgouttes ann´ee 2009-2010.
6
Cours d’analyse de donn´ees Jean-Marc Lasgouttes ann´ee 2009-2010.
7
Outils utilis´es
Statistiques et probabilit´ es
Alg`ebre lin´eaire les donn´ees sont vues de mani`ere abstraite comme un nuage de points dans un espace vectoriel; les notions suivantes doivent ˆetre bien comprises – vecteurs : produits scalaires, d´ecomposition selon une base – matrices : addition, multiplication, transpos´ee, trace – valeurs et vecteurs propres : d´efinition, propri´et´es – m´etriques : d´efinitions des distances dans un espace vectoriel par une norme, lien avec le produit scalaire Attention : les ´ etudiants sont suppos´ es maˆıtriser le calcul matriciel et la notion de valeur propre ; les TD et examens comporteront du calcul matriciel! Th´eorie des probabilit´es on utilisera quand mˆeme quelques tests statistiques.
Cours d’analyse de donn´ees Jean-Marc Lasgouttes ann´ee 2009-2010.
8
Une approche diff´ erente Les probabilit´es reposent sur un mod`ele de donn´ees et font en g´en´eral des hypoth`eses simplificatrices. Ici, on utilisera plus des consid´erations g´eom´etriques . 3 liens possibles – les donn´ees statistiques sont empruntes d’une forme de variabilit´e li´ee aux erreurs de mesures ; on peut mod´eliser cette erreur par une variable al´eatoire ; – on constate souvent que la r´epartition d’une variable est proche d’une loi de probabilit´es connue ; – surtout, quand des donn´ees sont issue d’un sondage, on peut consid´ erer que ce sont des tirages d’une variable al´eatoire. Quand les ´echantillons sont assez grands, on connaˆıt des lois limites.
Cours d’analyse de donn´ees Jean-Marc Lasgouttes ann´ee 2009-2010.
9
R´ ef´ erences Ces r´ef´erences sont donn´ees `a titre indicatif ; aucun livre n’est demand´e pour ce cours .
Base du cours Gilbert Saporta, Probabilit´es, analyse des donn´ees et statistique , 2nde ´edition, Technip, 2006. Version plus simple Jean-Marie Bouroche et Gilbert Saporta, L’analyse des donn´ees , Que Sais-je ?, Presses Universitaires de France, 2002. Logiciel de traitement de donn´ ees Les tables et graphiques pr´esent´es dans le cours et les TD sont produits par le logiciel R (`a l’aide du paquetage ade4). R est un logiciel libre (et donc gratuit) disponible pour Windows, Mac OS X et Linux `a l’adresse http://www.r-project.org.
Partie I variables quantitatives : analyse en composantes principales
Archives de ce cours cours, TD avec corrig´e, donn´ees sont disponibles `a http://www-rocq.inria.fr/~lasgoutt/ana-donnees/ Cours d’analyse de donn´ees Jean-Marc Lasgouttes ann´ee 2009-2010.
10
Cours d’analyse de donn´ees Jean-Marc Lasgouttes ann´ee 2009-2010.
11
Description de donn´ees quantitatives
Moyenne arithm´ etique
D´efinition On appelle « variable » un vecteur x de taille n. Chaque coordonn´ee xi correspond `a un individu. On s’int´eresse ici `a des valeurs num´eriques. Poids Chaque individu peut avoir un poids pi, tel que p1 + + pn = 1, notamment quand les individus n’ont pas la mˆeme importance (´echantillons redress´es, donn´ees regroup´ees,...). On a souvent p = 1/n.
D´efinition On note
n
···
x ¯= ou pour des donn´ees pond´er´es
Repr´esentation histogramme en d´ecoupant les valeurs de la variable en classes ; ou alors « boˆıte `a moustache ».
1 xi, n i=1 n
x ¯=
pi xi.
i=1
R´ esum´ es on dispose d’une s´erie d’indicateurs qui ne donne qu’une vue partielle des donn´ees : effectif, moyenne, m´ediane, variance, ´ecart type, minimum, maximum, ´etendue, 1er quartile, 3`eme quartile, ... Ces indicateurs mesurent principalement la tendance centrale et la dispersion. On utilisera principalement la moyenne, la variance et l’´ecart type.
Propri´et´es la moyenne arithm´etique est une mesure de tendance centrale qui d´epend de toutes les observations et est sensible aux valeurs extrˆemes. Elle est tr`es utilis´ee `a cause de ses bonnes propri´et´es math´ematiques.
Cours d’analyse de donn´ees Jean-Marc Lasgouttes ann´ee 2009-2010.
Cours d’analyse de donn´ees Jean-Marc Lasgouttes ann´ee 2009-2010.
12
Variance et ´ ecart-type
Mesure de liaison entre deux variables
D´efinition la variance de x est d´efinie par
D´efinitions la covariance observ´ee entre deux variables x et y est
n
s2x =
1 (xi n i=1
n
− x¯)
2
ou s2x =
i=1
n
pi(xi
2
− x¯)
sxy =
rxy =
n
pix2i
i=1
n
pi(xi
− x¯)(yi − y¯) =
pixi yi
i=1
− x¯y¯.
et le coefficient de r de Bravais-Pearson ou co efficient de corr´elation est donn´e par
Propri´et´es La variance satisfait la formule suivante s2x =
i=1
L’´ecart-type sx est la racine carr´ee de la variance.
13
2
− (¯x)
sxy = sx sy
n i=1 pi (xi n p x ¯) 2 i i=1 (xi
−
− x¯)(yi − y¯)
n i=1 pi (yi
− y¯) . 2
La variance est « la moyenne des carr´es moins le carr´e de la moyenne ». L’´ecart-type, qui a la mˆeme unit´e que x, est une mesure de dispersion.
Cours d’analyse de donn´ees Jean-Marc Lasgouttes ann´ee 2009-2010.
14
Cours d’analyse de donn´ees Jean-Marc Lasgouttes ann´ee 2009-2010.
15
Propri´et´es du coefficient de corr´ elation
Le coefficient de corr´ elation par l’exemple 0 .0
Borne On a toujours (in´egalit´e de Cauchy-Schwarz)
0 .2
0 .4
06 .
08 .
10 .
0 .0
−0.99
−0.13
x1
0 .2
0 .4
06 .
08 .
10 .
8 . 0
−0.10
4 . 0
0 . 0
8 . 0
−1 ≤ r ≤ 1. xy
Variables li´ees
0.89
0.15
x2
4 . 0
0 . 0
|r | = 1 si et seulement si x et y sont lin´eairement li´ees :
0 . 0
xy
axi + byi = c, pour tout 1
≤ i ≤ n.
5 . 0 − 0 . 1 − 5 . 1 −
8 . 0
x4
4 . 0
En particulier, rxx = 1.
0 . 0
Variables d´ecorr´el´ ees si rxy = 0, on dit que les variables sont d´ecorr´el´ees . Cela ne veut pas dire qu’elles sont ind´ependantes!
Cours d’analyse de donn´ees Jean-Marc Lasgouttes ann´ee 2009-2010.
0.10
x3
16
0 .0
0 .2
0 .4
0 .6
0 .8
1 .0
−1.5
−1.0
−0.5
0.0
Interpr´ etation on a 4 variables num´eriques avec 30 individus. Les variables 1 et 2 sont ind´ependantes ; les variables 1 et 3 ont une relation lin´eaire ; les variables 2 et 4 ont une relation non-lin´eaire.
Cours d’analyse de donn´ees Jean-Marc Lasgouttes ann´ee 2009-2010.
Que signifie une corr´ elation lin´eaire ?
17
Que signifie une d´ ecorr´ elation ?
Qu’est ce qui est significatif ? si on a assez de donn´ees, on peut consid´erer qu’une corr´elation sup´erieure `a 0, 5 est forte, et une corr´elation entre 0, 3 et 0, 5 est moyenne. Une corr´elation ´egale `a un indique que les deux variables sont ´equivalentes. elation significative indique une liaison Qu’est-ce que cela veut dire ? une corr´ entre deux variables, mais pas n´ecessairement un lien de causalit´e. Exemple : Le nombre de pompiers pr´esents pour combattre un incendie est corr´el´e aux d´egats de l’incendie. Mais ce ne sont pas les pompiers qui causent les d´egats .
5
4
y
3
2
1
−4
−2
0
2
4
x
Pour ces deux variables, on a r = 0.
Cours d’analyse de donn´ees Jean-Marc Lasgouttes ann´ee 2009-2010.
18
Cours d’analyse de donn´ees Jean-Marc Lasgouttes ann´ee 2009-2010.
19
Rappels : notation matricielle
Tableau de donn´ ees
Matrice tableau de donn´ees carr´e ou rectangulaire, not´e par un lettre majuscule grasse (ex : X).
On note xji la valeur de la i-`eme variable pour le j-`eme individu. Pour n individus et p variables, on a le tableau
Vecteur matrice `a une seule colonne, not´e par une lettre minuscule grasse (ex : x). Cas particuliers matrice identit´e `a n lignes et n colonnes et vecteur unit´e de dimension n : In =
1 0
...
0 1
1n =
,
1 .. 1
X = ( x1, . . . , xp) =
.
Transposition de matrice ´echange des lignes et des colonnes d’une matrice ; on note M la transpos´ee de M.
x11 x12
x21 x22
··· . xji
···
.. x1n
xp1
... xpn
.
X est une matrice rectangulaire `a n lignes et p colonnes.
′
Cours d’analyse de donn´ees Jean-Marc Lasgouttes ann´ee 2009-2010.
20
Vecteurs variable et individu
Cours d’analyse de donn´ees Jean-Marc Lasgouttes ann´ee 2009-2010.
21
La matrice des poids D´efinition on associe aux individus un poids pi tel que
Variable Une colonne du tableau
xj =
j
x1 .. xji .. xjn
p1 +
et on repr´ esente ces poids dans la matrice diagonale de taille n
D=
Individu Une ligne du tableau j
Cours d’analyse de donn´ees Jean-Marc Lasgouttes ann´ee 2009-2010.
p1
0 p2
0
... pn
.
Cas uniforme tous les individus ont le mˆeme poids pi = 1/n et D = n1 In.
p
ei = (x1i , . . . , xi , . . . , xi ) ′
··· + pn = 1
22
Cours d’analyse de donn´ees Jean-Marc Lasgouttes ann´ee 2009-2010.
23
Point moyen et tableau centr´e
Matrice de variance-covariance
Point moyen c’est le vecteur g des moyennes arithm´etiques de chaque variable : D´efinition c’est une matrice carr´ee de dimension p
g = (x ¯1 , . . . , x ¯p), ′
o`u
n
x ¯j =
V=
pixji .
i=1
On peut aussi ´ecrire g = X D1n. ′
s21 s12 s21 .. sp1
s1p
... 2
sp
,
o`u skl est la covariance des variables xk et xℓ et s2j est la variance de la variable xj
Tableau centr´e il est obtenu en centrant les variables autour de leur moyenne
Formule matricielle ′
yij = xji
···
V = X DX
− x¯j
− gg
′
′
= Y DY.
ou, en notation matricielle, Y=X
− 1n g
′
= (I
′
− 1n1nD)X
Cours d’analyse de donn´ees Jean-Marc Lasgouttes ann´ee 2009-2010.
24
Matrice de corr´elation
R=
1 r12 r21 1 .. rp1
···
r1p
... 1
25
L’analyse de composantes principales (ACP)
D´efinition Si l’on note rkℓ = skℓ /sk sℓ , c’est la matrice p
Cours d’analyse de donn´ees Jean-Marc Lasgouttes ann´ee 2009-2010.
×p
Contexte chaque individu est consid´er´e comme un point d’un espace vectoriel F de dimension p. L’ensemble des individus est un nuage de points dans F et g est son centre de gravit´e . Principe on cherche `a r´eduire le nombre p de variables tout en pr´eservant au maximum la structure du probl`eme.
,
Formule matricielle R = D1/sVD1/s, o`u
D1/s =
1
s1
0
Cours d’analyse de donn´ees Jean-Marc Lasgouttes ann´ee 2009-2010.
...
0 1
sp
Pour cela on projette le nuage de points sur un sous-espace de dimension inf´erieure.
26
Cours d’analyse de donn´ees Jean-Marc Lasgouttes ann´ee 2009-2010.
27
Exemple en dimension 2
Exemple en dimension 2 (suite)
On veut passer de 2 variables `a 1 seule.
On cherche la direction qui diff´erencie le plus les points entre eux. x2
x1 Cours d’analyse de donn´ees Jean-Marc Lasgouttes ann´ee 2009-2010.
28
Cours d’analyse de donn´ees Jean-Marc Lasgouttes ann´ee 2009-2010.
29
Distance entre individus
M´etrique
Motivation afin de pouvoir consid´erer la structure du nuage des individus, il faut d´efinir une distance, qui induira une g´eom´etrie.
Matrice d´ efinie positive c’est une matrice sym´etrique telle que, pour tout u non nul, u Mu > 0.
p
Distance euclidienne classique la distance la plus simple entre deux points de R est d´efinie par
′
D´efinition soit M = (mjk ) d´efinie positive de dimension p. On pose
p
d2(u, v) =
(uj
= u
− v j √ on multiplie la variable j par aj =1
G´en´ eralisation simple
2
− vj )
p
2
u
aj (uj
j =1
M
′
= u Mu =
− v
mjk uj uk ,
2
M.
Espace m´ etrique il est d´efini par le produit scalaire
2
− vj ) ,
p
u, v
M
′
= u Mv =
mjk uj vk .
j =1 k=1
30
p
On dit que u et v sont M-orthogonaux si u, v
Cours d’analyse de donn´ees Jean-Marc Lasgouttes ann´ee 2009-2010.
p
j =1 k=1
d2M(u, v) = u
p
d2(u, v) =
2
Cours d’analyse de donn´ees Jean-Marc Lasgouttes ann´ee 2009-2010.
M
= 0.
31
Comparaison avec le cas usuel
Propri´et´es du produit scalaire
Norme Le produit scalaire est lin´ eaire
p
u
2
′
=uu=
u2j (= u Ipu) ′
u, v + w u, λv
j =1
p
2
′
u
M
p
= u Mu =
mjk uj uk
j =1 k=1
M
= u, v
M
= λ u, v
+ u, w , pour tout λ ∈ R.
2
u + v
= u
M
p
′
u, v = u v = M
′
2
M
+ v
2
M
+ 2 u, v
M
′
uj vj (= u Ipv)
j =1
p
u, v
M
M
Identit´e remarquable
Produit scalaire
M
p
= u Mv =
mjk uj vk
j =1 k=1
Cours d’analyse de donn´ees Jean-Marc Lasgouttes ann´ee 2009-2010.
32
M´ etriques et tableaux transform´es
Cours d’analyse de donn´ees Jean-Marc Lasgouttes ann´ee 2009-2010.
33
Le cas de la m´ etrique D1/s2
Utiliser la m´etrique M = T T sur le tableau X est ´equivalent `a travailler avec la m´etrique classique I sur le tableau transform´e XT . ′
′
Tableau transform´e Si on travaille sur le tableau transform´e XT (changement de variables ) au lieu de X, alors les nouveaux individus seront de la forme Tei et ′
′
′
′
Tei , Tei = ( Tei ) (Tei ) = ei T Tei 1
2
1
2
2
1
′
= ei1 Mei2 = ei1 , ei2
Pourquoi cette m´ etrique ? pour que les distances soient ind´ependantes des unit´es de mesure et qu’elles ne privil´egient pas les variables dispers´ees. ´ Equivalence avec les donn´ ees r´ eduites on a D1/s2 = D1/sD1/s et donc
ei, ej
D1/s2
M
R´eciproque pour toute matrice sym´etrique positive M, il existe une matrice T (racine carr´ee de M) telle que M=TT ′
= D1/sei, D1/sej .
Travailler avec la m´etrique D1/s2 est ´equivalent `a diviser chaque variable par son ´ecarttype et `a utiliser la m´etrique I.
Donn´ ees centr´ees r´eduites c’est le tableau Z contenant les donn´ees
et donc on peut ramener l’utilisation de la m´etrique `a un changement de variables. zij =
xji
− x¯j ,
sj
qui se calcule matriciellement comme Z = YD1/s .
Cours d’analyse de donn´ees Jean-Marc Lasgouttes ann´ee 2009-2010.
34
Cours d’analyse de donn´ees Jean-Marc Lasgouttes ann´ee 2009-2010.
35
Inertie
M´etriques particuli` eres
D´efinition l’inertie en un point a du nuage de points est n
I a =
M´ etrique usuelle M = Ip correspond au produit scalaire usuel et I g = Tr(V) = p 2 j =1 si .
n
− pi ei
a
2
M =
i=1
pi(ei
i=1
′
− a) M(ei − a).
Autres relations l’inertie totale I g est la moiti´e de la moyenne des carr´es des distances entre les individus n
2I g =
n
M´etrique r´ eduite
I g = Tr(D1/s2 V) = Tr(D1/sVD1/s) = Tr(R) = p.
2
pipj ei
i=1 j =1
Probl`emes – la distance entre individus d´epend de l’unit´e de mesure. – la distance privil´egie les variables les plus dispers´ees.
M.
− ej
L’inertie totale est aussi donn´ee par la trace de la matrice MV I g = Tr(MV), la trace d’une matrice ´etant la somme de ses ´el´ements diagonaux. Cours d’analyse de donn´ees Jean-Marc Lasgouttes ann´ee 2009-2010.
36
Utilisation des m´ etriques Utiliser une m´etrique est donc ´equivalent `a les rendre comparables x2
«
Cours d’analyse de donn´ees Jean-Marc Lasgouttes ann´ee 2009-2010.
37
L’analyse de composantes principales (version 2)
tordre » les donn´ees, par exemple pour
x2
Principe on cherche `a projeter le nuage de points sur un espace F k de dimension k < p. Crit`ere on veut que la moyenne des carr´es des distances entre les points projet´es soit maximale (elle est toujours plus petite que pour le nuage original).
Pour cela on cherche F k , sous espace de dimension k de F p, tel que l’inertie du nuage projet´ e sur F k soit maximale. x1
x1
Exemple utiliser la m´etrique r´eduite est ´equivalent `a travailler sur les donn´ees centr´ees r´eduites Z = YD1/s.
Cours d’analyse de donn´ees Jean-Marc Lasgouttes ann´ee 2009-2010.
38
Cours d’analyse de donn´ees Jean-Marc Lasgouttes ann´ee 2009-2010.
39
Rappels : valeurs propres et vecteurs propres
Valeurs et vecteurs propres : un exemple concret
D´efinition un vecteur v = 0 de taille p est un vecteur propre d’une matrice A de taille p p s’il existe λ C telle que
×
∈
Av = λv.
La matrice
a pour vecteurs propres
λ est une valeur propre de A associ´ee `a v.
Domaine En g´en´eral, les vecteurs propres et valeurs propres sont complexes; dans tous les cas qui nous int´eressent, ils seront r´eels. Interpr´ etation des vecteurs propres ce sont les directions dans lesquelles la matrice agit. Interpr´ etation des valeurs propres c’est le facteur multiplicatif associ´e `a une direction donn´ee.
Cours d’analyse de donn´ees Jean-Marc Lasgouttes ann´ee 2009-2010.
40
Valeurs et vecteurs propres : cas particuliers
v1 =
5 2 1
1 4 1
−1 −2 3
−
0 1 1
1 0 1
, v2 =
1 1 0
, v3 =
.
On v´erifie facilement que les valeurs propres associ´ees sont λ1 = 2, λ2 = 4, λ3 = 6.
Cours d’analyse de donn´ees Jean-Marc Lasgouttes ann´ee 2009-2010.
41
Quelques matrices diagonalisables
Matrice nulle sa seule valeur propre est 0, et tout vecteur est vecteur propre.
Matrice sym´etrique une matrice sym´etrique r´eelle ( A = A) poss`ede une base de vecteurs propres orthogonaux et ses valeurs propres sont r´eelles ′
Matrice identit´e tout vecteur est vecteur propre de I avec valeur propre 1, puisque Iv = v. Matrice diagonale si Dλ est une matrice diagonale avec les coefficients λ1, . . . , λp, alors le i-`eme vecteur coordonn´ee est vecteur propre de Dλ associ´e `a la valeur propre λi. L’action d’une matrice diagonale est de multiplier chacune des coordonn´ ees d’un vecteur par la valeur propre correspondante.
vi, vj = 0 si i = j,
×
∈ R. ′
vi, vj
= 0 si i = j,
et λi
∈ R.
Matrice d´efinie positive c’est une matrice sym´etrique dont les valeurs propres sont strictement positives
vi, vj = 0 si i = j, 42
et λi
Matrice M-sym´ etrique une matrice M-sym´etrique r´eelle (A M = MA) poss`ede une base de vecteurs propres M-orthogonaux et ses valeurs propres sont r´eelles M
Matrice diagonalisable c’est une matrice dont les vecteurs propres forment une base de l’espace vectoriel : tout vecteur peut ˆetre repr´esent´e de mani`ere unique comme combinaison lin´eaire des vecteurs propres. Une matrice de taille p p qui a p valeurs propres r´eelles distinctes est diagonalisable dans R.
Cours d’analyse de donn´ees Jean-Marc Lasgouttes ann´ee 2009-2010.
Cours d’analyse de donn´ees Jean-Marc Lasgouttes ann´ee 2009-2010.
et λi > 0.
43
Analyse de VM
R´ esultat principal
Valeurs propres la matrice VM est M-sym´etrique : elle est donc diagonalisable et ses valeurs propres λ1, . . . , λp sont r´eelles.
Th´ eor`eme principal
Axes principaux d’inertie ce sont les p vecteurs a1, . . . , ap tels que
1. Si F k est le sous-espace de dimension k portant l’inertie principale, alors
VMak = λk ak ,
avec ak , aℓ
M
= 1 si k = ℓ, 0 sinon.
(Admis)
F k+1 = F k
Ils sont M-orthonormaux.
Signe des valeurs propres les valeurs propres de VM sont positives et on peut les classer par ordre d´ecroissant
⊕ f k
+1
,
o` u f k+1 est le sous espace de dimension 1 M-orthogonal ` a F k portant l’inertie maximale : les solutions sont « emb oˆıt´ ees » ;
2. F k est engendr´e par les k vecteurs propres de VM asso ci´es aux k plus grandes valeurs propres.
λ1
≥ λ ≥ λ ≥ ··· ≥ λp ≥ 0. 2
3
Id´ ee du lien avec l’inertie on sait que T r(VM) = λ1 + + λp. Si on ne garde + λq , et c’est le que les donn´ees relatives `a a1, . . . , aq , on gardera l’inertie λ1 + mieux qu’on puisse faire.
···
···
Cours d’analyse de donn´ees Jean-Marc Lasgouttes ann´ee 2009-2010.
44
Les composantes principales Coordonn´ ees des individus supposons que ei
−g=
p
ei − g, ak
M
=
ℓ=1
La coordonn´ee de l’individu centr´e ei la projection M-orthogonale cik = ei
ciℓ aℓ, ak
M
Interpr´ etation du th´ eor`eme l’ACP sur k + 1 variables est obtenue par ajout d’une variable d’inertie maximale `a l’ACP sur k variables. Il n’est pas n´ecessaire de refaire tout le calcul.
p ℓ=1 ciℓ aℓ,
Cours d’analyse de donn´ees Jean-Marc Lasgouttes ann´ee 2009-2010.
Repr´ esentation des individus dans un plan principal Qu’est-ce que c’est ? pour deux composantes principales c1 et c2, on repr´esente chaque individu i par un point d’abscisse ci1 et d’ordonn´ee ci2.
alors
Axe 2
= cik e6
e1
− g sur l’axe principal ak est donc donn´e par
− g, ak
M
45
= ( ei
e7 e4
′
− g) Mak.
e2
Axe 1
e5
Composantes principales ce sont les variables ck de taille n d´efinies par
e3 e8
ck = YMak .
Chaque ck contient les coordonn´ees des projections M-orthogonales des individus centr´es sur l’axe d´efini par les ak .
Quand ? Elle est utile quand les individus sont discernables.
Cours d’analyse de donn´ees Jean-Marc Lasgouttes ann´ee 2009-2010.
Cours d’analyse de donn´ees Jean-Marc Lasgouttes ann´ee 2009-2010.
46
47
Propri´et´es des comp osantes principales
Facteurs principaux
Moyenne arithm´ etique les composantes principales sont centr´ees : ′
′
D´efinition on associe `a un axe principal ak le facteur principal uk = Mak de taille p. C’est un vecteur propre de MV car
′
c¯k = ck D1n = ak MY D1n = 0 ′
car Y D1n = 0 (les colonnes de Y sont centr´ees).
MVuk = MVMak = λk Mak = λk uk
Variance la variance de ck est λk car ′
′
Calcul en pratique, on calcule les uk par diagonalisation de MV, puis on obtient les ck = Yuk . Les ak ne sont pas int´eressants. La valeur d’une variable ck pour l’individu ei est donc
′
V (ck ) = ck Dck = ak MY DYMak ′
′
= ak MVMak = λk ak Mak = λk .
p
cik = ( ei
Covariance de mˆeme, pour k = ℓ,
′
cov(ck , cℓ ) = ck Dcℓ =
′
− g ) uk =
yij ukj
j =1
o`u uj = (ui1, . . . , uip). ′
′
··· = λℓakMaℓ = 0.
Les composantes principales ne sont pas corr´el´ees entre elles.
Cours d’analyse de donn´ees Jean-Marc Lasgouttes ann´ee 2009-2010.
48
Formules de reconstruction
Cours d’analyse de donn´ees Jean-Marc Lasgouttes ann´ee 2009-2010.
49
L’ACP sur les donn´ees centr´ees r´eduites
Il est possible de reconstruire le tableau centr´e Y `a partir des composantes principales et des facteurs principaux
Matrice de variance-covariance c’est la matrice de corr´elation car p
Y=
p
′
ck ak =
k=1
′
−1
c k uk M
.
′
M´etrique on prend la m´etrique M = Ip.
Preuve il suffit de calculer
p
ck ak
k=1
Facteurs principaux ce sont les p vecteurs propres orthonorm´es de R,
p
′
′
Z DZ = D1/sY DYD1/s = D1/sVD1/s = R.
k=1
Maℓ =
′
ck ak Maℓ = cℓ = YMaℓ .
Ruk = λk uk , avec uk , uℓ = 1 si k = ℓ, 0 sinon.
k=1
Comme M est inversible et que les ak forment une base, on obtient Y.
dont les valeurs propres sont class´es par valeur propre d´ecroissante
Approximation si on prend les k premiers termes seulement, on obtient la meilleure approximation de Y par une matrice de rang k au sens des moindres carr´es (th´eor`eme de Eckart-Young).
λ1
≥ λ ≥ λ ≥ ··· ≥ λp ≥ 0 2
3
Composantes principales elles sont donn´ees par ck = Zuk . Cours d’analyse de donn´ees Jean-Marc Lasgouttes ann´ee 2009-2010.
50
Cours d’analyse de donn´ees Jean-Marc Lasgouttes ann´ee 2009-2010.
51
Nombre d’axes ` a retenir
Nombre d’axes ` a retenir (suite)
Dimension de l’espace des individus L’ACP visant `a r´eduire la dimension de l’espace des individus, on veut conserver aussi peu d’axes que possible. Il faut pour cela que les variables d’origine soient raisonnablement corr´el´ees entre elles. Les seuls crit`eres utilisables sont empiriques.
Crit`ere de Kaiser (variables centr´ ees-r´eduites) on ne retient que les axes associ´es `a des valeurs propres sup´erieures `a 1, c’est-`a-dire dont la variance est sup´erieure `a celle des variables d’origine. Une autre interpr´etation est que la moyenne des valeurs propres ´etant 1, on ne garde que celles qui sont sup´erieures `a cette moyenne.
Cours d’analyse de donn´ees Jean-Marc Lasgouttes ann´ee 2009-2010.
52
L’espace des variables
′
= x Dy,
x
2
0 . 3
5 . 2
0 . 2
5 . 1
0 . 1
5 . 0
0 . 0
2
4
k
r(zj , ck ) = 2
D
ck
λk
,
cℓ
D
λℓ
= cor(ck , cℓ) = D
Cours d’analyse de donn´ees Jean-Marc Lasgouttes ann´ee 2009-2010.
53
1, 0,
cov(zj , ck ) (zj ) Dck = λk V (ck ) ′
√
et donc le vecteur des corr´elations de ck avec Z est
D
k
√ √
10
Quand on travaille sur les variables centr´ees-r´eduites, la corr´elation entre une composante principale ck et une variable zj est
= x Dx.
D
Exemple
8
′
D
, V (x) = x , x, y cor(x, y) = x y = cos(xy). √ les vecteurs c / λ forment une base D-orthonormale D
6
Cours d’analyse de donn´ees Jean-Marc Lasgouttes ann´ee 2009-2010.
Interpr´etation pour deux variables centr´ees x et y, on a cov(x, y) = x, y
coude » dans le graphe des valeurs
Corr´ elation entre composantes et variables initiales
M´etrique D il faut munir l’espace des variables d’une m´etrique raisonnable. On choisit toujours la m´etrique D des poids : D
«
5 . 3
Interpr´ etation des axes on s’efforce de ne retenir que des axes `a propos desquels une forme d’interpr´etation est possible (soit directement, soit en terme des variables avec lesquels ils sont tr`es corr´el´es). On donnera des outils `a cet effet plus loin dans le cours.
x, y
´ Eboulis des valeurs propres on cherche un propres
r(Z, ck ) = (r(z1, ck ), . . . , r(zp , ck )) = ′
′
Z Dck
√λ
.
k
Comme Z Dck = Z DZuk = Ruk = λk uk , on a finalement ′
si k = ℓ, sinon.
′
r(Z, ck ) =
54
Cours d’analyse de donn´ees Jean-Marc Lasgouttes ann´ee 2009-2010.
λk uk .
55
Le cercle des corr´ elations
Le cercle des corr´ elations (suite)
Qu’est-ce que c’est ? c’est une repr´esentation o`u, pour deux composantes principales, par exemple c1 et c2, on repr´esente chaque variable zj par un point d’abscisse r(zj , c1) et d’ordonn´ee r(zj , c2).
√
Pourquoi un cercle ? comme les ck / λk forment une base D-orthonormale,
√ √ p
zj =
ck
k=1
et donc
λk
ck
, zj
D
λk
p
=
r(ck , zj )
√cλk
k
i=1
p
zj
2
D
r 2(ck , zj ).
=1 =
k=1
Les points sont bien `a l’int´erieur d’un cercle de rayon 1.
Effet « taille » cela arrive quand toutes les variables sont corr´el´ees positivement avec la premi`ere composante principale. Cette composante est alors appel´ee facteur de « taille », la seconde facteur de « forme ». Cours d’analyse de donn´ees Jean-Marc Lasgouttes ann´ee 2009-2010.
56
Interpr´ etation – les points sont la projection orthogonale dans D des variables dans le plan d´efini par les composantes principales c1 et c2. – Il ne faut interpr´eter la proximit´e des points que s’ils sont proches de la circonf´erence.
Cours d’analyse de donn´ees Jean-Marc Lasgouttes ann´ee 2009-2010.
Contribution d’un individu ` a une composante
Individus sur-repr´esent´ es
n D´efinition On sait que V (ck ) = λk = i=1 pic2ik. La contribution de l’individu i `a la composante k est donc pic2ik λk Interpr´etation la contribution d’un individu est importante si elle exc`ede d’un facteur α le poids pi de l’individu concern´e, c’est-`a-dire
pic2ik λk
57
Qu’est-ce que c’est ? c’est un individu qui joue un rˆole trop fort dans la d´efinition d’un axe, par exemple pic2ik > 0, 25 λk Effet il « tire `a lui » l’axe k et risque de perturber les repr´esentations des autres points sur les axes de rang k. Il est donc surtout probl´ematique sur les premiers axes. Un tel individu peut ˆetre le signe de donn´ees erron´ees.
≥
Solution on peut le retirer de l’analyse et le mettre en
≥ αpi,
«
individu suppl´ementaire ».
ou de mani`ere ´equivalente
|cik| ≥
αλk
Choix de α selon les donn´ees, on se fixe en g´en´eral une valeur de l’ordre de 2 `a 4, que l’on garde pour tous les axes Cours d’analyse de donn´ees Jean-Marc Lasgouttes ann´ee 2009-2010.
58
Cours d’analyse de donn´ees Jean-Marc Lasgouttes ann´ee 2009-2010.
59
Qualit´e globale de la repr´esentation
Qualit´e locale de la repr´esentation
Calcul de l’inertie on se souvient que I g = Tr(VM) ; comme la trace d’une matrice est la somme de ses valeurs propres, on a
But on cherche `a d´eterminer si le nuage de points est tr`es aplati par la projection sur les sous-espaces principaux. Dans ce cas, deux individus ´eloign´es pourraient artificiellement sembler proches les uns des autres.
I g = λ1 + λ2 +
··· + λp.
D´efinition la qualit´e de la repr´esentation obtenue par k valeurs propres est la proportion de l’inertie expliqu´ee λ1 + λ2 + λ1 + λ2 +
··· + λk ··· + λp
Si par exemple λ1 + λ2 est ´egal 90% de I g, on en d´eduit que le nuage de points est aplati autour du premier plan principal.
Utilisation cette valeur sert seulement `a ´evaluer la projection retenue, pas `a choisir le nombre d’axes `a garder. Cours d’analyse de donn´ees Jean-Marc Lasgouttes ann´ee 2009-2010.
60
Cours d’analyse de donn´ees Jean-Marc Lasgouttes ann´ee 2009-2010.
61
Angle entre un individu et un axe principal
Angle entre un individu et un sous-espace principal
Il est d´efini par son cosinus carr´e. Le cosinus de l’angle entre l’individu centr´e i et l’axe principal k est ei g, ak M cos(e . i , ak ) =
C’est l’angle entre l’individu et sa projection orthogonale sur le sous-espace. La q projection de ei g sur le sous-espace F q , q p, est k=1 cikak , et donc
− ei − g car les ak forment une base orthonormale. Comme ei − g, ak M
ei, F q ) = cos (
2
cik . p 2 k=1 cik
q 2 k=1 cik . p 2 k=1 cik
La qualit´e de la repr´esentation de l’individu i sur le plan F q est donc la somme des qualit´es de repr´esentation sur les axes formant F q . Il est significatif quand le point ei n’est pas trop pr`es de g.
Cette grandeur mesure la qualit´e de la repr´esentation de l’individu i sur l’axe principal aj .
Cours d’analyse de donn´ees Jean-Marc Lasgouttes ann´ee 2009-2010.
≤
2
M = cik ,
cos2(e i , ak ) =
−
62
Crit` eres Un cos2 ´egal `a 0, 9 correspond `a un angle de 18 degr´es. Par contre, une valeur de 0, 5 correspond `a un angle de 45 degr´es ! On peut consid´erer par exemple les valeurs sup´erieures `a 0, 80 comme correctes.
Cours d’analyse de donn´ees Jean-Marc Lasgouttes ann´ee 2009-2010.
63
L’ACP en trois transparents (2)
L’ACP en trois transparents (3)
Nombre d’axes on se contente en g´en´eral de garder les axes interpr´etables de valeur propre sup´erieure `a 1. Cercle des corr´elations il permet de visualiser comment les variables sont corr´el´ees ` partir de l`a, on (positivement ou n´egativement) avec les composantes principales. A peut soit trouver une signification physique `a chaque composante, soit montrer que les composantes s´eparent les variables en paquets. Repr´ esentation des individus pour un plan principal donn´e, la repr´esentation des projections des individus permet de confirmer l’interpr´etation des variables. On peut aussi visualiser les individus aberrants (erreur de donn´ee ou individu atypique). Contribution d’un individu `a une composante c’est la part de la variance d’une composante principale qui provient d’un individu donn´e. Si cette contribution est sup´erieur de 2 `a 4 fois au `a son poids, l’individu d´efinit la composante. Si elle est tr`es sup´erieure aux autres, on dit qu’il est surrepr´esent´e et on peut avoir int´erˆet `a mettre l’individu en donn´ee suppl´ementaire. Cours d’analyse de donn´ees Jean-Marc Lasgouttes ann´ee 2009-2010.
68
Qualit´e globale de la repr´esentation c’est la part de l’inertie totale I g qui est expliqu´ee par les axes principaux qui ont ´et´e retenus. Elle permet de mesurer la pr´ecision et la pertinence de l’ACP. Qualit´e de la repr´ esentation d’un individu elle permet de v´erifier que tous les individus sont bien repr´esent´es par le sous-espace principal choisi ; elle s’exprime comme le carr´e du cosinus de l’angle entre l’individu et sa projection orthogonale. Individus supl´ ementaires quand un individu est surrepr´esent´e sur un des premiers axes, on peut le supprimer de l’analyse et le r´eintroduire dans la repr´esentation comme individu suppl´ementaire. Variables suppl´ementaires quantitatives certaines variables peuvent ˆetre mises de cot´e lors de l’ACP et report´ees s´epar´ement sur le cercle des corr´elation. Variables suppl´ementaires qualitatives elles peuvent ˆetre repr´esent´ees sur la projection des individus, et leur liaison aux axes est donn´ee par les valeurs-test.
Cours d’analyse de donn´ees Jean-Marc Lasgouttes ann´ee 2009-2010.
69