Analyse des données appliquée au marketing
Analyse en composante principale
1
Qu’est - ce que l’Analyse des Données ? ce -
A l’occasion de sa conférence donnée don née le 4 octobre 2006 à l’INA-PG l’INA-PG en introduction au cycle Jean-Pierre Fénelon, Jean-Paul Benzécri nous fait l’honneur de confier à MODULAD le texte « In memoriam : Pierre Bourdieu », où il se propose de répondre à la question de son ami « Qu’estQu’est-ce que l’analyse des données ? ».
Jean-Paul Benzécri, octobre 2006,
Né en 1932, ancien élève de l'École l'École normale supérieure (1950), professeur à l'Institut l'Institut de Statistique de l'Université de Paris, Paris , statisticien français fondateur de l’école française d’analyse des données – 1960– 19602 1990
Qu’est - ce que l’Analyse des Données ? ce -
A l’occasion de sa conférence donnée don née le 4 octobre 2006 à l’INA-PG l’INA-PG en introduction au cycle Jean-Pierre Fénelon, Jean-Paul Benzécri nous fait l’honneur de confier à MODULAD le texte « In memoriam : Pierre Bourdieu », où il se propose de répondre à la question de son ami « Qu’estQu’est-ce que l’analyse des données ? ».
Jean-Paul Benzécri, octobre 2006,
Né en 1932, ancien élève de l'École l'École normale supérieure (1950), professeur à l'Institut l'Institut de Statistique de l'Université de Paris, Paris , statisticien français fondateur de l’école française d’analyse des données – 1960– 19602 1990
Analyse des données appliquée au marketing
Analyse Factorielle analyse en composante Principale ACP
Analyse en composante principale • L’ACP, introduite par K. Pearson et Thurston (années 20), est une technique des statistiques descriptives destinée à l’analyse des données multidimensionnelles
4
Analyse en composante principale
PLAN
• • • •
Objectifs. Nuage des individus. Ajustement du nuage des individus Représentation des variables associés à la représentation des individus
• Nuage des variables Nk
5
1. Les objectifs de l’analyse factorielle (option composantes principales)
Décrire un tableau (individus)(variables) : - Résumer un tableau de données à l’aide d’un petit nombre de facteurs. - Visualiser le positionnement des individus les uns par rapport aux autres ( ressemblance ) ( Notion de distance entre individus ) - Visualiser les corrélations entre les variables ( Notion de corrélation entre variables ) rechercher des groupes de variables étroitement liées entre elles (Peut on simplifier les variables - Donner une interprétation aux facteurs. 6
Un exemple de positionnement de Produits Modèle Citroën C2 1.1 Base
Cylindrée(cm3) Puissance (Ch) Vitesse(Km/h) poids (Kg)
Largeur(mm) Longueur(mm)
1124
61
158
932
1659
3666
698
52
135
730
1515
2500
Mini 1.6 170
1598
170
218
1215
1690
3625
Nissan Micra 1.2 65
1240
65
154
965
1660
3715
Renault Clio 3.0 V6
2946
255
245
1400
1810
3812
Audi A3 1.9 TDI
1896
105
187
1295
1765
4203
Peugeot 307 1.4 HDI 70
1398
70
160
1179
1746
4202
Peugeot 407 3.0 V6 BVA
2946
211
229
1640
1811
4676
Mercedes Classe C 270 CDI
2685
170
230
1600
1728
4528
BMW 530d
2993
218
245
1595
1846
4841
Jaguar S-Type 2.7 V6 Bi-Turbo
2720
207
230
1722
1818
4905
BMW 745i
4398
333
250
1870
1902
5029
Mercedes Classe S 400 CDI
3966
260
250
1915
2092
5038
Citroën C3 Pluriel 1.6i
1587
110
185
1177
1700
3934
BMW Z4 2.5i
2494
192
235
1260
1781
4091
Audi TT 1.8T 180
1781
180
228
1280
1764
4041
Aston Martin Vanquish
5935
460
306
1835
1923
4665
Bentley Continental GT
5998
560
318
2385
1918
4804
Ferrari Enzo
5998
660
350
1365
2650
4700
Renault Scenic 1.9 dCi 120
1870
120
188
1430
1805
4259
Volkswagen Touran 1.9 TDI 105
1896
105
180
1498
1794
4391
Land Rover Defender Td5
2495
122
135
1695
1790
3883
Land Rover Discovery Td5
2495
138
157
2175
2190
4705
Nissan X-Trail 2.2 dCi
2184
136
180
1520
1765
Smart Fortwo Coupé
7
4455
Analyse Uni variée
8
4.
Résumé des données Descrip tive Statistics
N Cy lindrée Puissance Vitesse Poids Largeur Longueur
24 24 24 24 24 24
Minimum 698 52 135 730 1515 2500
Max imum 5998 660 350 2385 2650 5038
Mean Std. Dev iation 2722.54 1516.445 206.67 155.721 214.71 56.572 1486.58 387.507 1838.42 220.842 4277.83 581.497
Formule utilisée pour l’écart-type : s
1
n
n 1
( xi x ) 2
i 1
9
Analyse Bivarié
10
Tableau des corrélations Cylindrée Puissance Vitesse Poids Largeur Longueur
Cylindrée 1.000 0.954 0.885 0.692 0.706 0.664
Puissance 1.000 0.934 0.529 0.730 0.527
Vitesse
1.000 0.466 0.619 0.578
Poids
Largeur
1.000 0.477 0.795
Longueur
1.000 0.591
1.000
Toutes les corrélations sont positives. Toutes les corrélations sont significatives au risque 5% ( R 2 / n ) 11
Graphique des liaisons inter-variables (la Ferrari est représentée par un disque plein)
Cylindrée
Puissance
Vitesse
Poids
Largeur
Longueur
12
Analyse Multivarié ACP
13
Visualiser
14
Visualisation des données X1 … X p
F1 F2
F2(i)
*i
0
F1(i)
1
i
x1i … x pi
Le plan factoriel
F1i F2i
…
Cor(X j,F2)
n
0
Tableau des données
Facteurs centrés-réduits résumant les données Fh
p j1
X j Cor(X j,F1)
La carte des variables
u hjX j
(non corrélés entre eux)
15
Rappel de quelques notions Distance Euclidienne
16
Notion de ressemblance Critère de la distance Euclidienne Cas de deux individus: X
Y
A
Xa
Ya
B
Xb
Yb
A
B
A
0
D (A, B)
B
D (B, A)
O
Distance Euclidienne
Ya Yb
A B
Xb
Xa
Exemple: Distance entre deux individus ( Marques )A et B 17
Notion de ressemblance multidimensionnelle
• Deux individus se ressemble s’il ont le même profil de réponse donc les mêmes coordonnées. Il sont proche l’un de l’autre.
. X1
…
X p
x1i
…
x pi
1
i
Critère de proximité : Notion de distance euclidienne multidimensionnelle
n
d ( xi , xl ) 2
x1 ...
x p
p
( xik xkl )
2
k
18
Nuage de points
d 2 ( xi , p)
Variables quantitatives X1
I n d i v i d u s
Xk …
R P
X p
Mi
1
i
x1i
…
x pi
xi
Mp
*G
Ni
0
XG
XP
n x1
...
x p
G
p 2
d ( xi , xl )
2 ( xik xkl ) k
Individu Moyen N = {x1, …, xi, …, x p} = Nuage de points associé aux données Centre de gravité du nuage N :G=
1 n
p
x
i
i 1
19
Problèmes des unités de mesure Pour neutraliser le problème des unités on remplace les données d’origine par les données centrées-réduites
R P
Xi
Mp
*G
* X1
X1 x 1
0
XG
XP
P
s1
X p*
X p
x p s p
Ces nouvelles variables ont une moyenne 0 et un écart-type 1. Le nuage est harmonisé
20
Inertie Totale du nuage
IG
1
n
d ( Mi,0) n 2
i 1
= Somme pondérée des carrées des distances des individus au centre de gravité G=0 L’inertie totale mesure la dispersion du nuage de points
Elle est égale à la somme des variances des variables étudiées S11 - - - -
S12
S13
S22
S1n
Snn S2n
--
S33
--
--
n
=
Matrice de variance covariance
2
IG i 1 S i Tr ( MatriceVar Cov)
21
Inertie du nuage (suite ) • On appelle inertie la quantité d’information contenue dans un tableau de données. • Une inertie nulle signifie que tous les individus sont presque identiques.
• L’inertie du nuage sera égale à la somme des variances des j caractères.
• Si les j caractères sont centrés-réduits, l’inertie sera égale à j.
22
Ajustement du nuage de points Objectif : Trouver la meilleure
représentation axiale du nuage Ni Trouver une direction U telle que : Maximum 1 2 n
OH n
i
i 1
ou
I ( N , U 1 ) *
1 n
n
2 d ( M i H i )
i 1
Minimum
23
Recherche du premier axe principal Mi* u 1
*0
U1
*
U1
Hi
Objectif 1 : On cherche l’axe u1 passant le mieux possible au milieu du nuage N *. On cherche à minimiser l’inertie du nuage N* par rapport à l’axe U1 : I ( N , U 1 ) *
1 n
n
d 2 ( M i H i )
i 1
24
Premier axe principal R p
1 U
Mi
*0
Hi
Objectif 2 : On cherche l’axe d’allongement 1 du nuage N*.
On cherche à maximiser l’inertie du nuage N* projeté sur l’axe U1: 1 n
n
i 1
2
OH i
25
Les objectifs 1 et 2 sont atteints simultanément
d ( Mi,0) d ( H i ,0) d ( M i , H i )
De :
2
2
2
on déduit : 1
n
n i 1
d
2
( Mi,0)
1
n
n i 1
d
2
( H i ,0)
1
n
n
d
2
( M i , H i )
i 1
Inertie totale = p = Inertie expliquée par U + Inertie résiduelle Minimiser 26 Maximiser
Résultats 1. L’axe U1 passe par le centre de gravité G du nuage de points N*. 1. L’axe u1 est engendré par le vecteur normé u 1, vecteur propre de la matrice des corrélations R associé à la plus grande valeur propre 1. 1. L’inertie expliquée par l’axe u1 est égal à 1. 2. La part d’inertie expliquée par le premier axe principal 1 est égal à 1/p. 27
Ajustement du nuage sur un plan Chercher la meilleure représentation plane du nuage du point Ni 1
Objectif: Trouver P telle que n
n
2 OH i i 1
soit maximum(plan d’inertie maximum) LES SOLUTIONS : Le meilleur plan contient la meilleure solutions ( les deux solutions sont emboitées):
U1 appartient au Plan .
•
U2 d’inertie Maximale avec
•
U2 perpendiculaire à U1
•
U1 et U2 forment le même plan
Résultats 1. Le deuxième axe principal 2 orthogonal à 1 et passant le mieux possible au milieu du nuage. 2. Il passe par le centre de gravité 0 du nuage de points et est engendré par le vecteur normé u2, vecteur propre de la matrice des corrélations R associé à la deuxième plus grande valeur propre 2. 3. La deuxième composante principale est définie par projection des points sur le deuxième axe principal. 4. La deuxième composante principale est centrée, de variance 2, et non corrélée à la première composante principale Y1. 29
Suite d’axes de représentation du nuage Ni
• Problème : Trouver une suite d’axes orthogonaux d’inertie maximum.
• Trouver un vecteur Us de l’axe de rang s. • Soit la projection de Mi sur Us 1 H • Trouver Ut telle que n OH soit maximale sous la contrainte Us est perpendiculaire à Ut t
n
i
i 1
s 2 i
Us est le vecteur propre unitaire de la matrice des corrélations associée à la valeur propre de rang s ( λs )
[A*Us = λs * Us ou • (A- λs I) *Us=O
30
Résultat SPSS : Valeurs propres Total Variance Explained
Eigenvalues Total % of Variance Cumulative % 1 4.411 73.521 73.521 2 0.853 14.223 87.745 3 0.436 7.261 95.006 4 0.236 3.931 98.937 5 0.051 0.857 99.794 6 0.012 0.206 100.000 Extraction Method: Principal Component Analysis. Component
1 =
4.411
Somme des valeurs propres = p
31
Résultat SPSS : Les vecteurs propres uh Component Score Coefficient Matrix
Component Cy lindrée
1 .218
2 -. 149
3 -. 325
4 -. 478
5 -2.877
6 -4.459
Puissance
.209
-. 413
-. 207
-. 356
-. 416
6. 990
Vitesse
.201
-. 397
-. 474
.844
2. 507
-2.823
Poids
.172
.675
-. 338
-1.090
1. 716
-. 068
Largeur
.182
-. 130
1. 338
-. 288
.675
-1.187
Longueur
.180
.591
.136
1. 379
-1.142
1. 685
Extraction Method: Principal Com ponent Analy sis. Component Scores.
F1 .218Cylindrée* .209Puissance* ... .180Longueur * 32
Mesure de la qualité du premier facteur F 1 • La variance totale du tableau des données centrées-réduites est définie par : p
Variance totale =
* Var(X j ) p j=1
• La part de la variance de X j expliquée par F1 est égale à Cor 2( X j, F1). • La part de la variance totale expliquée par F 1 est égale à : p
Cor 2 (X j , F1 ) 1
j=1
33
Qualité du premier facteur • Variance totale = p = 6 • Variance expliquée par le premier facteur = 4.411 • Proportion de variance expliquée par le premier facteur : 1
Variance expliquée Variance totale
1 p
4.411 6
0.73521
• Le premier facteur explique 73,521% de la variance totale.
34
Interprétation des résultats 1. Mesurer la qualité des représentations obtenues: critère global ( l’inertie totale),critères individuels. 2. « Donner des noms aux axes ». Expliquer la position des individus. 3. Utilisation éventuelle de variables supplémentaires ( illustratives). 35
Résultats • Le vecteur u1 est vecteur propre (eigenvector ) de la matrice des corrélations R associé à la plus grande valeur propre (eigenvalue) 1. • Le critère p
cor 2 (X j , F1 )
j1
est égal à
1. 36
Qualité du score comme résumé des données Correlations
Cy lindrée
SCORE .956
Puissance
.911
Vitesse
.874
Poids
.772
Largeur
.804
Longueur
.810
Somme des carrés des corrélations: = .9562 + .9112 +…+.8102 = 4.4076
La variance totale des données centrées-réduites est la somme des variances, soit 6 . La part de la variance totale expliquée par le score est égale à la somme des carrés des corrélations, soit 4.4076 . Le score explique la proportion 4.4076/6 = 73,46% de la variance37totale.
Résultats SPSS : Les facteurs 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 Total
MODÈLE Facteur 1 Citroën C2 1.1 Bas e -1.210 Smart Fortwo Coupé -1.934 Mini 1.6 170 -.644 Nissan Mic ra 1.2 65 -1.171 Renault Clio 3.0 V6 -.001 Audi A3 1.9 TDI -.522 Peugeot 307 1.4 HDI 70 -.804 Peugeot 407 3.0 V6 BVA .258 Mercedes Clas se C 270 CDI .037 BMW 530d .391 Jaguar S-Ty pe 2.7 V6 Bi-Turbo .336 BMW 745i .991 Mercedes Clas se S 400 C DI 1.010 Citroën C3 Pluriel 1.6i -.756 BMW Z4 2.5i -.186 Audi TT 1.8T 180 -.350 Aston Martin Vanquish 1.471 Bentley Continental GT 1.939 Ferrari Enzo 2.306 Renault Sc enic 1.9 dCi 120 -.392 Volkswagen Touran 1.9 TDI 105 -.375 Land Rov er Defender Td5 -.500 Land Rov er Disc ov ery Td5 .396 Nissan X-Trail 2.2 dCi -.286 Mean .000 Std. Dev iation 1.000
Facteur 2 -.540 -1.765 -.864 -.428 -.970 .179 .318 .554 .510 .488 .951 .646 .858 -.231 -.632 -.487 -.678 .068 -2.734 .403 .755 .796 2.035 .765 .000 1.000
Facteur 3 .266 -.407 -.552 .258 -.571 .250 .615 -.380 -.781 -.244 -.311 -.597 .707 -.028 -.295 -.200 -1.491 -2.216 2.683 .364 .350 .261 2.252 .068 .000 1.000
Facteur 4 .334 -1.863 -.103 .251 -.553 .537 .719 .681 .742 1.361 1.080 .329 .279 .372 .678 .673 -.401 -1.682 .235 .226 .269 -2.383 -2.015 .235 .000 1.000
Facteur 5 -.894 -.126 2.003 -1.249 1.234 -.314 -1.042 .012 .521 .197 .431 -1.535 .242 -.023 .560 1.769 -1.685 .608 -.318 .350 -.006 -1.324 1.342 -.752 .000 1.000
Facteur 6 .278 -.296 .449 .447 -1.181 -.540 .820 .099 -1.000 -.225 1.146 .752 -2.257 .283 -1.192 .658 -2.022 2.016 .852 .084 .163 -.075 -.305 1.045 .000 381.000
Corrélations entre les variables et les facteurs Component 1 2 3 4 Cy lindrée .962 -.127 -.142 -.113 Puissance .923 -.353 -.090 -.084 Vitesse .886 -.339 -.206 .199 Poids .757 .576 -.147 -.257 Largeur .801 -.111 .583 -.068 Longueur .795 .504 .059 .325 Extraction Method: Principal Component Analy sis.
5 -. 148 -. 021 .129 .088 .035 -. 059
6 -.055 .086 -.035 -.001 -.015 .021
Cor 2 (Cylindrée, F1 ) Cor 2 ( Puissance, F1 ) ... Cor 2 ( Longueur, F 1 )
1 Part de la variance totale expliquée par F 1
39
7.
Deuxième facteur F2
• On recherche le deuxième facteur centré-réduit F2
p
* u X j1 2 j j
non corrélé à F1 et résumant au mieux le tableau X.
• Le facteur F2 maximise p
cor 2 (X j , F2 )
j1
sous la contrainte cor(F1,F2) = 0. 40
Le deuxième facteur F2 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24
MODÈLE Land Rov er Disc ov ery Td5 Jaguar S-Ty pe 2.7 V6 Bi-Turbo Mercedes Clas se S 400 CDI Land Rov er Def ender Td5 Nissan X-Trail 2.2 dCi Volkswagen Touran 1. 9 TD I 105 BMW 745i Peugeot 407 3.0 V6 BVA Mercedes Clas se C 270 CDI BMW 530d Renault Sc enic 1.9 dCi 120 Peugeot 307 1.4 HDI 70 Audi A3 1.9 TDI Bentley Continental GT Citroën C3 Pluriel 1.6i Nissan Mic ra 1.2 65 Audi TT 1. 8T 180 Citroën C2 1.1 Bas e BMW Z4 2.5i Aston Martin Vanquis h Mini 1.6 170 Renault Clio 3. 0 V6 Smart Fortwo Coupé Ferrari Enzo
Facteur 2 2.035 .951 .858 .796 .765 .755 .646 .554 .510 .488 .403 .318 .1 79 .068 -. 231 -. 428 -. 487 -. 540 -. 632 -. 678 -. 864 -. 970 -1.765 -2.734
omponent Score Coefficient Matrix
Component 2 Cy lindrée Puissance Vitesse Poids Largeur Longueur
u
-.149 2 -.413 -.397 .675 -.130 .591 Extraction Method: Principal Component Analy si
a Component Matrix
Component 2 Cy lindrée -.127 Puissance -.353 j 2 Vitesse -.339 Poids .576 Largeur -.111 Longueur .504 Extract ion Method: Princ ipal Co mponent Analy si a. 2 components extracted.
Cor(X ,F )
41
Exemple Auto 2004 : Le premier plan factoriel Familiales (14,2%) 3 Land Rover Discovery
2
Petites Voitures
Jaguar S-Type 2.7 V6 Nissan X-Trail 2.2 d Volkswagen Touran 1 Mercedes Classe S Peugeot 407 3.0 V6 Land Rover Defender BMW 745i Mercedes Classe C Renault Scenic 1.9 d BMW 530d Bentley Continental Peugeot 307 1.4 HDI Audi A3 1.9 TDI 0 Citroën C3 Pluriel Nissan Micra 1.2 Audi TT 1.8T 180 Aston Martin Vanquish BMW Z4 2.5i Citroën C2 1.1
-1
Mini 1.6 170
Grosses Voitures (73,5%)
Renault Clio 3.0 V6
2 r -2 Smart Fortwo Coupé u e t c a F -3
Ferrari Enzo
Le plan explique 87,7% de la variance totale -2 -1 0 1 Sportives
2
3
42
Mesure de la qualité des deux premiers facteurs F 1 et F2 • La variance totale du tableau des données centrées-réduites est définie par : p
Variance totale =
Var(X j* ) p
j=1
• La part de la variance de X j* expliquée par F1 et F2 est égale à R 2(X j; F1, F2) = Cor 2(X j, F1) + Cor 2(X j,F2), car Cor(F1, F2) = 0. • La part de la variance totale expliquée par F1 et F2 est égale à : p
Cor (X , F ) Cor (X , F ) 2
2
j
1
j
2
1
2
j=1
43
Qualité globale de l’analyse -
Variance totale = p
-
Proportion de variance expliquée par le facteur 1
=
1
p
-
Proportion de variance expliquée par le facteur 2
=
2 p
-
Proportion de variance expliquée par les facteurs 1 et 2 =
1 2 p
Et ainsi de suite pour les autres dimensions... 44
Représentation du nuage des variables
45
Nuage de variable Nk 1. Représentation des variables : liaison entre variable 2. Une variable est une colonne du tableau Vecteur à p composante
(1) :Données centrées= Cor ( k, l)=Cos θkl (2) Donnée réduite :
2
K 1
46
AJUSTEMENT
Ys un vecteur de direction de rang s.
•
Mk la représentation de la variable k dans R n •
Hk s la projection de MK sur Ys
•
Problème : Trouver Ys tel que
OH
s 2 k
k
soit maximum Avec la contrainte Ys soit perpendiculaire à Ts •
OH s k
k •
2
cos s
k
k
2
cor ( k , ys ) k
2
La carte des variables 1.0
poids longueur
.5
] ) 2 F , j X ( r o C [ 2 t n e n o p m o C
0.0
largeur cylindrée Vitesse Puissance
-.5
-1.0 -1.0
-.5
0.0
.5
1.0
Component 1 [Cor(X1 , F1)]
Longueur d’une flèche = R(X ; F , F )
48
Résultats • Le vecteur u2 est vecteur propre de la matrice des corrélations R associé à la deuxième plus grande valeur propre 2. • F2 = u21X1* + u22X2* + … + u2pX p* • F2 est centré-réduit • Cor(X j, F2) = p
•
2u2j
cor 2 (X j , F2 ) = 2 est maximum
j1
sous la contrainte cor(F1 , F2 ) 0. 49
Matrice des corrélations
Résumé
Les étapes de l’analyse en composante principale
51
Méthodologie et interprétation • Résumé d’une acp coordonnées contributions qualité de repr.
xij
ACP
des individus
λl
coordonnées contributions qualité repr. des variables initiales
• Étapes d’une ACP en tant qu’analyse géométrique 1. Une distance est définie entre individus, avec pondération éventuelle sur les variables. 2. Détermination des axes principaux; on retient un sous espace restreint. 3. Étude géométrique du nuage des variables, illustrant leurs corrélations approximatives. 4. Étude géométrique du nuage des individus, illustrant les distances approximatives entre eux.