Analyse en composantes principales(ACP) Il s’agit d’étudier d’étudier un tableau individus × Variables lorsque les variables sont quantitatives. Il s’agit tout d’abord de présenter une analyse analyse exploratoire permettant de décrire décrire les individus dans leurs multiples dimensions et de visualiser les relations entre les variables ; il s’agit ensuite d’étudier l’analyse en composantes principales ce qui permet de visualiser d’obtenir une carte des individus en fonction de leurs proximités et une carte des variables en fonction de leurs corrélations Les lignes du tableau à double entrées représentent des individus et les colonnes représentes les variables. A l’intersection de la ligne i et de la colonne k se trouve la valeur de la variable k pour l’individu i.
Figure 1.1 Tableau des données en ACP. xik : valeur de la variable k pour l’individu i. I : nombre d’individus et ensemble des individus. K : nombre de variables et ensemble des variables.
Les questions que l’on se pose sur les individus et celles que l’on se pose sur les variables variables ne sont pas de même nature. À propos de deux individus, on essaie d’évaluer leur ressemblance : deux individus se ressemblent d’autant plus qu’ils possèdent des valeurs proches pour l’ensemble des variables. En ACP, la distance d(i ,l) entre deux individus i et l est définie par : 2
d (i, l ) =
∑(x
ik
− xlk )
2
k ∈K
À propos de deux variables, on essaie d’évaluer leur liaison. En ACP, la liaison entre deux variables est mesurée par le coefficient de corrélation linéaire (dans de rares situations, on utilise la covariance), noté usuellement r . Soit : cov( X k , X h ) 1 ⎛ x − X k ⎞ ⎛ xih − X h ⎞ r ( k , h) = = ∑ ⎜ ik ⎟⎜ ⎟ V ( X k ) V ( X h ) I ⎝ sk ⎠ ⎝ sh ⎠ Avec X k et X h sont les moyennes de X k et X h et S k et Sh sont les écarts types Appliquée à un tel tableau, l’objectif général de l’ACP est une étude exploratoire. Les deux voies principales de cette exploration sont : Un bilan des ressemblances entre individus . On cherche alors à répondre à des questions du type suivant : quels sont les individus qui se ressemblent ? Quels sont ceux qui diffèrent ? Plus généralement, on souhaite décrire la variabilité des individus .Pour cela, on cherche à mettre en évidence des groupes homogènes d’individus dans le cadre d’une typologie des individus . Selon un autre point de vue, on cherche les principales dimensions de variabilité des individus.
Un bilan des liaisons entre variables .
Les questions sont alors : quelles variables sont corrélées positivement entre elles ? Quelles sont celles qui s’opposent (corrélées négativement) ? Existe-t-il des groupes de variables corrélées entre elles ? Peut-on mettre en évidence une typologie des variables ? Un autre aspect de l’étude des liaisons entre variables consiste à résumer l’ensemble des variables par un petit nombre de variables synthétiques appelées ici composantes principales . Ce point de vue est très lié au précédent : une composante principale peut être considérée comme le représentant (la synthèse) d’un groupe de variables liées entre elles. Naturellement, ces deux voies ne sont pas indépendantes du fait de la dualité inhérente à l’étude d’un tableau rectangulaire : la structure du tableau peut être analysée à la fois par l’intermédiaire de la typologie des individus et de la typologie des variables. Aussi, cherche-t-on en général à relier ces deux typologies. Pour cela, on caractérise les classes d’individus par des variables (on sélectionne ainsi les variables pour lesquelles l’ensemble des individus d’une classe possède des valeurs particulièrement grandes ou particulièrement petites). De même, on caractérise un groupe de variables liées entre elles par des individus types (on sélectionne ainsi les individus qui possèdent des valeurs particulièrement grandes ou des valeurs particulièrement petites pour un ensemble de variables liées positivement entre elles). Enfin, dans la situation idéale, les deux typologies peuvent être « superposées » : chaque groupe de variables caractérise un groupe d’individus et chaque groupe d’individus rassemble les individus types d’un groupe de variables. Ajoutons enfin que la notion de principale dimension de variabilité des individus rejoint celle de variable synthétique.
1. Analyses exploratoire de données multidimensionnelles Le tableau suivant va servir de fil conducteur. Les lignes du tableau représente les modèles de voitures de l’année 1989. et les colonnes les caractéristiques techniques : cylindrée, puissance, vitesse, poids, longueur, largeur. Numéro modèle Cylindrée Puissance Vitesse poids Longueur Largeur
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24
Honda R19 Fiat tipo Peugeot 205 R21 Citroen bx Bmw 530i Rover 827i R25 Opel omega Peugeot 405 break Ford sierra Bmw 325i Audi 90 quattro Ford scorpio Renaut espace Nissan vanette Vw caravane Ford fiesta Fiat uno Peugeot 205 Peugeot 205 rallye Seat ibiza sxi Citroen ax sport
1396 1721 1580 1769 2068 1769 2986 2675 2548 1998 1905 1993 2494 1994 2933 1995 1952 2109 1117 1116 1580 1294 1461 1294
90 92 83 90 88 90 188 177 182 122 125 115 171 160 150 120 87 112 50 58 80 103 100 95
174 180 170 180 180 182 226 222 226 190 194 185 208 214 200 177 144 149 135 145 159 189 181 184
850 965 970 1080 1135 1060 1510 1365 1350 1255 1120 1190 1300 1220 1345 1265 1430 1320 810 780 880 805 925 730
369 415 395 440 446 424 472 469 471 473 439 451 432 439 466 436 436 457 371 364 370 370 363 350
166 169 170 169 170 168 175 175 180 177 171 172 164 169 176 177 169 184 162 155 156 157 161 160
Etude descriptive des individus On peut remarquer que - Peugeot 205 rallye, la Seat ibza sxi et la Citroen AX sport ont de fortes puissances et vitesse par rapport à leurs autres caractéristiques. - La Nissan Vanette et la VW caravelle se caractérisent par de petites vitesses - La Renault 21 a une petite puissance par rapport à sa cylindre. C’est une diesel. D’une manière générale, l’ensemble des caractéristiques évoluent dans le même sens, des petites voitures au plus grandes. Etude descriptive des variables Tableau 2 Statistiques descriptives
N MinimumMaximum Moyenne Ecart type CYLINDRE 24 1116,00 2986,001906,1250 527,9087 PUISSANC 24 50,00 188,00 113,6667 38,7844 VITESSE 24 135,00 226,00 183,0833 25,2154 POIDS 24 730,00 1510,001110,8333 230,2912 LONGUEUR 24 350,00 473,00 421,5833 41,3405 LARGEUR 24 155,00 184,00 168,8333 7,6537 Corrélations CYLINDRE PUISSANCVITESSEPOIDSLONGUEURLARGEUR
CYLINDRE
1,000
,861
,693 ,905
,864
,709
PUISSANC VITESSE POIDS LONGUEUR LARGEUR
,861 ,693 ,905 ,864 ,709
1,000 ,894 ,746 ,689 ,552
,894 1,000 ,491 ,532 ,363
,746 ,491 1,000 ,917 ,791
,689 ,532 ,917 1,000 ,864
,552 ,363 ,791 ,864 1,000
Le tableau 2 donne quelques statistiques élémentaire et la matrice de corrélations entre les variables. Toutes les variables sont corrélés positivement La vitesse est essentiellement corrélée à la puissance et moins aux autres variables. Les variables du groupe(Cylindre, longueur et poids) sont bien corrélées entre elles Comme corrélation importantes, il reste Longueur et Largeur(0.86) et Puissance et Vitesse(0.89). On peut résumer cette première analyse en prenant comme indice de proximité entre les variables leurs corrélations : A la première étape on regroupe les deux premières variables les plus corrélées : Poids et Longueur(0.917). A la deuxième étape on recherche la plus forte corrélation restante : Poids et Cylindre (0.90). la variable cylindre vient rejoindre le groupe( Poids, Longueur) A la troisième, le groupe Puissance et vitesse, se forme avec une corrélation de 0.894. A la quatrième étape, la largeur vient rejoindre le groupe (Cylindre, Poids, Longueur) ; corrélation Longueur Largeur = 0.864. Et enfin, les deux groupes (Puissance, Vitesse) et (Cylindre, Poids, Longueur, Largeur) fusionnent. La plus forte corrélation entre une variable d’un groupe et une variable de l’autre groupe vaut 0.861 ; Puissance et Cylindre. On peut mesurer la proximité entre chaque variable et l’ensemble de toutes les autres, y compris elle même , en utilisant plutôt les corrélations carrées. Il s’agit de mesurer en quoi une variable représente plus qu’elle même : par exemple, l’importance de la variable Cylindre est calculé en faisant la moyenne de toutes ses corrélations carrées avec l’ensemble des variables : 1 + 0.8612 + 0.963 2 + 0.905 2 + 0.864 2 + 0.709 2 4.29 = 6 6 Le tableau suivant donne la proximité de chaque variable à l’ensemble de toutes les variables : Variable Cylindre Puissance Vitesse Poids Longueur Largeur
Proximité 0.715 0.646 0.489 0.681 0.682 0.552
Ainsi la variable qui résume le mieux l’ensemble des six variables est la Cylindrée. La vitesse est une variable plus indépendante des autres. 2. L’analyse en composantes principales
Les données sont représentées dans un tableau Individus × Variables. Il y a p variables X 1 , X2,…, X p observées sur n individus. On note x ij la valeur prise par la variable X j pour l’individu i. L’analyse ACP consiste à rechercher un petit nombre de nouvelles variables Y 1, …, Ym appelées composantes principales non corrélées entre elles et résumant aussi bien que possible les données de départ. Le critère de l’inertie permet d’obtenir les composantes principales et qui présente trois avantages : - l’approche est géometrique, ce qui permet d’obtenir une compréhension plus profonde de la méthodes et des aides à l’interprétation - l’analyse des correspondances présentée dans les chapitres suivants repose sur une généralisation de l’ACP qui ne peut se concevoir que dans le cadre géométrique - les sorties des programmes d’ACP correspondent à cette approche 2.1 Présentation de l’ACP selon l’approche géométrique Le nuage de points est associés aux données et ses caractéristiques Le centre de gravité du nuage N est le point g dont les coordonnées sont les moyennes des différentes variables : x1 + x2 ...x p g=
=x
p
dans notre exemple g = (196 114 183 1111 422 169) le vecteur g représente en quelque sorte les caractéristiques d’une voiture moyenne la dispersion autour du centre de gravité est mesurée à l’aide de l’inertie totale du nuage de points N définit par 1 I ( N , g ) = ∑ d i2 ( xi , g ) ou di2 ( xi , g ) représente le carrée de la distance du point x i au centre n
de gravité g calculée en utilisant la formule : 2
di ( xi , g ) =
∑ (x
ij
− x j )2
L’inertie totale peut se calculer directement des variances des variances p p 1 p 2 1 p n 1 n 2 2 I ( N , g ) = ∑ d i ( xi , g ) = ∑∑ ( xij − x j ) = ∑ ∑ ( xij − x j ) = ∑ s 2j n
j =1
n
j =1 i =1
j =1
n
i =1
j =1
Dans notre exemple : I(N,g) = 267072 +1441 +609 + 50824 + 1638 + 56 = 321640 On voit que l’inertie du nuage est essentiellement due à la cylindrée. Un changement d’échelle pourrait disparaître cette importance. Dans la pratique, il est pratique et même préférable d’obtenir une description des données indépendante du choix de l’unité de mesure. On peut rendre les données homogènes en transformant les variables d’origine en variables centrées et réduites dont la moyenne est nulle et la variance est égale à un. Le centre de gravité est 0 et l’inertie totale = p Première axe principale et première composante principale On cherche à faire passer une droite Δ1 le mieux possible au milieu du nuage de points.
La droite D1 s’appelle le premier axe principal. On peut montrer que la droite D1 passe par l’origine 0, centre de gravité du nuage des données normées et est engendrée par le vecteur u 1 appelle vecteur propre associé à la plus grande valeur propre λ 1 Directions principales - plans principaux - représentation des individus
Le nuage présente généralement des directions d'allongement privilégiées, celle d'allongement maximal D1 est dite première direction principale (du nuage), la suivante D 2 parmi toutes celles perpendiculaires à D 1 est la seconde direction principale, la suivante D 3 parmi toutes celles perpendiculaires à D 1 et D2 est la troisième direction principale, etc. On choisit un vecteur unitaire u k sur chaque direction D k et on obtient une base orthonormée p
de R , c'est la base principale du nuage.
+-------------------------------------------------+-------------------------------------------------------+ I | * * * I I | * D1 * * I I * | * * * I I * | * * * I I - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - +- - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - I I * * * | G * * * I I * * * | * * I I * * * * | * I I * * * * * | I I * * | I
+-------------------------------------------------+-------------------------------------------------------+ On appelle plan principal ixj le plan vectoriel déterminé par les directions D i et D j. En p
général, le nuage est approximativement situé dans un sous-espace de R de faible dimension, engendré par les premières directions principales; l'examen de ses projections sur quelques plans principaux bien choisis (1x2, 1x3, etc.) permet alors de découvrir ses particularités et de décrire sa structure assez précisément.
Composantes principales - représentation des variables p
De même que les variables initiales sont associées aux axes canoniques de R , de nouvelles variables appelées composantes principales sont associées aux axes principaux: la composante n
principale c k est le vecteur de R qui donne les coordonnées des individus sur l'axe principal Dk muni du vecteur unitaire u k .
Les composantes principales sont naturellement des combinaisons linéaires des variables initiales, on montre qu'elles sont centrées et non corrélées. L'examen des corrélations entre les variables initiales et les composantes principales permet d'interpréter ces dernières et les axes principaux correspondants. Les programmes usuels permettent de représenter ces quantités dans le cercle des corrélations. Cette représentation n'est pas de même nature que celle des individus sur les plans principaux. Et si certains logiciels superposent les deux sur les mêmes graphiques, il faut garder à l'esprit que la position des points-variables par rapport aux points-individus n'y est pas directement interprétable!
Une présentation alternative de l'ACP, moins intuitive mais équivalente, et privilégiant les variables, l'introduit comme la recherche de nouvelles variables (les composantes principales) non corrélées entre elles, et les plus corrélées avec l'ensemble des variables initiales.
AIDES A L'INTERPRETATION
Même si tout n'a pas été détaillé, on aura compris que les bases mathématiques de l'ACP sont réduites. L'art de l'analyste est celui de l'interprétation des résultats, cela nécessite la fois la compréhension des méthodes employées et la connaissance du domaine des données étudiées. L'interprétation s'appuie sur l'examen de différentes quantités calculées et éditées par les logiciels d'ACP.
i
--------+-----------------------------------------------------+----------------------- 0
ik
Dk
Taux d'inertie
Il s'agit des inerties successives I 1, I2, I3, etc. suivant les axes principaux D 1, D2, D3, etc. du nuage. Leurs valeurs relatives traduisent l'importance de l'allongement suivant ces directions successives. On édite les taux relatifs I 1/I, I2/I, I3/I, etc., ainsi que les taux relatifs cumulés. Lorsque ces derniers approchent 100%, on considère que l'on a assez d'axes principaux pour représenter convenablement le nuage.
Contributions des axes aux individus (COR)
Il s'agit des ratios tels que:
Cor( k , i ) =
I ki I i
qui mesure la qualité de la représentation de l'individu i sur l'axe principal D k .
Cor( k , i ) = 1 ∑ On a: k
Il n'est licite de commenter la position de l'individu i sur le plan principal kxh que si le ratio:
[ I ki + I hi ] I i
n'est pas trop faible.
La considération de ces ratios, qui sont des cosinus carrés, n'est pertinente que pour les points pas trop proches de l'origine. Pour ceux-ci, c'est plus leur position, centrale, que la direction dans laquelle se manifeste leur faible éloignement, qui les caractérise.
Contributions des individus aux axes (CTR)
Il s'agit des ratios tels que: CTR( i, k ) =
I ki I k
qui mesure la part prise par l'individu i dans la détermination de l'axe principal D k . On a:
∑ CTR(i, k ) = 1 i
Contributions des axes aux variables (COR)
Il s'agit des coefficients de corrélation au carré tels que: COR (k , i ) = cor 2 (ck , x j )
entre la variable initiale x .j et la composante principale c k . Elles permettent comme on l'a vu de dégager la signification des axes.
∑ COR( k, j ) = 1 k
Ces quantités les carrés de celles figurées dans le cercle des corrélations utilisé pour représenter graphiquement les variables.
Contributions des variables aux axes (CTR)
Il s'agit des ratios tels que: CTR( j , k ) =
cor 2 (ck , x j )
∑ Cor 2 (c , x ) k
i
i
On a :
∑ CTR( j , k ) = 1 j
i
L'observation des premiers plans principaux ne permet aucune conclusion, et peut même être source de contresens, si elle ne s'accompagne pas de l'examen des quantités précédentes. Il faut donc toujours les faire éditer par le logiciel utilisé et les consulter.
Eléments supplémentaires
Si on craint que l'influence de certains individus ne soit excessive pour la détermination des axes principaux, il est possible de les placer en éléments supplémentaires, c'est à dire qu'ils ne font pas partie du nuage dont on cherche les directions principales, mais on peut figurer leur position sur les plans principaux obtenus. On traite de la même manière des variables en éléments supplémentaires, elles ne font pas partie de l'ensemble des variables de base mais on peut examiner leurs corrélations avec les composantes principales obtenues. Après une première ACP des données étudiées, il est recommandé d'éprouver la stabilité des configurations observées en effectuant de nouvelles analyses laissant en éléments supplémentaires les individus ou variables d'importance trop marquée, ou encore les données douteuses.
CONCLUSION
L'ACP est une technique de statistique descriptive dont le principe est simple mais qui met en oeuvre des calculs numériques importants, pour cette raison elle n'a pu se développer qu'avec l'apparition des ordinateurs. Il est à présent possible de traiter des données de taille conséquente sur micro-ordinateur. L'ACP est à conseiller pour un premier examen, une mise en forme ou une présentation synthétique de données abondantes croisant des individus avec des variables quantitatives. On n'omettra cependant pas d'examiner préalablement les données par les méthodes statistiques usuelles (moyenne, écart-type, graphiques, corrélation, etc.).
Un reproche fréquemment adressé à l'ACP et aux techniques connexes est qu'elles ne révéleraient que des évidences. Le propos est injuste, mais il est rassurant que souvent les premiers axes retrouvent et confirment ce qui était déjà connu. Comme avec les autres méthodes descriptives, il faut être très prudent pour inférer des modèles explicatifs ou causals à partir des configurations obtenues.
Eléments supplémentaires
Si on craint que l'influence de certains individus ne soit excessive pour la détermination des axes principaux, il est possible de les placer en éléments supplémentaires,
c'est à dire qu'ils ne font pas partie du nuage dont on cherche les
directions principales, mais on peut figurer leur position sur les plans principaux obtenus. On traite de la même manière des variables en éléments supplémentaires, elles ne font pas partie de l'ensemble des variables de base mais on peut examiner leurs corrélations avec les composantes principales obtenues. Après une première ACP des données étudiées, il est recommandé d'éprouver la stabilité des configurations observées en effectuant de nouvelles analyses laissant en éléments supplémentaires les individus ou variables d'importance trop marquée, ou encore les données douteuses.
Exemple : Une entreprise multinationale souhaite implanter dans un pays X l’une de ses unités de production. Elle réalise une étude pour évaluer l’attractivité économique des 22 régions (Tableau ci-dessous).. Objectif : est il possible de
résumer les 7 variables en 2 ou 3 maximum, avec un minimum de perte d’information de manière à pouvoir interpréter plus facilement cette dernière. REGION POPUL TACT SUPERF
NBENT NBBREV CHOM TELEPH
R1
1624,00 39,14 8280,00 35976,00
241,00
R2
2795,00 36,62 41308,00 85531,00
256,00
R3
1320,00 37,48 26013,00 40494,00
129,00
9,30
600,00
R4
1390,00 38,63 17589,00 35888,00
91,00
9,00
600,00
R5
1600,00 38,26 31582,00 40714,00
223,00
8,10
750,00
R6
2795,00 36,62 27208,00 73763,00
296,00
9,50 1300,00
R7
2370,00 38,78 39151,00 56753,00
229,00
7,90 1100,00
R8
1340,00 37,85 25606,00 24060,00
155,00
9,30
550,00
R9
240,00
8680
5,20
700,00
10,20 1300,00
8273
R10
1090,00 37,27 16202,00 27481,00
159,00
7,10
450,00
R11
1730,00 37,80 12317,00 37461,00
181,00
10,80
750,00
273604
6722
7,3
5800
R13
2110,00 32,12 27376,00 62202,00
179,00
R14
720,00 38,06 16942,00 21721,00
73,00
7,90
350,00
R15
2300,00 34,34 23547,00 48353,00
185,00
8,60
960,00
R16
2430,00 37,14 45348,00 78771,00
237,00
9,00 1100,00
R17
3960,00 32,05 12414,00 78504,00
278,00
12,60 1600,00
R18
3060,00 37,93 32082,00 72027,00
339,00
9,60 1300,00
R19
1810,00 34,39 19399,00 36285,00
139,00
9,80
750,00
R20
1590,00 36,82 25809,00 44598,00
133,00
10,10
750,00
R21
4260,00 34,96 31400,00 132552,00
610,00
11,00 2300,00
R22
5350,00 39,44 48698,00 159634,00
1474,00
7,40 2500,00
R12
10660 46,04
12012
13,20 1000,00
Popul = population de la région en milliers d’individus Tact = Taux d’activité ( Population active/population totale de la région) en % SUPERF = superficie de la région en KM carrés NBENTR = nombre d’entreprises dans la région
NBREV = nombre de brevets déposés au cours de l’année CHOM = taux de chômage en % TELEPH = nombre de lignes téléphoniques en place dans la région Etape 1 : repérage des observations aberrantes
Les individus présentent des valeurs extrême risquent de fausser l’analyse ; les individus pour les quels beaucoup d’informations manquent sont également d’un intérêt limité pour l’analyse. Dans le tableau ci-dessus, 4 informations sur les 7 manquent pour la région 9. Par ailleurs les valeurs prises par la région 12 sont atypiques. Ces deux régions seront supprimées. Etape 2
Centrer et réduire les variables pour enlever l’hétérogénéité des unités de mesure Etape 3 : calcul d’une matrice de corrélations entre les variables initiales
Dans notre exemple : Matrices des Corrélations CHOM NBENTR TACT POPUL NBREV SUPERF TELZEPH CHOM
1,000
,190 -,766
,246
-,137
-,003
,236
NBENTR
,190
1,000 -,098
,951
,863
,649
,978
TACT
-,766
-,098 1,000
-,203
,192
,193
-,172
POPUL
,246
,951 -,203
1,000
,827
,513
,984
NBREV
-,137
,863
,192
,827
1,000
,541
,836
SUPERF
-,003
,649
,193
,513
,541
1,000
,551
TELEPH
,236
,978 -,172
,984
,836
,551
1,000
L’analyse de la matrice des corrélations permet le repérage de trois situations différentes, des corrélations élevées proches de 0,8-0,9 (en gras) indiquant une première dimension. Deux variables faiblement corrélées avec les autres ( CHOM
et TACT) mais assez fortement liées entre elles ( r = -0,76) suggérant une deuxième dimension. Enfin la variable SUPERF est corrélée avec les variables du groupe 1, mais plus faiblement ( r proche de 0,5-0,6) et constitue une dimension à elle seule. Etape 4 : calcul des combinaisons linéaires.
L’analyse factorielle construit des combinaisons linéaires des variables de départ. Ces calculs donnent un tableau comportant la variance de chacune des composantes principales, ainsi que la part de variance initiale représentée par chacune de celle-ci : Variance expliquée totale Comp
Total % de la variance
% cumulés Sommel% de la variance
% cumulés
1
4,158
59,395
59,395
4,158
59,395
59,395
2
1,899
27,126
86,521
1,899
27,126
86,521
3
,595
8,495
95,016
4
,205
2,926
97,942
5
,105
1,503
99,446
6 3,243E-
,463
99,909
9,113E-02
100,000
02 7 6,379E-03
Méthode d'extraction : Analyse des principaux composants. Etape 5 : Choix des composantes principales
Graphique des valeurs propres 5
4
3
2
e r p o r 1 p r u e l a V 0 1
2
3
4
5
6
7
Numéro de composant
Matrice des composantes Composante 1
2
nombre d'entreprises
,990
nombre de lignes de téléphones
,979
population en milliers
,966
nombre de brevets déposés
,884
superficie en km carré
,676
population active/pop totale
,941
taux de chômage(%)
-,905
Méthode d'extraction : Analyse en composantes principales. a 2 composantes extraites. Etape 6 :L’interprétation est facile en terme graphique
Diagramme de composantes population active/po
1,0
,5 nobre de brevets d superficie en km car
nobre d'entrep nobre de ligne population en
0,0
2 e t -,5 n a s o p m o C -1,0 -1,0
tax de chômage(%) -,5
0,0
,5
1,0
Composante 1
Les coordonnées représentent les corrélations des variables de départ avec les composantes. L’axe horizontal représente la 1 ère composante, il peut s’interpréter comme étant le ‘potentiel de développement économique‘ des régions le nombre d’entreprise, le nombre de lignes téléphoniques, la population et le nombre de brevets lui sont très fortement corrélées, la superficie l’est moins. La 2ème composante oppose le taux de chômage et le taux d’activité et peut s’interpréter comme étant ‘l’activité actuelle de la région. Le fait que les corrélations sont de signe opposé montre que plus le rapport population active sur population totale est élevé, plus le taux de chômage est faible.
Qualité de représentation InitialExtraction nombre d'entreprises 1,000
,979
nombre de lignes de téléphones 1,000
,967
population en milliers 1,000
,946
nombre de brevets déposés 1,000
,882
superficie en km carré 1,000
,532
population active/pop totale 1,000
,894
taux de chômage(%) 1,000
,857
Méthode d'extraction : Analyse des principaux composants. L’analyse de la communalité se base sur le principe suivant : Plus la communalité est proche de zéro plus la variable en question est mal restituée Plus la communalité est proche de un plus la variable en question est bien restituée Etape 7 : visualisation des individus sur les composantes
4
R22
3
1 s i s y l a n a r o f 1
2
R21
1
R17
e r o 0 c s r o t c a -1 f
R2 R6
R18 R16 R7
R13 R15 R19
R5
R20 R11
R3 R8R4
R1
R10 R14
R G E R -2
-3
-2
-1
REGR factor score 2 for analysis
0
1
1
2