Module C106
Analyse et fouille de données
Analyse Factorielle des Correspondances (AFC)
Module C106 : Analyse et fouille des données
Analyse factorielle des correspondances (AFC)
Introduction Objet de l'AFC Profils lignes et profils colonnes
Objet de l'AFC
Module C106 : Analyse et fouille des données
Analyse factorielle des correspondances (AFC)
Introduction Objet de l'AFC Profils lignes et profils colonnes
Objet de l'AFC
Notre matériau de départ est un tableau de contingence de n lignes et p colonnes qui permet de comparer deux variables X à n modalités et Y à p modalités :
Ce tableau se résume à une matrice T (matrice nxp):
exemple : Afin de mieux cibler ses actions promotionnelles, une banque régionale a réalisé une étude sur les produits d'épargne qui auraient actuellement la préférence de sa clientèle. Les données brutes recueillies font l'objet d'une analyse factorielle en composantes principales. Les clients ont eu à répondre à la question suivante : "Sur lequel de ces 5 produits envisagezvous de porter actuellement votre épargne disponible ?" Les réponses ont été les suivantes en fonction des catégories socioprofessionnelles des personnes interrogées. (d'après un sujet de DECF)
Le tableau de contingence à étudier est donc :
Plus précisément :
Comme T , F possède n lignes et p colonnes. q
le tableau des profils lignes : on divise chaque élément d'une ligne par la somme des valeurs de la ligne
exemple : reprenons l'exemple précédent.
Les profils lignes et colonnes sont :
Chaque ligne de Pl peut être considérée comme un point M i dans l'espace Rp. Le tableau Pl correspond donc à un nuage de n points dans Rp
gravité de ces points M i est le point G l de coordonnées (k /k k /k ... k /k ... k /k). 1 2 j p Chaque ligne de Pc peut être considérée comme un point P j dans l'espace Rn. Le tableau Pc correspond donc aussi à un nuage de p points dans Rn. On affecte chacun de ces points d'une "masse" k /k. De même, la relation j
.
.
.
.
.
implique que l'ensemble des points P j appartient à un sous-espace de Rn de dimension n-1. Le centre de gravité de ces points P j est le point G c de coordonnées (k1 /k k /k ... ki /k ... kn / 2 k).
.
.
.
exemple : reprenons l'exemple précédent
Les centres de gravité du nuage des profils lignes et du nuage des profils colonnes sont :
En probabilités, on dit que deux variables aléatoires sont indépendantes si p(X=i, Y=j) = p(X=i)p (Y=j). Par extension, on dira que les modalités i de la variable X et j de la variable Y sont indépendantes si
.
Module C106 : Analyse et fouille des données
Analyse factorielle des correspondances (AFC)
Pratique de l'AFC Distance et inertie Ecart à l'indépendance ACP sur les profils lignes ACP sur les profils colonnes Aides à l'interprétation Pratique de l'AFC avec Tanagra
Distance et inertie On définit la distance entre deux profils lignes i et i' (c'est à dire entre les deux points M i et Mi' de Rp) par la relation suivante qui donne son carré :
q q
le poids des lignes n'intervient pas. on peut regrouper plusieurs lignes de même profil sans changer les distances entre lignes (et entre colonnes). C'est la propriété d'équivalence distributionnelle.
En particulier, la distance entre le point Mi et le centre de gravité du nuage de p points est :
en utilisant la notation On définit de la même façon le carré de la distance entre deux profils colonnes par :
exemple : comme dans le cas précédent, on peut calculer les distances entre colonnes :
Ecart à l'indépendance On définit le taux de liaison tij par
Il mesure l'écart par rapport au taux moyen (qui correspond à l'indépendance). exemple : déterminons le taux de liaison pour l'exemple précédent.
Ainsi, on peut observer que pour l'assurance vie (AV : deuxième ligne), les agriculteurs s'écartent de 59% de la moyenne tandis que les ouvriers sont en deça de 60%. La quantité ϕ2 mesure l'écart à l'indépendance. Si les modalités étaient indépendantes, on aurait Notons que l'on a
et donc ϕ2 = 0.
ACP sur les profils lignes Effectuons une ACP sur les profils lignes. Nous partons avec le tableau P l des fréquences correspondantes kij/k = (kij/k)(k/k ) = i. i. fij/f i.
Nous effectuons une transformation sur ce tableau en divisant chaque terme ij par
ce qui permet d'utiliser la propriété
suivante : la distance euclidienne dE(i, i') est égale à la distance du CHI-2, d χ (i, i'). En effet, 2
On pose de même V*=X*'X* et on a
On posera également dans la suite G j = g' j =
qui est la composante du vecteur G
Propriété 1 : VG = 0 ce qui signifie que G est vecteur propre de V avec la valeur propre 0
Propriété 2 : V*G = G ce qui signifie que G est vecteur propre de V* avec la valeur propre 1
Propriété 3 : Si U est orthogonal à G, alors VU
V*U ce qui signifie que V et V* possède les mêmes vecteurs propres (orthogonaux
exemple : appliquons les résultats précédents à notre exemple. Le tableau des fréquences relatives est
On en déduit la matrice X* :
Calculons alors la matrice V* = X*'X* (qui n'est pas ici la matrice des corrélations) :
On pourra vérifier que le vcteur propre associé à la valeur propre 1 correspond bien aux valeurs
Les points représentatifs des lignes sont les points X i de coordonnées
.Les coordonnées dans le systèmes d'axes défini par
les vecteurs propres sont :
exemple : dans l'exemple considéré, les points lignes sont, dans le système initial
Calculons leurs coordonnées dans le plan (U1, U2)
(vecteur G)
Comme on avait V* =X*'X* (matrice carrée pxp), on a maintenant W* = X*X*' (matrice carrée nxn) On démontre que q q
V* et W* ont les mêmes valeurs propres non nulles λα (α =1, min(n, p)-1) Soit Uα vecteur propre de V* et Zα vecteur propre de W* pour la même valeur propre λα (différente de 0). Alors
En particulier, la ième composante de Zα est
En permutant les rôles de i et j, on obtient aussi
Ψαi est la composante du point ligne i sur l'axe factoriel défini par Uα ; Φα j est la composante du point colonne j sur l'axe factoriel
défini par Zα. On voit donc que l'on peut passer, avec ces relations de transitions de l'espace des profils lignes à l'espace des profils colonnes.
Cette forme indique des oppositions entre modalités. Elle correspond à un tableau de contingence où la diagonale est plus chargée que le reste du tableau. On peut aussi avoir des accumulations de points ou paquets de points :
où G et H sont les centres de gravité des nuages lignes et colonnes respectivement. exemple : sur l'exemple précédent, on peut remarquer une forme relativement parabolique des nuages de points :
On peut voir l'opposition entre PEL et PT, entre PT et AV d'une part et l'opposition entre CSUP et OU et entre CSUP, EMP, OU et PI, ARCOM, AG. Calcul des contributions à l'inertie :
Tanagra n'est pas iunitialement conçu pour l'AFC. Cependant, il est tout à fait possible d'utiliser Tanagra pour effectuer une AFC dans la mesure où certaines fonctionnalités le permettent. On partira du tableau Excel donnant l'exemple qui a servi de fil rouge dans ce chapitre (on suppose qu'Excel incorpore l'éxécution de Tanagra comme expliqué au chapitre précédent).
A l'exécution de Tanagra, on a la situation de départ suivante :
Module C106 : Analyse et fouille des données
Analyse factorielle des correspondances (AFC)
Exemple traité
Cet exemple a été proposé par Annie Morin ( MIAGE Rennes) lors d'une première version de ce module. Il est repris ici avec le logiciel Tanagra dans modifier les commentaires de l'auteur initial Date de la dernière modification : 29 juillet 2008
Un sociologue a dépouillé une moitié aléatoire du fichier d'inscription d'une année du Conservatoire National Supérieur de Musique et de Danse de Paris. Profession des Parents et Instrument joué. Le fichier Excel, musique.xls, peut être consulté. Le tableau de contingence croise les catégories socio professionnelles des parents et les instruments joués.
Le graphe précédent permet de comparer les profils de distribution des instruments par CSP. En général un seul des
La variable CSP : nous commençons la lecture par les contributions des modalités à la construction des axes. On voit immédiatement que le premier axe est déterminé par la contribution des cadres et dans une moindre mesure des
Le graphique suivant représente le premier plan principal et explique 78% de l'inertie totale. premier axe est caractérisé par les contributions du violon et du tuba trombone, chacun des instruments étant situé à une extrémité du premier axe, le second par la corde basse et le hautbois et le troisième par la flûte et à un moindre degré le cor. Nous reviendrons sur ces tableaux ainsi que sur le tableau original lors de l'examen des projections dans les plans factoriels.
Module C106 : Analyse et fouille des données
Analyse factorielle des correspondances (AFC)
Exercices Exercice 1 : qualité des eaux Exercice 2 : les boissons
auteurs : Annie Morin, Miage Rennes . Date de la dernière modification : 10 décembre 2002
Exercice 1 Le tableau suivant donne la répartition en 1995 en Bretagne du nombre de points de surveillance suivant la classe de qualité des eaux de baignade selon la situation eau douce, eau de mer. La qualité est bonne ou assez bonne.(tableaux de l'économie bretonne 1998/1999 page 25) On a 4 catégories : baignade en eaux douces de bonne qualité noté qualitéOdouc , baignade en eaux douces de qualité moyenne ou pouvant être momentanément polluées qualOdouab , baignade en eaux de mer de bonne qualité qualOmertb , baignade en eaux de mer de qualité moyenne ou pouvant être momentanément polluées qualOmerab. Nous considérons les 4 départements bretons. département
qualiteOdouce
qualOmertb
qualOmerab
qualOdouab
cotesdarmor
5
58
2
1
finistere
4
115
118
2
illeetvilaine
9
21
25
17
morbihan
6
75
40
3
Première question : que signifie la première ligne du tableau de données précédent?
Deuxième question : 1. 2. 3.
Combien d'axes factoriels va-t-on conserver dans cette analyse? Quel est le département le plus éloigné du profil moyen? premier axe : quels sont les départements qui contribuent le plus à l'inertie du premier axe? quels sont les sites qui contribuent le plus à l'inertie du premier axe? deuxième axe : quels sont les départements qui contribuent le plus à l'inertie du deuxième axe? quels sont les sites qui contribuent le plus à l'inertie du deuxième axe? Que pensez vous de la qualité des points projetés sur le premier plan factoriel? En considérant le graphique suivant donnant la projection de spoints sur le premier plan factoriel, interprétez les résultats. r r
4.
r r
5. 6.
Exercice 2 Le tableau suivant croise 8 boissons et les contextes ou caractéristiques (il y en a 20) auxquelles elles sont associées. Vous avez une copie du fichier de données sous
format Excel.
Nous commençons par une représentation graphique des profils de lignes en utilisant la fonction AMADO de Spad.
On va procéder à une AFC sur ce tableau de données . Voici les résultats :
Question : 1. 2. 3.
Combien d'axes factoriels va-t-on conserver dans cette analyse? Quel est le département le plus éloigné du profil moyen? premier axe : quels sont les départements qui contribuent le plus à l'inertie du premier axe? quels sont les sites qui contribuent le plus à l'inertie du premier axe? deuxième axe : r r
4. 5.
r
quels sont les départements qui contribuent le plus à l'inertie du deuxième axe?
6. 7.
Que pensez vous de la qualité des points projetés sur le premier plan factoriel? En considérant le graphique suivant donnant la projection des points sur le premier plan factoriel, interprétez les résultats.