1
Techniques prédictives de data mining Walid AYADI
2
Techniques prédictives • visent à extrapoler de nouvelles informations à partir des informations présentes (c’est le cas du scoring) • expliquent les données • il y a une variable « cible » à prédire.
2
Techniques prédictives • visent à extrapoler de nouvelles informations à partir des informations présentes (c’est le cas du scoring) • expliquent les données • il y a une variable « cible » à prédire.
3
Deux grandes familles • Classement : la variable à expliquer est qualitative • Prédic Prédictio tion n : la var variab iable le à expl expliqu iquer er est est cont continu inuee
4
Classement • Le classement consiste à placer chaque individu de la population dans une classe, parmi plusieurs Classes prédéfinies, en fonction des caractéristiques de l’individu indiquées. • Le résultat du classement est un algorithme permettant d’affecter chaque individu à la meilleure classe.
5
Prédiction • La prédiction consiste à estimer - la valeur d’une variable continue (dite « à expliquer », « cible », «dépendante » ou « endogène ») - en fonction de la valeur d’un certain nombre d’autres variables (dites « explicatives », «indépendantes » ou «exogènes »)
6
Méthodes prédictives
7
Régression linéaire multiple
8
Régression multiple • Estimer la relation entre une variable dépendante (Y ) quantitative et plusieurs variables indépendantes (X 1,X 2
)
, …
• Equation de régression multiple
Cette équation précise la façon dont la variable dépendante est reliée aux variables explicatives :
Y b 0 b 1 X 1 b 2 X 2 ... b p X p e où b 0 , b 1 , b 2 , . . . , b p sont les paramètres et e est un bruit aléatoire représentant le terme d’erreur.
9
Régression multiple
Les termes de l’équation
yi b 0 b 1 x1i b 2 x2i
ième observation de Y
... b p x pi e i
Terme constant Influence de la variable X 1
Influence de la variable X p
Résidu de la ième observation
10
Régression multiple
• Ecriture matricielle du modèle
y1 1 yn 1
b 0 x1,1 x1, p e 1 b 1 x1,n xn, p e n b p y X b e
11
Régression multiple
Estimation des coefficients de régression / méthode des moindres carrés ordinaires : Le principe de l’estimation des coefficients de régression :
b 0 , b 1 , b 2 ,..., b p consiste à minimiser la somme des carrés des résidus : n
i 1
n
e i2
( yi yi ) 2 ˆ
i 1
12
Régression simple Les estimations b 0 , b 1 ˆ
ˆ
( y y )( x x ) cov( x, y) b s ( x x ) ˆ
i
i
i
1
2
i
b 0 ˆ
i
y b 1 x ˆ
Démonstration?....
2 x
13
Régression multiple
Estimation des coefficients du modèle La méthode des moindres carrés donne pour résultat : 1
b X X X T Y T
ˆ
Interprétation des coefficients de régression estimés ▫ La pente b k (k ≠0) L’estimée de Y varie d’un facteur égal à b k lorsque X k augmente d’une unité, les autres variables étant maintenues constantes. ▫ L’ordonnée à l’origine b 0 C’est la valeur moyenne de Y lorsque toutes les X i sont nulles. ˆ
ˆ
ˆ
14
Régression multiple Contrainte : les variables explicatives doivent être indépendantes. Supposons que les variables d’un modèle non indépendantes (corrélées) alors b X T X 1 X T Y ˆ
Car si les variables sont corrélées donc les colonnes de X T X sont corrélées et ainsi X T X 1 .
Rappel : si les colonnes d’une matrice X sont corrélées alors
X
1
1
t ComX puisque det X 0
det X avec det X : déterminant de X et Com X : comatrice de X
15
Régression multiple • La méthode moindre carré ordinaire (MCO) est optimale car :
- les estimateurs sont sans biais : E ( ) et E ( b ) b - de variance minimale parmi tous les estimateurs linéaires - on dit qu’ils sont « BLUE » : best linear unbiased estimators ˆ
• Hypothèse de normalité εi ~ N(0,s²)
ˆ
les estimateurs sont de variance minimale parmi tous les estimateurs ⇒
16
Exercice 1 Au cours d’un mois donné, le représentant d’une société commercialisant du matériel de bureau a visité 56 entreprises répartis dans sept département. Le tableau suivant indique, département par département, le nombre de visites réalisées de même que les commandes enregistrés pendant la période correspondante mesurées en milliers de dinars.
17
Exercice 1 Département (i)
Nombre de visites ( Xi)
Commandes (Yi)
1 2 3 4 5 6 7
2 3 5 9 10 12 15
23 27 28 39 39 45 51
1. Estimer les paramètres du modèle. 2. Interpréter les résultats trouvés.
18
Exercice 1 2
X i
X i X ( X i X ) 2 Y i Y ( X i X )(Y i Y )
i
Xi
Yi
XiYi
1 2 3 4 5 6 7
2 3 5 9 10 12 15
23 27 28 39 39 45 51
46 81 140 351 390 540 765
4 9 25 81 100 144 255
-6 -5 -3 1 2 4 7
36 25 9 1 4 16 49
-13 -9 -8 3 3 9 15
78 45 24 3 6 36 105
Total
56
252
2313
58 8
0
140
0
297
Moy.
8
36
330.4 84
0
20
0
42.4
19
Exercice 1
L’équation du modèle est : Y = 2.12 X +19
20
Exercice 1 L’équation du modèle est : Y = 2.12 X +19
Ce résultat peut être interprété de la façon suivante : en l’absence de visite, le montant des commandes d’un département s’élèverait à 19 000 dinars. •
chaque visite d’un représentant amène une masse de commandes supplémentaires d’environ 2120 dinars. •
21
Régression multiple : qualité d’ajustement
Loi des écarts
(Y Y ) (Y Y ) (Y Y ) 2
2
i
ˆ
ˆ
i
i
i
2
22
Régression multiple : qualité d’ajustement • Coefficient d’ajustement R² = SCR / SCT • R² = proportion de variation de la variable cible expliquée par toutes les variables explicatives • Bon ajustement si R² proche de 1 • R² est biaisé (optimiste car croissant avec le nombre de variables) et on lui substitue le R² ajusté :
23
Exercice 1 : Au cours d’un mois donné, le représentant d’une société commercialisant du matériel de bureau a visité 56 entreprises répartis dans sept département. Le tableau suivant indique, département par département, le nombre de visites réalisées de même que les commandes enregistrés pendant la période correspondante mesurées en milliers de dinars.
24
Exercice 1 : suite Département (i)
Nombre de visites ( Xi)
Commandes (Yi)
1 2 3 4 5 6 7
2 3 5 9 10 12 15
23 27 28 39 39 45 51
3. Calculer la dispersion résiduelle (somme des écarts entre les Observations et les valeurs estimées par le modèle). 4. Calculer le coefficient de détermination et le coefficient ajusté.
25
Exercice 1 : suite i
Xi
Yi
1 2 3 4 5 6 7
2 3 5 9 10 12 15
23 27 28 39 39 45 51
Y i Y (Y i Y ) 2
Y i ˆ
23.27 25.39 29.64 38.12 40.24 44.49 50.85
-13 -9 -8 3 3 9 15
Total
169 81 64 9 9 81 225 638
Dispersion résiduelle :
e (Y Y ) 2 i
ˆ
i
i
2
7.94
(Y i Y ) ˆ
-12.73 -10.61 -6.36 2.12 4.24 8.49 14.85
(Y i Y ) 2 (Y i Y i ) (Y i Y i ) 2 ˆ
162 112.57 40.45 4.49 17.98 72.08 220.52 630.09
ˆ
0.27 -1.61 1.64 -0.88 1.24 -0.51 -0.51
ˆ
0.07 2.59 2.69 0.77 1.54 0.26 0.02 7.94
26
Exercice 1 : suite i
Xi
Yi
1 2 3 4 5 6 7
2 3 5 9 10 12 15
23 27 28 39 39 45 51
Y i ˆ
23.27 25.39 29.64 38.12 40.24 44.49 50.85
Y i Y (Y i Y ) 2
-13 -9 -8 3 3 9 15
Total
169 81 64 9 9 81 225 638
(Y i Y ) ˆ
-12.73 -10.61 -6.36 2.12 4.24 8.49 14.85
(Y i Y ) 2 (Y i Y i ) (Y i Y i ) 2 ˆ
162 112.57 40.45 4.49 17.98 72.08 220.52 630.09
ˆ
0.27 -1.61 1.64 -0.88 1.24 -0.51 -0.51
ˆ
0.07 2.59 2.69 0.77 1.54 0.26 0.02 7.94
Coefficient de détermination :
(Y Y )
(Y i Y ) 2 ˆ
R
2
i
2
630 638
0.987
Le modèle restitue 98,7% de l’information totale : une relation linéaire presque parfaite sur les données observées.
27
Régression multiple : apport marginal de X j Modèle : Y = b0 + b1X1 + … + b jX j + … + bk Xk + e Test de Student : H0 : b j = 0 (X j non significative) H1 : b j 0 (X j significative)
b j b j ˆ
Soit la statistique t telle que t
S b ˆ
S b ˆ
j
S X jY
X
ij
j
: l’erreur standard sur b j ˆ
n X j
i
S X j Y
(Y i Y i ) 2 ˆ
i
n2
: l’écart type des erreurs du modèle
28
Régression multiple : apport marginal de X j Modèle : Y = b0 + b1X1 + … + b jX j + … + bk Xk + e Test de Student : H0 : b j = 0 (X j non significative) H1 : b j 0 (X j significative) Sous H0 :
b j 0 ˆ
t
S b ˆ
j
La statistique t suit une loi de Student à (n-2) degré de liberté
Calculer empiriquement la statistique du test et la comparer aux valeurs du tableau de Student selon le seuil de significativité fixé a priori. Seuil de significativité ou de confiance : 0.05, 0.01, 0.1 •
29
Régression multiple : apport marginal de X j Tableau de Student
30
Régression multiple : apport marginal de X j • Probabilité de décision : P-valeur ou P-value
P-valeur = p(- tα,n-1 < tobs
31
Exercice 1 : suite Département (i)
Nombre de visites ( Xi)
Commandes (Yi)
1 2 3 4 5 6 7
2 3 5 9 10 12 15
23 27 28 39 39 45 51
5. Appliquer le test de Student afin de vérifier la significativité de la variable explicative Nombre de visites dans la modélisation de la variables Commandes au seuil de confiance 0.02
32
Exercice 1 : suite 5.
S X iY S a t
7.94 5
1.26
11.83 2.12
0.106
1.26
0.106
20
On compare t par rapport au chiffre lu sur la table de Student pour n-k-1=7-2=5 degrés de liberté (3.365 avec un seuil de confiance 0.02 ) variable très significative ( t=20 >> 3.365 )
33
Régression multiple : apport de toutes les X j Modèle : Y = b0 + b1X1 + … + b jX j + … + bk Xk + e Test de Fisher-Snedecor : H0 : b1 = b2 =…= bk = 0 (toutes les X j non significatives) H1 : b1 b2 … bk 0 (au moins une X j significative) Sous H0 , la statistique f suit une loi de Fisher à (k , n-k-1) degré de liberté avec :
f
R 2 / k (1 R 2 ) /( n k 1)
Avec n nombre d’individus (lignes) et k nombre de variables (colonnes)
34
Régression multiple : apport de toutes les X j f
R 2 / k (1 R 2 ) /(n k 1)
On compare f avec une valeur f lue dans le tableau de Fisher à un seuil et en fonction des degrés de liberté k et (n-k-1). Si f f alors au moins un des coefficients est différent de zéro.
P-valeur = p(f obs
35
Régression multiple : apport de toutes les X j Valeurs f de la variable de Fisher-Snédécor F(v 1 ,v 2 ) ayant la probabilité d'être dépassées
36
Régression multiple : apport de toutes les X j Valeurs f de la variable de Fisher-Snédécor F(v 1 ,v 2 ) ayant la probabilité d'être dépassées
37
Exercice 2 : Supposons que les services de police souhaitent établir un modèle de régression linéaire reliant la variable endogène «taux de criminalité juvénile» mesuré par un indicateur Y, à la densité de la population urbaine mesurée par un indicateur X1 et aux taux de scolarité X2. On a relevé 5 observations : Y X1 X2 1 1 2 3 3
1. 2. 3. 4.
2 3 5 7 8
4 2 2 1 1
Déterminer les paramètres du modèle. Calculer le coefficient de détermination et le coefficient ajusté. Tester la significativité de chaque variable avec le test de Student. Tester la significativité de toutes les variables avec le test de Fisher.
38
Exercice 2 : réponse 1. Pour simplifier les calculs matriciels, nous opérons un changement de variables Y=Y-2, X1=X1-5, X2=X2-2 Y
X1
X2
-1 -1 0 1 1
-3 -2 0 2 3
2 0 0 -1 -1
39
Exercice 2 : réponse
'
( X X )
1
6 35 11 1
11
0.17 26 0.31
0.31
0.74
40
Exercice 2 : réponse
1 1 3 2 0 2 3 10 ' 0 X Y 2 0 0 1 1 1 4 1 0.17 0.31 10 0.46 b 0 . 31 0 . 74 4 0 . 14 ˆ
b 0 ˆ
Y b 1 X 1 b 2 X 2 2 (0.46 5) (0.14 2) 0.58 ˆ
ˆ
D’où l’expression finale de l’équation de régression multiple estimée :
Y 0.46 X 1 0.14 X 2 0.58 ˆ
41
Exercice 2 : réponse Il existe une relation positive assez forte entre le taux de criminalité juvénile et la densité urbaine. L’augmentation de l’indicateur de ladensité urbaine d’une unité entraine l’augmentation de la criminalité juvénile de 46% et l’augmentation du taux de scolarisation d’une unité de mesure entraine l’augmentation de criminalité juvénile 14%.
42
Exercice 2 : réponse 2. Coefficient de détermination : R 2 0.971 Coefficient de détermination ajusté : R 2 ajusté
0.942
3. Test de Student :
t X 1 t X 2
4.61 0.83
significative au niveau de confiance 0.05 non significative
4. Test de Fisher : F= 34, il y a au moins une variable non significative.
43
Régression multiple : exemple Variable à expliquer : Y = Ventes semestrielles Variables explicatives : X1 = Marché total X2 = Remises aux grossistes X3 = Prix X4 = Budget de Recherche X5 = Investissement X6 = Publicité X7 = Frais de ventes X8 = Total budget publicité de la branche
44
Régression multiple : exemple R² et R² ajusté proche de 1 : un bon ajustement
Variables significatives et pertinentes : P-valeur < 0.05
45
Méthodes de sélection automatique de variables
46
Sélection de variables • Sélection des variables pertinentes du modèle : Sélectionner les variables avec des P-valeur proches de 0 à partir du modèle complet ? variables non pertinentes en présence d’autres variables variables pertinentes seulement en présence d’autres variables
méthode d’élimination progressive (backward selection) méthode d’introduction progressive (forward selection) méthode de régression pas-à pas (stepwise regression)
47
Régression multiple : sélection automatique de variables • Méthode d'élimination progressive (backward selection) - La procédure démarre en estimant les paramètres du modèle complet incluant toutes les variables explicatives que l'on a sélectionnées et jugées pertinentes à introduire.
- A chaque étape, la variable associée à la plus grande p-value (du test de Student pour la régression linéaire) est éliminée du modèle, si cette valeur est supérieure au seuil de confiance fixé a priori . - La procédure s'arrête lorsque les variables restant dans le modèle ont toutes une p-value plus petite que le seuil.
Régression multiple : sélection automatique de variables • Méthode d‘introduction progressive (for (forwar ward d select selection ion)) - Il faut choisir sir au départ art les variabl ables que l'on juge comme pouvant appartenir
au modè modèle le.. - A chaque étape de la procédure, une variable est ajoutée en commençant par la variable la plus fortement assoc sociée à Y (plus petite p-valu alue obtenue en réal éalisant l'en l'ense semb mble le des des modè modèle less de régr régres essi sion on liné linéai aire re simp simple le). ). - Ensui suite, on évalue l'apport spé spécifique de chacune des vari ariables non encore introduites dans ans le modèle qui contient déjà la ou les variable(s) retenue(s e(s) dans les étapes précédentes et on introduit la variabl able dont l'apport spéc spéciifiqu fique e est est le plus plus imp import ortant ant. L'int 'intrrod oduc ucti tion on d'une 'une nouv nouvel ellle varia ariab ble dans dans le modèle ne se fait que si la p-value correspondante est inférieure à un seuil de confiance fixé a priori. On peut utiliser auss ussi R² ajusté pour la régress ession linéai éaire. - La procédu édure s'a s'arrête ête lorsqu sque toutes les variables sont introd odu uites ou lorsqu'on ne peut eut plus introduire de nouvelles variabl ables selon le critère ère choisi (plu (p luss petit etite e p-value alue des des varia ariab bles les resta estant ntes es supé supéri rieu eurre au seui seuil) l)..
48
49
Régression multiple : sélection automatique de variables Méthode de régression régression pas à pas (stepwise regressi regression) on) • Méthode Il s'agit d'une amélioration de la méthode d'introduction progressive. - A chaque étape étape de la procédure, procédure, on examine examine à la fois si une nouvelle nouvelle variable doit être ajoutée selon un seuil d'entrée fixé, et si une des variables déjà incluses doit être éliminée selon un seuil de sortie fixé. - Cette méthode permet de retirer du modèle modèle d'éventuelles d'éventuelles variables variables qui seraient devenues moins indispensables du fait de la présence de celles nouvellement introduites. - La procédure s'arrête lorsque aucune variable ne peut être rajoutée ou retirée du modèle selon les critères choisis.
50
Régression multiple : exemple backward Variable à expliquer : Y = Ventes Ventes semestrielles semestriell es Variables explicatives explicatives : X1 = Marché total X2 = Remises aux grossistes X3 = Prix X4 = Budget de Recherche X5 = Investissement X6 = Publicité X7 = Frais de ventes X8 = Total budget publicité de la branche
51
Régression multiple : exemple backward R² et R² ajusté proche de 1 : un bon ajustement
Model Summary
Model 1
R .898a
R Square .806
Adjusted R Square .752
Std. Error of the Estimate 256.29
a. Predictors: (Constant), Total publicité de la branche, Marché total, Remises aux grossistes, Budget de recherche, Investissements, Publicité, Prix, Frais de ventes a
Coefficients
Unstandardized Coef f icients Model 1
(Constant)
B 3129.231
St d. Error 641.355
t 4.879
Sig. .000
MT
4.423
1.588
2.785
.009
RG
1.676
3.291
.509
.614
-13.526
8.305
-1.629
.114
BR
-3.410
6.569
-.519
.608
INV
1.924
.778
2.474
.019
PUB
8.547
1.826
4.679
.000
FV
1.497
2.771
.540
.593
-2.15E-02
.401
-.054
.958
PRIX
TPUB
ES
Variables significatives et pertinentes : P-valeur < 0.05
52
Régression multiple : exemple backward Model Summary
Etape 1 Model 1
R .898a
Adjusted R Square .752
R Square .806
Std. Error of the Estimate 256.29
a. Predictors: (Constant), Total publicité de la branche, Marché total, Remises aux grossistes, Budget de recherche, Investissements, Publicité, Prix, Frais de ventes Coefficientsa
Unstandardized Coeff icients Model 1
(Constant)
B 3129.231
St d. Error 641.355
t 4.879
Sig. .000
MT
4.423
1.588
2.785
.009
RG
1.676
3.291
.509
.614
-13.526
8.305
-1.629
.114
BR
-3.410
6.569
-.519
.608
INV
1.924
.778
2.474
.019
PUB
8.547
1.826
4.679
.000
FV
1.497
2.771
.540
.593
-2.15E-02
.401
-.054
.958
PRIX
TPUB
a. Dependent Variable: VENTES
Variable enlevée : Total publicité de la branche
53
Régression multiple : exemple backward Model Summaryb
Etape 2
Model 1
R .898a
R Square .806
Adjusted R Square .760
Std. Error of the Estimate 251.99
a. Predictors: (Constant), Frais de ventes, Remises aux grossistes, Publicité, Inv estissements, Budget de recherche, Prix, Marché total b. Dependent Variable: Ventes Coefficientsa Unstandardized Coeff icients Model 1
(Constant)
B 3115.648
St d. Error 579.517
t 5.376
Sig. .000
MT
4.426
1.561
2.836
.008
RG
1.706
3.191
.535
.597
-13.445
8.029
-1.675
.104
BR
-3.392
6.451
-.526
.603
INV
1.931
.756
2.554
.016
PUB
8.558
1.784
4.798
.000
FV
1.482
2.710
.547
.588
PRIX
a. Dependent Variable: VENTES
Variable enlevée : Budget de recherche
Régression multiple : exemple backward Etape 3
Model Summaryb
Model 1
R .897a
R Square .804
Adjusted R Square .766
Std. Error of the Estimate 249.04
a. Predictors: (Constant), Frais de ventes, Remises aux grossistes, Publicité, Inv estissements, Prix, Marché total b. Dependent Variable: Ventes Coefficientsa
Unstandardized Coeff icients Model 1
(Constant)
B 3137.547
St d. Error 571.233
t 5.493
Sig. .000
MT
4.756
1.412
3.368
.002
RG
1.705
3.153
.541
.593
-14.790
7.521
-1.966
.058
INV
1.885
.742
2.539
.016
PUB
8.519
1.761
4.837
.000
.950
2.484
.382
.705
PRIX
FV
a. Dependent Variable: VENTES
Variable enlevée : Frais de ventes
Variables sélectionnées via backward selection et Student test : MT, PRIX, INV, PUB
54
55
Régression multiple : sélection automatique de variables • Il est important de noter que ces méthodes peuvent ne pas conduire au même choix de variables explicatives à retenir dans le modèle final. • Elles ont l'avantage d'être faciles à utiliser et de traiter le problème de la sélection de variables de façon systématique.
56
Modèles paramétriques: Régression Logistic
57
La régression logistique binaire Les données Y = variable à expliquer binaire X1,…, Xk = variables explicatives numériques ou binaires (indicatrices de modalités)
•
Régression logistique simple (k = 1)
•
Régression logistique multiple (k > 1)
58
La régression logistique simple Variable dépendante : Y = 0 / 1 Variable indépendante : X Objectif : Modéliser
(x) = Prob(Y = 1/X = x) Pb de régression : modéliser l’espérance conditionnelle E(Y/X=x) = Prob(Y=1/X=x) sous la forme E(Y/X=x) = β0 + β1X1 Difficulté ! X continue terme de droite non borné alors que Prob(Y=1/X=x) ∈ [0,1] il faut le transformer ! • Le modèle linéaire (x) = b0 + b1 X convient mal lorsque X est continue. • Le modèle logistique est plus naturel.
59
Prédiction d’une variable binaire
Visiblement la régression linéaire ne convient pas •
La figure fait pressentir que ce n’est pas une fonction linéaire de β0 + β1X1qu’il faut appliquer, mais une courbe en S •
60
Le modèle logistique b0 b1x
( x )
Probabilité d'une maladie cardiaque
e
en fonction de l'age
b0 b1x
1 e
ou
1.0
.8
.6
.4
( x ) Log( ) b 0 b1x 1 ( x )
.2
0.0 10
20
30
40
50
60
70
AGE
Fonction de lien : Logit 60
61
Estimation des paramètres du modèle logistique
Les données
Le modèle
X x1
Y y1
xi
yi
xn
yn
y i = 1 si caractère présent, 0 sinon
( x i ) P( Y 1 / X x i )
b0 b1x i
e
b0 b1x i
1 e
62
Vraisemblance des données Probabilité d’observer les données [(x1,y 1), …, (xi,y i), …, (xn,y n)] n
Prob( Y yi / X x i ) i 1 n
( x i )
1 yi
(1 ( x i ))
yi
i 1
n
( i 1
b 0 b 1 xi
e
b 0 b1 xi
1 e
(b0 , b1 )
yi
1
1 yi
) ( ) b 0 b 1xi 1 e
63
Estimation du maximum de vraisemblance n
y 1 y b b b b L( 0 , 1 ) Log ( ( 0 , 1 )) Log[ ( xi ) (1 ( xi ) ] i
i
i 1
( xi ) yi Log( ) Log (1 ( xi )) 1 ( xi ) i 1 n
n
yi (b0 b1 xi ) Log(1 exp(b0 b1 xi )) i 1
•
•
On cherche b 0 et b 1 maximisant la Log-vraisemblance L(b0 , b1 ) Pas de solution analytique ⇒ utiliser une méthode numérique itérative (ex : Newton-Raphson) ˆ
ˆ
ˆ
ˆ
64
TEST DE W ALD Le modèle
Test de Wald
(x) P( Y 1 / X x)
b0 b1x
e
b0 b1x
1 e
H0 : b1 = 0 H1 : b1 0
Sous H0 , la statistique de Wald suit une loi de Khi 2 à 1 degré de liberté avec :
Wald
s12 variance de b 1
b12 ˆ
s12
Décision de rejeter H0 au risque Rejet de H0 si Wald
2 1 (1)
64
TEST DE W ALD
65
TEST DE W ALD
66
67
Mesure de la qualité de la modélisation
R 2 de Cox & Snell
R
2
1[
(cte) (cte, X )
2
]n
avec l(cte) vraisemblance avec seulement la constante du modèle et l(cte,X) vraisemblance avec la constante et les paramètres des variables.
R 2 ajusté de Nagelkerke 2 R adj
R 2 R 2max
2
Max R2
1 [(cte)]n
68
Vraisemblance et déviance d’un modèle • Soit L(βn) = vraisemblance du modèle saturé (avec toutes les variables explicatives et toutes les interactions pour en avoir autant que d’observations distinctes) = vraisemblance maximale • Soit L(βk ) = vraisemblance du modèle avec k variables • On définit la déviance : D(βk ) = – 2 [Log L(βk ) – Log L(βn)] = – 2 Log L(βk ) puisque L(βn) = 1 pour une cible 0/1 • But de la régression logistique : maximiser la vraisemblance L(βk ) ⇔ minimiser la déviance D(βk )
• Modèle à retenir : modèle à k variables tel que la déviance est la plus faible.
69
Comparaison des modèles • Pour savoir s’il convient d’ajouter q variables explicatives à un modèle qui en contient déjà k • On calcule la différence des déviances D(βk ) - D(βk+q) = – 2 [Log L(βk ) - Log L(βk+q)] • Sous l’hypothèse H0 de la nullité des q derniers coefficients, D(βk ) - D(βk+q) suit un χ² à q degré de liberté • Sous le seuil critique de la valeur du χ² (⇔ si la probabilité dépasse 0,05) : on rejette les q nouvelles variables
70
Comparaison des modèles • Critère AIC ( Akaike Information Criterion) : AIC = – 2 Log L(βk ) +2 k k : nombre de variable Modèle à retenir : Modèle avec k variables tel que AIC le plus faible.
71
Exemple : age et maladie chronique du coeur
Variable Age pertinente selon le test de Wald. Le R-deux de Cox et Snell du modèle se situe à 0,25 et indique que seulement 25 % de la variation dans la probabilité pour un patient d'être malade pourrait être expliquée par la variable Age . Le R-deux de Nagelkerke qui est une version ajustée du R-deux de Cox et Snell se situe à 0,34. Dès lors, la variable Age contribue à expliquer 34 % de la variation dans la probabilité pour un patient d'être malade. •
•
72
Tableau de classification
Une observation i est affectée à la classe [Y=1] si i c. ˆ
Exemple: tableau de classification (c = 0.5) Observation 1 2 3 4 5
0
1
ˆ
0.3 0.6 0.9 0.15 0.75
ˆ
0.7 0.4 0.1 0.85 0.25
Classe 1 0 0 1 0
73
Validation des modèles • Matrice de confusion : Exemple :
Taux de bon classement total = (1800+1700) / 4000 = 87,5 % Taux de bon classement de la classe A = 1800/2000 = 90 % Taux de bon classement de la classe B = 1700/2000 = 85 %
74
La régression logistique multiple Exemple : Prévision de faillite Les données Les ratios suivants sont observés sur 46 entreprises :
-
X1 = Flux de trésorerie / Dette totale X2 = Resultat net / Actif X3 = Actif à court terme / Dette à court terme X4 = Actif à court terme / Ventes Y = F si faillite, NF sinon
Deux ans après 21 de ces entreprises ont fait faillite et 25 sont restées en bonne santé financière.
75
a
Case Summaries
current
Les données des entreprises
assets /
current
cash flow /
net income /
current
assets /
total debt
total assets
liabilities
net sales sales
FAILL FAILLITE
1
- .45
- .41
2
- .56
- .31
1.51
.16
F
3
.06
.02
1.01
.40
F
4
- .07
- .09
1.45
.26
F
5
- .10
- .09
1.56
.67
F
6
- .14
- .07
.71
.28
F F
1.09
.45
F
7
.04
.01
1.50
.71
8
- .07
- .06
1.37
.40
F
9
.07
- .01
1.37
.34
F
10
- .14
- .14
1.42
.43
F
11
- .23
- .30
.33
.18
F
12
.07
.02
1.31
.25
F
13
.01
.00
2.15
.70
F
14
- .28
- .23
1.19
.66
F
15
.15
.05
1.88
.27
F F
16
.37
.11
1.99
.38
17
- .08
- .08
1.51
.42
F
18
.05
.03
1.68
.95
F
19
.01
.00
1.26
.60
F
20
.12
.11
1.14
.17
F
21
- .28
- .27
1.27
.51
F
22
.51
.10
2.49
.54
NF
23
.08
.02
2.01
.53
NF
24
.38
.11
3.27
.35
NF
25
.19
.05
2.25
.33
NF
26
.32
.07
4.24
.63
NF
27
.31
.05
4.45
.69
NF
28
.12
.05
2.52
.69
NF
29
- .02
.02
2.05
.35
NF
30
.22
.08
2.35
.40
NF
31
.17
.07
1.80
.52
NF
32
.15
.05
2.17
.55
NF
33
- .10
- .01
2.50
.58
NF
34
.14
- .03
.46
.26
NF
35
.14
.07
2.61
.52
NF
36
.15
.06
2.23
.56
NF
37
.16
.05
2.31
.20
NF
38
.29
.06
1.84
.38
NF
39
.54
.11
2.33
.48
NF
40
- .33
- .09
3.01
.47
NF
41
.48
.09
1.24
.18
NF
42
.56
.11
4.29
.44
NF
43
.20
.08
1.99
.30
NF
44
.47
.14
2.92
.45
NF
45
.17
.04
2.45
.14
NF
46
58
04
5 06
13
NF
76
Résultats Model Summary
Step 1
-2 Log likelihood 27. 443
Cox & Snell R Square .5 43
Nagelkerke R Square .7 25
Variables Variables in the Equation
Step a 1
X1
B -7 .138
S.E. 6. 002
W ald 1. 414
X2
3. 703
13. 670
X3
-3 .415
X4 Constant
1
Sig. . 2 34
Ex p(B) .0 01
. 0 73
1
. 7 86
40. 581
1. 204
8. 049
1
. 0 05
.0 33
2. 968
3. 065
. 9 38
1
. 3 33
19. 461
5. 320
2. 366
5. 053
1
. 0 25
204 .283
a. Variable(s) entered on step 1: X1, X2, X3, X4.
df
77
Le modèle estimé Pr ob ob(Y F / X X)) 5.320 7.138 X1 3.703 X2 3.415 X3 2.968 X4
e
1 e
5.320 7.138 X1 3.703 X 2 3.415 X3 2.968 X4
Prévision de faillite
78
Analyse linéaire discriminante
79
Analyse discriminante • Situation : on a un ensemble d’individus caractérisés par
une variable à expliquer Y qualitative et des variables explicatives Xi quantitatives • Analyse discriminante descriptive : trouver une
représentation des individus qui sépare le mieux les groupes • Analyse discriminante prédictive : trouver des règles
d’affectation des individus à leur groupe • L’analyse discriminante offre des solutions à ces deux
problématiques
80
Principe analyse discriminante • Créer une méthode pour choisir entre les combinaisons
linéaires des variables celle qui maximise l'homogénéité de chaque classe (Fisher 1936) • Théorème de Huyghens : décomposer la matrice de
covariances de la population de taille n en deux matrices différentes, l'une donnant la variabilité dans chacune des k classes et l'autre la variabilité entre les k classes: S=E+H S matrice des variances/covariances E matrice de la variabilité inter-classe H matrice de la variabilité intra-classes
81
Principe analyse discriminante • Chercher des fonctions qui séparent le mieux entre les
classes des fonctions qui maximisent la variabilité inter-classes : calculer le vecteur F qui maximise F t EF / F t SF on déduit la relation : EF = λ SF qui devient, lorsque la matrice de covariances est inversible S-1EF = λ F
82
Principe analyse discriminante • Les variables qui maximise la variabilité inter-classes est
donnée par X F1 : où F1 est le vecteur propre associé à la plus grande valeur propre de la matrice S-1E. • La variabilité inter-classes associée représente ainsi la
proportion λ1 de la variabilité totale. • Cette valeur est donc une mesure de la capacité
discriminante de F 1, elle sera d'autant plus importante que λ1 s'approchera de 1.
83
Recherche des facteurs discriminants • Le 1er facteur discriminant (F1) est une nouvelle variable,
combinaison linéaire des variables descriptives (centrées), dont la variance inter-classe est maximum (ou, de façon équivalente la variance intra-classe est minimum).
Exemple : analyse discriminante pour k=3
84
Recherche des facteurs discriminants • Géométriquement: le 1er facteur détermine un axe dans
le nuage de points (passant par l'origine) tel que les projections des points sur cet axe aient une variance inter-classe (variance des moyennes de classe) maximale.
Exemple : analyse discriminante pour k=3
85
Recherche des facteurs discriminants • Le 2eme facteur (F2) est non corrélé (perpendiculaire) au
1er et de variance inter-classe max. Etc pour le 3eme ...
Exemple : analyse discriminante pour k=3
86
Propriétés des facteurs discriminants • Les facteurs sont entièrement déterminés par la matrice
définie par: S-1E (vecteurs propres) • Le nombre maximum de facteurs discriminants = k – 1
k : nombre de classe de la variable cible à modéliser • La part de variance inter-classe expliquée =
variance inter/ variance totale est décroissante entre les f acteurs successifs.
87
Analyse discriminante descriptive • Si 2 groupes => 1 seul facteur = axe de projection où la
séparation inter-classe est la mieux exprimée => coordonnées sur cet axe = scores discriminants. • Si + de 2 groupes => plan discriminant (F1) et (F2)
= plan de projection ou la variance inter-classe B (=> dispersion des centroïdes dans le plan) sera la mieux représentée
88
ACP contre analyse discriminante
89
Analyse discriminante prédictive • Les facteurs discriminants donnent la meilleure représentation
de la séparat séparation ion des k centroï centroïdes des de classe classe (dans un espace espace orthonormé) pour un individu x projeté dans l'espace des facteurs: attribuer la classe classe dont le centroïd centroïde e est le plus plus proche. proche.
détermination de 3 régions de décision (R1, R2 , R3) délimitant les points 'sensés‘ appartenir aux différentes classes
90
Analyse discriminante prédictive • Distance d de 2 points x et y : d²(x,y) = (x-y)’ (x-y)’ H 1 (x-y) (x-y)
avec H : H : matrice intra-classes des groupes. • On classe x dans le groupe Gi pour lequel la distance au
centre gi est minimale : 1 (x-gi) = x’ H 1x – 2gi’ 2gi’ H x1 + gi’ H gi d²(x,gi) = (x-gi)’ (x-gi)’ H 1(x-
Minimiser d²(x,gi)
maximiser 2gi’ H 1x - gi’ H 1 gi
gi’ H 1 gi est une constante ne dépend pas de x
91
Analyse discriminante prédictive • Pour chacun des k groupes Gi, on a une fonction
discriminante de Fisher : αi + βi,1X1 + βi,2X2 + … βi,pXp • et on classe x dans le groupe pour lequel la fonction
est maximale
92
Exemple analyse discriminante prédictive But : construire les fonctions prédictives des groupes de fleurs selon leurs caractéristiques via une analyse discriminante
93
Exemple analyse discriminante prédictive
Question : prédire la classe de la fleur de coordonnées (4.5, 3, 1.5, 0.2 )
94
Exemple analyse discriminante prédictive
Question : prédire la classe de la fleur F de coordonnées (4.5, 3, 1.5, 0.2 ) Réponse : Score_Setosa = (2.35*4.5)+(2.35*3)+(-1.64*1.5)+(-1.73*0.2)-86.3=-71.48 Score_Versicolor= (1.56*4.5)+(0.7*3)+(0.52*1.5)+(0.64*0.2)-72.85= -62.82 Score_Virginica= (1.24*4.5)+(0.36*3)+(1.27*1.5)+(2.1*0.2)-104.36= -95.37 F appartient à la classe Versicolor car Score_Versicolor est la valeur maximal
95
L’analyse discriminante Exemple : Prévision de faillite Les données Les ratios suivants sont observés sur 46 entreprises :
-
X1 = Flux de trésorerie / Dette totale X2 = Resultat net / Actif X3 = Actif à court terme / Dette à court terme X4 = Actif à court terme / Ventes Y = F si faillite, NF sinon
Deux ans après 21 de ces entreprises ont fait faillite et 25 sont restées en bonne santé financière.
96
a
Case Summaries
current
Les données des entreprises
assets /
current
cash flow /
net income /
current
assets /
total debt
total assets
liabilities
net sales
FAILLITE
1
-.45
-.41
2
-.56
-.31
1.51
.16
F
3
.06
.02
1.01
.40
F
4
-.07
-.09
1.45
.26
F
5
-.10
-.09
1.56
.67
F
6
-.14
-.07
.71
.28
F F
1.09
.45
F
7
.04
.01
1.50
.71
8
-.07
-.06
1.37
.40
F
9
.07
-.01
1.37
.34
F
10
-.14
-.14
1.42
.43
F
11
-.23
-.30
.33
.18
F
12
.07
.02
1.31
.25
F
13
.01
.00
2.15
.70
F
14
-.28
-.23
1.19
.66
F
15
.15
.05
1.88
.27
F F
16
.37
.11
1.99
.38
17
-.08
-.08
1.51
.42
F
18
.05
.03
1.68
.95
F
19
.01
.00
1.26
.60
F
20
.12
.11
1.14
.17
F
21
-.28
-.27
1.27
.51
F
22
.51
.10
2.49
.54
NF
23
.08
.02
2.01
.53
NF
24
.38
.11
3.27
.35
NF
25
.19
.05
2.25
.33
NF
26
.32
.07
4.24
.63
NF
27
.31
.05
4.45
.69
NF
28
.12
.05
2.52
.69
NF
29
-.02
.02
2.05
.35
NF
30
.22
.08
2.35
.40
NF
31
.17
.07
1.80
.52
NF
32
.15
.05
2.17
.55
NF
33
-.10
-.01
2.50
.58
NF
34
.14
-.03
.46
.26
NF
35
.14
.07
2.61
.52
NF
36
.15
.06
2.23
.56
NF
37
.16
.05
2.31
.20
NF
38
.29
.06
1.84
.38
NF
39
.54
.11
2.33
.48
NF
40
-.33
-.09
3.01
.47
NF
41
.48
.09
1.24
.18
NF
42
.56
.11
4.29
.44
NF
43
.20
.08
1.99
.30
NF
44
.47
.14
2.92
.45
NF
45
.17
.04
2.45
.14
NF
46
58
04
5 06
13
NF
97
L’analyse discriminante Exemple : Prévision de faillite Résultat sous R-cran
98
Evaluation globale : séparabilité Test de séparabilité : H0 : centres de gravité confondus H1 : un au moins de ces centres de gravité s’écarte des autres La statistique du test est le λ de Wilks, son expression est :
H S
où H représente le déterminant de la matrice de variance covariance intra-classes, S le déterminant de la matrice de variance co-variance globale. Sous H0, -(n - (p+k)/2 – 1) Ln λ est approximativement distribuée suivant une loi Khi2 avec p(k-1) degrés de liberté. avec n est le nombre total d'observations. p est le nombre de variables. k est le nombre de groupes.
99
Evaluation individuelle des variables prédictives • Test : variation du Lambda de Wilks lors de l'adjonction de la (J+1)-ième variable dans le modèle de prédiction. H0 : Variable J+1 non pertinente H1 : Variable J+1 pertinente
La statistique du test :
F
N K J J 1
J 1 J 1
Avec N : taille de l’échantillon, et K=nombre de classes. Sous H0, F suit une loi de Fisher à (K-1,N-K-J) degrés de liberté.
100
Modèle à base de règles logiques : Arbre de décision
101
Arbre de décision
Les données
Y = variable à expliquer qualitative X1,…, Xk = variables explicatives quantitatives et/ou qualitatives
102
Principe arbre de décision • Réaliser la classification d'un objet par une suite de tests sur les attributs qui le décrivent. • Organiser l'ensemble des tests possible comme un arbre. • Une feuille de cette arbre désigne une des C classes de la variable cible(mais à chaque classe peut correspondre plusieurs feuilles ).
Exemple d’arbre de décision
103
Principe arbre de décision • Chaque nœud est associé un test portant sur un ou plusieurs attributs. • Le classement s’effectue en partant de la racine pour poursuivre récursivement le processus jusqu’à ce qu'on rencontre une feuille.
Exemple d’arbre de décision
104
Exemple bancaire • Prédire si un client sera un client qui rembourse son prêt avec succès (classe OUI) ou un client qui a des difficultés de remboursement (classe NON) Client E1 E2 E3 E4 E5 E6 E7 E8 E9 E10 E11 E12 E13
Logement locataire locataire propriétair famille famille famille propriétair locataire locataire famille locataire propriétair propriétair
salaire Salaire A Moyen A Moyen A Moyen B Moyen C Elevé C Elevé C Elevé B Moyen C Elevé B Elevé B Elevé B Moyen A Elevé
S. co-emp Elevé Faible Elevé Elevé Elevé Faible Faible Elevé Elevé Elevé Faible Faible Elevé
Succès NON NON OUI OUI OUI NON OUI NON OUI OUI OUI OUI OUI
105
Représentation par arbre de décision Logement
Locataire
Propriétaire
Salaire
Moyen NON
Famille Salaire co emp
OUI
Elevé OUI
Faible NON
Elevé OUI
106
Représentation par arbre de décision • Chaque nœud interne teste un attribut • Chaque branche correspond à une valeur d’attribut • Chaque feuille correspond à une classe unique (décision OUI ou décision NON) ou une classe majoritaire • On cherche un arbre le plus « simple » possible expliquant l’ensemble des cas
107
Algorithme arbre de décision Procédure : construire-arbre(X) - Si tous les points de X appartiennent à la même classe alors créer une feuille portant le nom de cette classe Sinon - choisir le meilleur attribut pour créer un nœud - le test associé à ce noeud sépare X en des parties : X1….Xn - construire-arbre(X1) - …… - construire-arbre(Xn) Fin
108
Description de l’algorithme • Déroulement de la construction : - Recherche de la variable qui sépare le mieux -… Applique la séparation à la population - Obtention de nouveaux nœuds • Arrêt de l’approfondissement de l’arbre lorsque les conditions d’arrêts sont rencontrées
109
Description de l’algorithme • Conditions d’arrêts existantes : - Profondeur de l’arbre atteint une limite fixée (=nombre de variables utilisées) - Nombre de feuilles atteint un maximum fixé - L’effectif de chaque nœud est inférieur à un seuil fixé - ……
110
Choix du meilleur attribut • Comment trouver les variables qui séparent le mieux les individus de chaque classe ? • … Plusieurs critères de choix de variables correspondant à différents types d’arbres : - CART (Classification And Regression Tree : Indice de Gini) - CHAID (Chi square Automatic Interaction Detection) - C5.0 (Entropie de Shannon)
111
Algorithme CART (1984) • Parmi les plus performants et plus répandus • Accepte … tout type de variables • … Critère de séparation : Indice de Gini
Avec n : nombre de classes à prédire f i : fréquence de la classe dans le nœud • Plus l’indice de Gini est bas, plus le nœud est pure
112
Algorithme CART (1984) Exemple :
113
Algorithme CART (1984) Ainsi, • En séparant 1 nœud en 2 nœuds fils on cherche la plus grande hausse de la pureté • … La variable la plus discriminante doit maximiser IG(avant sep.)-[IG(fils1)+IG(fils2)]
114
Algorithme CART (1984) • Répartition des individus dans les nœuds - Quand l’arbre est construit : critères de division connus - On affecte chaque individu selon les règles obtenues remplissage des feuilles • Pour chaque feuille : plusieurs classes C - Pc = Proportion d’individus de la feuille appartenant à la classe c - On affecte à la feuille la classe pour laquelle Pc est la plus grande
115
Algorithme CART (1984) Exemple :
Taux d’erreur global de l’arbre = somme pondérée des taux d’erreur des feuilles
116
Exercice
Question : trouver un arbre de décision capable de dire si un client effectue des consultations de ses comptes par Internet
• Une banque dispose des informations suivantes sur un ensemble de clients: - M : moyenne des montants sur le compte client. - A : tranche d'âge du client. - R : localité de résidence du client. - E : valeur oui si le client a un niveau d'études supérieures. - I : classe oui correspond à un client qui effectue une consultation de ses comptes bancaires en utilisant Internet
117
Réseaux de neurones
118
Fondement biologique • L'élément fondamental du systèmes nerveux est le neurone ou cellule nerveuse. • Le neurone comprend une masse protoplasmique qui entoure le noyau, de nombreuses arborisations protoplasmiques ou dendrites et un long prolongement cylindrique ou axone. • Le système nerveux peut être vu comme un ensemble de neurones interconnectés.
119
Fondement biologique • L'axone se divise et ses ramifications sont reliées aux dendrites d'autres neurones ainsi qu'éventuellement aux siennes : les points de jonction sont les synapses; elles sont caractérisées par une efficacité synaptique qui peut être vue comme un amplificateur de l'impulsion qui traverse la synapse.
120
Fondement biologique • Chaque neurone possède en son noyau un additionneur qui somme les impulsions électriques amplifiées par les synapses à l'entrée dans le neurone et un seuil de stimulation. Si l'excitation totale du neurone excède le seuil de stimulation, le noyau initie une impulsion.
121
Fondement biologique • Les dendrites sont donc les organes d'entrées du neurone et l'axone son unité de sortie. • L'impulsion peut prendre la forme d'une excitation ou d'une inhibition : l'activité d'un groupe de neurones peut renforcer ou prévenir l'activité concurrente d'un autre groupe.
122
Fondement biologique Quelqu Quelques es chiffr chiffres es : • La durée d'une impulsion est de l'ordre de la milli-seconde et l'amplitude d'environ 0,1 Volt. • La vitesse de propagation de l'influx nerveux est de 100 m/s environ donc bien inférieure à la vitesse de transmission de l'information dans un réseau électronique. • Chaque neurone intègre en permanence jusqu'à 1000 signaux synaptiques mais le nombre de contacts synaptiques par neurones peut atteindre plusieurs dizaine de milliers. • Le cerveau contient environ 100 milliards de neurones donc, par analogie avec la théorie des graphes, le nombre de connexions (arcs) est de l'ordre de 104 (degré) * 1011 (nombre de sommets) soit 1015 environ.
123
Neurone artificiel De façon naturelle, on représente un neurone par une unité de calcul ayant : • des entrées ( dendrites +synapses) • une sortie ( axone) • des connexions pondérées avec les autres neurones ( efficacité synaptique) • un additionneur • un seuil d'activation • un signal de sortie
124
Les réseaux de neurones • L'ensemble des neurones se présente donc comme un graphe pondéré sur lequel va circuler un signal généré par des stimulus extérieurs (entrées). • Un réseau de neurones : ensemble de noeuds connectés entre eux, chaque variable correspondant à un nœud
125
Neurone formel Modélisation : • Le neurone reçoit les entrées x1, …, xi, …, xn. • Le potentiel d’activation du neurone p est défini comme la somme pondérée (les poids sont les coefficients synaptiques wi) des entrées. • La sortie o est alors calculée en fonction du seuil θ
Soit : p = x.w = x1.w1 + … + xi.wi + … + xn.wn Alors : o = 1 si p > θ o = 0 si p ≤ θ
126
Neurone formel • Exemple
127
Définitions - Déterminer un réseau de neurones = Trouver les coefficients synaptiques. - On parle de phase d’apprentissage : les caractéristiques du réseau sont modifiées jusqu’à ce que le comportement désiré soit obtenu. coefficients synaptiques
128
Percepton
129
Perceptron On ajoute une entrée supplémentaire x0 (le biais) On associe comme fonction de transfert la fonction de Heavyside : f(x) = 1 si x > 0 f(x) = 0 sinon
130
Perceptron Apprentissage par l ’algorithme du perceptron On note S la base d ’apprentissage. S est composée de couples (x, c) où : x est le vecteur associé à l ’entrée (x0, x1, …, xn) c la sortie correspondante souhaitée On cherche à déterminer les coefficients (w0, w1, …, wn). Initialiser aléatoirement les coefficients wi . Répéter : Prendre un exemple (x, c) dans S Calculer la sortie o du réseau pour l ’entrée x Mettre à jour les poids : Pour i de 0 à n : wi = wi + ε (c − o) xi Fin Pour Fin Répéter ∗
∗
131
Perceptron : exemple Apprentissage par l’algorithme de perceptron du OU : les descriptions appartiennent à {0,1}2, les entrées du perceptron appartiennent à {0,1} 3, la première composante correspond à l'entrée x 0 et vaut toujours 1, les deux composantes suivantes correspondent aux variables x 1 et x 2 . On suppose qu'à l'initialisation, les poids suivants ont été choisis : w0= 0 ; w1 = 1 e t w2 = -1.
132
Perceptron : exemple Apprentissage par l’algorithme de perceptron : exemple
Donc : w0 = 0 ; w1 = 1 ; w2 = 1 Ce perceptron calcule le OU logique pour tout couple (x1 ; x2)
133
Perceptron : exercice 1 Apprentissage d'un ensemble linéairement séparable : les descriptions appartiennent à R 2, le concept cible est défini à l'aide de la droite d'équation y=x/2. Les couples (x,y) tels que y>x/2 sont de classe 1 ; Les couples (x,y) tels que y <= x/2 sont de classe 0. L'échantillon d'entrée est : S={((0,2),1), ((1,1),1), ((1,2.5),1), ((2,0),0), ((3,0.5),0)}. On suppose qu'à l'initialisation, les poids ont été choisis : w 0= 0 ; w1 = 0 et w2 = 0. On choisit de présenter tous les exemples en alternant exemple positif (de classe 1) et exemple négatif.
134
Perceptron : exercice 1 L'échantillon d'entrée est : S={((0,2),1), ((1,1),1), ((1,2.5),1), ((2,0),0), ((3,0.5),0)}. On suppose qu'à l'initialisation, les poids ont été choisis : w 0= 0 ; w1 = 0 et w2 = 0.
135
Perceptron : exercice 2 Apprentissage de parité : Considérons un afficheur numérique à sept segments et formons un perceptron donnant la parité du chiffre écrit, à savoir 0 s'il est pair et 1 sinon. On commence par coder chaque chiffre en une liste de sept 0 ou 1 selon les segments allumés, liste qui constituera les neurones d'entrée du perceptron
136
Perceptron : exercice 2 On commence par coder chaque chiffre en une liste de sept 0 ou 1 selon les segments allumés, liste qui constituera les neurones d'entrée du perceptron
On considère un ensemble complet
But : Apprendre si un chiffre est pair ou impair. Les poids initiaux : w=(1,1,1,1,1,1,1,1)
137
Perceptron : exercice 2 Trace de l’algorithme
138
Les réseaux de neurones de Kohonen
139
Cartes de Kohonen : principe • n cellules d’entrée e = (e1, …, en) • une carte : réseau de m neurones de sortie x1, …, xm • connexions latérales (coefficients fixes) entre les neurones de sortie : un neurone est connecté à ses 4 plus proches voisins • connexions de coefficient wij entre une cellule d’entrée ei et un neurone de sortie xj
140
Cartes de Kohonen : principe Principes : - Pour une entrée, un seul neurone sur la carte est sélectionné (valeur 1). - On encourage le vainqueur : « the winner takes all». - Ce neurone correspond le plus possible à l’entrée : minimisation d’une distance.
141
Carte de Kohonen Algorithme d’apprentissage : - Initialiser aléatoirement les coefficients wij. - Fixer les taux d’apprentissage μ et β. Répéter - Prendre une entrée e = (e1, …, ei, …, en) - Calculer la distance dj de chaque neurone x j par rapport à e
- Sélectionner le neurone xk le plus proche de e : dk = Min(d j) - Modifier les coefficients pour le neurone sélectionné et ses plus proches voisins (4 pour une carte 2D) : Pour tout i : - w ik = w ik + μ ∗ (ei − w ik ) - w il = w il + β ∗ (ei − w il) où xl est un voisin de x k
142
Apprentissage du réseau • Pour chaque individu, un seul noeud de sortie est activé (« le gagnant ») • Le gagnant et ses voisins voient leurs poids ajustés • En rapprochant les voisins, l’ajustement fait en sorte qu’à deux individus proches correspondent deux nœuds proches en sortie • Des groupes (clusters) de nœuds se forment en sortie
143
Application d’un réseau de Kohonen • Tout se passe comme si la grille du réseau était en caoutchouc et si on la déformait pour lui faire traverser le nuage des individus en s’approchant au plus près des individus. • ≠ avec un plan factoriel : c’est une projection non-linéaire • ≠ avec les autres méthodes de classification : réduction de la dimension
144
Application d’un réseau de Kohonen • Une fois que tous les individus de l’échantillonnage d’apprentissage ont été présentés au réseau et que tous les poids ont été ajustés, l’apprentissage est achevé. • En phase d’application, le réseau de Kohonen fonctionne en représentant chaque individu en entrée par le noeud du réseau qui lui est le plus proche au sens de la distance définie ci-dessus. Ce noeud sera la classe de l’individu.
145
Exercice réseau de Kohonen C
C
C
C
C
1
2
3
4
5
0.3
0.7
0.6
0.9 0.1
0.5 0.4
U
U
1
2
0.3 0.8
Pour l’entrée (0.5, 0.2) et un taux d’apprentissage de 0.2 a) Le neurone le plus proche de l’entrée? b) Mise à jour des poids du neurone gagnant? c) Mise à jour des poids des neurones voisins du neurone gagnant?
0.2
146
C
C
C
C
C
1
2
3
4
5
0.3
0.7
0.6
0.9 0.1
0.5 0.4
U
U
1
2
0.3 0.8
0.2
Pour l’entrée (0.5, 0.2) et un taux d’apprentissage de 0.2 a) Soit Dm la distance entre l’entrée et le poids du vecteur Cm on a : D1 = (0.3 - 0.5)2 + (0.7 – 0.2)2 = 0.29 D2 = (0.6 – 0.5)2 + (0.9 – 0.2)2 = 0.50 D3 = (0.1 – 0.5)2 + (0.5 – 0.2)2 = 0.25 D4 = (0.4 – 0.5)2 + (0.3 – 0.2)2 = 0.02 D5 = (0.8 – 0.5)2 + (0.2 – 0.2)2 = 0.09 Le neurone le plus proche de l’entrée est donc C 4, il gagne ainsi la compétition.
147 C
C
C
C
C
1
2
3
4
5
0.3
0.7
0.6
0.9 0.1
0.5
0.42
U
U
1
2
b) Mise à jour des poids pour le neurone gagnant J w14(nouveau) = w 14(vieux) + 0.2 (x 1 – w14(vieux)) = 0.4 + 0.2(0.5 – 0.4) = 0.4 + 0.02 = 0.42 w24(nouveau) = w 24(vieux) + 0.2 (x 2 – w24(vieux)) = 0.3 + 0.2(0.2 – 0.3) = 0.3 - 0.02 = 0.28
0.28
0.8
0.2
148 C
C
C
C
C
1
2
3
4
5
0.3
0.7
0.6
0.9
0.18
0.44
0.4
U
U
1
2
c) Si on permet à J-1 et à J+1 d’apprendre alors w13(nouveau) = w 13(vieux) + 0.2 (x 1 – w13(vieux)) = 0.1 + 0.2(0.5 – 0.1) = 0.1 + 0.08 = 0.18 w23(nouveau) = 0.5 + 0.2(0.2 – 0.5) = 0.5 - 0.06 = 0.44 w15(nouveau) = 0.8 + 0.2(0.5 – 0.8) = 0.8 – 0.2*0.3 = 0.74 w25(nouveau) = 0.2 + 0.2(0.2 – 0.2) = 0.2 + 0.0 = 0.2
0.3
0.74
0.2
149
Exercice : On considère des entrées caractérisées par deux variables U1 et U2. Les coefficients initiaux entre les variables des entrées et les neurones de la carte sont affichés dans la figure 1. Pour les entrées (1.5 , 0.8) ; (0.5 , 1) ; (2 , 1) et un taux d’apprentissage de 0.1 , répondre aux questions suivantes en tenant compte de l’ordre de passage des entrées : 1. Le neurone le plus proche de chaque entrée? 2. Mise à jour des poids du neurone gagnant pour chaque entrée? 3. Mise à jour des poids des neurones voisins du neurone gagnant?
150
Exemple d’application C. K. Exemple : - Analyse de données socio-économiques (PIB, croissance du PIB, mortalité infantile, taux d’illettrisme, …) de 52 pays. - 1 neurone de la carte = 1 groupe de pays (même situation socioéconomique). - Neurones voisins = groupes de pays proches (du point de vue de la situation socio-économique).