Data Mining Prediction

1

Techniques prédictives de data mining Walid AYADI

2

Techniques prédictives • visent à extrapoler de nouvelles informations à partir des informations présentes (c’est le cas du scoring) • expliquent les données • il y a une variable « cible » à prédire.

2

Techniques prédictives • visent à extrapoler de nouvelles informations à partir des informations présentes (c’est le cas du scoring) • expliquent les données • il y a une variable « cible » à prédire.

3

Deux grandes familles • Classement : la variable à expliquer est qualitative • Prédic Prédictio tion n : la var variab iable le à expl expliqu iquer er est est cont continu inuee

4

Classement • Le classement consiste à placer chaque individu de la population dans une classe, parmi plusieurs Classes prédéfinies, en fonction des caractéristiques de l’individu indiquées. • Le résultat du classement est un algorithme permettant d’affecter chaque individu à la meilleure classe.

5

Prédiction • La prédiction consiste à estimer - la valeur d’une variable continue (dite « à expliquer », « cible », «dépendante » ou « endogène ») - en fonction de la valeur d’un certain nombre d’autres variables (dites « explicatives », «indépendantes » ou «exogènes »)

6

Méthodes prédictives

7

Régression linéaire multiple

8

Régression multiple • Estimer la relation entre une variable dépendante (Y ) quantitative et plusieurs variables indépendantes (X 1,X 2

)

, …

• Equation de régression multiple

Cette équation précise la façon dont la variable dépendante est reliée aux variables explicatives :

Y  b 0  b 1 X 1  b 2 X 2  ... b p X p  e où b 0 , b 1 , b 2 , . . . , b p sont les paramètres et e est un bruit aléatoire représentant le terme d’erreur.

9

Régression multiple 

Les termes de l’équation

yi  b 0  b 1 x1i  b 2 x2i

ième observation de Y

 ... b p x pi  e i

Terme constant Influence de la variable X 1

Influence de la variable X p

Résidu de la ième observation

10

Régression multiple

• Ecriture matricielle du modèle

 y1  1          yn  1

 b 0  x1,1  x1, p    e 1    b 1            x1,n  xn, p    e n   b p  y  X b  e

11


Estimation des coefficients de régression / méthode des moindres carrés ordinaires : Le principe de l’estimation des coefficients de régression :

b 0 , b 1 , b 2 ,..., b p consiste à minimiser la somme des carrés des résidus : n

 i 1

n

e i2

  ( yi  yi ) 2 ˆ

i 1

12

Régression simple Les estimations b 0 , b 1 ˆ

ˆ

( y  y )( x  x ) cov( x, y)   b  s  ( x  x ) ˆ

i

i

i

1

2

i

b 0 ˆ

i

 y  b 1 x ˆ

Démonstration?....

2 x

13


Estimation des coefficients du modèle La méthode des moindres carrés donne pour résultat : 1

b   X X  X T Y T

ˆ

Interprétation des coefficients de régression estimés ▫ La pente b k (k ≠0) L’estimée de Y varie d’un facteur égal à b k lorsque X k augmente d’une unité, les autres variables étant maintenues constantes. ▫ L’ordonnée à l’origine b 0 C’est la valeur moyenne de Y lorsque toutes les X i sont nulles. ˆ

ˆ

ˆ

14

Régression multiple Contrainte : les variables explicatives doivent être indépendantes. Supposons que les variables d’un modèle non indépendantes (corrélées) alors b  X T X 1 X T Y   ˆ





Car si les variables sont corrélées donc les colonnes de X T X sont corrélées et ainsi X T X 1   .





Rappel : si les colonnes d’une matrice X sont corrélées alors

X

1



1

t ComX   puisque det X  0

det X avec det X : déterminant de X et Com X : comatrice de X

15

Régression multiple • La méthode moindre carré ordinaire (MCO) est optimale car :

- les estimateurs sont sans biais : E ( )   et E ( b )  b - de variance minimale parmi tous les estimateurs linéaires - on dit qu’ils sont « BLUE » : best linear unbiased estimators ˆ

• Hypothèse de normalité εi ~ N(0,s²)

ˆ

les estimateurs sont de variance minimale parmi tous les estimateurs ⇒

16

Exercice 1 Au cours d’un mois donné, le représentant d’une société commercialisant du matériel de bureau a visité 56 entreprises répartis dans sept département. Le tableau suivant indique, département par département, le nombre de visites réalisées de même que les commandes enregistrés pendant la période correspondante mesurées en milliers de dinars.

17

Exercice 1 Département (i)

Nombre de visites ( Xi)

Commandes (Yi)

1 2 3 4 5 6 7

2 3 5 9 10 12 15

23 27 28 39 39 45 51

1. Estimer les paramètres du modèle. 2. Interpréter les résultats trouvés.

18

Exercice 1 2

X i

X i  X ( X i  X ) 2 Y i  Y ( X i  X )(Y i  Y )

i

Xi

Yi

XiYi

1 2 3 4 5 6 7

2 3 5 9 10 12 15

23 27 28 39 39 45 51

46 81 140 351 390 540 765

4 9 25 81 100 144 255

-6 -5 -3 1 2 4 7

36 25 9 1 4 16 49

-13 -9 -8 3 3 9 15

78 45 24 3 6 36 105

Total

56

252

2313

58 8

0

140

0

297

Moy.

8

36

330.4 84

0

20

0

42.4

19

Exercice 1

L’équation du modèle est : Y = 2.12 X +19

20

Exercice 1 L’équation du modèle est : Y = 2.12 X +19

Ce résultat peut être interprété de la façon suivante : en l’absence de visite, le montant des commandes d’un département s’élèverait à 19 000 dinars. •

chaque visite d’un représentant amène une masse de commandes supplémentaires d’environ 2120 dinars. •

21

Régression multiple : qualité d’ajustement

Loi des écarts

 (Y  Y )   (Y  Y )   (Y  Y ) 2

2

i

ˆ

ˆ

i

i

i

2

22

Régression multiple : qualité d’ajustement • Coefficient d’ajustement R² = SCR / SCT • R² = proportion de variation de la variable cible expliquée par toutes les variables explicatives • Bon ajustement si R² proche de 1 • R² est biaisé (optimiste car croissant avec le nombre de variables) et on lui substitue le R² ajusté :

23

Exercice 1 : Au cours d’un mois donné, le représentant d’une société commercialisant du matériel de bureau a visité 56 entreprises répartis dans sept département. Le tableau suivant indique, département par département, le nombre de visites réalisées de même que les commandes enregistrés pendant la période correspondante mesurées en milliers de dinars.

24

Exercice 1 : suite Département (i)


Commandes (Yi)

1 2 3 4 5 6 7

2 3 5 9 10 12 15

23 27 28 39 39 45 51

3. Calculer la dispersion résiduelle (somme des écarts entre les Observations et les valeurs estimées par le modèle). 4. Calculer le coefficient de détermination et le coefficient ajusté.

25

Exercice 1 : suite i

Xi

Yi

1 2 3 4 5 6 7

2 3 5 9 10 12 15

23 27 28 39 39 45 51

Y i  Y (Y i  Y ) 2

Y i ˆ

23.27 25.39 29.64 38.12 40.24 44.49 50.85

-13 -9 -8 3 3 9 15

Total

169 81 64 9 9 81 225 638

Dispersion résiduelle :

 e   (Y  Y ) 2 i

ˆ

i

i

2

 7.94

(Y i  Y ) ˆ

-12.73 -10.61 -6.36 2.12 4.24 8.49 14.85

(Y i  Y ) 2 (Y i  Y i ) (Y i  Y i ) 2 ˆ

162 112.57 40.45 4.49 17.98 72.08 220.52 630.09

ˆ

0.27 -1.61 1.64 -0.88 1.24 -0.51 -0.51

ˆ

0.07 2.59 2.69 0.77 1.54 0.26 0.02 7.94

26

Exercice 1 : suite i

Xi

Yi

1 2 3 4 5 6 7

2 3 5 9 10 12 15

23 27 28 39 39 45 51

Y i ˆ

23.27 25.39 29.64 38.12 40.24 44.49 50.85

Y i  Y (Y i  Y ) 2

-13 -9 -8 3 3 9 15

Total

169 81 64 9 9 81 225 638

(Y i  Y ) ˆ

-12.73 -10.61 -6.36 2.12 4.24 8.49 14.85

(Y i  Y ) 2 (Y i  Y i ) (Y i  Y i ) 2 ˆ

162 112.57 40.45 4.49 17.98 72.08 220.52 630.09

ˆ

0.27 -1.61 1.64 -0.88 1.24 -0.51 -0.51

ˆ

0.07 2.59 2.69 0.77 1.54 0.26 0.02 7.94

Coefficient de détermination :

  (Y  Y )

(Y i  Y ) 2 ˆ

R

2

i

2



630 638

 0.987

Le modèle restitue 98,7% de l’information totale : une relation linéaire presque parfaite sur les données observées.

27

Régression multiple : apport marginal de X j Modèle : Y = b0 + b1X1 + … + b jX j + … + bk Xk + e Test de Student : H0 : b j = 0 (X j non significative) H1 : b j  0 (X j significative)

b j  b j ˆ

Soit la statistique t telle que t 

S b ˆ

S b ˆ



j

S X jY

 X

ij

j

: l’erreur standard sur b j ˆ

 n X j

i

S X j Y





(Y i  Y i ) 2 ˆ

i

n2

: l’écart type des erreurs du modèle

28

Régression multiple : apport marginal de X j Modèle : Y = b0 + b1X1 + … + b jX j + … + bk Xk + e Test de Student : H0 : b j = 0 (X j non significative) H1 : b j  0 (X j significative) Sous H0 :

b j  0 ˆ

t 

S b ˆ

j

La statistique t suit une loi de Student à (n-2) degré de liberté

Calculer empiriquement la statistique du test et la comparer aux valeurs du tableau de Student selon le seuil de significativité fixé a priori. Seuil de significativité ou de confiance : 0.05, 0.01, 0.1 •

29

Régression multiple : apport marginal de X j Tableau de Student

30

Régression multiple : apport marginal de X j • Probabilité de décision : P-valeur ou P-value

P-valeur = p(- tα,n-1 < tobs
31

Exercice 1 : suite Département (i)


Commandes (Yi)

1 2 3 4 5 6 7

2 3 5 9 10 12 15

23 27 28 39 39 45 51

5. Appliquer le test de Student afin de vérifier la significativité de la variable explicative Nombre de visites dans la modélisation de la variables Commandes au seuil de confiance 0.02

32

Exercice 1 : suite 5.



S X iY S a t 



7.94 5

1.26

11.83 2.12

0.106

 1.26

 0.106

 20

On compare t par rapport au chiffre lu sur la table de Student pour n-k-1=7-2=5 degrés de liberté (3.365 avec un seuil de confiance 0.02 ) variable très significative ( t=20 >> 3.365 )

33

Régression multiple : apport de toutes les X j Modèle : Y = b0 + b1X1 + … + b jX j + … + bk Xk + e Test de Fisher-Snedecor : H0 : b1 = b2 =…= bk = 0 (toutes les X j non significatives) H1 : b1  b2  …  bk  0 (au moins une X j significative) Sous H0 , la statistique f suit une loi de Fisher à (k , n-k-1) degré de liberté avec :

f 

R 2 / k (1  R 2 ) /( n  k  1)

Avec n nombre d’individus (lignes) et k nombre de variables (colonnes)

34

Régression multiple : apport de toutes les X j f 

R 2 / k (1  R 2 ) /(n  k  1)

On compare f avec une valeur f  lue dans le tableau de Fisher à un seuil  et en fonction des degrés de liberté k et (n-k-1). Si f  f  alors au moins un des coefficients est différent de zéro.

P-valeur = p(f obs
35

Régression multiple : apport de toutes les X j Valeurs f de la variable de Fisher-Snédécor F(v 1 ,v 2 ) ayant la probabilité d'être dépassées

36

Régression multiple : apport de toutes les X j Valeurs f de la variable de Fisher-Snédécor F(v 1 ,v 2 ) ayant la probabilité d'être dépassées

37

Exercice 2 : Supposons que les services de police souhaitent établir un modèle de régression linéaire reliant la variable endogène «taux de criminalité juvénile» mesuré par un indicateur Y, à la densité de la population urbaine mesurée par un indicateur X1 et aux taux de scolarité X2. On a relevé 5 observations : Y X1 X2 1 1 2 3 3

1. 2. 3. 4.

2 3 5 7 8

4 2 2 1 1

Déterminer les paramètres du modèle. Calculer le coefficient de détermination et le coefficient ajusté. Tester la significativité de chaque variable avec le test de Student. Tester la significativité de toutes les variables avec le test de Fisher.

38

Exercice 2 : réponse 1. Pour simplifier les calculs matriciels, nous opérons un changement de variables Y=Y-2, X1=X1-5, X2=X2-2 Y

X1

X2

-1 -1 0 1 1

-3 -2 0 2 3

2 0 0 -1 -1

39

Exercice 2 : réponse

'

( X X )

1

6   35 11 1

11

0.17   26  0.31

0.31



0.74

40

Exercice 2 : réponse

 1  1     3 2 0 2 3    10  ' 0  X Y     2 0 0  1  1  1   4    1  0.17 0.31  10  0.46 b         0 . 31 0 . 74 4 0 . 14      ˆ

b 0 ˆ

 Y  b 1 X 1  b 2 X 2  2  (0.46  5)  (0.14  2)  0.58 ˆ

ˆ

D’où l’expression finale de l’équation de régression multiple estimée :

Y  0.46 X 1  0.14 X 2  0.58 ˆ

41

Exercice 2 : réponse Il existe une relation positive assez forte entre le taux de criminalité juvénile et la densité urbaine. L’augmentation de l’indicateur de ladensité urbaine d’une unité entraine l’augmentation de la criminalité juvénile de 46% et l’augmentation du taux de scolarisation d’une unité de mesure entraine l’augmentation de criminalité juvénile 14%.

42

Exercice 2 : réponse 2. Coefficient de détermination : R 2  0.971 Coefficient de détermination ajusté : R 2 ajusté

 0.942

3. Test de Student :

t X 1 t X 2

 4.61  0.83

significative au niveau de confiance 0.05 non significative

4. Test de Fisher : F= 34, il y a au moins une variable non significative.

43

Régression multiple : exemple Variable à expliquer : Y = Ventes semestrielles Variables explicatives : X1 = Marché total X2 = Remises aux grossistes X3 = Prix X4 = Budget de Recherche X5 = Investissement X6 = Publicité X7 = Frais de ventes X8 = Total budget publicité de la branche

44

Régression multiple : exemple R² et R² ajusté proche de 1 : un bon ajustement

Variables significatives et pertinentes : P-valeur < 0.05

45

Méthodes de sélection automatique de variables

46

Sélection de variables • Sélection des variables pertinentes du modèle : Sélectionner les variables avec des P-valeur proches de 0 à partir du modèle complet ? variables non pertinentes en présence d’autres variables variables pertinentes seulement en présence d’autres variables

méthode d’élimination progressive (backward selection) méthode d’introduction progressive (forward selection) méthode de régression pas-à pas (stepwise regression)

47

Régression multiple : sélection automatique de variables • Méthode d'élimination progressive (backward selection) - La procédure démarre en estimant les paramètres du modèle complet incluant toutes les variables explicatives que l'on a sélectionnées et jugées pertinentes à introduire.

- A chaque étape, la variable associée à la plus grande p-value (du test de Student pour la régression linéaire) est éliminée du modèle, si cette valeur est supérieure au seuil de confiance fixé a priori . - La procédure s'arrête lorsque les variables restant dans le modèle ont toutes une p-value plus petite que le seuil.

Régression multiple : sélection automatique de variables • Méthode d‘introduction progressive (for (forwar ward d select selection ion)) - Il faut choisir sir au départ art les variabl ables que l'on juge comme pouvant appartenir

au modè modèle le.. - A chaque étape de la procédure, une variable est ajoutée en commençant par la variable la plus fortement assoc sociée à Y (plus petite p-valu alue obtenue en réal éalisant l'en l'ense semb mble le des des modè modèle less de régr régres essi sion on liné linéai aire re simp simple le). ). - Ensui suite, on évalue l'apport spé spécifique de chacune des vari ariables non encore introduites dans ans le modèle qui contient déjà la ou les variable(s) retenue(s e(s) dans les étapes précédentes et on introduit la variabl able dont l'apport spéc spéciifiqu fique e est est le plus plus imp import ortant ant. L'int 'intrrod oduc ucti tion on d'une 'une nouv nouvel ellle varia ariab ble dans dans le modèle ne se fait que si la p-value correspondante est inférieure à un seuil de confiance fixé a priori. On peut utiliser auss ussi R² ajusté pour la régress ession linéai éaire. - La procédu édure s'a s'arrête ête lorsqu sque toutes les variables sont introd odu uites ou lorsqu'on ne peut eut plus introduire de nouvelles variabl ables selon le critère ère choisi (plu (p luss petit etite e p-value alue des des varia ariab bles les resta estant ntes es supé supéri rieu eurre au seui seuil) l)..

48

49

Régression multiple : sélection automatique de variables Méthode de régression régression pas à pas (stepwise regressi regression) on) • Méthode Il s'agit d'une amélioration de la méthode d'introduction progressive. - A chaque étape étape de la procédure, procédure, on examine examine à la fois si une nouvelle nouvelle variable doit être ajoutée selon un seuil d'entrée fixé, et si une des variables déjà incluses doit être éliminée selon un seuil de sortie fixé. - Cette méthode permet de retirer du modèle modèle d'éventuelles d'éventuelles variables variables qui seraient devenues moins indispensables du fait de la présence de celles nouvellement introduites. - La procédure s'arrête lorsque aucune variable ne peut être rajoutée ou retirée du modèle selon les critères choisis.

50

Régression multiple : exemple backward Variable à expliquer : Y = Ventes Ventes semestrielles semestriell es Variables explicatives explicatives : X1 = Marché total X2 = Remises aux grossistes X3 = Prix X4 = Budget de Recherche X5 = Investissement X6 = Publicité X7 = Frais de ventes X8 = Total budget publicité de la branche

51

Régression multiple : exemple backward R² et R² ajusté proche de 1 : un bon ajustement

Model Summary

Model 1

R .898a

R Square .806

Adjusted R Square .752

Std. Error of the Estimate 256.29

a. Predictors: (Constant), Total publicité de la branche, Marché total, Remises aux grossistes, Budget de recherche, Investissements, Publicité, Prix, Frais de ventes a

Coefficients

Unstandardized Coef f icients Model 1

(Constant)

B 3129.231

St d. Error 641.355

t 4.879

Sig. .000

MT

4.423

1.588

2.785

.009

RG

1.676

3.291

.509

.614

-13.526

8.305

-1.629

.114

BR

-3.410

6.569

-.519

.608

INV

1.924

.778

2.474

.019

PUB

8.547

1.826

4.679

.000

FV

1.497

2.771

.540

.593

-2.15E-02

.401

-.054

.958

PRIX

TPUB

ES

Variables significatives et pertinentes : P-valeur < 0.05

52

Régression multiple : exemple backward Model Summary

Etape 1 Model 1

R .898a


R Square .806


a. Predictors: (Constant), Total publicité de la branche, Marché total, Remises aux grossistes, Budget de recherche, Investissements, Publicité, Prix, Frais de ventes Coefficientsa

Unstandardized Coeff icients Model 1

(Constant)

B 3129.231

St d. Error 641.355

t 4.879

Sig. .000

MT

4.423

1.588

2.785

.009

RG

1.676

3.291

.509

.614

-13.526

8.305

-1.629

.114

BR

-3.410

6.569

-.519

.608

INV

1.924

.778

2.474

.019

PUB

8.547

1.826

4.679

.000

FV

1.497

2.771

.540

.593

-2.15E-02

.401

-.054

.958

PRIX

TPUB

a. Dependent Variable: VENTES

Variable enlevée : Total publicité de la branche

53

Régression multiple : exemple backward Model Summaryb

Etape 2

Model 1

R .898a

R Square .806



a. Predictors: (Constant), Frais de ventes, Remises aux grossistes, Publicité, Inv estissements, Budget de recherche, Prix, Marché total b. Dependent Variable: Ventes Coefficientsa Unstandardized Coeff icients Model 1

(Constant)

B 3115.648

St d. Error 579.517

t 5.376

Sig. .000

MT

4.426

1.561

2.836

.008

RG

1.706

3.191

.535

.597

-13.445

8.029

-1.675

.104

BR

-3.392

6.451

-.526

.603

INV

1.931

.756

2.554

.016

PUB

8.558

1.784

4.798

.000

FV

1.482

2.710

.547

.588

PRIX


Variable enlevée : Budget de recherche

Régression multiple : exemple backward Etape 3

Model Summaryb

Model 1

R .897a

R Square .804



a. Predictors: (Constant), Frais de ventes, Remises aux grossistes, Publicité, Inv estissements, Prix, Marché total b. Dependent Variable: Ventes Coefficientsa

Unstandardized Coeff icients Model 1

(Constant)

B 3137.547

St d. Error 571.233

t 5.493

Sig. .000

MT

4.756

1.412

3.368

.002

RG

1.705

3.153

.541

.593

-14.790

7.521

-1.966

.058

INV

1.885

.742

2.539

.016

PUB

8.519

1.761

4.837

.000

.950

2.484

.382

.705

PRIX

FV


Variable enlevée : Frais de ventes

Variables sélectionnées via backward selection et Student test : MT, PRIX, INV, PUB

54

55

Régression multiple : sélection automatique de variables • Il est important de noter que ces méthodes peuvent ne pas conduire au même choix de variables explicatives à retenir dans le modèle final. • Elles ont l'avantage d'être faciles à utiliser et de traiter le problème de la sélection de variables de façon systématique.

56

Modèles paramétriques: Régression Logistic

57

La régression logistique binaire Les données Y = variable à expliquer binaire X1,…, Xk = variables explicatives numériques ou binaires (indicatrices de modalités) 

•

Régression logistique simple (k = 1)

•

Régression logistique multiple (k > 1)

58

La régression logistique simple Variable dépendante : Y = 0 / 1  Variable indépendante : X  Objectif : Modéliser 

(x) = Prob(Y = 1/X = x) Pb de régression : modéliser l’espérance conditionnelle E(Y/X=x) = Prob(Y=1/X=x) sous la forme E(Y/X=x) = β0 + β1X1 Difficulté ! X continue terme de droite non borné alors que Prob(Y=1/X=x) ∈ [0,1] il faut le transformer ! • Le modèle linéaire (x) = b0 + b1 X convient mal lorsque X est continue. • Le modèle logistique est plus naturel.

59

Prédiction d’une variable binaire

Visiblement la régression linéaire ne convient pas •

La figure fait pressentir que ce n’est pas une fonction linéaire de β0 + β1X1qu’il faut appliquer, mais une courbe en S •

60

Le modèle logistique b0 b1x

( x ) 

Probabilité d'une maladie cardiaque

e

en fonction de l'age

b0 b1x

1 e

ou

1.0

.8

.6

.4

( x ) Log( )  b 0  b1x 1  ( x )

.2

0.0 10

20

30

40

50

60

70

AGE

Fonction de lien : Logit 60

61

Estimation des paramètres du modèle logistique

Les données

Le modèle

X x1

Y y1

xi

yi

 

xn

 

yn

y i = 1 si caractère présent, 0 sinon

( x i )  P( Y  1 / X  x i ) 

b0 b1x i

e

b0 b1x i

1 e

62

Vraisemblance des données Probabilité d’observer les données [(x1,y 1), …, (xi,y i), …, (xn,y n)] n

  Prob( Y  yi / X  x i ) i 1 n

  ( x i )

1 yi

(1  ( x i ))

yi

i 1

n

 ( i 1

b 0  b 1 xi

e

b 0  b1 xi

1 e

 (b0 , b1 )

yi

1

1 yi

) ( ) b 0  b 1xi 1 e

63

Estimation du maximum de vraisemblance n

y 1 y b b   b b     L( 0 , 1 ) Log ( ( 0 , 1 )) Log[ ( xi ) (1 ( xi ) ] i

i

i 1

( xi )   yi Log( )  Log (1  ( xi )) 1  ( xi ) i 1 n

n

  yi (b0  b1 xi )  Log(1  exp(b0  b1 xi )) i 1

•

•

On cherche b 0 et b 1 maximisant la Log-vraisemblance L(b0 , b1 ) Pas de solution analytique ⇒ utiliser une méthode numérique itérative (ex : Newton-Raphson) ˆ

ˆ

ˆ

ˆ

64

TEST DE W ALD Le modèle

Test de Wald

(x)  P( Y  1 / X  x) 

b0 b1x

e

b0 b1x

1 e

H0 : b1 = 0 H1 : b1  0

Sous H0 , la statistique de Wald suit une loi de Khi 2 à 1 degré de liberté avec :

Wald 

s12 variance de b 1

b12 ˆ

s12

Décision de rejeter H0 au risque  Rejet de H0 si Wald



2 1 (1)

64

TEST DE W ALD

65

TEST DE W ALD

66

67

Mesure de la qualité de la modélisation 

R 2 de Cox & Snell

R



2

 1[

(cte) (cte, X )

2

]n

avec l(cte) vraisemblance avec seulement la constante du modèle et l(cte,X) vraisemblance avec la constante et les paramètres des variables.

R 2 ajusté de Nagelkerke 2 R adj



R 2 R 2max

2

Max R2

 1  [(cte)]n

68

Vraisemblance et déviance d’un modèle • Soit L(βn) = vraisemblance du modèle saturé (avec toutes les variables explicatives et toutes les interactions pour en avoir autant que d’observations distinctes) = vraisemblance maximale • Soit L(βk ) = vraisemblance du modèle avec k variables • On définit la déviance : D(βk ) = – 2 [Log L(βk ) – Log L(βn)] = – 2 Log L(βk ) puisque L(βn) = 1 pour une cible 0/1 • But de la régression logistique : maximiser la vraisemblance L(βk ) ⇔ minimiser la déviance D(βk )

• Modèle à retenir : modèle à k variables tel que la déviance est la plus faible.

69

Comparaison des modèles • Pour savoir s’il convient d’ajouter q variables explicatives à un modèle qui en contient déjà k • On calcule la différence des déviances D(βk ) - D(βk+q) = – 2 [Log L(βk ) - Log L(βk+q)] • Sous l’hypothèse H0 de la nullité des q derniers coefficients, D(βk ) - D(βk+q) suit un χ² à q degré de liberté • Sous le seuil critique de la valeur du χ² (⇔ si la probabilité dépasse 0,05) : on rejette les q nouvelles variables

70

Comparaison des modèles • Critère AIC ( Akaike Information Criterion) : AIC = – 2 Log L(βk ) +2 k k : nombre de variable Modèle à retenir : Modèle avec k variables tel que AIC le plus faible.

71

Exemple : age et maladie chronique du coeur

Variable Age pertinente selon le test de Wald. Le R-deux de Cox et Snell du modèle se situe à 0,25 et indique que seulement 25 % de la variation dans la probabilité pour un patient d'être malade pourrait être expliquée par la variable Age . Le R-deux de Nagelkerke qui est une version ajustée du R-deux de Cox et Snell se situe à 0,34. Dès lors, la variable Age contribue à expliquer 34 % de la variation dans la probabilité pour un patient d'être malade. •

•

72

Tableau de classification 

Une observation i est affectée à la classe [Y=1] si  i  c. ˆ

Exemple: tableau de classification (c = 0.5) Observation 1 2 3 4 5

 0

 1

ˆ

0.3 0.6 0.9 0.15 0.75

ˆ

0.7 0.4 0.1 0.85 0.25

Classe 1 0 0 1 0

73

Validation des modèles • Matrice de confusion : Exemple :

Taux de bon classement total = (1800+1700) / 4000 = 87,5 % Taux de bon classement de la classe A = 1800/2000 = 90 % Taux de bon classement de la classe B = 1700/2000 = 85 %

74

La régression logistique multiple Exemple : Prévision de faillite Les données Les ratios suivants sont observés sur 46 entreprises :

-

X1 = Flux de trésorerie / Dette totale X2 = Resultat net / Actif X3 = Actif à court terme / Dette à court terme X4 = Actif à court terme / Ventes Y = F si faillite, NF sinon

Deux ans après 21 de ces entreprises ont fait faillite et 25 sont restées en bonne santé financière.

75

a

Case Summaries

current

Les données des entreprises

assets /

current

cash flow /

net income /

current

assets /

total debt

total assets

liabilities

net sales sales

FAILL FAILLITE

1

- .45

- .41

2

- .56

- .31

1.51

.16

F

3

.06

.02

1.01

.40

F

4

- .07

- .09

1.45

.26

F

5

- .10

- .09

1.56

.67

F

6

- .14

- .07

.71

.28

F F

1.09

.45

F

7

.04

.01

1.50

.71

8

- .07

- .06

1.37

.40

F

9

.07

- .01

1.37

.34

F

10

- .14

- .14

1.42

.43

F

11

- .23

- .30

.33

.18

F

12

.07

.02

1.31

.25

F

13

.01

.00

2.15

.70

F

14

- .28

- .23

1.19

.66

F

15

.15

.05

1.88

.27

F F

16

.37

.11

1.99

.38

17

- .08

- .08

1.51

.42

F

18

.05

.03

1.68

.95

F

19

.01

.00

1.26

.60

F

20

.12

.11

1.14

.17

F

21

- .28

- .27

1.27

.51

F

22

.51

.10

2.49

.54

NF

23

.08

.02

2.01

.53

NF

24

.38

.11

3.27

.35

NF

25

.19

.05

2.25

.33

NF

26

.32

.07

4.24

.63

NF

27

.31

.05

4.45

.69

NF

28

.12

.05

2.52

.69

NF

29

- .02

.02

2.05

.35

NF

30

.22

.08

2.35

.40

NF

31

.17

.07

1.80

.52

NF

32

.15

.05

2.17

.55

NF

33

- .10

- .01

2.50

.58

NF

34

.14

- .03

.46

.26

NF

35

.14

.07

2.61

.52

NF

36

.15

.06

2.23

.56

NF

37

.16

.05

2.31

.20

NF

38

.29

.06

1.84

.38

NF

39

.54

.11

2.33

.48

NF

40

- .33

- .09

3.01

.47

NF

41

.48

.09

1.24

.18

NF

42

.56

.11

4.29

.44

NF

43

.20

.08

1.99

.30

NF

44

.47

.14

2.92

.45

NF

45

.17

.04

2.45

.14

NF

46

58

04

5 06

13

NF

76

Résultats Model Summary

Step 1

-2 Log likelihood 27. 443

Cox & Snell R Square .5 43

Nagelkerke R Square .7 25

Variables Variables in the Equation

Step a 1

X1

B -7 .138

S.E. 6. 002

W ald 1. 414

X2

3. 703

13. 670

X3

-3 .415

X4 Constant

1

Sig. . 2 34

Ex p(B) .0 01

. 0 73

1

. 7 86

40. 581

1. 204

8. 049

1

. 0 05

.0 33

2. 968

3. 065

. 9 38

1

. 3 33

19. 461

5. 320

2. 366

5. 053

1

. 0 25

204 .283

a. Variable(s) entered on step 1: X1, X2, X3, X4.

df

77

Le modèle estimé Pr ob ob(Y  F / X X))  5.320 7.138 X1  3.703 X2  3.415 X3  2.968 X4

e

1 e

5.320 7.138 X1  3.703 X 2  3.415 X3  2.968 X4

Prévision de faillite

78

Analyse linéaire discriminante

79

Analyse discriminante • Situation : on a un ensemble d’individus caractérisés par

une variable à expliquer Y qualitative et des variables explicatives Xi quantitatives • Analyse discriminante descriptive : trouver une

représentation des individus qui sépare le mieux les groupes • Analyse discriminante prédictive : trouver des règles

d’affectation des individus à leur groupe • L’analyse discriminante offre des solutions à ces deux

problématiques

80

Principe analyse discriminante • Créer une méthode pour choisir entre les combinaisons

linéaires des variables celle qui maximise l'homogénéité de chaque classe (Fisher 1936) • Théorème de Huyghens : décomposer la matrice de

covariances de la population de taille n en deux matrices différentes, l'une donnant la variabilité dans chacune des k classes et l'autre la variabilité entre les k classes: S=E+H S matrice des variances/covariances E matrice de la variabilité inter-classe H matrice de la variabilité intra-classes

81

Principe analyse discriminante • Chercher des fonctions qui séparent le mieux entre les

classes des fonctions qui maximisent la variabilité inter-classes : calculer le vecteur F qui maximise F t EF / F t SF on déduit la relation : EF = λ SF qui devient, lorsque la matrice de covariances est inversible S-1EF = λ F

82

Principe analyse discriminante • Les variables qui maximise la variabilité inter-classes est

donnée par X F1 : où F1 est le vecteur propre associé à la plus grande valeur propre de la matrice S-1E. • La variabilité inter-classes associée représente ainsi la

proportion λ1 de la variabilité totale. • Cette valeur est donc une mesure de la capacité

discriminante de F 1, elle sera d'autant plus importante que λ1 s'approchera de 1.

83

Recherche des facteurs discriminants • Le 1er facteur discriminant (F1) est une nouvelle variable,

combinaison linéaire des variables descriptives (centrées), dont la variance inter-classe est maximum (ou, de façon équivalente la variance intra-classe est minimum).

Exemple : analyse discriminante pour k=3

84

Recherche des facteurs discriminants • Géométriquement: le 1er facteur détermine un axe dans

le nuage de points (passant par l'origine) tel que les projections des points sur cet axe aient une variance inter-classe (variance des moyennes de classe) maximale.


85

Recherche des facteurs discriminants • Le 2eme facteur (F2) est non corrélé (perpendiculaire) au

1er et de variance inter-classe max. Etc pour le 3eme ...


86

Propriétés des facteurs discriminants • Les facteurs sont entièrement déterminés par la matrice

définie par: S-1E (vecteurs propres) • Le nombre maximum de facteurs discriminants = k – 1

k : nombre de classe de la variable cible à modéliser • La part de variance inter-classe expliquée =

variance inter/ variance totale est décroissante entre les f acteurs successifs.

87

Analyse discriminante descriptive • Si 2 groupes => 1 seul facteur = axe de projection où la

séparation inter-classe est la mieux exprimée => coordonnées sur cet axe = scores discriminants. • Si + de 2 groupes => plan discriminant (F1) et (F2)

= plan de projection ou la variance inter-classe B (=> dispersion des centroïdes dans le plan) sera la mieux représentée

88

ACP contre analyse discriminante

89

Analyse discriminante prédictive • Les facteurs discriminants donnent la meilleure représentation

de la séparat séparation ion des k centroï centroïdes des de classe classe (dans un espace espace orthonormé) pour un individu x projeté dans l'espace des facteurs: attribuer la classe classe dont le centroïd centroïde e est le plus plus proche. proche.

détermination de 3 régions de décision (R1, R2 , R3) délimitant les points 'sensés‘ appartenir aux différentes classes

90

Analyse discriminante prédictive • Distance d de 2 points x et y : d²(x,y) = (x-y)’ (x-y)’ H 1 (x-y) (x-y)

avec H : H : matrice intra-classes des groupes. • On classe x dans le groupe Gi pour lequel la distance au

centre gi est minimale : 1 (x-gi) = x’ H 1x – 2gi’ 2gi’ H x1 + gi’ H gi d²(x,gi) = (x-gi)’ (x-gi)’ H 1(x-

Minimiser d²(x,gi)

maximiser 2gi’ H 1x - gi’ H 1 gi

gi’ H 1 gi est une constante ne dépend pas de x

91

Analyse discriminante prédictive • Pour chacun des k groupes Gi, on a une fonction

discriminante de Fisher : αi + βi,1X1 + βi,2X2 + … βi,pXp • et on classe x dans le groupe pour lequel la fonction

est maximale

92

Exemple analyse discriminante prédictive But : construire les fonctions prédictives des groupes de fleurs selon leurs caractéristiques via une analyse discriminante

93

Exemple analyse discriminante prédictive

Question : prédire la classe de la fleur de coordonnées (4.5, 3, 1.5, 0.2 )

94

Exemple analyse discriminante prédictive

Question : prédire la classe de la fleur F de coordonnées (4.5, 3, 1.5, 0.2 ) Réponse : Score_Setosa = (2.35*4.5)+(2.35*3)+(-1.64*1.5)+(-1.73*0.2)-86.3=-71.48 Score_Versicolor= (1.56*4.5)+(0.7*3)+(0.52*1.5)+(0.64*0.2)-72.85= -62.82 Score_Virginica= (1.24*4.5)+(0.36*3)+(1.27*1.5)+(2.1*0.2)-104.36= -95.37 F appartient à la classe Versicolor car Score_Versicolor est la valeur maximal

95

L’analyse discriminante Exemple : Prévision de faillite Les données Les ratios suivants sont observés sur 46 entreprises :

-

X1 = Flux de trésorerie / Dette totale X2 = Resultat net / Actif X3 = Actif à court terme / Dette à court terme X4 = Actif à court terme / Ventes Y = F si faillite, NF sinon

Deux ans après 21 de ces entreprises ont fait faillite et 25 sont restées en bonne santé financière.

96

a

Case Summaries

current

Les données des entreprises

assets /

current

cash flow /

net income /

current

assets /

total debt

total assets

liabilities

net sales

FAILLITE

1

-.45

-.41

2

-.56

-.31

1.51

.16

F

3

.06

.02

1.01

.40

F

4

-.07

-.09

1.45

.26

F

5

-.10

-.09

1.56

.67

F

6

-.14

-.07

.71

.28

F F

1.09

.45

F

7

.04

.01

1.50

.71

8

-.07

-.06

1.37

.40

F

9

.07

-.01

1.37

.34

F

10

-.14

-.14

1.42

.43

F

11

-.23

-.30

.33

.18

F

12

.07

.02

1.31

.25

F

13

.01

.00

2.15

.70

F

14

-.28

-.23

1.19

.66

F

15

.15

.05

1.88

.27

F F

16

.37

.11

1.99

.38

17

-.08

-.08

1.51

.42

F

18

.05

.03

1.68

.95

F

19

.01

.00

1.26

.60

F

20

.12

.11

1.14

.17

F

21

-.28

-.27

1.27

.51

F

22

.51

.10

2.49

.54

NF

23

.08

.02

2.01

.53

NF

24

.38

.11

3.27

.35

NF

25

.19

.05

2.25

.33

NF

26

.32

.07

4.24

.63

NF

27

.31

.05

4.45

.69

NF

28

.12

.05

2.52

.69

NF

29

-.02

.02

2.05

.35

NF

30

.22

.08

2.35

.40

NF

31

.17

.07

1.80

.52

NF

32

.15

.05

2.17

.55

NF

33

-.10

-.01

2.50

.58

NF

34

.14

-.03

.46

.26

NF

35

.14

.07

2.61

.52

NF

36

.15

.06

2.23

.56

NF

37

.16

.05

2.31

.20

NF

38

.29

.06

1.84

.38

NF

39

.54

.11

2.33

.48

NF

40

-.33

-.09

3.01

.47

NF

41

.48

.09

1.24

.18

NF

42

.56

.11

4.29

.44

NF

43

.20

.08

1.99

.30

NF

44

.47

.14

2.92

.45

NF

45

.17

.04

2.45

.14

NF

46

58

04

5 06

13

NF

97

L’analyse discriminante Exemple : Prévision de faillite Résultat sous R-cran

98

Evaluation globale : séparabilité Test de séparabilité : H0 : centres de gravité confondus H1 : un au moins de ces centres de gravité s’écarte des autres La statistique du test est le λ de Wilks, son expression est :

 

H S

où H représente le déterminant de la matrice de variance covariance intra-classes, S le déterminant de la matrice de variance co-variance globale. Sous H0, -(n - (p+k)/2 – 1) Ln λ est approximativement distribuée suivant une loi Khi2 avec p(k-1) degrés de liberté. avec n est le nombre total d'observations. p est le nombre de variables. k est le nombre de groupes.

99

Evaluation individuelle des variables prédictives • Test : variation du Lambda de Wilks lors de l'adjonction de la (J+1)-ième variable dans le modèle de prédiction. H0 : Variable J+1 non pertinente H1 : Variable J+1 pertinente

La statistique du test :

F 

N  K  J J  1

  J     1   J 1 

Avec N : taille de l’échantillon, et K=nombre de classes. Sous H0, F suit une loi de Fisher à (K-1,N-K-J) degrés de liberté.

100

Modèle à base de règles logiques : Arbre de décision

101

Arbre de décision 

Les données

Y = variable à expliquer qualitative X1,…, Xk = variables explicatives quantitatives et/ou qualitatives

102

Principe arbre de décision • Réaliser la classification d'un objet par une suite de tests sur les attributs qui le décrivent. • Organiser l'ensemble des tests possible comme un arbre. • Une feuille de cette arbre désigne une des C classes de la variable cible(mais à chaque classe peut correspondre plusieurs feuilles ).

Exemple d’arbre de décision

103

Principe arbre de décision • Chaque nœud est associé un test portant sur un ou plusieurs attributs. • Le classement s’effectue en partant de la racine pour poursuivre récursivement le processus jusqu’à ce qu'on rencontre une feuille.

Exemple d’arbre de décision

104

Exemple bancaire • Prédire si un client sera un client qui rembourse son prêt avec succès (classe OUI) ou un client qui a des difficultés de remboursement (classe NON) Client E1 E2 E3 E4 E5 E6 E7 E8 E9 E10 E11 E12 E13

Logement locataire locataire propriétair famille famille famille propriétair locataire locataire famille locataire propriétair propriétair

salaire Salaire A Moyen A Moyen A Moyen B Moyen C Elevé C Elevé C Elevé B Moyen C Elevé B Elevé B Elevé B Moyen A Elevé

S. co-emp Elevé Faible Elevé Elevé Elevé Faible Faible Elevé Elevé Elevé Faible Faible Elevé

Succès NON NON OUI OUI OUI NON OUI NON OUI OUI OUI OUI OUI

105

Représentation par arbre de décision Logement

Locataire

Propriétaire

Salaire

Moyen NON

Famille Salaire co emp

OUI

Elevé OUI

Faible NON

Elevé OUI

106

Représentation par arbre de décision • Chaque nœud interne teste un attribut • Chaque branche correspond à une valeur d’attribut • Chaque feuille correspond à une classe unique (décision OUI ou décision NON) ou une classe majoritaire • On cherche un arbre le plus « simple » possible expliquant l’ensemble des cas

107

Algorithme arbre de décision Procédure : construire-arbre(X) - Si tous les points de X appartiennent à la même classe alors créer une feuille portant le nom de cette classe Sinon - choisir le meilleur attribut pour créer un nœud - le test associé à ce noeud sépare X en des parties : X1….Xn - construire-arbre(X1) - …… - construire-arbre(Xn) Fin

108

Description de l’algorithme • Déroulement de la construction : - Recherche de la variable qui sépare le mieux -… Applique la séparation à la population - Obtention de nouveaux nœuds • Arrêt de l’approfondissement de l’arbre lorsque les conditions d’arrêts sont rencontrées

109

Description de l’algorithme • Conditions d’arrêts existantes : - Profondeur de l’arbre atteint une limite fixée (=nombre de variables utilisées) - Nombre de feuilles atteint un maximum fixé - L’effectif de chaque nœud est inférieur à un seuil fixé - ……

110

Choix du meilleur attribut • Comment trouver les variables qui séparent le mieux les individus de chaque classe ? • … Plusieurs critères de choix de variables correspondant à différents types d’arbres : - CART (Classification And Regression Tree : Indice de Gini) - CHAID (Chi square Automatic Interaction Detection) - C5.0 (Entropie de Shannon)

111

Algorithme CART (1984) • Parmi les plus performants et plus répandus • Accepte … tout type de variables • … Critère de séparation : Indice de Gini

Avec n : nombre de classes à prédire f i : fréquence de la classe dans le nœud • Plus l’indice de Gini est bas, plus le nœud est pure

112

Algorithme CART (1984) Exemple :

113

Algorithme CART (1984) Ainsi, •  En séparant 1 nœud en 2 nœuds fils on cherche la plus grande hausse de la pureté • … La variable la plus discriminante doit maximiser IG(avant sep.)-[IG(fils1)+IG(fils2)]

114

Algorithme CART (1984) • Répartition des individus dans les nœuds - Quand l’arbre est construit : critères de division connus - On affecte chaque individu selon les règles obtenues remplissage des feuilles • Pour chaque feuille : plusieurs classes C - Pc = Proportion d’individus de la feuille appartenant à la classe c - On affecte à la feuille la classe pour laquelle Pc est la plus grande

115

Algorithme CART (1984) Exemple :

Taux d’erreur global de l’arbre = somme pondérée des taux d’erreur des feuilles

116

Exercice

Question : trouver un arbre de décision capable de dire si un client effectue des consultations de ses comptes par Internet

• Une banque dispose des informations suivantes sur un ensemble de clients: - M : moyenne des montants sur le compte client. - A : tranche d'âge du client. - R : localité de résidence du client. - E : valeur oui si le client a un niveau d'études supérieures. - I : classe oui correspond à un client qui effectue une consultation de ses comptes bancaires en utilisant Internet

117

Réseaux de neurones

118

Fondement biologique • L'élément fondamental du systèmes nerveux est le neurone ou cellule nerveuse. • Le neurone comprend une masse protoplasmique qui entoure le noyau, de nombreuses arborisations protoplasmiques ou dendrites et un long prolongement cylindrique ou axone. • Le système nerveux peut être vu comme un ensemble de neurones interconnectés.

119

Fondement biologique • L'axone se divise et ses ramifications sont reliées aux dendrites d'autres neurones ainsi qu'éventuellement aux siennes : les points de jonction sont les synapses; elles sont caractérisées par une efficacité synaptique qui peut être vue comme un amplificateur de l'impulsion qui traverse la synapse.

120

Fondement biologique • Chaque neurone possède en son noyau un additionneur qui somme les impulsions électriques amplifiées par les synapses à l'entrée dans le neurone et un seuil de stimulation. Si l'excitation totale du neurone excède le seuil de stimulation, le noyau initie une impulsion.

121

Fondement biologique • Les dendrites sont donc les organes d'entrées du neurone et l'axone son unité de sortie. • L'impulsion peut prendre la forme d'une excitation ou d'une inhibition : l'activité d'un groupe de neurones peut renforcer ou prévenir l'activité concurrente d'un autre groupe.

122

Fondement biologique Quelqu Quelques es chiffr chiffres es : • La durée d'une impulsion est de l'ordre de la milli-seconde et l'amplitude d'environ 0,1 Volt. • La vitesse de propagation de l'influx nerveux est de 100 m/s environ donc bien inférieure à la vitesse de transmission de l'information dans un réseau électronique. • Chaque neurone intègre en permanence jusqu'à 1000 signaux synaptiques mais le nombre de contacts synaptiques par neurones peut atteindre plusieurs dizaine de milliers. • Le cerveau contient environ 100 milliards de neurones donc, par analogie avec la théorie des graphes, le nombre de connexions (arcs) est de l'ordre de 104 (degré) * 1011 (nombre de sommets) soit 1015 environ.

123

Neurone artificiel De façon naturelle, on représente un neurone par une unité de calcul ayant : • des entrées ( dendrites +synapses) • une sortie ( axone) • des connexions pondérées avec les autres neurones ( efficacité synaptique) • un additionneur • un seuil d'activation • un signal de sortie

124

Les réseaux de neurones • L'ensemble des neurones se présente donc comme un graphe pondéré sur lequel va circuler un signal généré par des stimulus extérieurs (entrées). • Un réseau de neurones : ensemble de noeuds connectés entre eux, chaque variable correspondant à un nœud

125

Neurone formel Modélisation : • Le neurone reçoit les entrées x1, …, xi, …, xn. • Le potentiel d’activation du neurone p est défini comme la somme pondérée (les poids sont les coefficients synaptiques wi) des entrées. • La sortie o est alors calculée en fonction du seuil θ

Soit : p = x.w = x1.w1 + … + xi.wi + … + xn.wn Alors : o = 1 si p > θ o = 0 si p ≤ θ

126

Neurone formel • Exemple

127

Définitions - Déterminer un réseau de neurones = Trouver les coefficients synaptiques. - On parle de phase d’apprentissage : les caractéristiques du réseau sont modifiées jusqu’à ce que le comportement désiré soit obtenu. coefficients synaptiques

128

Percepton

129

Perceptron On ajoute une entrée supplémentaire x0 (le biais) On associe comme fonction de transfert la fonction de Heavyside : f(x) = 1 si x > 0 f(x) = 0 sinon

130

Perceptron Apprentissage par l ’algorithme du perceptron On note S la base d ’apprentissage. S est composée de couples (x, c) où : x est le vecteur associé à l ’entrée (x0, x1, …, xn) c la sortie correspondante souhaitée On cherche à déterminer les coefficients (w0, w1, …, wn). Initialiser aléatoirement les coefficients wi . Répéter : Prendre un exemple (x, c) dans S Calculer la sortie o du réseau pour l ’entrée x Mettre à jour les poids : Pour i de 0 à n : wi = wi + ε (c − o) xi Fin Pour Fin Répéter ∗

∗

131

Perceptron : exemple Apprentissage par l’algorithme de perceptron du OU : les descriptions appartiennent à {0,1}2, les entrées du perceptron appartiennent à {0,1} 3, la première composante correspond à l'entrée x 0 et vaut toujours 1, les deux composantes suivantes correspondent aux variables x 1 et x 2 . On suppose qu'à l'initialisation, les poids suivants ont été choisis : w0= 0 ; w1 = 1 e t w2 = -1.

132

Perceptron : exemple Apprentissage par l’algorithme de perceptron : exemple

Donc : w0 = 0 ; w1 = 1 ; w2 = 1 Ce perceptron calcule le OU logique pour tout couple (x1 ; x2)

133

Perceptron : exercice 1 Apprentissage d'un ensemble linéairement séparable : les descriptions appartiennent à R 2, le concept cible est défini à l'aide de la droite d'équation y=x/2. Les couples (x,y) tels que y>x/2 sont de classe 1 ; Les couples (x,y) tels que y <= x/2 sont de classe 0. L'échantillon d'entrée est : S={((0,2),1), ((1,1),1), ((1,2.5),1), ((2,0),0), ((3,0.5),0)}. On suppose qu'à l'initialisation, les poids ont été choisis : w 0= 0 ; w1 = 0 et w2 = 0. On choisit de présenter tous les exemples en alternant exemple positif (de classe 1) et exemple négatif.

134

Perceptron : exercice 1 L'échantillon d'entrée est : S={((0,2),1), ((1,1),1), ((1,2.5),1), ((2,0),0), ((3,0.5),0)}. On suppose qu'à l'initialisation, les poids ont été choisis : w 0= 0 ; w1 = 0 et w2 = 0.

135

Perceptron : exercice 2 Apprentissage de parité : Considérons un afficheur numérique à sept segments et formons un perceptron donnant la parité du chiffre écrit, à savoir 0 s'il est pair et 1 sinon. On commence par coder chaque chiffre en une liste de sept 0 ou 1 selon les segments allumés, liste qui constituera les neurones d'entrée du perceptron

136

Perceptron : exercice 2 On commence par coder chaque chiffre en une liste de sept 0 ou 1 selon les segments allumés, liste qui constituera les neurones d'entrée du perceptron

On considère un ensemble complet

But : Apprendre si un chiffre est pair ou impair. Les poids initiaux : w=(1,1,1,1,1,1,1,1)

137

Perceptron : exercice 2 Trace de l’algorithme

138

Les réseaux de neurones de Kohonen

139

Cartes de Kohonen : principe • n cellules d’entrée e = (e1, …, en) • une carte : réseau de m neurones de sortie x1, …, xm • connexions latérales (coefficients fixes) entre les neurones de sortie : un neurone est connecté à ses 4 plus proches voisins • connexions de coefficient wij entre une cellule d’entrée ei et un neurone de sortie xj

140

Cartes de Kohonen : principe Principes : - Pour une entrée, un seul neurone sur la carte est sélectionné (valeur 1). - On encourage le vainqueur : « the winner takes all». - Ce neurone correspond le plus possible à l’entrée : minimisation d’une distance.

141

Carte de Kohonen Algorithme d’apprentissage : - Initialiser aléatoirement les coefficients wij. - Fixer les taux d’apprentissage μ et β. Répéter - Prendre une entrée e = (e1, …, ei, …, en) - Calculer la distance dj de chaque neurone x j par rapport à e

- Sélectionner le neurone xk le plus proche de e : dk = Min(d j) - Modifier les coefficients pour le neurone sélectionné et ses plus proches voisins (4 pour une carte 2D) : Pour tout i : - w ik = w ik + μ ∗ (ei − w ik ) - w il = w il + β ∗ (ei − w il) où xl est un voisin de x k

142

Apprentissage du réseau • Pour chaque individu, un seul noeud de sortie est activé (« le gagnant ») • Le gagnant et ses voisins voient leurs poids ajustés • En rapprochant les voisins, l’ajustement fait en sorte qu’à deux individus proches correspondent deux nœuds proches en sortie • Des groupes (clusters) de nœuds se forment en sortie

143

Application d’un réseau de Kohonen • Tout se passe comme si la grille du réseau était en caoutchouc et si on la déformait pour lui faire traverser le nuage des individus en s’approchant au plus près des individus. • ≠ avec un plan factoriel : c’est une projection non-linéaire • ≠ avec les autres méthodes de classification : réduction de la dimension

144

Application d’un réseau de Kohonen • Une fois que tous les individus de l’échantillonnage d’apprentissage ont été présentés au réseau et que tous les poids ont été ajustés, l’apprentissage est achevé. • En phase d’application, le réseau de Kohonen fonctionne en représentant chaque individu en entrée par le noeud du réseau qui lui est le plus proche au sens de la distance définie ci-dessus. Ce noeud sera la classe de l’individu.

145

Exercice réseau de Kohonen C

C

C

C

C

1

2

3

4

5

0.3

0.7

0.6

0.9 0.1

0.5 0.4

U

U

1

2

0.3 0.8

Pour l’entrée (0.5, 0.2) et un taux d’apprentissage de 0.2 a) Le neurone le plus proche de l’entrée? b) Mise à jour des poids du neurone gagnant? c) Mise à jour des poids des neurones voisins du neurone gagnant?

0.2

146

C

C

C

C

C

1

2

3

4

5

0.3

0.7

0.6

0.9 0.1

0.5 0.4

U

U

1

2

0.3 0.8

0.2

Pour l’entrée (0.5, 0.2) et un taux d’apprentissage de 0.2 a) Soit Dm la distance entre l’entrée et le poids du vecteur Cm on a : D1 = (0.3 - 0.5)2 + (0.7 – 0.2)2 = 0.29 D2 = (0.6 – 0.5)2 + (0.9 – 0.2)2 = 0.50 D3 = (0.1 – 0.5)2 + (0.5 – 0.2)2 = 0.25 D4 = (0.4 – 0.5)2 + (0.3 – 0.2)2 = 0.02 D5 = (0.8 – 0.5)2 + (0.2 – 0.2)2 = 0.09 Le neurone le plus proche de l’entrée est donc C 4, il gagne ainsi la compétition.

147 C

C

C

C

C

1

2

3

4

5

0.3

0.7

0.6

0.9 0.1

0.5

0.42

U

U

1

2

b) Mise à jour des poids pour le neurone gagnant J w14(nouveau) = w 14(vieux) + 0.2 (x 1 – w14(vieux)) = 0.4 + 0.2(0.5 – 0.4) = 0.4 + 0.02 = 0.42 w24(nouveau) = w 24(vieux) + 0.2 (x 2 – w24(vieux)) = 0.3 + 0.2(0.2 – 0.3) = 0.3 - 0.02 = 0.28

0.28

0.8

0.2

148 C

C

C

C

C

1

2

3

4

5

0.3

0.7

0.6

0.9

0.18

0.44

0.4

U

U

1

2

c) Si on permet à J-1 et à J+1 d’apprendre alors w13(nouveau) = w 13(vieux) + 0.2 (x 1 – w13(vieux)) = 0.1 + 0.2(0.5 – 0.1) = 0.1 + 0.08 = 0.18 w23(nouveau) = 0.5 + 0.2(0.2 – 0.5) = 0.5 - 0.06 = 0.44 w15(nouveau) = 0.8 + 0.2(0.5 – 0.8) = 0.8 – 0.2*0.3 = 0.74 w25(nouveau) = 0.2 + 0.2(0.2 – 0.2) = 0.2 + 0.0 = 0.2

0.3

0.74

0.2

149

Exercice : On considère des entrées caractérisées par deux variables U1 et U2. Les coefficients initiaux entre les variables des entrées et les neurones de la carte sont affichés dans la figure 1. Pour les entrées (1.5 , 0.8) ; (0.5 , 1) ; (2 , 1) et un taux d’apprentissage de 0.1 , répondre aux questions suivantes en tenant compte de l’ordre de passage des entrées : 1. Le neurone le plus proche de chaque entrée? 2. Mise à jour des poids du neurone gagnant pour chaque entrée? 3. Mise à jour des poids des neurones voisins du neurone gagnant?

150

Exemple d’application C. K. Exemple : - Analyse de données socio-économiques (PIB, croissance du PIB, mortalité infantile, taux d’illettrisme, …) de 52 pays. - 1 neurone de la carte = 1 groupe de pays (même situation socioéconomique). - Neurones voisins = groupes de pays proches (du point de vue de la situation socio-économique).

Data Mining Prediction

Recommend Documents