Corrélation & Régression Regression Plot
440 440
r 390 e 390 m o t s u C
Y = 182.807 + 0.476288X R-Squared = 0.695
340 340
350
400
450 450
Supplier
Jan-16
Fethi Derbeli
1
Terminologie • Correlation: La corrélation est une mesure de la force d’association d’association entre entre deux variables variables quantitatives quantitatives (ex: pression et rendement). Et mesure le degré de linéarité entre deux variables supposées complètement indépendantes l’une de l’autre. • Le coef coeffic ficien ientt de corr corréla élatio tion, n, r, est est touj toujour ourss compr compris is entr entree -1 -1 et +1. • Re Regr gres essi sion on Equ quat atiion on:: L’équation approprié, pas nécessairement linéaire qui permet de prédire les outputs en connaissant l’inputs • Co Coef effi fici cien entt de Det Deter ermi mina nati tion on:: r 2, represente l’adéquation du modèle de la regression ou la quantité de variation générée par l’équation de regression. Quelle est la différence différence entre la correlation et la regression? Jan-16
Fethi Derbeli
2
Corrélation
La formule de correlation : r
)(y i y) (x i x)(y 2 2 (x x ) (y y ) i i Covariance
n
r xy
( )( ) =
xi x 1 n -1 s x i=1
yi y s
y
r x y
n (x i x (yi y 1 ) y ) n -1 s xs y i=1
Minitab Utiliser la procédure Stat>Basic Statistics>Correlation Jan-16
Fethi Derbeli
3
Coefficient de Correlation Forte
Modérée
Strong Positive Correlation
t u p t u O
Input
t u p t u O
r = 0.646
t u p t u O
Jan-16
r = 0.196
Moderate Negative Correlation
Strong Negative Correlation
r = - 0.963 0.963
Input
Input
r = 0.963
Input
Weak Positive Correlation
Moderate Postive Correlation
t u p t u O
t u p t u O
faible
Weak Negative Correlation
t u p t u O
Input
r = - 0.64 0.6466 Fethi Derbeli
Input
r = - 0.19 0.1966 4
Attention à déclarer la causalité • Si nous établisso établissons ns une une causalité causalité entre Y et et x1, cela cela ne veut veut pas forcément forcément dire que que la variation de x1 a provoqué la variation de y. y. • Une troi troisiè sième me vari variabl ablee peut peut « rôder rôder » dans dans les les parag parages es et et faire faire vari varier er à la la fois fois x1 et et y. y. • Exemple Exemple extrait extrait de BHH concernant concernant une forte forte corrél corrélation ation entre la pression pression (x1) et et le rendement d’un réacteur. réacteur. Une forte corrélation négative entre la pression et le rendement a été établie. Toutefois: • Il existe existe une impur impureté eté (x2) (x2) qui qui n’est n’est pas pas mesurée mesurée et varie varie d’un d’un lot lot à l’autr l’autree • L’impureté ’impureté provoqu provoquee de l’écume, l’écume, ce qui réduit le rendem rendement ent • On augmen augmente te la pression pression pour réduire réduire l’écum l’écumee • La pression pression est une une réaction réaction à l’écume l’écume et n’a n’a rien à voir avec avec le rendement rendement.. • Y-a-t-il -a-t-il une corrélati corrélation on entre entre la hauteur hauteur de l’herb l’herbee et la la longueur longueur des cheveux cheveux ? • De Devo vons ns-n -nou ouss arr arros oser er les les deu deuxx ?
Jan-16
Fethi Derbeli
5
Exemple Corrélation • Fil Filen enam amee: Pizz Pizza. a.m mtw – Toujours grapher les data en premier lieu • Graph > Plot
– Effectuer la corrélation • Stat > Basic Basic Statistic Statisticss > Correlatio Correlationn 42 41 40 39 s e 38 l a S 37 a z z 36 i P 35
Correlations: Income, Pizza Sales
Pearson correlation of Income and Pizza Sales = 0.834
34
P-Value = 0.000
33 32 35
40
45
Income Jan-16
Fethi Derbeli
6
Résumé • La corr corrélat élation ion est un outil outil très très utile utile dans dans les industries de transformation • La corr corrél élat ation ion est est une une mesu mesure re de la la relat relatio ionn linéaire entre deux variables quantitatives • Attent Attention ion à nnee pas pas toujo toujours urs assumer assumer la caus causali alité té • La corr corrél élat ation ion prép prépare are aux aux tech techni nique quess de régression
Jan-16
Fethi Derbeli
7
Régression simple Tandis que la corrélation nous dit quelle association linéaire il y a entre deux variables, la régression définit définit plus précisément précisément cette association. La régression résulte en une équation qui utilise une ou plusieurs variable(s) pour pour expliquer la variation d’une autre variable. Exemples de prediction de l’équations: Y = a + bx (Modèle linéaire) Y = a + bx + cx2 (quadratique) Y = a + bx + cx2 + dx3 (cubique)
• Stat>Regression>Regression – peut effectuer une régression simple ou multiple multiple – peut enregistrer plusieurs calculs calculs
• Stat>Regression>Fitted Stat>Regression>Fitted line plot – graphique de dispersion, dispersion, courbe courbe ajustée, équation équation et R au carré carré
• Stat>Regression>Residuals Stat>Regression>Residuals plots – nécessite que les valeurs résiduelles résiduelles soient soient enregistrées à partir d’un graphique de régression ou d’une courbe ajustée. – vérifie des suppositions suppositions implicites implicites sur les données
Jan-16
Fethi Derbeli
8
Exemples de Modèle
Quadratique
Cubique
Y = b0 + b1x + b2x2
Y = b0 + b1x + b2x2 + b3x3
Jan-16
Fethi Derbeli
9
Coéfficient de Determination R • La valeur valeur R-carr R-carrée ée est simple simplemen mentt le carrée carrée du coefficient de correlation. C’est aussi la fraction de la variation des variables de sortie (response) et la variable généré par l’équation. • Quel est la la valeur valeur adéq adéquat uate? e? ça dép dépend end.. un chem chemist istee peut peut exiger un R 2 de 0.99. Aussi , le fait d’avoir 65% de variation pour d’autre produit peut être une bonne valeur. Ça dépend de l’industrie.
Jan-16
Fethi Derbeli
10
Exemple du Pizza • Fn: Pizza.mtw Step 1: Représentation graphique des data – Graph > Plot Step 2: Effectuer Effectuer l’analyse de la corrélation – Stat > Basic Statistics > Correlation Correlation Step 3: Générer l’équation de prédiction – Stat > Regression > Fitted Line Plot • Storage ge:: Residuals, Fits • Option onss: Display confidence bands, Display prediction bands Step 4: Analyse du modèle – Est ce qu’on a besoin d’un modèle a haut niveau? – Vérifier la graphe du résidus Jan-16
Fethi Derbeli
11
Minitab Menus for Fitted Line Plot
Jan-16
Fethi Derbeli
12
Exemple Pizza Regression Analysis: Pizza Sales versus Income
The Model
The regression equation is: Pizza Sales = 18.2807 + 0.476288 Income S = 1.35571 R-Sq = 69.5 % R-Sq(adj) = 67.9 % Analysis of Variance Variance Source Regression Error Total
DF 1 19 20
SS MS 79.559 79.5591 34.921 1.8379 114.480
F 43.2871
P 0.000
Quel est la différence entre r 2 et r 2 ajustée? Que rvèle le tableau ANOVA ANOVA ? Jan-16
Fethi Derbeli
13
Exemple Pizza Regression Plot Pizza Sales = 18.2807 + 0.476288 Income S = 1.35571 R-Sq = 69.5 % R-Sq(adj) R-Sq(adj) = 67.9 % 44
Équation de prédiction avec la ligne de formet. Est ce que R-Sq and and R-Sq(adj) sont trés différentes?
42
s e l a S a z z i P
Toutr valeur individuelle de la population, est entre les lignes bleu de prédiction bandes de confiance 95% .
40
38
36
34
Regression 95% CI
32
95% PI
30 35
40
45
Income
Jan-16
Fethi Derbeli
La moyenne de tout echantillon de la population entre la ligne rouge bande de confiance 95.
14
Analyse des des Résidus Step 4: Analyse du modèle – Le niveau du modèle – V”rifier la graphe des résidus. • Stat Stat > Regres Regressio sionn > Resid Residual ual Plot Plotss
– Courbe? Résidus?
Jan-16
Fethi Derbeli
15
Analyse Résiduelle Résiduelle – Graphical Graphical Output Residual Model Diagnostics Normal Plot of Residuals
I Chart of Residuals R esiduals
2
5
1 l a u 0 d i s e -1 R
l a u d i 0 s e R
UCL=5.052
Mean=-1.0E-14
-2 -5
-3 -2
-1
0
1
2
LCL=-5.052
0
10
20
Normal Score
Observation Number
Histogram of Residual Res iduals s
Residuals vs. Fits
3
2 l 1 a u 0 d i s e -1 R
y 2 c n e u q e 1 r F
-2
0
-3 -2.5-2.0 -2.5-2.0-1.5 -1.5-1.0-0 -1.0-0.5 .5-0.00.5 -0.00.5 1.0 1.5 2.0 2.5
34
Residual
35
36
37
38
39
40
41
Fit
Regression Equation: Pizza Sales = 18.3 + 0.476 Income In come
Class Exercise: Using the regression equation and your data, calculate the residual by hand for the first data point. Jan-16
Fethi Derbeli
16
A vérifier vérifier I Chart: Ya t-il une tendance ou des outliers?
Residual Model Diagnostics Normal Plot of Residuals
Nrmalité des residus?
I Chart of Residuals
2
5
1 l a u 0 d i s e -1 R
l a u d i 0 s e R
UCL=5.052
Mean=-1.0E-14
-2 -5
-3 -2
-1
0
1
2
Histogram – Forme du courbe (cloche)?
LCL=-5.052
0
10
20
Normal Score
Observation Number
Histogram of Res idual iduals s
Residuals vs. Fits
3
Le graphe présente comment comment le résidus se comporte le long de l’experience.
La présentation doit être aléatoire
2 1 l a u 0 d i s e -1 R -2
y 2 c n e u q e 1 r F
0
Le graphe représente la position des valeurs valeurs réelles par rapport aux valeurs de l’équation
-3 -2.5-2.0 -2.5-2.0-1.5 -1.5-1.0 -1.0-0.5 -0.5-0.00.5 1.0 1.5 2.0 2.5
34
35
Residual
36
37
38
39
40
41
Fit
Dispersionn aléatoire et pas de tendance? Jan-16
Fethi Derbeli
17
Variables d'entrée multiples u
u u
Pour décrire la variation de la réponse, nous sommes parfois intéressés non plus par une seule mais par plusieurs variables d'entrée. La droite d'ajustement ne permet de considérer qu'une seule variable. Maintenant, nous ne devons plus seulement considérer la valeur R-carré :
u
u
R-carré(ajust) permet de prendre en compte le nombre d'entrées que nous avons inclues afin de pouvoir prédire la réponse avec précision. Il “ajuste” en raison de la complexité.
Pour sélectionner les entrées optimisant R-carré et R-carré(ajust), utilisez Stat > Régression >Best subset (Meilleurs sous-ensembles). Une fois que les “meilleures” entrées sont déterminées, utilisez la procédure suivante pour inclure inclure plus d'une variable dans le modèle modèle : Stat > Régression > Régression Skid.mtw (la sortie est la distance de rupture) rupture) Nom du fichier : Skid.mtw
Jan-16
Fethi Derbeli
18
Régressio Régression n - Meilleur Meilleurs s sous-ensem sous-ensembles bles FN: Skid.mtw
• Stat > Regression > Best Subset – Prédicteurs (variables indépendantes) : Minitab sélectionnera les variables à utiliser en incluant ou éliminant toutes les variables dans cette boîte. – Prédicteurs dans tous les modèles : Les variables spécifiées ici ne seront pas supprimées d'aucun des modèles.
Jan-16
Fethi Derbeli
19
Best Best Sub Subse sets ts - Outp Output ut Best Subsets Regression: Brkleng versus Speed, Tirecond, ... Response is Brkleng T R S i e t r a r S e c t
Comparer le modèle 01 variable avec le modèle 04 variables.
p c t c e o i o e n m n Vars
R-Sq
R-Sq(adj)
C-p
S
1
71.5
70.4
134.8
3.0752
1
20.3
17.5
422.8
5.1376
2
80.8
79.3
84.4
2.5713
X
2
75.5
73.7
113.9
2.9003
X X
3
86.8
85.3
52.4
2.1706
X X X
3
86.3
84.7
55.4
2.2148
X
4
95.6
94.9
5.0
1.2833
X X X X
Jan-16
Fethi Derbeli
d d e d X X X
X X
20
Best Subsets Subsets – Model Model Compa Compariso rison n •
Stat > Regression > Regression 1. Resp Respons onse: e: Brk Brklen leng; g; Pre Predi dict ctor ors: s: Spee Speedd 2. Response: Response: Brkleng, Brkleng, Predictor Predictors: s: Speed, Speed, Tirecond, Tirecond, Reactime, Reactime, Strtcond Strtcond
The regression equation is Brklen Brkleng g = - 19.8 19.8 + 0.995 0.995 Speed Speed Predictor Constant Speed S = 3.075
Coef
SE Coef
T
P
-19.798
5.994
-3.30
0.003
0.9954
0.1189
8.37
0.000
R-Sq = 71.5%
One Variable
R-Sq(adj) = 70.4%
The regression equation is Brkleng Brkleng = 4.60 4.60 + 0.696 0.696 Speed Speed - 2.75 Tirecon Tirecond d + 4.91 4.91 Reactime Reactime - 1.14 Strtcon Strtcond d Predictor
Coef
SE Coef
T
P
4.601
3.691
1.25
0.224
Speed
0.69629
0.05702
12.21
0.000
Tirecond
-2.7492
0.3796
-7.24
0.000
Reactime
4.9066
0.5200
9.43
0.000
Strtcond
-1.1398
0.1622
-7.03
0.000
Constant
S = 1.283
Jan-16
R-Sq = 95.6%
Four Variable Variabless
R-Sq(adj) = 94.9%
Fethi Derbeli
21
Résumé
La corrélation est un outil très utile pour les industries de transformation. La corrélation corrélation est est la mesure mesure de la relation entre deux variables quantitatives. Soyez prudent lorsque vous présumez une causalité. L'analyse de la régression recherche une relation entre les variables sous la forme d'une équation de prédiction qui peut être ou non linéaire. Dans la régression, l'équation peut être soit la réponse souhaitée soit le moyen de prédiction désiré.
Jan-16
Fethi Derbeli
22
Tolérancement réaliste
Jan-16
Fethi Derbeli
23
Tolérancement réaliste • Une méthod méthodee graph graphiqu iquee sim simple ple pour pour établi établirr les les niveaux optimum et les tolérances appropriées des ENTRÉES. • Dès que l'on l'on a déterm déterminé iné qu' qu'une une sortie sortie con contin tinue ue dépend linéairement d'une entrée continue, la spécification des sorties est utilisée pour créer la spécification des entrées. • Les nua nuages ges de poin points ts et et les les droit droites es d'aj d'ajust ustem ement ent démontrent la relation entre les entrées et les sorties, mais pas nécessairement les causes et effets. Jan-16
Fethi Derbeli
24
Toléranc Tolérancemen ementt réalis réaliste te - la métho méthode de Étape 1 : Identifiez une variable de réponse intéressante et notez ses spécifications. Choisissez une variable d'entrée. Étape 2 : Sélectionnez la variable d'entrée intéressante. Définissez une étendue de valeurs pour la variable d'entrée qui pourrait optimiser la variable de réponse. Étape 3 : Lancez 30 échantillons supérieurs à l'étendue de la variable d'entrée et enregistrez les valeurs de sortie. Étape 4 : Reportez les résultats dans un diagramme avec la variable d'entrée sur l'axe x et la sortie sur l'axe y. u Si le diagramme a une pente avec un léger nuage de points vertical, il existe une relation. Passez à l'étape 5. u S'il n'y a pas de pente, il n'existe aucune relation entre la variable d'entrée et la variable de réponse. .
Jan-16
Fethi Derbeli
25
Toléranc Tolérancemen ementt réalis réaliste te - la métho méthode de Étape 5 : Déterminez la valeur cible et la tolérance de la variable d'entrée. d'entré e. u Tracez la meilleure droite d'ajustement à travers les données. u Éliminez les points de données les plus éloignés de la meilleure droite d'ajustement. u Dessinez une droite parallèle passant par les points les plus éloignés suivants. u Tracez une seconde droite parallèle équidistante à la meilleure droite d'ajustement sur le côté opposé. La distance verticale entre ces deux droites dro ites parallèles représente 95 % de l'effet total de tous les autres facteurs sur la sortie autres que la variable d'entrée d'entré e étudiée ici. u S'il existe une spécification de la variable de réponse, tracez les droites de ces valeurs sur l'axe y pour qu'elles croisent les droites de confiance supérieure et inférieure. d'int ersection. La u Faites descendre deux droites vers l'axe x à partir de ces points d'intersection. distance entre les points où ces deux droites croisent l'axe x représente la tolérance maximum admissible pour la variable d'entrée. Étape 6 : Comparez ces valeurs avec les niveaux n iveaux de fonctionnement existants et implémentez les modifications nécessaires de la procédure standard d'exploitation. Documentez ces modifications avec la FMEA et le plan de contrôle. Jan-16
Fethi Derbeli
26
Exemple Exemple - Tolérance Tolérancement ment réaliste réaliste Étape 1 : Sélectionnez la variable de réponse et sa valeur cible. Ici, la réponse est “Sortie” et sa spécification est 30.5 30.5 +/+/- 1.0. 1.0. Étape 2 : Sélectionnez une variable d'entrée intéressante. Définissez une étendue de variable d'entrée qui pourrait optimiser la variable de réponse. Nous avons appris des études précédentes que, pour l'entrée 1, l'étendue optimale se situe entre 40 et 50. De plus, une nouvelle variable d'entrée intéressante (entrée n°2) a été identifiée (étendue intéressante qui pourrait optimiser la réponse = 45 à 60). Étape 3 : Lancez 30 échantillons et mesurez le niveau de l'entrée et la sortie observée. Étape 4 : Reportez les résultats dans un diagramme avec la variable d'entrée sur l'axe x et la sortie sur l'axe y. Si le diagramme a une pente avec un léger nuage de points vertical, il existe une relation. Passez à l'étape 5. S'il n'y a pas de pente, il n'existe aucune relation entre la variable d'entrée et la variable de réponse. Minitab : Stat > Régression > Droite d'ajustement Jan-16
Fethi Derbeli
Entrée n°1
32
31 t u p t u O30
29 40
45
50
Input
Entrée n°2
35 34 33 t u 32 p t u 31 O 30 29 28 27 45
50
55
60
Input 27
Exemple Exemple - Toléranc Tolérancemen ementt réaliste réaliste Étape 5 : a) Tracez Tracez la meilleure meilleure droite droite d'ajustement d'ajustement à travers travers les données. données. b) Éliminez les points de données les plus éloignés de la meilleure droite d'ajustement. c) Dessinez Dessinez une droite parallèle parallèle passant passant par les prochains prochains points points les plus éloignés éloignés de la meilleure droite d'ajustement. d) Tracez une seconde droite parallèle équidistante à la meilleure droite d'ajustement de l'autre côté. La distance verticale entre ces deux droites parallèles représente 95 % de l'effet total de tous les autres facteurs sur la sortie autres que la variable d'entrée étudiée ici. 32
95 % de l'effet total des facteurs autres que cette variable d'entrée
31 t u p t u O30
29 40
45
50
Input Jan-16
Fethi Derbeli
28
Exemple Exemple - Toléranc Tolérancemen ementt réaliste réaliste Étape Étape 5 (sui (suite) te) :
32
e) S'il existe des spécifications pour la variable de réponse, tracez tracez les droites de ces valeurs sur l'axe y pour qu'elles croisent les droites de confiance supérieure et inférieure. f) Faites descendre deux droites vers l'axe x à partir de ces points d'intersection. La distance entre les points où ces droites croisent l'axe x représente la tolérance maximum admissible de la variable d'entrée. Jan-16
31 t u p t u O30
29 40
45
50
Input
Tolérance de la variable d'entrée Inf. = 45 Fethi Derbeli
et
Sup. = 48.5 29
Exemple Exemple - Toléranc Tolérancemen ementt réaliste réaliste Analys Ana lysee Minitab Minitab : Stat > Regres Regression sion > Fitted Fitted Line Plot Options Options : Predictio Predictionn Bands Regression Plot 32
31
t u p t u 30 O
Y = 18.4182 + 0.256929X R-Sq = 0.933
29
Regression 95% PI 28 40
45
50
Input
Étape 6 : Comparez ces valeurs avec les niveaux de fonctionnement existants et implémentez les modifications nécessaires de la procédure standard d'exploitation. Documentez les modifications par la FMEA et le plan de contrôle. Jan-16
Fethi Derbeli
30
Questions?
Jan-16
Fethi Derbeli
31