INTRODUCTION À L’ECONOMÉTRIE LINÉAIRE APPLIQUÉE © SOUSSI NOUFAIL OUTMANE 2015
Pratique de l’économétrie à travers des exemples
PLAN
Econométrie : Origine(s), définition(s) et objectif(s) La démarche économétrique La théorie de la corrélation simple Analyse de régression simple multiple Analyse de régression multiple Applications informatiques
2
BIBLIOGRAPHIE Greene (2005), Économétrie, Pearson Education. Bazen Vuibert Bazen et Sabatie Sabatierr (2006), Économétrie : des fondements à la modélisation, Vuibert Domodarr Gujara Gujarati ti (1995), Bazic économetrics, Mac Graw-Hill International Domoda Johnson (1985), Econometric Methods, tome I et II, Economica, Paris. Régis Bourbonnais (1998), Econométrie; manuel d’exercices et corrigés, 2ème Ed. , DUNOD. séri es temporelles macroeconomiques Mignon et Sardic Laric, Econométrie des séries Valérie Mignon et financières, Economica, Paris, 2002. Davidson et MacKinnon (2004), Econometric Theory and Methods, Oxford University Press
3
INTRODUCTION
Qu’est ce que l’économétrie?
4
QU’EST CE QUE L’ÉCONOMÉTRIE
Littéralement parlant, le terme économétrie peut s’interpréter comme la science de la mesu me surre en éc écoono nomi miee. Bien que la mesure soit une part importante de l’économétrie, le domaine de cette discipline est plus vaste.
Cittat Ci atio ions ns et avis de dess éc écon onom omis iste tess : la statistique mathématique aux aux données données L’économétrie consiste en une application de la l’économie économiques pour économiques pour servir de support empirique aux aux modèles modèles construits construits par l’économie Gerh ard TI NTN ER, Uni v. mathématique et mathématique et d’obtenir des résultats des résultats numériques (d’après Gerh ). ). Chi cago, cago, 1968 L’économétrie p peeut se définir comme l’analyse quan quanti tita tativ tivee de dess ph phén énom omèn ènes es l’évolution de la théorie l’observation à partir des économiques actuelles économiques actuelles basés sur l’évolution la théorie et et sur l’observation TON EG. méthodes appropriées méthodes appropriées de l’inférence.(PA. SAM UE L SON, T.C KOOPM AN S& STONEG. ° °2 Apri l1954 Econometri Econometr i ca, vol 22, N l1954 ) 5
QU’EST CE QUE L’ÉCONOMÉTRIE Citations et avis des économistes :
L’économétrie se définirait comme la science la science sociale dans sociale dans laquelle les outils les outils de de
la théorie la théorie
économique, des mathématiques des mathématiques et et de la statistique la statistique inférentielle sont inférentielle sont appliqués à l’analyse des phénomènes des phénomènes économiques. économiques. (Ar thur GOL DB ERGER, 1964 ) 1964 L’économétrie concerne la détermination la détermination empirique des empirique des lois lois économiques ( économiques (H enri THEI L ). 1971, 1971, Pri ncipl es of eco econome nometr trii cs L’art de l’économétre consiste à trouver l’ensemble l’ensemble des hypothèses qui hypothèses qui sont à la fois suffisamment spécifiques suffisamment spécifiques et et suffisamment réalistes suffisamment réalistes pour pour lui permettre de tirer de tirer le le meilleur profit des profit des données données qu’il dispose dispose ( ( E. M ali nvaud stati statisstical ti cal meth method od of econome econometr tr i cs r and M cNall y, Chica Chi cago go 1966 1966) ) . 6
ECONOMÉTRIE : DÉFINITION(S) ET OB OBJE JECT CTIF IF(S)
. Etudes des relations Dé f i n i ti on 1 des relations quantitatives de quantitatives de la vie économique faisant appel à l’analyse statistique et statistique et à la à la formulation mathématique. mathématique.
exprime quantitativement les corrélations les corrélations pouvant pouvant exister Dé f i n i ti on 2. L'économétrie exprime quantitativement
entre des phénomènes économiques dont la théorie la théorie affirme affirme l'existence.
Dé f i n i ti on 3. L’économétrie est une branche une branche de l’économie qui traite de l’estimation
pratique des relations des relations économiques. économiques.
Dé D é f i n i ti on 4. L’objectif de de l’économétrie est de confronter de confronter un modèle un modèle économique économique à un ensemble de données de données (données (données de panel, série temporelle, etc.) et ainsi d’en vérifier la
validité.. validité
7
ECONOMÉTRIE : DÉFINITION(S) ET OB OBJE JECT CTIF IF(S) les sciences connexes à l’économétrie
Théorie économique
Statistique économique
Traitement économétrique de données Récolte de données empiriques sur un échantillon : Sondage
Résultats numériques Statistique inférentielle Economie mathématique
8
ECONOMÉTRIE : C ARREFOUR DE TROIS DISCIPLINES Economiste Exprime une théorie Exprime théorie sur un phénomène économique Ex. La demande dépend du prix
Mathématicien Propose une Propose modélisation de la théorie
Statisticien Estime les paramètres du modèle à partir de donnéess : Va donnée Validati lidation on statistique
Ex. demande = a * prix + b
Sous le contrôle de l’Economiste Validation Ex. a est forcément négatif
Ex.
a = -0.5 et b = 10
9
CONOMI OMIE E MAT MATHÉMA HÉMATIQU TIQUE E / MODÈ ODÈLE LE ÉCON ÉCONOMÉ OMÉTRIQ TRIQUE UE NOTIONS CLÉS : ECON Elaboration de la théorie Partie déductive : l’économie
mathématique (modélisation mathématique
Partie Inductive : l’économétrie
(testerr « la (teste réalit réa litéé »)
Ainsi on a fait usage de l’économie l’économie mathématique mathématique :
Théorie des prix
o r cThéorie de l’équilibre général i Théorie de l'équilibre général M
Maximisation du profit Minimisation des coûts
Topologie mathématique Théorie du bien être Théorie de la croisssance o Equation différentielles ou récurrentes r cThéorie du Cycle a optimisation optimisation mathématique sous contrainte La planification économique M Le comportement des agents économiques système d'équations simultanées
10
CONOMI OMIE E MAT MATHÉMA HÉMATIQU TIQUE E / MODÈ ODÈLE LE ÉCON ÉCONOMÉ OMÉTRIQ TRIQUE UE NOTIONS CLÉS : ECON Un modèle économique consiste en une présentation formalisée d’un phénomène des idées sous forme d’équations mathématiques. Ex.
D= f(p)=a× f(p)=a×p p +b O=f(p)= α×p +ß O=D
Equations de comportement Identité
Estimation de à partir des données disponibles Limites de cette relation
: existence d’autres variables exogènes au modèle tels que le revenu, le prix du bien de
substitution, etc.
Un modèle économétrique économétrique fait intervenir l’aléatoire dans l’équation économique. Ex.
D= f(p)=a× f(p)=a×p p +b +εD O=f(p)= α×p +ß +εO Introduction du facteur «aléatoire» Résumé de toute l’information non prise en compte dans le modèle
11
DÉMARCH DÉM ARCHE E ÉCON ÉCONOMÉ OMÉTRIQ TRIQUE UE
L’analyse économétrique procède comme suit :
1. Postulats de la théorie économique ou hypothèses de base 2. Spécification du modèle économétrique pour tester la théorie 3. Estimation des paramètres du modèle choisi 4. Vérification ou l’inférence statistique
5. Prévision ou prédiction 6. Utilisation du modèle à des fins de politique économique.
12
DÉMARCH DÉM ARCHE E ÉCON ÉCONOMÉ OMÉTRIQ TRIQUE UE
THEORIE
RE SPECIFICATION DU MODELE
MODELISATION
THEORI THE ORIE E NON VALI ALIDEE DEE
ESTIMATION ESTIMA TION ECONOMETRIQ ECONOMETRIQUE UE
THEORIE THEO RIE VA VALIDEE LIDEE
13
DÉMARCH DÉM ARCHE E ÉCON ÉCONOMÉ OMÉTRI TRIQUE QUE
Exemple :
Toute Tou te chose ch ose r es esta tan nt é gal e par ai aill l eur s , la quantité demandée d’un bien est une fonction
inverse (négative) de la variation du prix de ce bien. 1) Quantité demandée est une fonction inverse du prix du bien
2) < 0 si nous choisissons la forme fonctionnelle linéaire:
où est le terme d’erreur. Elle mesure la différence entre les valeurs réellement observées de et les valeurs qu’on aurait dues observer si la relation entre la demande et le prix était « exacte ». 3) L’estimation de des vraies valeurs de codifiées par exemple en et 4) La vérification nous permet d’avoir des ainsi de suite. 14
ORRÉ RÉLAT LATIO ION N VER VERSU SUS S RÉG RÉGRE RESS SSIO ION N COR A THÉORIE THÉORIE DE DE LA CORRÉLATION LA CORRÉLATION L A
Rappel:
Dé D é f i n i ti on : L’analyse de corrélation permet de nous informer sur l’intensité de la
relation linéaire entre deux ou plusieurs variables C’est un outil complémentaire de la régression entre les variables. Quand? : lorsqu’on soupçonne de l’existence de liaison linéaire entre les variables. Il ex exis iste te plusi lusieu eurs rs form ormes de liai liaiso sons ns:: log logarit arithm hmiq ique ue,, ex expponen enti tiel elle le,, paraboliques,…) Calcul: Recourir à la notion de la covariance (limite : influencée par les unités de mesure des variables) ) ( ) ( ) (,) = () ( )² ( )² )²
Limite : ne permet pas de distinguer entre variable endogène et variable exogène.
15
COR ORRÉL RÉLATI ATION ON VE VERSU RSUS S RÉG RÉGRES RESSI SION ON A THÉORIE THÉORIE DE DE LA CORRÉLATION LA CORRÉLATION ( EXEMPLES EXEMPLES ) L A
16
ORRÉ RÉLAT LATIO ION N VER VERSU SUS S RÉG RÉGRE RESS SSIO ION N COR A THÉORIE THÉORIE DE DE LA CORRÉLATION LA CORRÉLATION L A
Pearson Propriétés du Coefficient de corrélation de Bravais – Pearson
Hypothèses fondamentales: Les variables X et Y doivent être quantitatives ; Les variables X et Y doivent être sont gaussiennes ; La relation entre X et Y doit être linéaire
17
ORRÉL RÉLATI ATION ON VE VERS RSUS US RÉG RÉGRES RESSI SION ON COR ÉFINITION ET ET EXEMPLE EXEMPLE DÉFINITION
Corrélation
Régression
Variables
X = quantitative Y = Y = quantitative
X = quantitative Y = Y = quantitative
Exemples
Positive X = Paires de lunettes de soleil Y = Crèmes glacées Quand X , Y et vice versa Négative X = paires de lunettes de soleil Y = parapluies en été Quand X , Y et vice versa Oui / Non Y liée à X X liée à Y
La taille dépend de l’âge L’âge ne dépend pas de la taille
Non
Oui (équation)
Symétrie de la liaison Prédiction
Y = Taille X = Age Quand l’âge , la taille Quand l’âge , la taille
Non
18
ERMIN INOL OLOG OGIE IE ET NO NOTAT TATIO ION N TERM
Variable Dépendante Variab iable Expliqu iquée Variable de Réponse
Variable Explicative Variab iable indépen enddante Prédateur Régresseur
Variable ariabl e Endogène
Variable ariabl e Stimulus
Variable Résultat
Variable Exogène
Variable Contrôlée
Variable de Contrôle 19
T YPES DE DONNÉES Trois catégories de données (analyse empirique): Les séries temporelles (chronologiques) temporelles (chronologiques) : est un ensemble d’observations qui prend une variable à différents moments du temps . Obtenues à des intervalles réguliers de temps : (décennal, quinquennal, annuel, trimestriel, mensuel, hebdomadaire, quotidien, ect…) Les série sériess instan instantanées tanées:: se sont des données sur une ou plusieurs variables collectées au même instant du temps . mixtes: elles combinent les éléments des séries des séries chronologiques et chronologiques et les données Les séries mixtes: en coupe en coupe instantanées. instantanées. Le panel est est un type particulier de séries mixtes dans lesquelles les mêmes unités faisant de coupes instantanées sont enquêtées sur une période de temps.
20
OURC RCES ES DE DO DONN NNÉE ÉES S SOU
Les données peuvent être obtenues auprès de multitude d’institutions publiques, semi publiques et privées.
Pour le Maroc : la Direction de la Statistique (HCP), les ministères, Bank El Maghrib, les Pour banques commerciales, commerciales, les chambres de commerce, ….. Au ni nivvea eau u ré réggio ion nal et in inte tern rnat atio ion nal: Eurostat, la banque centrale européenne (BCE), le Fond monétaire international (FMI), la banque mondiales (BM), …. Internet 21
ODÈL ÈLE E DE RÉ RÉGR GRES ESSI SION ON SI SIMP MPLE LE MOD
Introduction Présenter le modèle de régression simple Chercher les estimateurs MCO Étudier ses propriétés algébriques Regarder les hypothèses statistiques statisti ques du modèle et analyser leurs conséquences (absence de biai s , convergence , efficience ) Analyser les tests d'hypothèse simples et le calcul d'intervalles de confiance dans le cadre du modèle Tester la qualité globale du modèle ajusté
22
L A RELATION LINÉAIRE Supposons que d’après la théorie choisie , Où désigne la variable la variable dépendante (expliquée) et la variable la variable indépendante (explicative). indépendante (explicative).
La théorie peut nous suggérer certaines contraintes certaines contraintes sur sur les paramètres qui doivent être respecter: Le signe de de () (1) Le signe (2) Son ordre Son ordre de de grandeur (poids).
Une spécification Une spécification est est dite linéaire dite linéaire lorsque lorsque , ou une quelconque transformation de , peut être exprimée comme exprimée comme une fonction linéaire de linéaire de , ou d’une quelconque transformation de Ainsii : . Ains
-
log
23
PÉCIF IFIC ICAT ATIO ION N DU MO MODÈ DÈLE LE ÉCO ÉCONO NOMÉ MÉTRI TRIQU QUE E SPÉC la variable dépendante Supposons que d’après la théorie choisie , Où désigne la variable (expliquée) et la variable la variable indépendante (explicative). indépendante (explicative).
Sur base des données d’échantillons disponibles, qu’elle sera la forme explicite (du explicite (du nuage de points) qu’on peut choisir ? Supposons qu’on choisit la choisit la forme linéaire simple : simple : Cela veux dire qu’a dire qu’a partir partir de l’utilisation l’utilisation des des données de l’échantillon, l’échantillon, on on peut calculer les deux paramètr paramètres es , afin de tracer la droite:
Sur cette cet te droite se trouveraient tous les tous les couples des points ( , ) de l’échantillon de l’échantillon.
24
PÉCIF IFIC ICAT ATIO ION N DU MO MODÈ DÈLE LE ÉCO ÉCONO NOMÉ MÉTRI TRIQU QUE E SPÉC
Les relations fonctionnelles relations fonctionnelles strictes et exactes fournissent exactes fournissent rarement rarement une une relation adéquate relation adéquate entre grandeurs économiques, la meilleure relation serait de la forme : s’assurer de Pour s’assurer de l’exactitude de la relation (une relation (une meilleur représentativité de la réalité) qui intègre toutes les variables ou les boucles représentées dans les nuages, on intègre le paramètre , (où une variable aléatoire suivant une loi de probabilité précise).
Le modèle Le modèle spécifié est spécifié est une caricature une caricature de de la réalité la réalité et et ne retenir que pour expliquer est vraiment insuffisant. IL insuffisant. IL existe une multitude d’autres facteurs susceptibles d’expliquer . (ou terme stochastique ou terr me al al é atoi r e . C’est pourquoi on ajoute un terme appelé te qui synthétise synthétise l’ensemble l’ensemble de de ces informations non explicitées dans terme de perturbation) qui le modèle. 25
PÉCIF IFIC ICAT ATIO ION N DU MO MODÈ DÈLE LE ÉCO ÉCONO NOMÉ MÉTRI TRIQU QUE E SPÉC
Ce terme mesure terme mesure la différence entre différence entre les valeurs réellement observées réellement observées de de et les valeurs qui auraient dû être observées si observées si la relation la relation fonctionnelle était fonctionnelle était rigoureusement exacte rigoureusement exacte..
Terme stochastique = erreur = perturbation= terme aléatoire 2. Ce terme regroupe deux regroupe deux principaux Types d’erreurs : d’équation (ou de spécification) et Erreur d’équation Erreur de mesure (les mesure (les données ne représentent pas vraiment le phénomène) On peut ajouter une autre erreur : fluctuations : fluctuations entre échantillons. échantillons. 1.
L’introduction du terme dans l’équation nous oblige à égard….
form fo rmul uler er de dess hy hypo poth thès èses es à son 26
PÉCI CIFI FICA CATI TION ON DU TE TERM RME E D’ERREUR (HY HYPOT POTHÈ HÈSE SES S SU SUR R ) SPÉ
est aussi appelé élément de perturbation ou erreur de l’équation. C’est donc une variable aléatoire.
Hypoth Hyp othèse èse 1
valeurs positives,, nulle ou ou négatives négatives.. L’effet net de de touts les variables peut prendre des valeurs positives omises, ou qui ne peuvent être mesurées, peut rendre soit plus grande plus grande,, soit plus petite plus petite que que la valeur valeur qui aurait été observée. observée. La première hypothèse concernant est que son espérance mathématique est nulle, c’est-à-dire que : 0 . Hypoth Hyp othèse èse 2
Comme est la somme la somme de de nombreux effets tant positifs tant positifs que que négatifs négatifs,, on peut s’attendre à trouver des des valeurs faibles de faibles de , de façon à ce que sa distribution soit uni-modale. Si l’on l’existence d’une symétrie suppose l’existence d’une symétrie,, alors le mode coïncide avec la médiane et l’espérance mathématique, nulle dans ce cas. La distribution de est donc symétrique. 27
PÉCI CIFI FICA CATI TION ON DU TE TERM RME E D’ERREUR (HY HYPOT POTHÈ HÈSE SES S SU SUR R ) SPÉ Hypoth Hyp othèse èse 3
Nous supposons que la loi de probabilité suivie par a une forme particulière, le l’hypothèse selon laquelle suit une loi théorème central-limite nous incite à retenir l’hypothèse normale: ~(0, )
Hypoth Hyp othèse èse 4
Nous supp Nous suppos oson onss au auss ssii qu quee les dif différe férent ntes es va vale leur urss de représenten représententt des variables variables aléatoires indépendantes les unes des autres. Chaque est considérée comme un tirage d’une loi normale indépendamment distribuée. indépendant à partir d’une
~(0, )
28
Le Modèle de Régression Simple
Hypothèse du modèle de régression linéaire simple. Estimation des paramètres : Méthode MCO / OLS Quelques propriétés importantes de la régression Linéaire.
29
HYPO POTH THÈS ÈSES ES DU MO MODÈ DÈLE LE DE RÉ RÉGR GRES ESSI SION ON LES HY
Le modèle gaussien, standard, classique de la régression linéaire constitue la pierre Hypoth othèse èsess: angulaire de l’essentiel de la théorie économétrique pose 10 Hyp H ypo ypoth th è se 1: M od odè è l e de r é gr es essi sion on l i n é ai r e
Le modèle est linéaire dans les paramètres :
H ypo ypoth th è se 2:
Les valeurs de sont fixées dans un échantillonnage répété. Les valeurs prises par le régresseur sont considérées comme fixes dans les échantillons renouvelés. En termes plus technique, est supposé non stochastique. H ypo ypoth th è se 3: 3: L L ’espérance math mat h é matii qu mat que e du ter terme me d’erreur es est nul nu l l e
La valeur moyenne du terme d’erreur u ui est nulle. La valeur de étant donnée, la moyenne ou la valeur espérée du terme d’erreur aléatoire, aléatoire, ui, est nulle. CAD, la moyenne conditionnelle de ui est nulle E(ui\Xi ) 0 ⇔ E(Yi\Xi)
30
HYPO POTH THÈS ÈSES ES DU MO MODÈ DÈLE LE DE RÉ RÉGR GRES ESSI SION ON LES HY
H ypo ypoth th è se 4: H om H omo oscé dast da stii ci t é ou é gall i té ga des va varr i an ces de
L’homoscédasticité ou la constance de la variance . La valeur de étant donnée,
la variance de est identique pour toutes les observations. Ceci signifie que les variances conditionnelles de sont identiques. On peut écrire : ( \ ) [ \ ]² ( \ ) ²\ ] ( \ )
H ypo ypott h è se 5: Abs A bse en ce d’autocorrélation entre entre le less err eurs Compte tenu des deux valeurs , et ( ≠ ), la corrélation entre deux et ( ≠ ), est égal à zéro. ( , \ , ) { \ }{ \ } ( , \ , ) ( \ )( \ ) ( , \ , ) 0
31
HYPO POTH THÈS ÈSES ES DU MO MODÈ DÈLE LE DE RÉ RÉGR GRES ESSI SION ON LES HY
H ypo ypoth th è se 6: cov covari anc nce e null e entre et ( , ) car ( , ) 0 ( , ) ( ) n’est pas stochastique ( , ) 0
Le terme d’erreur et la variable explicative sont non corrélés. Dans notre modèle nous avons supposé que X et ont une influence séparée (et additive) sur . Mais si et sont corrélées, il n’est pas possible d’apprécier l’effet individuel de chaque variable sur . Cette hypothèse se vérifie parce que est non aléatoire mais aussi parce qu’elle avait des valeurs fixées pour des échantillons répétés. Même si était aléatoire mais indépendante de c'est-à-dire non corrélées, les propriétés des estimateurs MCO se vérifieraient toujours si la taille de l’échantillon est très large.
32
HYPO POTH THÈS ÈSES ES DU MO MODÈ DÈLE LE DE RÉ RÉGR GRES ESSI SION ON LES HY
H ypo ypoth th è se 7:
Le nombre d’observations n doit être plus élevé que le nombre de paramètres à estimer. L a vari abil i té L dess vale de valeur ur s de H ypo ypoth th è se 8 : .
Les valeurs de dans un échantillon donné ne sont pas obligatoirement les même. Autrement dit, () doit être un nombre fini positif. odè è l e de r é gr ess essii on est cor r ect ectemen ementt spé ci f i é H ypo ypoth th è se 9 : L e mod .
Ceci veut dire qu’il n’existe pas de biais de spécification ou d’erreurs dans le modèle utilisé pour l’analyse l’analyse empirique. aucune ne mu mull titicoli coli né arii té ar parff ai par aite te H ypo ypoth th è se 10 : I l n' y a aucu .
Il n'y a pas de relation linéaire parfaite entre les variables explicatives.
33
STIM IMATI ATION ON DE DES S PAR PARAM AMÈTR ÈTRES ES : MCO EST
Définition Définit ionss : Un estimateur est est défini comme une comme une formule ou formule ou une une méthode pour méthode pour estimer estimer un paramètre un paramètre Un estimateur inconnu. la valeur numérique résultant numérique résultant de l’application de cette formule Tandis que l’estimation est la valeur à une réalisation d’un échantillon. étant fonction d’une variable aléatoire , est lui- même une variable Un estimateur étant fonction aléatoire.. aléatoire Toute droite tracée à partir du nuage des nuage des points est considérée comme un comme un estimateur de de la Toute droite relation supposée. relation supposée. Toute droite engendre écarts qu’on appellera résidus appellera résidus ( ). Il parait donc logique de choisir une droite (c'est-à-dire droite (c'est-à-dire des valeurs de et ) qui donne qui donne les résidus les résidus les les plus faibles.. faibles 34
ÉTHO HODE DE DE DES S MOI OIND NDRES RES CA CARRÉ RRÉES ES OR ORDI DINA NAIR IRE E MÉT
L’ajustement par la méthode des moindres carrées ordinaires (MCO), (MCO), va apparaitre comme le procédés convenant à l’estimation des paramètres du modèle.
Ex. La fonction de consommation keynésienne La fonction de production Cobb-Douglass (Forme non linéaire)
Forme linéaire du modèle de régression régression multiple 35
ÉTHO HODE DE DE DES S MOI OIND NDRES RES CA CARRÉ RRÉES ES OR ORDI DINA NAIR IRE E MÉT
Il convient de noter également que le terme d’erreur [bruit, perturbation ou aléa] dénote de la différence entre l’économiste et l’économètre.
Il synthétise l’influence sur [variable expliquée] de toutes les autres variables oubliées et des erreurs éventuelles de spécification de la forme fonctionnelle dans le modèle l’économiste. spécifié par l’économiste
De plus, sa présence dans le modèle rend les paramètres a et b inconnus, i nconnus, on ne sait plus les calculer,….
il faut donc les estimer. 36
MÉT ÉTHO HODE DE DE DES S MOIN OINDRE DRES S CA CARR RRÉE ÉES S OR ORDIN DINAIR AIRE E
MCO
37
MÉT ÉTHO HODE DE DE DES S MOIN OINDRE DRES S CA CARR RRÉE ÉES S OR ORDIN DINAIR AIRE E
38
MÉT ÉTHO HODE DE DE DES S MOIN OINDRE DRES S CA CARR RRÉE ÉES S OR ORDIN DINAIR AIRE E
Le critère des moindres carrés consiste à minimiser la somme des carrés des écarts (des erreurs) entre les vraies valeurs de Y et les valeurs prédites avec le modèle de prédiction.
L'estimateur des moindres carrées ordinaires (MCO) des paramètres a et b doit donc répondre à la minimisation de la somme des carrées des écarts.
ˆb les solutions de ces équations normales, nous obtenons les En appelant aˆ et ˆb estimateurs des moindres carrés.
39
MÉT ÉTHO HODE DE DE DES S MOIN OINDRE DRES S CA CARR RRÉE ÉES S OR ORDIN DINAIR AIRE E Méthode de Calcul : On cherche les valeurs de et qui minimisent la SCR : fonction des des paramètres et 1. On écrit SCR en fonction par rapport rapport à égale à zéro 2. On pose la dérivée de cette fonction par 3. On pose la dérivée de cette fonction par par rapport rapport à égale à zéro 4. On résoud ce système de 2 équations à 2 inconnues
Les valeurs qui résolvent ce système de 2 équations à 2 inconnues, notées et , sont appelées les paramètres estimés des MCO. 40
MÉT ÉTHO HODE DE DE DES S MOIN OINDRE DRES S CA CARR RRÉE ÉES S OR ORDIN DINAIR AIRE E Minimiser la somme des carrées des écarts On déduit des équations normales les valeurs :
Autres relations pour relations pour calculer le paramètre
méthode des MCO MCO est alors alors : L’équation de régression par la méthode
41
MÉT ÉTHO HODE DE DE DES S MOIN OINDRE DRES S CA CARR RRÉE ÉES S OR ORDIN DINAIR AIRE E S Min et 2 Min ( yt yt ) 2 Min ( yt a xt b) 2 ˆ
ˆ
Conditions de premier ordre:
S
ˆ ˆ
2 ( yt a xt b ) xt 0
(1)
2 ( yt a xt b) 0
(2)
ˆ
ˆ
a S ˆ
ˆ
ˆ
b y ax
(2) (1)
b
ˆ
ˆ
ˆ
En multipliant les deux côté par 1/n 1
n
1 n
yt xt y
n
y x
1
t
t
1 n
y x
x
t
² x ²
n
ˆ
ˆ
a n
1
xt a (
yt xt y x a (
1 ˆ
1
x
t
xt ² x
1
x ) 0 n t
² x ²) 0
y x n y x x ² n x ² t
t
t
42
MÉT ÉTHO HODE DE DE DES S MOIN OINDRE DRES S CA CARR RRÉE ÉES S OR ORDIN DINAIR AIRE E Interprétation (1): Soit le modèle de régression
L’estimation par MCO fournit les résultats suivants :
1. Le coefficient est la pente de la droite : si augmente de 1 unité, augmente de unités 2. Le coefficient est l’ordonnée à l’origine : si est égal à 0, est égal à . 43
ODÈL ÈLE E DE RÉ RÉGR GRES ESSI SION ON SI SIMP MPLE LE MOD E XEMPLE
44
ODÈL ÈLE E DE RÉ RÉGR GRES ESSI SION ON SI SIMP MPLE LE MOD E XEMPLE
45
ODÈL ÈLE E DE RÉ RÉGR GRES ESSI SION ON SI SIMP MPLE LE MOD E XEMPLE ( SUITE SUITE )
46
MÉT ÉTHO HODE DE DE DES S MOIN OINDRE DRES S CA CARR RRÉE ÉES S OR ORDIN DINAIR AIRE E Interprétation (2): La valeur ajustée est une estimation de la moyenne de sachant , c’est-à-dire de la moyenne de y conditionnelle à , notée ( ( | ). ). Soit le modèle de régression linéaire : Si on applique une espérance conditionnelle à aux 2 termes, on a : (|) Si (| (| ) 0, la régression linéaire est équivalente à : (| (|) ) Pour des valeurs estimées des paramètres, on a : (|) 47
MÉT ÉTHO HODE DE DE DES S MOIN OINDRE DRES S CA CARR RRÉE ÉES S OR ORDIN DINAIR AIRE E Interprétation (3): Soit le modèle de régression ⇔ L’estimation par MCO fournit les résultats suivants :
⇔ (|) 1. Si augmente de 1 unité, augmente de unités ⇔ Si augmente de 1 unité, augmente en moyenne de unités Si augmente de 1 unité, l’augmentation espérée de est 2. Si est égal à zéro, la valeur de est égale à ⇔ Si est égal à zéro, la l a valeur moyenne de est estimée à
48
ODÈL ÈLE E DE RÉ RÉGR GRES ESSI SION ON SI SIMP MPLE LE MOD T ESTS DE ESTS DE SIGNIFICATION DE SIGNIFICATION DE COEFFICIENTS POUR COEFFICIENTS POUR LES LES ESTIMATIONS ESTIMATIONS a l r e t s e t t s u e r e t p è n m o a n r o a p i t s a e l d e r n e o t t i t e a c i c e f i d n e i s g a s b a l r
49
ODÈL ÈLE E DE RÉ RÉGR GRES ESSI SION ON SI SIMP MPLE LE MOD
50
ODÈL ÈLE E DE RÉ RÉGR GRES ESSI SION ON SI SIMP MPLE LE MOD E XEMPLE ( ( SUITE SUITE )
51
ODÈL ÈLE E DE RÉ RÉGR GRES ESSI SION ON SI SIMP MPLE LE MOD T EST EST D D EFFICACITÉ EFFICACITÉ D D AJUSTEMENT ET ET COEFFICIENT COEFFICIENT DE DE CORRÉLATION CORRÉLATION ’
’
52
ODÈL ÈLE E DE RÉ RÉGR GRES ESSI SION ON SI SIMP MPLE LE MOD
53
ODÈL ÈLE E DE RÉ RÉGR GRES ESSI SION ON SI SIMP MPLE LE (RÉSUMÉ) MOD
54
ODÈL ÈLE E DE RÉ RÉGR GRES ESSI SION ON SI SIMP MPLE LE MOD E XERCICE
55
ODÈL ÈLE E DE RÉ RÉGR GRES ESSI SION ON SI SIMP MPLE LE MOD E XERCICE
56
ODÈL ÈLE E DE RÉ RÉGR GRES ESSI SION ON SI SIMP MPLE LE MOD E XERCICE
57
58
ODÈL ÈLE E DE RÉ RÉGR GRES ESSI SION ON SI SIMP MPLE LE MOD E XERCICE
59
ODÈL ÈLE E DE RÉ RÉGR GRES ESSI SION ON SI SIMP MPLE LE MOD E XERCICE
60
ODÈL ÈLE E DE RÉ RÉGR GRES ESSI SION ON SI SIMP MPLE LE MOD E XERCICE
61
ODÈL ÈLE E DE RÉ RÉGR GRES ESSI SION ON SI SIMP MPLE LE MOD E XERCICE
62
ODÈL ÈLE E DE RÉ RÉGR GRES ESSI SION ON SI SIMP MPLE LE MOD PROPRIÉTÉS ROPRIÉTÉS DES DES ESTIMATEURS ESTIMATEURS PAR PAR LES LES MCO
Pou ourq rquo uoii ch choi oisi sirr la mé méth thod ode e de dess MC MCO? O?
Pou ourq rquo uoii le less es esti tima mate teur urss MC MCO O so sont nt-i -ils ls les pl plus us em empl ploy oyer er? ?
Pou ourq rquo uoii so sont nt ils su supé péri rieu eurs rs à to tout ut au autr tre e es estim timat ateu eur? r?
Réponse: Les estimateurs MCO parmi tous les autres estimateurs en matière d’ajustement sont :
Sans Biais + efficace Convergent
63
ODÈL ÈLE E DE RÉ RÉGR GRES ESSI SION ON SI SIMP MPLE LE MOD PROPRIÉTÉS ROPRIÉTÉS DES DES ESTIMATEURS ESTIMATEURS PAR PAR LES LES MCO Comparaison des estimateurs Méthode 1: Ajustement basé sur la méthode des moments Méthode 2: basé sur la méthode du maximum de vraisemblance Méthode 3: basé sur la méthode des Moindre carrés ordinaires ………..
………..
Convergent Non Convergent
Si l'on peut estimer la valeur du paramètre sur toute la population-mère, la valeur de l'estimation obtenue doit être la valeur vraie du paramètre
Efficace
Estimateur 1 Estimateur 2 Estimateur 3 ……
Sans Biais
Pas de Précision Si l'on répète l'estimation sur un autre échantillon, on souhaite obtenir une estimation cohérente, donc peu de variation d'un
Si l'on souhaite que l'estimation ne soit pas décalée par rapport à la valeur vraie
o n s e s e r t d e p l u s i e u r s c r i t è r e s , l i é s a u b o n s e n s
64
ODÈL ÈLE E DE RÉ RÉGR GRES ESSI SION ON SI SIMP MPLE LE MOD PROPRIÉTÉS ROPRIÉTÉS DES DES ESTIMATEURS ESTIMATEURS PAR PAR LES LES MCO
Cas sans biais, et convergent et efficace
65
ODÈL ÈLE E DE RÉ RÉGR GRES ESSI SION ON SI SIMP MPLE LE MOD PROPRIÉTÉS ROPRIÉTÉS DES DES ESTIMATEURS ESTIMATEURS PAR PAR LES LES MCO
cas biaisé, convergent, et consistant
66
ODÈL ÈLE E DE RÉ RÉGR GRES ESSI SION ON SI SIMP MPLE LE MOD PROPRIÉTÉS ROPRIÉTÉS DES DES ESTIMATEURS ESTIMATEURS PAR PAR LES LES MCO
cas biaisé, convergent, mais non consistant
67
ETUDE DE CAS L a f onct onctii on keyné si enn e de conso consommat mmatii on on.. Rappel : fondamentale … est que les hommes hommes [les : Keynes proposait : « la loi psychologique fondamentale … femmes] en moyenne sont disposés, en règle générale, à augmenter leur consommation à mesure que leur revenu croît, mais pas autant que l'augmentation de leur revenu » ce qui
signifie que la que la proportion marginale à consommer est comprise entre 0 et 1. 1. o
o
o o
Bien que Keynes n’ait pas spécifié la spécifié la forme fonctionnelle de la relation revenu – consommation, nous supposons qu’elle est linéaire. linéaire. Pour tester cette relation nous disposons des données de l’échantillon du tableau suivant.
est le revenu hebdomadaire de la famille est sa dépense en consommation hebdomadaire.
Y
X
70
80
65
100
90
120
95
140
110
160
115
180
120
200
140
220
155
240
150
260
68
ETUDE DE CAS . Soit le modèle linéaire : L a fonct f onctii on ke k eyné si enn e de consommati consommation on suivants : Sortie Eviews Les résultats sont les suivants : Dependent Variable: Y Method: Least Squares Date: 12/20/15 Time: 15:45 Sample: 1 10 Included obs ervations: ervations: 10
La droite estimée est la suivante
24,4 24,454 5455 0,509 0,5091 1
Variable
Coefficient
Std. Error
t-Statis tic
Prob.
C X
24.45455 0.509091
6.413817 0.035743
3.812791 14.24317
0.0051 0.0000
R - s q u a re d Adjus Adjus ted R-squared R-sq uared S.E. of regres s ion Sum s quared res id Log likelihood F-s tatis tic Prob(F-s tatis tic)
0.962062 0.957319 0.95731 9 6.493003 337.2727 -31.78092 202.8679 0.000001
Mean dependent var S.D. dependent depen dent var var Akaike info criterion Schwarz criterion Hannan-Quinn criter. Durbin-Wats on s tat
111.0000 31.42893 31.4289 3 6.756184 6.816701 6.689797 2.680127 69
ETUDE DE CAS La droite estimée est la suivante :
24,4545 24,4545 0,5091 0,5091
Interprétation : o Chaque points de la ligne de régression fournit une estimation de la valeur moyenne (ou espérée) de correspondant à une valeur donnée de ; est une estimation de (\ ). Autrement dit o
o
mesur uree la pe pent ntee, indi indiqque que, dans la plage lage de La valeur de , , qui mes l’échantillon de comprise entre 80 et 260 par semaine, lorsque croit croit (par (par exemple d’une unité) la croissance estimée de la consommation hebdomadaire moyenne s’élève à environ (+0,51 unités). représente la valeur en ordonnées à l’origine de la droite La valeur de , , qui représente la de régression, elle indique le indique le niveau moyen de la consommation lorsque le revenu est nul.. nul 70
ETUDE DE CAS L a f onct onctii on keyné si enn e de conso consommat mmatii on on..
Remarques
Dans l’analyse de régression, un u n e tell tel l e in i n ter pr é tati ta ti on l i tté tt é r ale al e peut n’être pas pas touj touj ours significative : on suppose qu’une famille dépourvue de revenu puisse revenu puisse maintenir un un niveau l’emprunt soit par le désépargne minimal de consommation soit consommation soit par l’emprunt le désépargne.. Mais généralement, on doit faire preuve de bon sens pour interpréter ce coefficient car très souvent, la dispersion de ne comprend pas le chiffre zéro. zéro. Le mieux serait, pour interpréter interpréter la valeur en ordonnée à l’origine, de dire qu’elle représente l’effet moyen moyen de de Y de toutes de toutes les variables omises dans le modèle. modèle. 71
ETUDE DE CAS L a f onct onctii on keyné si enn e de conso consommat mmatii on on..
La
valeur de ² 0,9621 signifie qu’environ 96% de la variation dans la consommation hebdomadaire sont expliqués par le revenu. Puisque ² peut être au maximum valoir 1, le ² observé suggère que la que la droite de régression est un très bon ajustement des données. données.
Le co coef effi fici cien entt de co corr rréla élati tion on 0,9809 indique que les deux variables consommation et revenu sont fortement et positivement corrélés. corrélés.
72
ETUDE DE CAS L a f onct onctii on keyné si enn e de conso consommat mmatii on on.. I nte nterva rvalle lle de confianc onfiance e po pour ur et
Dependent Variable: Y Method: Least Squares Date: 12/20/15 Time : 15:45 Sample: 1 10 Included observations: 10 Vari abl e
Coeffi ci ent
Std. Er Error
t-Stati s tic
P ro b .
C X
24.454 55 0.5090 91
6.413817 0.035743
3 .812791 1 4.24317
0.005 1 0.000 0
La lecture des lecture des résultats indique résultats indique que: R - s q u a re d Adjusted R-s quared 0,5091 et 0,0357 avec 8 S.E. of regres si si o n Su m s q u a re d r e s i d Si nous supposons 5%, (le coefficient Log l i kel i hood de co conf nfia ianc ncee à 95%), alor lors la table de PF-rsotba(tFis-stictatis tic) Student donne: , 2,306. peut vérifier que l'intervalle de On confiance de 95% pour :
0.9620 62 0.957319 6.4930 03 337.27 27 -31.780 92 202.86 79 0.0000 01
Mean depend ent var S.D. dependent var Akai ke i nfo cri teri on Schwarz cri teri on Ha nnan-Qui nn cri ter. Du rbi n-Wats on s tat
111.00 00 31.42893 6.7561 84 6.8167 01 6.6897 97 2.6801 27
≤ ≤ ] 1 Pr[ 0,4268 ≤ ≤ 0,5914
73
ETUDE DE CAS L a f onct onctii on keyné si enn e de conso consommat mmatii on on..
Interprétation Compte tenu du seuil de confiance de 95% , à long terme, et dans 95 cas sur 100 100 l’intervalle (0,4268, 0,5914) contiendra la vraie valeur de . Ne pas dire: dire: que la probabilité est de 95% que l'intervalle spécifique de 0,4268 à 0,5914 contient la vraie valeur de Cet intervalle est corrigé et non et non pas aléatoire; aléatoire; donc, appartient à l’intervalle ou pas : La probabilité que l'intervalle fixe spécifiée comprend la vraie valeur du paramètre est donc soient 1 ou 0. De même l’intervalle de confiance pour confiance pour est 9,8843 ≤ ≤ 39,2448 À long terme, dans 95 cas sur 100 intervalles l’intervalle de confiance contiendra la vraie ; la probabilité que cet intervalle fixe comprend notamment le vrai paramètre est 1 74 ou 0.
I nte nterva rvalle lle de confi anc nce e po pour ur
L’intervalle pour
est : Pr ≤ ≤ 1
Pr 2
≤
≤ 2 1 −
À pa part rtir ir de dess ré résu sult ltat atss : , donc on peut déduire La 42,1591 337,2727 Pour 5%, la table de pour 8 fournit les valeurs critiques suivantes: , 17,5346, et , 2,1795. Ces valeurs indiquent que la probabilité d’une valeur de supérieur à 17,5346 est de 2,5% et celle dépassant 2,1797 est de 97,5%. Par conséquent, l’intervalle entre ces deux valeurs est l’intervalle de confiance de 95% pour , co comm mmee repr représ ésen enté té sché schéma matiq tique ueme ment nt en ha haut ut.. (Not (Notez ez la cara caract ctér éris isti tiqu quee asymétrique de la distribution du chi-carré.) 19,2347 ≤ ≤ 154,7336
75 Si on fix ixee le less li lim mit ites es de co connfi fian ance ce à 95% 5%,, et si on mai ainnti tien entt à pr prio iori ri qu’elles comprendrontt le véritable on aura raison, à LT dans 95% des cas. comprendron
ETUDE DE CAS L a foncti fon ction on keyné si enn e de conso consommat mmatii on on.. d’hypothèse : (S Test d’hypothèse ( Sign ignii f i ca cation tion stati statisstitique que) )
Le but étant de découvrir si est relié à . L’hypothèse nulle nulle peut-être peut-être tester à l’aide de l’intervalle de l’intervalle de confiance ou par test test de statistique. On suppose que: VS H: ; 0 H: ; ≠ 0, Au vue des résultats (sortie Eviews), les t-Student respectifs sont : t 3,8127 et t 14,24317, σ 6,41, σ 0,0357 Si α 0,05 et avec 8 , et la table de Student donne la valeur é 2,306. Nous pouvons affirmer pouvons affirmer que statistiquement, statistiquement, les valeurs t > é et t > é L L’hypothès ’hypothèsee nulle est rejetée cri tique affirme ce constat puisque Prob La probabilité critique < 0,05 et Prob < 0,05 76
ETUDE DE CAS L a f onct onctii on keyné si enn e de conso consommat mmatii on on.. d’hypothèse : (Sig Test d’hypothèse ( Sign n i f i cat catii on é conomi con omi qu que) e) si gnification, nous avons décider d’«accepter d’«accepter » » . Sur la base du test de signification,
Q? Q? Et si la si la théorie conduit théorie conduit à penser que la que la véritable pente ′ 1. avec l’hypothèse posée? posée? Le observé est de 0,5091. Est-il compatible avec l’hypothèse On suppose que H : 0 contre H : ≠ 0, au vue des résultats (Eviews), les t-Student respectifs sont : t 3,8127 et t 14,24317 , σ 6,41, σ 0,0357 Suppos Supposons ons qu quee é 0,5 . le é (,−,) 0,25 < 2,306 on peut donc , « accepté » H . D’après la théorie, théorie, le le multiplicateur simple est simple est de (−). Donc si 0,5091, le multiplicat multiplicateur eur est 2,04, mais il est 2,56 si 0,61. le gouvernement augmentait ses l’économie d’une récession, le revenu national pourrait dépenses de (1 unité) pour sortir l’économie augmenter de 2,04 unités si 0,5091 ou 2,56 unités si 0,61. cette différence différence est 77 déterminante pour stopper la récession dans l’économie.
ETUDE DE CAS L a foncti fon ction on keyné si en ne de consommati consommation. on. L es anal ys yse es de l a ré ré gre gr essi on et de l a vari var i ance
La table ANOVA est fournit dans le tableau suivant:
Origin Orig inee SCE SCR SCT
Som So mme de dess car arré réees 8552,73 337,27 8890
ddl ddl 1 8 9
Moy oyeenn nnee de la so som mme de dess ca carrré rées es 8552,73 42,159
La valeur calculée de calculée de est de , 202,87 ,
La valeur de du statistique correspond à 1 et 8 ne peut s’obtenir de de la table de , mais Eviews donne une 0,000001, une probabilité extrêmement probabilité extrêmement faible faible.. Si on choisit l’approche du seuil de signification α 0,01 (1%), on peut remarquer que est visiblement significative visiblement significative à à ce niveau. Si nous rejetons l’hypothèse nulle 0, la probabilité de commettre une erreur de type I es estt tr très ès pe peti tite te.. On pe peuut co conc nclu lurre av avec ec as asssur uran ance ce que le re revven enuu in infflu luee su surr la 78 consommation.
ETUDE DE CAS L a f onct onctii on keyné si en n e de conso consommat mmatii on on.. Que Qu el l e u ti l i sati on f ai airr e de ce cette tte r é gre gr essi on (pr é vissi on) vi
Rappel Rappel : il y a deux sorte de prévision prévision : la prévision prévision de la moyenne moyenne et la prévision prévision d’une observation individuelle.
Pr é vi si sion on de d e l a moye moyenn nn e : (ponctuel (ponctuel le)
Supposons 100 et que nous voulions prédire (\X 100). La régression passée fournit l’estimation ponctuelle de cette prévision de la l a moyenne :
24,45 24,4545 45 0,5091(1 0,5091(100) 00) 75,3645
Où est l’estimateur de \ on peut prouver prouver que cette prédiction prédiction ponctuelle ponctuelle est un estimateur BLUE. Sa moyenne est et sa variance est donnée par :
1 [
]
79
ETUDE DE CAS L a f onct onctii on keyné si en n e de conso consommat mmatii on on.. Pr é vi si sion on de la l a moye moyenn nn e : (ponctuel (ponctuel le)
En remplaçant par sa valeur estimée non biaisée on obtient:
1 1000 17 10 1700 10,4759 10 33000 10 10,4 ,475 7599 3,23 3,2366 66
42,159
Par conséquent, l'intervalle de confiance de 95% pour une véritable \ est donné par : 75,3645 2,306(3,2366) ≤ \ ≤ 75,3645 2,306(3,2366)
67,9010 ≤ 100) ≤ 82,8381 Ainsi, compte tenu de 100, dans un échantillonnage répété, et dans 95/100 intervalle comp mpre rend ndra ra la vr vrai aiee va vale leur ur mo moye yenn nne; e; la me meil illeu leure re 67,9010 ≤ 100) ≤ 82,8381 co estimation de la vraie valeur moyenne est bien sûr le point estimer 75,3645. Si nous obtenons des intervalles de confiance à 95% pour chacune des valeurs de indiquées dans
le tableau des données, on obtient ce qu'on appelle l'intervalle de confiance, ou de la 80 bande de confiance , pour la fonction de régression de la population population..
ETUDE DE CAS L a f onct onctii on keyné si en n e de conso consommat mmatii on on.. Pr é vissi on i n di vi divi vidu due el l e :
Intéressons-nous à la prédiction de la valeur individuelle Y, Y, , correspondant à une valeur de donnée, disons, , un meilleur estimateur linéaire sans biais de Y est également donnée par : 24,45 24,4545 45 0,5091( 0,5091(100 100)) donc : 75,3645 mais sa variance est la suivante:
1 [1
]
1 10 100 170 42, 159 1 52,6349 10 33000 52,6349 (58,6345 ≤ ( | 100) ≤ 92,0945)
Cet intervalle est plus grand de celui de la prédiction par rapport à la moyenne. Donc il faut être prudent lorsqu’on veut prédire E(Y| ) dans le cas ou associé à un 81 l’échantillon X donné est éloigné de la moyenne de l’échantillon X
ETUDE DE CAS L a f onct onctii on keyné si en n e de conso consommat mmatii on on.. Syn Sy n th è se
Dependent Variable: Y Method: Least Squares Date: 12/20/15 Time: 15:45 Sample: 1 10 Included observations: 10 Variable
Coefficient
Std. Error
t-Statis tic
Prob.
C X
24.45455 0.509091
6.413817 0.035743
3.812791 14.24317
0.0051 0.0000
R-s quared Adjusted R-squared S.E. of regres si sion Sum s quared res id id Log likelihood F-s tatis tic Prob(F-s tatis tic)
0.962062 0.957319 6.493003 337.2727 -31.78092 202.8679 0.000001
Mean dependent var S.D. dependent var var Akaike info criterion Schwarz criterion Hannan-Quinn criter. Durbin-Wats on s tat
111.0000 31.42893 6.756184 6.816701 6.689797 2.680127
Dans cette équation la Std. Error sont les écarts types estimés des coefficients de régression. Ceux de 4éme colonne sont les valeurs estimées de t calculées sous l’hypothèse nulle selon laquelle la valeur réelle de la population de chaque coefficient de régression est égale à zéro. Les chiffres de la dernière colonne étant les valeurs estimées. Pour 8, la probabilité d’obtenir une d’environ 0,00000 une valeur de respectivement de 14,24317 et 3,812791 ou plus est d’environ 0,00000 et 0,0051. En représentant les valeurs des coefficients estimés, on peut voir immédiatement le seuil exact de signification de chaque valeur estimée de . donc, sous (l’hypothèse nulle selon laquelle la valeur de l’ordonnée à l’origine de la population réelle est zéro, la probabilité 82 exacte (c’est-à-dire la valeur ) d’obtenir une valeur de t de 3,8128 ou plus n’est que
ETUDE DE CAS L a f onct onctii on keyné si en n e de consommati consommation. on. syn sy n th è se
Par conséquent, si l’on rejette cette hypothèse nulle, la probabilité de commettre une erreur d’environ 26 pour 10000 10000. soit une très faible probabilité. de type I est d’environ 26 On peut donc dire que, pour toutes les situations empiriques, la véritable valeur de l’ordonnées à l’origine diffère de zéro. De même la valeur p du coefficient estimée de la pente est nulle. Si la effective était nulle, les chances d’obtenir une une 0,5091 seraient pratiquement nulles. Ainsi peut-on l’hypothèse nulle proposant 0. rejeter l’hypothèse Nous avons montrer précédemment la liaison intime entre et le statistiques, à savoir , . sous l’hypothèse nulle d’après laquelle la vrai 0 indique que la valeur de est de 202,87 (pour des de 1 au numérateur et 8 au dénominateur) et que la valeur de est d’à peu près 14,24 (8 ); comme prévu, la première valeur est le carrée de la seconde, aux 83 erreurs d’arrondis près. La table pour cette question a déjà été présentée.
ETUDE DE CAS L a f onct onctii on keyné si en n e de consommati consommation. on. syn sy n th è se
Maintenant nous souhaitons aborder les qualités du modèle ajusté. Quelles est la « valeur » de ce modèle? En prem premie ierr lieu lieu,, les les sign signes es de dess co coef effi fici cien ents ts esti estim més sont sont-i -ils ls co conc ncor orda dant ntss av avec ec les les anticipations de la théorie ou les résultats d’études antérieurs? À priori, , la de la fonction de consommation, devrait être positive. Dans notre exemple elle l’est. En second lieu, si la théorie propose que la relation devrait non seulement être positive mais aussi statistiquement significative. Nous avons montré que la était non seulement positive mais aussi statiquement st atiquement différent de zéro: la valeur de du estimé est très faible. Les mêmes remarques peuvent être faites sur la valeur de l’ordonnée à l’origine. En troisième lieu, le modèle de régression explique-t-il bien la variation de consommation? On peut, pour répondre à cette question utiliser ²? Ce ² est d’environ 0,96, ce qui est une 84 valeur élevée puisque ce coefficient est 1 au maximum.
ETUDE DE CAS L a f onct onctii on keyné si en n e de consommati consommation. on. syn sy n th è se
Il s’ensuite que le modèle choisi pour expliquer le comportement de la consommation semple correct. Mais avant de conclure, aimerait-on découvrir si le modèle satisfait aux hypothèse du MRL. Nous allons pas vérifier toutes les hypothèses parce que le modèle est visiblement simple. l’hypothèse de la normalité du terme d’erreur . Rappelons que Toutefois, nous allons vérifier l’hypothèse les test et utilisé auparavant supposent que le terme d’erreur suit suit la distribution dist ribution normale? Dans le cas contraire, la procédure sera sans valeur dans les petits échantillons.
85
ETUDE DE CAS L a f onct onctii on keyné si en n e de consommati consommation. on. Tests de normalité
Bien qu’il en ait un certain nombre : (l) histogramme des résidus, (2) le test de Jarque-Bera. (1) L’histogramme (1) L’histogramme des des résidus
Est un graphique simple, utilisé pour voir la forme de la fonction de densité de probabilité d’une variable aléatoire. Si on suppose la courbe en cloche de la courbe normale sur l’histogramme, on se fait une idée de l’adéquation à la normalité. Cette une des méthodes l’hypothèse de la normalité. faciles pour tester l’hypothèse (2) Le test de normalité de Jarque-Bera ( )
Est un test asymptotique (relatif aux grands échantillons) est également basé sur les résidus des . On calcule d’abord l’asymétrie et l’aplatissement. Puis mesurer les résidus des le test s’écrit : 86
3 [ ( ]
ETUDE DE CAS L a f onct onctii on keyné si en n e de consommati consommation. on. Tests de normalité
où : taille de l'échantillon, : coefficient d'asymétrie, et : coefficient d'aplatissement. Pour une variable normalement distribué, 0 et 3. Par conséquent, la valeur de la statistique devrait être 0. Sous l'hypothèse nulle que les résidus sont normalement distribués, ont montré que asymptotiquement (dans les grands échantillons) la statistique suit la distribution khi deux avec 2 . Si la valeur de calculée de la statistique de est suffisamment faible, ce qui signifie que la statistique est très différente de 0, on peut rejeter l'hypothèse que les résidus sont normalement distribués. Si la valeur de est assez élevée, c-à-d la valeur du test est proche de zéro, l’hypothèse de 87 normalité n’est pas rejetée.
ETUDE DE CAS L a f onct onctii on keyné si en n e de consommati consommation. on. Tests de normalité
La taille de l'échantillon dans notre exemple consommation-revenu est assez petite. On ne devra pas utilisé le test de . Si nous appliquons la formule: la statistique de 0,7769. La valeur de p de l'obtention d'une telle valeur à l’aide de la distribution chi-deux avec 2 ddl est d'environ 0,68, ce qui est assez élevé. En d'autres termes, nous ne pouvons pas rejeter l'hypothèse de normalité pour notre exemple. Bien sûr, il faut garder à l'esprit l'avertissement relatif à la à la taille de l'échantillon. l'échantillon. 88
EXERCICES Les affirmations suivantes sont-elles vraies, fausses ou incertaines? Soyer précis.
Le test de signification t suppose que les distributions d’échantillonnage des estimateurs
et suivent la distribution distribution normale.
89
FIN
90