Econometrie Applique Cours

´ áire appliquee é Econometrie etrie lineaire e e Bruno Crép on

Nicolas Jacquemet Septembre 2006

2

2

Sommaire Sommaire

3

1 Introduction 1.1 1.1 Anal Analy yse écon e conom om´étri e triq que : pr´ prése e sentati tation on . . . . . 1.2 1.2 Prin Princi cipa pale less étape e tapess de l’an l’anal alys ysee écon e conom om´étri e triqu quee 1.3 Plan de l’ouvrage . . . . . . . . . . . . . . . . Exercices . . . . . . . . . . . . . . . . . . . . . . . 2 L’estimateur des moindres carr´ es ordinaires 2.1 2.1 Défini e finiti tion on et prop propri ri´ét´ e tés e s alg algébri e briqu ques es . . . . . . 2.2 2.2 Mo Mod dèle e le et prop propri ri´ét´ e tés e s stat statis isti tiqu ques es . . . . . . . 2.3 2.3 Varia ariabl blee om omis isee et régre e gress sseu eurr addi additi tion onne nell . . . 2.4 Résumé . . . . . . . . . . . . . . . . . . . . . 3 Le L es 3 .1 3.2 3.2 3 .3 3.4 3 .5

. . . .

. . . .

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

MCO sous l’hypot poth` ese de normalit´ e des per perturbations Normalité de l’estimateur des mco . . . . . . . . . . . . . . . . Ecar Ecartt-ttypes ypes esti estim més, e s, test testss et inte interv rval alle less de confi confian ance ce . . . . . . Un exemple . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Comp Compara arais ison on avec avec l’es l’esti tima mate teur ur du Max Maxim imum um de Vrais raisem embl blan ance ce Résumé . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

4 Estimation sous contraintes lin´ eaires 4.1 Formulation . . . . . . . . . . . . . . . . . . . . . . . . . 4.2 4.2 L’Es L’Esti tima mate teur ur des des Mo Moin indr dres es Carr Carr´és e s Con Contrai train nts (MCC (MCC)) . 4.3 Espérance erance et variance variance de ˆbmcc . . . . . . . . . . . . . . . 4.4 Estimateur de la variance variance des r´ esidus esidus σ 2 . . . . . . . . . 4.5 4.5 Loi Loi de l’es l’esti tima mate teur ur des des moi moind ndre ress carr carr´és e s con contrai train nts . . . . 4.6 4.6 Esti Estim matio ation n par par int intégra e grati tion on des des contr ontrai ain ntes tes . . . . . . . . 4.7 4.7 Tester les contrai raintes : le tes test de Fisher . . . . . . . . . 4.8 Applications du test de Fisher . . . . . . . . . . . . . . . 4.9 Résumé . . . . . . . . . . . . . . . . . . . . . . . . . . .

. . . . . . . . .

. . . . . . . . . . . . . . . . . . . . . . . . . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

1 . . . 1 . . . 3 . . . 8 . . . 10

. . . .

11 11 14 20 20

. . . .

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . .

. . . .

. . . .

21 . . 21 . . 23 . . 27 . . 29 . . 30

31 . . . . . . . . 33 . . . . . . . . 34 . . . . . . . . 35 . . . . . . . . 36 . . . . . . . . 37 . . . . . . . . 39 . . . . . . . . 40 . . . . . . . . 41 . . . . . . . . 45

5 Propri´ et´ es asymptotiques de l’estimateur des MCO 47 5.1 Propr Propri´ i´ et´ e tés e s asym asympt ptoti otiqu ques es de l’es l’esti tima mate teur ur des des MCO MCO . . . . . . . . . . . . . . . . . 49 5.2 Tests asymptotiques . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53 5.3 Exemple . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 59 3

4

Sommaire

Résumé . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

59

6 Evaluation : Les estimateurs de diff´ erence 6.1 Le Mo dèle causal . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6.2 6.2 L’es L’esti tima mate teur ur des des Diff Différen e rence cess de Diff Différen e rence cess . . . . . . . . . . . . . . . . . . . . . .

61 62 66

7 Le mod` od` ele e le lin lin´ eair aire sans l’h l’hypoth poth` ` ese e se d’ho ’homosc osc´ edast dastiicit cit´ e 7.1 7.1 Le mo mod dèle e le hét´ e térosc rosc´édas dastiqu tiquee . . . . . . . . . . . . . . . . . . . 7.2 Estimat Estimation ion en pr´ présence esence d’h´ d’hét´ etérosc´ erosc´ edasti edasticit cit´é . . . . . . . . . . 7.3 L’esti L’estimat mateur eur des Moindre Moindress Carr Carr´és es QuasiQuasi-G´ G´ en´ enéralis eralis´és es . . . . . Résumé . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

. . . .

. . . . . . . .

8 Le mod´ ele h´ et´ erosc´ edastique en coup e 8.1 Inférence erence robuste a` l’h l’h´ét´ e téros e rosccédas e dasti tici citté . . . . . . . . . . . . . . . . 8.2 Test est d’h d’h´ét´ e téros e rosc´ c´ edas e dasti tici cit´ t´ e de de Bre Breus ushh-Pa Pagan gan . . . . . . . . . . . . . . 8.3 L’estimateur des MCQG . . . . . . . . . . . . . . . . . . . . . . . . 8.4 8.4 Illu Illust stra rati tion on : Esti Estima mati tion on d’un d’unee équa e quati tion on de sala salair iree . . . . . . . . . Résumé . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Exercices . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

. . . .

. . . . . . . .

. . . .

71 . . . . 71 . . . . 77 . . . . 82 . . . . 83

85 . . . . . . . . 86 . . . . . . . . 89 . . . . . . . . 92 . . . . . . . . 95 . . . . . . . . 98 . . . . . . . . 98

9 Corr´ elation des observations 9.1 Estim Estimati ation on en pr´ présen e sence ce de corr corr´élati e lation onss ent entre re observ observat atio ions ns . . . . . . . . . . . . . 9.2 Illustration Illustration : estimat estimation ion d’une d’une fonction fonction de production production sur sur donn´ données ees individu individuelles elles . 9.3 9.3 Proce Process ssus us d’au d’autoc tocor orrrélat e latio ion n des des pert pertur urba bati tion onss . . . . . . . . . . . . . . . . . . . . 9.4 Autocorr Autocorr´élation elation des r´ esidus esidus dans dans les les s´ eries eries temporel temporelles les . . . . . . . . . . . . . . . Résumé . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Exercices . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

99 99 104 106 106 111 120 12 1

10 Evaluation : Regressions ` a variables de contrˆ ole 123 10.1 Indépendance ependance conditionnelles à des observables . . . . . . . . . . . . . . . . . . . 123 10.22 Le mod` 10. modèle e le de de s´ sélec e lecti tivi vit´ t´ e sur sur inob inobse serv rvab able less . . . . . . . . . . . . . . . . . . . . . . 134 11 Variables instrumentales 11.1 Trois exempl exemples es types types d’endog d’endog´én´ en´ eit´ eité des r´ egresseurs egresseurs . . . . . 11.2 11.2 La métho e thode de des des var varia iabl bles es inst instru rume men ntale taless . . . . . . . . . . . 11.3 11.3 L’est L’estim imat ateu eurr de des dou doubl blees moi moind ndre ress carr carr´és es . . . . . . . . . . 11.4 Interpr´ etation etation de la condition conditio n : lim rangE ( rangE (zi′ xi ) = K + K + 1 . . 11.5 Test de suridentification . . . . . . . . . . . . . . . . . . . . 11.66 Test 11. est d’e d’exo xog´ g´ en´ e néit´ e it´ e des des variab ariable less exp expli lica cativ tives es . . . . . . . . . 11.7 I ll llustrations . . . . . . . . . . . . . . . . . . . . . . . . . . . 11.8 Résumé . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

. . . . . . . .

. . . . . . . .

. . . . . . . . . . . . . . . .

. . . . . . . .

. . . . . . . .

. . . . . . . .

. . . . . . . .

. . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . .

1 43 144 146 146 152 152 155 1 56 161 16 3 16 7

12 La M´ ethode des moments g´ en´ eralis´ ee 1 69 12.1 Modèle ele structure structurell et contrain contrainte te identifian identifiante te : restriction restriction sur les moments moments . . . . . 169 12.2 D´ efinir efinir un mod` modèle ele par par le biais biais de de conditi conditions ons d’ort d’orthogo hogonal nalit it´é . . . . . . . . . . . . 171 12.3 Principe de la méthode ode : . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 176

5

Sommaire

12.4 12.4 12.5 12.6 12.6 12.7 12.8 12.9

Con Converge ergenc ncee et et pro propr priiét´ e tés e s asym asympt ptot otiq ique uess . Estimateur optimal . . . . . . . . . . . . . Appl Applic icat atio ion n aux aux Varia ariabl bles es Inst Instru rume men ntale taless Test de spécification . . . . . . . . . . . . I ll llustrations . . . . . . . . . . . . . . . . . Résumé . . . . . . . . . . . . . . . . . . .

. . . . . .

. . . . . .

. . . . . .

. . . . . .

. . . . . .

. . . . . .

. . . . . .

. . . . . .

. . . . . .

. . . . . .

. . . . . .

. . . . . .

13 Variables d´ ependantes limit´ ees 13.1 Mod` odèle dichotomique . . . . . . . . . . . . . . . . . . . . . . . . 13.2 Variables latentes . . . . . . . . . . . . . . . . . . . . . . . . . . 13.3 13.3 Estim Estimat atio ion n de des mod mod`èles e les dic dichoto hotomi miq ques ues . . . . . . . . . . . . . . 13.4 Illust Illustrati ration on : partici participat pation ion des femmes femmes sur le marc march´ h´ e du trav travail 13.5 13.5 Sélec e lecti tiv vit´ ité : le mo mod dèle e le Tob Tobit it . . . . . . . . . . . . . . . . . . . . 13 13..6 Esti Estim mati ation du mod` odèle Tobit . . . . . . . . . . . . . . . . . . . . 13.77 Mod` 13. Modèles e les de de cho choix ix dis discr cret etss : le Mod Mod`èle e le Logi Logitt Multi Multino nomi mial al . . . . 13.8 Résumé . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

. . . . . .

. . . . . . . .

. . . . . .

. . . . . .

. . . . . . . . . . . . . . . .

. . . . . .

. . . . . .

. . . . . . . . . . . . . . . .

. . . . . .

. . . . . .

. . . . . .

. . . . . .

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

. . . . . .

178 178 179 181 181 186 19 0 19 4

. . . . . . . .

197 1 98 200 202 202 206 207 207 214 214 224 22 6

A Rappels de statistiques 229 A.1 Calcul matriciel . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 229 A.2 Rappel pel sur les convergences . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 230 Liste des Graphiques

235

Liste des Tableaux

237

Liste des Applications

239

Table des Mati` eres

241

6

Sommaire

Chapitre 1

Introduction A la différence de la statistique, qui est une branche des mathématiques, l’économétrie est une branche de l’économie, destinée à développer des outils d’analyse des données permettant de nourrir la réflexion théorique. Au delà de la terminologie, cette différence distingue de fa¸con fondamentale les éléments qui seront traités ici de l’analyse statistique des données. Cette différence se traduit, notamment, par le fait que l’analyse économétrique repose sur une modélisation du problème auquel on s’intéresse et qui servira au traitement des données dont on dispose.

1.1

Analyse ´ econom´ etrique : pr´ esentation

L’analyse économétrique d’un ensemble de données a, dans la grande majorité des cas, pour objectif de tester la validité et d’évaluer l’ampleur des explications fournies par l’analyse économique. A ce titre, elle s’int´ eresse donc à l’effet d’un ensemble de variables – dites variables explicatives et notées x – sur une ou plusieurs autres – appelées variables expliqu´ ees, y. Le choix de ces variables et leur rôle dans le modèle économétrique est déduit de l’analyse économique du problème auquel on s’intéresse. Une même variable peut ainsi jouer le rôle de variable expliquée dans un modèle économétrique donné – par exemple, l’éducation dans un modèle d’investissement en capital humain – et le rôle de variable explicative dans un modèle différent – l’éducation dans un modèle de formation des salaires. La théorie suggère ainsi une relation de causalité spécifique au problème considéré entre les variables auxquelles on s’intéresse. Pour cette raison, la variable expliquée est également souvent qualifiée de d´ ependante ou endog` ene , au sens o` u une relation causale la lie aux variables explicatives consid´ erées ; et les variables explicatives qualifiées de variables ind´ ependantes ou exogènes, au sens où leur niveau peut être considéré comme une donnée dans le cadre du problème auquel on s’intéresse.

1.1.1

Mod` ele ´ econom´ etrique

Un modèle ´ econométrique est constitué de plusieurs ingrédients. L’analyse empirique de la relation qui lie les variables explicatives à la (aux) variable(s) expliquée(s) passe d’abord par la spécification d’une fonction telle que : y = f (x). Cette fonction reflète la relation causale qu’entretiennent les variables. Il est cependant impossible pour un observateur extérieur de connaˆıtre et d’observer parfaitement l’ensemble des déterminants d’un phénomène social. Le “moral des ménages” est ainsi souvent présenté comme un déterminant important du comportement de consommation. Dans le cadre d’une analyse empirique du comportement individuel 1

2

Chapitre 1. Introduction

de consommation, il est cependant inimaginable de pouvoir observer de fa¸con certaine cette variable (chaque lecteur de ce manuel constitue ou appartient à un ménage : pouvez-vous mesurer votre moral ?). Il convient donc de distinguer dans l’analyse l’ensemble des éléments observables, contenus dans la liste des variables explicatives, des déterminants qui échappent à l’observation ; soit par méconnaissance du problème, soit, le plus souvent, en raison des difficultés à les mesurer. Ces éléments inobservables écartent la variable y du niveau que laissent attendre les variables observées x. L’ampleur de cette erreur ne peut pas, par définition, être caractérisée. Elle est donc considérée comme une variable al´ eatoire , notée u, qui s’ajoute au modèle : y = f (x, u). Les variations de u ainsi que la fonction f elle mˆ eme se combinent pour expliquer les variations de la (les) variable(s) expliqu´ ee(s). Un certain nombre de param` etres inconnus interviennent dans cette combinaison. Le multiplicateur d’investissement keyn´ esien relie par exemple l’investissement I et le PIB, Y , selon une relation linéaire telle que : Y = γI . L’intensité de cette relation, mesurée par γ , est inconnue et n’est pas observable directement dans la vie économique. Les paramètres qui définissent la fonction f , notés b, doivent donc être estimés, c’est à dire être déduits des observations disponibles dans les données en s’appuyant sur le modèle. Pour ce faire, il est nécessaire d’imposer un certain nombre d’ hypoth` eses sur la fonction f et sur le terme d’erreur u. Comme nous le verrons plus bas (Section ??), les hypothèses retenues détermient de fa¸con importante les outils qui pourront être mobilisés ainsi que les propriétés de l’analyse. Au total, un modèle économétrique se définit ainsi comme (i) une relation causale entre des variables, (ii) perturb´ ee par un ensemble d’´ elements inobservables, (iii) d´ etermin´ ee par des param` etres inobservables (iv) et (v) sur laquelle sont impos´ ees un certain nombre d’hypoth` eses n´ ecessaires ` a l’estimation.

1.1.2

Le mod` ele lin´ eaire

Une hypothèse particulièrement concerne la forme imposée à la fonction f . Bien qu’il soit possible de définir un modèle économétrique en conservant une forme générale à la fonction – on parle alors de mod` ele non param` etrique – le procédé le plus courant consiste à imposer une forme fonctionnelle pour f . On défini alors un modèle paramètrique. L’ensemble des choix possibles est extrêmement vaste. On pourrait ainsi utiliser une forme exponentielle, logarithmique, un ratio de polynômes ou toute combinaison imaginable de ces fonctions. Le modèle à la fois le plus simple et le plus étudié est le modèle qui impose une forme linéaire à cette relation. Le modèle économétrique considéré s’écrit alors : y = α + β 1 x1 +

··· + β K xK + u = xb + u

On retrouve ici les élements qui définissent un modèle économétrique : une variable expliquée, K variables explicatives (qui sont toutes observées), K + 1 paramètres (à estimer) et un terme d’erreur (inobservable). Il convient d’être très vigilant quant au critère qui caractérise la linéarité du modèle. La forme fonctionnelle utilisée est en effet qualifiée en fonction de la position qu’occupent les param` etres et non les variables dans le modèle.

D´ efinition 1.1 Un modèle économétrique est dit linéaire si la relation entre les variables explicatives et la (les) variable(s) expliquée(s) est linéaire dans les paramètres. Le modèle économétrique qui consiste à expliquer le salaire par une fonction linéaire de l’âge pris au carré (ou toute autre transformation non linéiare de cette variable) sera ainsi considéré

1.2. Principales ´ etap es de l’analyse économétrique

3

comme un modèle linéaire. A l’exception du dernier chapitre, les résultats présentés dans cet ouvrage se concentrent sur ce modèle. Plusieurs facteurs expliquent son succès et la quantité des travaux qui lui sont consacrés. En raison de sa simplicit´ e, d’abord, le modèle linéaire est historiquement à l’origine de l’analyse économétrique. Les développements ultérieurs de l’analyse et notamment l’analyse non linéaire – qui sera introduite à la fin de cet ouvrage – s’appuient donc naturellement sur les résultats obtenus dans le cadre du modèle lin´ eaire. Leur connaissance est ainsi indispensable à une bonne compréhension de thèmes plus avancés, et toute formation à l’économétrie commence d’ailleurs, pour cette raison, par une présentation de l’économétrie linéaire. Cette simplicité explique également le succ` es de ce modèle parmi les praticiens (professionnels, chercheurs, . . . ) de l’économie appliquée. Comme nous le verrons au cours de l’ouvrage, une part très importante des travaux réalisés dans ce domaine repose en effet sur l’analyse linéaire, et peut par conséquence être comprise en se limitant au élements présentés dans cet ouvrage. Une dernière raison, plus fondamentale, tient à ce que de très nombreux modèles peuvent être exprimés sous forme linéaire. Il s’agit de la première étape de l’analyse économétrique, dont un certain nombre d’exemples sont présentés ci-dessous.

1.2

Principales ´ etapes de l’analyse économ´ etrique

Le passage de la théorie économique à un modèle économétrique consistue en effet la première étape de l’analyse. Le modèle peut ensuite être mis en œuvre à condition de disposer d’obsevation sur le phénomène considéré et ses déterminants. Il s’agit alors de procéder à l’estimation du modèle, et ce à des fins de validation, d’évaluation ou de prévision.

1.2.1

D’o` u vient le mod` ele ? - 1 de la th´ eorie ´ economique

Comme nous l’avons vu, c’est la théorie économique qui suggère une relation de causalité entre la (les) variable(s) expliquée(s) et les variables explicatives. Il faut cependant entendre le terme “théorie économique” au sens large. Bien que préférable, il n’est pas indispensable, en effet, de disposer d’un modèle économique au sens propre du terme pour mettre en œuvre un modèle économétrique. Les quelques exemples proposés ci-dessous illustrent les divers degrés d’intimité qui peuvent exister entre la théorie et la spécification d’un modèle économétrique. 1

(i)

Fonction de production

Dans sa variation la plus simple, l’analyse économique du processus de production consid` ere le niveau du produit, Y , qomme le r´ esultat de la combinaison de deux facteurs : le capital, K , et le travail, L : Y = F (K, L) Un modèle non paramètrique de production consisterait à conserver la forme générale de F (). Seuls sont considérés dans cet ouvrage les modèles paramètriques qui imposent une forme particulière à la fonction d’intérêt. On se restreint alors à un ensemble de fonctions de productions ne dépendant que d’un nombre fini de paramètres. Une spécification fréquemment retenue est la fonction de production Cobb-Douglas. Imposer une forme fonctionnelle n’est jamais neutre sur le 1

Certains de ces exemples seront developp´ es au cours de l’ouvrage.

4


phénomène étudié. La fonction de production Cobb-Douglas impose par exemple une restriction forte sur les possibilités de substitution entre facteurs : Y = AK α Lβ α et β sont des paramètres à estimer. On remarque immédiatement que le modèle ainsi spécifié n’est pas linéaire au sens de la Définition 1.1. Une simple opération algébrique permet cependant de se ramener à ce cadre : log(Y ) = log(AK α Lβ ) y = a + αk + βl La seconde équation définit ainsi un modèle linéaire dans les paramètres. L’opération a nécessitr´ e un changement de variables : on s’int´ eresse désormais au logarithme du produit y = log(Y ) comme des facteurs (k = log(K ) et l = log(L)). La quantité a correspond à une quantité inobservée, qui s’interprête comme le logarithem du paramètre d’échelle de la fonction de production. Suivant les cas, on pourrra donc la consid´ erer comme un paramètre à estimer (constant) ou comme le terme d’erreur du modèle. Lorsque l’on s’intéresse à la fonction d eproduction de différentes entrprises, le niveau de la technologie est ainsi susceptible de varier d’une entrprise à l’autre et il paraˆıtra alors naturelle de consid´ erer cette quantit´ e comme l’erreur du modèle. Pour les autres coefficients, en revacnhe, le modèle spécifié impose une homogénéité du processus de production dans la population d’entreprises.

(ii)

Demande de facteurs

La théorie économique a montr´ e que la demande de facteurs qui émane des entreprises se d´ eduit directement de la fonction de coût associée au processus de production. En toute généralité, cette fonction s’écrit : C (Q, pX , u), o` u Q est le niveau de production, pX le vecteur des prix des facteurs X et u le niveau de la technologie. La demande pour un facteur donn´ e X od est donnée par le Lemme de Shephard : X 0d =

∂C (Q, pX , u) ∂p X0

Comme dans le cas précédent on se restreint en général à une forme paramétrique de la fonction de coˆ ut. Une spécification standard est la fonction de coût translog avec deux facteurs : le capital de coˆ ut exp(c) et travail de coˆ ut exp(w) : log(C ) = a + αc + βw + 0.5δc c2 + δw,c cw + 0.5δw w 2 + log(Q)

− log(u)

Par application du lemme de Shephard, ce type de spécification conduit à des fonctions de demande spécifiant la part optimal de chaque facteur dans le coût global. Pour la demande de travail, on a par exemple : wL = β + δw,c c + δw w Q Dans cette sp´ ecification, la perturbation n’a pas d’interpr´ etation aussi naturelle que dans le cas précédent. Il faut considérer que soit le paramètre β est hétérogène, soit la part observée s’écarte de la part théorique pour des raisons non expliquées.


5

Le modèle peut aussi provenir d’une relation moins structurelle entre les variables. Par exemple un type d’équations très souvent estimé est l’équation de Mincer qui fait dépendre le salaire du nombre d’années d’étude et de l’expérience. Par exemple : log(wi ) = a0 + as si + ae ei + ui où as représente le gain lié à une année d’étude supplémentaire et ae le gain lié à une année d’expérience supplémentaire. Les paramètres économiques auxquels on s’intéresse alors sont le rendement de l’éducation ou le rendement de l’expérience. La modélisation sous-jacente est celle du capital humain : le capital humain s’accumule d’abord durant la p´ eriode des études puis durant la vie active par l’expérience, en apprenant sur le tas. Si on fait l’hypothèse d’un marché du travail concurrentiel, les différences de rémunérations entre les agents traduiront des différences dans le capital humain. On peut remarquer concernant cette équation que l’on ne s’intéresse pas seulement à expliquer les différences moyennes de revenus entre les agents mais que l’on souhaite aussi parvenir à une estimation plus ambitieuse qui puisse conduire à une interprétation causale : si on augmente la durée des études de un an d’un individu quel sera son gain en terme de rémunération ? Un autre exemple dans lequel le modèle entretient des rapports encore plus ténus avec des paramètres structurels mais possède une interpr´ etation causale est celui de l’incidence de la taille d’une classe sur le taux de réussite des élèves de la classe. On peut légitimement se poser la question de savoir si la réduction de la taille des classes conduit à une amélioration du taux de réussite scolaire. On peut ainsi considérer un modèle du type : τ i = a0 + at taille i + xi ax + ui où τ i représente le taux de réussite d’une classe. Dans cette spécification que l’on pourrait appeler fonction de production scolaire, on introduit un ensemble d’autres variables. En effet on se doute bien que de nombreux facteurs affectent la réussite d’une classe. Par exemple l’environnement scolaire est certainement un facteur important. On pourrait se dire que comme on ne s’intéresse pas à la variable d’environnement on ne la met pas dans la régression. D’un côté on y gagne car on n’a pas à faire l’effort de mesurer cette variable, mais d’un autre côté cette variable contribue aussi à déterminer la taille de la classe. Il est possible que dans certains milieux défavorisés la taille des classes soit plus petites. Si on ignore le rôle de l’environnement scolaire et qu’on ne l’int` egre pas dans la régression, on risque de mesurer un effet de la taille de la classe qui soit un mixte de l’effet propre de la taille et de l’effet de l’environnement. Il donc important dans ce type de modèle, entretenant des rapports larges avec la théorie, d’introduire des facteurs annexes qui permettront d’isoler l’effet propre de la taille de la classe. On cherche à contrˆ oler pour un certain nombre de facteurs extérieurs. Enfin, on peut avoir une approche descriptive des données. Il est important de remarquer que dans ce cas les paramètres n’ont pas d’interprétation structurelle.

1.2.2

Les donn´ ees

Les données constituent le cœur de l’économétrie. Leur recueil et leur examen descriptif constituent aussi en général une part importante de tout travail économétrique. Il y a principalement trois grands types de données :

6


1. Données temporelles ou longitudinales. Elles sont indicées par le temps t. On dispose ainsi de séries dites temporelles : yt , xt , par exemple les séries trimestrielles de la consommation et du revenu, de l’inflation... En général le nombre d’observation T est assez réduit, de l’ordre de la cinquantaine. On note en général y le vecteur T 1 (y1 , . . . , yT )′ et x la matrice T (K + 1) : (x′1 , . . . , x′T )′ o` u xt est le vecteur ligne formé des valeurs des différentes variables explicatives (dont la constante) à la date t.

×

×

2. Données en coupe. yi , xi . Leur indice correspond à l’identifiant d’un individu ou d’une entreprise. Ces données peuvent représenter par exemple le salaire d’un individu pour y et son diplôme, son exp´ erience... pour les variables explicatives. Les échantillons dont on dispose sont en général de beaucoup plus grande taille : le nombre d’observation N dépasse le plus souvent la centaine et peut aller jusqu’à plusieurs dizaines de milliers. On note là encore en général y le vecteur N 1 (y1 , . . . , yN )′ et x la matrice N (K + 1) : (x′1 , . . . , x′N )′ o` u xi est le vecteur ligne formé des valeurs des différentes variables explicatives (dont la constante) pour l’individu i.

×

×

3. Données à double indice, dites de panel : yit , xit . On dispose d’informations sur des individus i = 1, . . . , N que l’on suit sur plusieurs périodes, t = 1, . . . , T . Les N T observations zit correspondent à N observations vectorielles ”individuelles” zi1 , . . . ziT . On note en général yi le vecteur T 1 (yi1 , . . . , yiT )′ et xi la matrice T (K + 1) : (x′i1 , . . . , x′iT )′ et y le vecteur

 ×

×

×



′

NT 1 y1 , . . . , yN et x la matrice N T (K + 1) : (x′1 , . . . , x′N )′ où xi est la matrice formée des valeurs des différentes variables explicatives (dont la constante) pour l’individu i aux différentes dates.

1.2.3

×

L’estimation

Estimer le modèle c’est trouver une fonction des observations y et x

            b = b y, x

dont on souhaite qu’elle v´ erifie certaines conditions. Par exemple l’estimateur peut être choisi tel – qu’il soit “sans biais” E b = b y, x f y, x dydx = b





– qu’il satisfasse un critère : minimisation de la somme des carrés des résidus b = arg min (y maximisation de la log-vraisemblance b = arg max log l (y, x) – qu’il soit de variance minimale – qu’il soit convergent, c’est à dire qu’il se rapproche de la vraie valeur du paramètre lorsque le nombre d’observations devient grand.

1.2.4

Pourquoi estimer le mod` ele ?

– tester l’existence d’un effet, i.e. vérifier qu’une variable x a un effet spécifique sur une variable y. Par exemple on peut s’interroger sur l’effet des taux d’intérêt sur l’investissement, c’est à dire sur l’existence d’un canal monétaire de la politique monétaire. Dans le cadre d’un modèle accélérateur profit standard, I = α∆Qt + βπ + γr + v, on peut s’interroger sur le fait que le coefficient du taux d’int´ erêt γ soit nul ou non. On s’int´ eresse donc à l’hypothèse H 0 : γ = 0, et on souhaite que les données permettent de répondre à cette

− xb)2 ;

7


question. De fa¸con similaire, dans le cas de la fonction de production scolaire on peut s’interroger sur l’existence d’un effet de la taille de la classe sur le taux de r´ eussite. On va alors s’intéresser à l’hypothèse H 0 : at = 0, et là aussi on souhaite que les données nous permettent de choisir entre oui ou non. L’estimation du mod` ele et la confrontation du paramètre a` z´ ero est la voie la plus naturelle pour prendre cette décision. La question est ici de savoir si le param` etre est significatif au sens statistique du terme. – quantifier cet effet, ce qui est utile à des fins de simulations. Par exemple dans les deux cas précédents on est aussi intéressé par donner un ordre de grandeur de l’effet à attendre d’une variation de la variable. Si on voulait par exemple prendre une décision de politique économique consistant à baisser la taille des classes, ce qui est très coûteux, on est intéressé certes à savoir si cela aura un effet non nul mais aussi à savoir l’ordre de grandeur de cet effet. S’il est très faible on ne prendra pas alors aussi facilement la décision de réduire la taille des classes. L’ordre de grandeur du paramètre est aussi important. La question est ici de savoir si le paramètre est significatif au sens économique du terme. – prévoir. Dans le modèle yt = xt β + ut , le paramètre β peut être estimé sur les observations t = 1, . . . , T : β. Connaissant xT +1 on calcule la prévision de y à la date T + 1 : yT +1 = xT +1 β

1.2.5

 



D’o` u vient le mod` ele ? - 2 de relations stochastiques

Le modèle provient aussi de relations stochastiques entre les variables. L’écriture de la relation y = xb + u ne constitue pas en fait un modèle économétrique. Comme on l’a vu il s’agit d’une relation plus ou moins fondée. Si on l’admet fondée, le paramètre b a un sens en lui-même. Il a une définition économique, par exemple l’élasticité de la production au capital. Pour que ce modèle soit un modèle économétrique il faut lui adjoindre une restriction stochastique. Une fa¸con naturelle de procéder est de spécifier la loi jointe des observations l (y, x; b) . Ceci revient à spécifier la loi du résidu sachant les variables explicatives : l (u x ) . La situation de base est celle dans laquelle cette loi est choisie comme une loi normale ne dépendant pas des variables x. On impose donc dans ce cas une restriction stochastique essentielle p our l’analyse économétrique

|

|

l (u x ) = l (u) = ϕ (u/σ) /σ où ϕ est la densité de la loi normale. Imposer cette restriction permet de définir la densit´ e des observations l (y, x; b) = l (y x; b ) l (x) = ϕ ((y xb) /σ) l (x) /σ

|

−

et donc d’estimer les paramètres en appliquant par exemple la méthode du maximum de vraisemblance. L’estimateur auquel on parvient est alors celui des moindres carrés ordinaires. On peut aussi faire des hypothèses sur la loi de u sachant x qui soient moins fortes que la sp´ ecification de la loi complète. Par exemple on peut se contenter de sp´ ecifier :

|

E (u x ) = E (u) = 0 Cette propriété est satisfaite si on spécifie la loi conditionnelle de u sachant x comme une loi normale indépendante de x. L’inverse est faux et cette spécification est donc moins exigeante que

8


la précédente. Elle permet, elle aussi, d’estimer le modèle. Elle implique en effet des restrictions du type E (x′ (y xb)) = 0 appelées intuitivement conditions d’orthogonalité dont on verra qu’elles sont suffisantes pour estimer les paramètres du modèle. On remarque à ce stade que dans cette spécification il y a d’ores et déjà un paramètre de moins : la variance des résidus n’intervient plus. Ces restrictions stochastiques définissent un paramètre statistique. On pourrait ainsi définir autant de paramètres b qu’il y a de restrictions stochastiques envisageables, c’est à dire une infinité. On pourrait par exemple considérer le paramètre bZ associé à des restrictions stochastiques E (z ′ (y xbZ )) = 0 dont on verra qu’elles aussi peuvent être utilisées souvent pour conduire à une estimation du paramètre. Il n’est pas certain que le paramètre statistique associé à une restriction stochastique co¨ıncide avec le paramètre économique. L’estimation peut ainsi être non convergente, c’est à dire que la valeur du paramètre estim´ ee ne se rapprochera pas de la vraie valeur (économique) du paramètre lorsque le nombre d’observation augmente, ou être biaisée, c’est à dire que l’espérance du paramètre n’est pas la vraie valeur (économique) du paramètre. Une partie importante de l’économétrie, qui passe par une réflexion sur le modèle, les données et les méthodes consiste à rechercher des conditions dans lesquelles le paramètre statistique co¨ıncide avec le paramètre économique. La question est-ce que p lim b = b0 , la vraie valeur économique du paramètre, est en dernier ressort la question la plus centrale et la plus importante de l’économétrie, et assez naturelle : est-ce que j’ai bien mesuré ce que je voulais ? C’est beaucoup moins facile qu’il n’y paraˆıt, car de nombreux facteurs affectent les décisions individuelles et il est difficile d’isoler l’effet d’une unique cause.

−

−



1.3

Plan de l’ouvrage

Le cours débute dans le chapitre 2 par l’estimateur des moindres carrés, c’est à dire le vecteur des coefficients de la projection orthogonale de y sur l’espace vectoriel engendré par les variables explicatives. On présente d’abord les propriétés algébriques de cet estimateur et ses propriétés statistiques sous des hypothèses minimales telles que l’indépendance et l’équidistribution des observations (Théorème de Frish-Waugh, Théorème de Gauss-Markov, estimation des paramètres du second ordre, le R 2 et l’analyse de la variance). On montre ensuite dans le chapitre 3 comment la spécification de la loi des résidus comme une loi normale permet de compléter l’analyse en particulier en permettant d’obtenir la loi des estimateurs, étape incontournable pour procéder à des tests d’hypothèses simples (test de Student) ou définir des intervalles de confiance pour les paramètres. On examine ensuite dans le chapitre 4 et dans le même cadre où la loi des résidus est supposée normale, le cas important des estimations sous contraintes linéaires (dans les paramètres). On présente alors les tests d’hypothèses linéaires sur les paramètres par le biais des tests de Fisher. Ces résultats sont obtenus sous des hypothèses fortes : – Indépendance des résidus et des variables explicatives : l (u x ) = l (u) – Homoscédasticité V (u x ) = σ 2 I – Spécification de la loi des résidus : l (u) normale. Les chapitres suivants vont progressivement revenir sur chacune de ces hypothèses. On va d’abord examiner dans un cadre très proche la loi asymptotique des estimateurs, c’est à dire lorsque le nombre d’observations devient grand. On va chercher à développer le même genre de propriétés permettant de faire de l’inférence mais sans spécifier la loi des résidus. Les résultats

|

|

9

1.3. Plan de l’ouvrage

seront obtenus sous les hypothèses : – Absence de corrélation entre les résidus et les variables explicatives E (ux′ ) = 0 – Homoscédasticité V (u x ) = σ 2 I Le comportement asymptotique des estimateurs est examiné dans le chapitre 5. Dans le chapitre 6 on revient sur les hypothèses d’indépendance et d’équidistribution des paramètres. On présente l’estimateur des moindres carrés généralisée ainsi que différentes fa¸cons de traiter la situation dite d’hétéroscédasticité, i.e. situation dans laquelle la variance des résidus dépend des variables explicatives. On aborde aussi succinctement la question des données de panel et de l’estimation de modèles faisant intervenir des systèmes d’équations. Le cadre dans lequel on se situe est juste basé sur – Absence de corrélation entre les résidus et les variables explicatives E (ux′ ) = 0 Les chapitres 7, 8 et 9 utilisent la méthode des moindres carrés généralisés en s’appuyant sur une connaissance a priori de la structure de corrélation des résidus. Le chapitre 7 s’intéresse plus particulièrement au cas des régressions empilées. Dans le chapitre 8, on considère le cas d’une régression en coupe dans laquelle on a hétéroscédascticité du résidu, ce qui peut être le cas par exemple pour une équation de salaire, la variance du résidu étant généralement croissante avec le revenu. Dans le chapitre 9, on considère le cas d’estimations où le résidu peut être modélisé comme une s´ erie temporelle de comportement connu. On construit l’estimateur les moindres carrés quasi-généralisés en s’appuyant sur la connaissance de la forme de l’autocorrélation du résidu. Dans le chapitre 10, on consid` ere la situation dans laquelle E (ux′ ) = 0. On aborde la question de l’identification, fondamentale en économétrie. On montre comment à l’aide de variables extérieures z, dites instrumentales, il est possible d’estimer le paramètre d’intérêt. On revient donc en partie sur certains aspects des généralisations précédentes pour mieux se concentrer sur l’hypothèse d’identification. Les résultats sont obtenus sous les hypothèses – Absence de corrélation entre les résidus et des variables z : E (uz ′ ) = 0, – Rg (z ′ x) = dim x – Homoscédasticité V (u x, z ) = σ 2 I On présente aussi deux tests importants : le test d’exogénéité et le test de suridentification qui sont des guides importants dans le choix des variables instrumentales. Dans le chapitre 11 on présente une généralisation importante de la méthode à variable instrumentale et qui englobe la plupart des méthodes économétriques standards. Il s’agit de la méthode des moments généralisée et on montre en particulier comment elle permet d’étendre la méthode a` variables instrumentales au cas dans lequel les perturbations sont hétéroscédastiques et à d’autres cas tels que celui de l’économétrie des données de panel ou l’estimation de systèmes d’équations. Les hypothèses s’écrivent un peu différemment ce qui souligne le caractère général de cette méthode – E (g (z, θ)) = 0 o` u z représente l’ensemble des variables du modèle, c’est à dire inclus les y et les x. Dans le chapitre 12, on présente succinctement certains modèles non linéaires proches des modèle linéaires. On s’intéresse ainsi au modèles dits probit pour lesquels la variable à expliquer n’a plus un support continu sur R mais prend ses valeurs dans 0, 1 . La modélisation sous jacente consiste à introduire une variable latente, i.e. non observée complètement

|



|

{ }

I ∗ = zc + u

10

Chapitre 1.

et dont les réalisations gouvernent l’observation de la variable I : I = 1

⇐⇒ I ∗ > 0

On aborde également d’autres situations importantes permettant d’aborder la questions de la sélectivité des échantillons, c’est à dire la situation dans laquelle on n’observe la variable dépendante que sous une condition liée par ailleurs à la variable dépendante elle-même : y ∗ = xb + u I ∗ = zc + u les réalisations de I ∗ gouvernent l’observation de la variable I et de la variable y : I ∗ > 0 I ∗

 ⇒

I = 1 y = y∗

≤ 0 ⇒ I = 0

Ce type de modèle appelé modèle Tobit est souvent utilis´ e, en particulier pour aborder l’endogénéit´ e de variables explicatives prenant la valeur 0 ou 1 dans des modèles à coefficients variables yi = λi I i + vi Ce type de modèle est souvent utilisé pour aborder l’évaluation des effets microéconomiques des politiques de l’emploi comme les stages de formations. Dans le chapitre 13, on s’int´ eresse à l’évaluation des politiques publiques. On introduit notamment l’estimateur par différence de différences qui s’applique à une expérience naturelle. On parle d’expérience naturelle lorsqu’une partie de la population a fait l’objet d’une nouvelle politique, tandis qu’une autre partie de la population n’a pas fait l’objet de cette politique et donc peut servir de population témoin. On ne peut observer le comportement des individus touch´ es par une mesure s’ils n’avaient pas été touchés, on verra comment on peut néanmoins construire des estimateurs évaluant l’impact d’une nouvelle p olitique.

Exercices 1. Lin´ earit´ e. Pour chacune des relations suivantes, proposer une transformation qui rende le modèle linéaire.

Y i = Y i = Y i =

1 β 1 + β 2 .X i X i β 1 + β 2 .X i 1 1 + eβ 1 +β 2 .Xi

(1.1) (1.2) (1.3)

Econometrie Applique Cours

Recommend Documents