UPC
A travers cette contre chaotique, des hommes audacieux et tenaces ont lanc le premier chemin de fer de lAfrique centrale. Henry Merton Stanley
AVANT-PROPOS
Je ne peux nier, quand jai commenc la rdaction de ce recueil, lambition de confectionner un vade-mecum dintroduction lEconomtrie lintention des tudiants de premire licence FAS. Mais le nombre de projets sur la file dattente et les nombreux dfis entre lesquels il me faut partager mon temps dune part, et le besoin rel et urgent chez les tudiants de disposer dun recueil qui accompagne le cours magistral assur par le professeur dautre part, mont oblig ne produire quune bauche. Le projet de proposer ce recueil est n de la dception et de linsatisfaction que jprouvais, encore tudiant, lors des sances TP dEconomtrie 1. Alors quailleurs ils prennent de la vitesse, nous, me semblait -il, on tombait, paradoxalement, dans la suffisance. Ce recueil a donc t rdig de faon permettre aux tudiants de porter un autre regard sur les notions quils apprennent pendant le cours thorique et de voir plus loin que moi. Le choix des applications a galement t fait dans cette optique. On remarquera que, par souci pdagogique et dexcellence, je me suis plus attard sur les aspects et les dmonstrations les moins populaires, bref, sur les non-dits. Les tudiants passionns et qui veulent aller loin en Economtrie, trouveront aussi, en annexe, une initiation aux logiciels conomtriques STATA et EVIEWS. Enfin, en le mettant la disposition du public, je formule le vu que ce recueil suscite, parmi mes tudiants et mes collgues de la FAS, de nombreux esprits critiques qui pourront nous proposer mieux et ainsi viter que nos efforts pour lavancement de cette facult ne sessoufflent et natteignent, prmaturment, un tat stationnaire , ce qui serait dommage .
Remerciement
Je remercie le professeur Jean-Pierre Bosonga pour la confiance quil a eue en moi vrai dire, sans vraiment me connatre et pour mavoir orient dans la rdaction de ce recueil. Mes sincres remerciements vont mon an et mon ami lassistant Jean-Paul Tsasa V. Kimbambu, pour nos nombreuses discussions, parfois laisses en queue de poisson, et pour lidal quil ma transmis. Je remercie aussi mes tudiants de premire licence FAS, de la promotion 2011-2012, pour avoir beaucoup exig et attendu de moi ; ils mont contraint plus de srieux dans le travail, et je leur en suis reconnaissant. Bien entendu, ce support nengage que son auteur. Toute remarque pertinente pouvant en amliorer le contenu sera la bienvenue.
Ddicace
Je ddie ce recueil lavenir du LAREQ et lmergence dune nouvelle classe denseignants lUPC.
.I.
INTRODUCTION
I.1. Quelques points de lhistoire
. Avant 1930 : Le Moyen-ge conomtrique Les premiers dveloppements de lEconomtrie1 peuvent remonter, selon Grard Grellet, au 17me sicle, lpoque de lArithmtique politique [Political Arithmeticians, en anglais] en Angleterre, avec des auteurs comme William Petty, Gregory King et Charles Devenant, pour leurs tentatives de modlisation partir des donnes empiriques. Selon dautres auteurs, on doit la gense de lEconomtrie aux travaux de tentative dunification de lEconomie et la Statistique dAuguste Cournot et de Jules Dupuit en France, de William Stanley Jevons en Angleterre et de Henry Ludwell Moore aux Etats-Unis. Ces auteurs tentrent dlaborer des lois conomiques { linstar des lois de la physique newtonienne. Mais il convient simplement de retenir que nombre de mthodes et techniques auxquelles recourt lEconomtrie, ont t dveloppes bien avant son institutionnalisation comme disci pline des sciences conomiques. A titre dexemple : - En 1805, dans son ouvrage intitul Nouvelles mthodes pour la dtermination des orbites des comtes , puis en 1806 dans la deuxime dition du mme ouvrage, le mathmaticien franais Adrien-Marie Legendre propose, par une mthode algbrique, le premier dveloppement rigoureux de la mthode des moindres carrs ordinaires. - En 1809, Carl Friedrich Gauss, dans son trait Theoria motus corporum coelestium , propose, par une approche probabiliste, un autre dveloppement rigoureux de la mthode des moindres carrs ordinaires dont il se rclame la paternit. Dans une lettre adresse Pierre-Simon de Laplace2, il explique quil avait fait usage de cette mthode dj en 1795, et de manire un peu plus frquente, dans ces calculs astronomiques sur les nouvelles plantes, depuis 1802. Plus tard, en 1829, Carl F. Gauss et Andrei A. Markov dmontrent que lestimateur des moindres carrs ordinaires est BLUE [en anglais : Best Linear Unbiaised Estimator]. Cest--dire quil est le meilleur estimateur linaire non biais, variance minimale. - En 1886, dans son tude sur la transmission des caractres hrditaires, Francis Galton, de qui le terme rgression tire son origine, fournit une premire rgression linaire. Plus tard, son disciple Karl Pearson, en 1896, dans son ouvrage La Grammaire de la Science , dveloppe la notion de corrlation linaire et propose un estimateur pour cette grandeur. La corrlation a t introduite en Economie en 1902, avec louvrage de Arthur Lyon Bowley Elements of Statistic . - En 1909, Georges Udny Yule invente les premires applications conomiques de la mthode de la corrlation et introduit la mme occasion la notion de corrlation partielle. Et en 1926, il dnonce les
On attribue souvent tort au norvgien R. Frisch, la cration du mot conomtrie qui revient plutt Pavel Compria. Il inclut lui-mme un expos de la mthode des moindres carrs ordinaires dans son trait de 1820 : Thorie analytique des probabilits . En 1808, le mathmaticien amricain Robert Adrain a aussi publi une formulation de la mthode des moindres carrs.
2
spurrious correlations , ce quil convient de traduire par corrlations fallacieuses . Puis montre que la corrlation de deux sries chronologiques peut tre totalement artificielle. . Depuis 1930 : La naissance de lEconomtrie moderne Linstitutionnalisation de lEconomtrie en tant que discipline des sciences conomiques sest ralise en 1930 exactement le 29 dcembre 1930 { loccasion de la cration { Cleveland, aux Etats-Unis, par 16 conomistes3 dont Ragnar Frisch4 et Irving Fisher sont les plus cits, de lEconometric Society [la Socit dEconomtrie] avec comme devise : pour lavancement de la thorie conomique dans ses relations avec la statistique et les mathmatiques. Depuis la cration de cette socit, et de la Cowles commission spcialise dans les mthodes destimation des modles { quations simultanes , fonde le 9 septembre 1932, deux ans aprs lEconometric Society, par Alfred Cowles, lEconomtrie a connu un grand essor. Cest ainsi quen 1933, R. Frisch cre la revue Econometrica pour la promotion des tudes qui ont pour but une unification des approches quantitatives thoriques et empiriques des problmes conomiques. On note aussi que ds le dpart, pour les promoteurs de lEconometric Society, il tait clair que deux dviations devraient tre vites : La construction d'difices mathmatiques purement logiques et dconnects du rel conomique. La mise en uvre de pures investigations statistiques qui, en dpit de leur caractre pouss et de leur apparence raliste, risque de manquer de consistance ou de pertinence, sans le soutien d'une pense conomique profonde et rigoureuse.
A ce sujet, R. Frisch crivit ainsi dans le premier numro de la revue Econometrica : "L'exprience a montr que chacun des trois points de vue suivants, celui de la statistique, celui de la thorie conomique et celui des mathmatiques est une condition ncessaire, mais par elle mme non suffisante, d'une comprhension effective des relations quantitatives de la vie conomique moderne : c'est leur unification qui est efficace. C'est cette unification qui constitue l'conomtrie . Il faut noter galement que le krach financier des annes 30, la domination du keynsianisme jusqu{ la fin des annes 60, le dveloppement de linfrence statistique { la fin du 19 me sicle et le consensus entre les conomistes autour du cadre IS LM avant 1970, sont aussi parmi les facteurs explicatifs de lessor de lEconomtrie depuis 1930, surtout au sein de la Cowles commission. La rvolution Keynsienne [1936], avec la logique de circuit, a dvelopp un autre type de raisonnement macroconomique en termes da grgats objectivement mesurables par la comptabilit nationale et de comportements mesurs par les propensions. Ainsi, entre 1944 et 1960, la plus grande partie de la recherche en Economtrie porta sur les conditions destimation des modles macroconomtriques quations simultanes. - En 1935, Jan Tinbergen estime un premier modle conomtrique quations simultanes, du type keynsien, comportant 31 quations de comportement et 17 identits. Il devient ainsi, dun point de vue empirique, le pre des modles conomtriques. - En 1944, Trygve Haavelmo pose les conditions gnrales de solvabilit dun systme dquations linaires.
3
R. Frisch, I. Fisher, Hotelling, K. Menger , F. Mills, Ogburn, Ore, Roos, Rorty, J. A. Schumpeter, H. Schultz, Shewart, Snyder , Wedervang, Wiener, Wilson. 4 Premier laurat du prix de la Banque de Sude communment appel prix Nobel en mmoire de son fondateur Alfred Nobel dconomie en 1969 avec Jan Tinbergen.
- En 1950, Lawrence Klein ouvre la vogue de la modlisation macroconomtrique. Il estime pour lconomie amricaine (1921-1941), un modle macroconomtrique de type keynsien 16 quations. Ce modle est amlior plus tard, en 1955, par L. Klein et Arthur Goldberger, et sera le premier modle utilis des fins prvisionnelles. Klein introduit galement la notion de multicolinarit. Il est parfois considr comme le pre des modles macroconomtriques. Plusieurs autres travaux seront produits au sein de la Cowles commission. En 1950, Durbin et Watson laborent leur clbre test dautocorrlation des erreurs. En 1954, Henri Theil et Robert Lon Basmann introduisent la mthode des doubles moindres carrs. Toujours dans les annes 50, il y eut un dveloppement des modles retards distribus par Koyck, Almon, Cagan et Friedman. Lon peut galement citer les travaux suivants dvelopps entre 1950 et 1970 : la mthode des moindres carrs gnraliss et lintroduction du calcul matriciel en Economtrie par Aitken; les tests et corrections de lhtroscedasticit [Glejser, White, ]. Lirruption de linformatique au dbut des annes 60 va donner un nouveau coup de pousse { lexpansion de lEconomtrie. En 1961, James Tobin dveloppe les modles microconomtriques. Il est, ce titre, considr comme le pre des modles microconomiques. La mme anne, Yair Mundlak conoit les mthodes bases sur les donnes de panel. . Les annes 1970 : La rvolution des anticipations rationnelles Les annes 1970 ont t marques par cinq faits majeurs qui ont conduit { lclatement du paradigme de la Cowles commission. Cest--dire une remise en cause radicale des modles macroconomiques structurels dvelopps au sein de cette institution. Ces faits sont : Le premier choc ptrolier [en 1973] ou le quadruplement du prix des produits ptroliers, ce qui marque, historiquement, la fin des Trente Glorieuses5 ; La stagflation et la remise en cause de la courbe de Phillips; La chute du keynsianisme et le rejet des modles conomtriques traditionnels devenus caducs bass sur le paradigme IS LM ; Le deuxime choc ptrolier [en 1979] ou le doublement du prix des produits ptroliers ; La naissance de la MFM [MicroFoundations of Macroeconomics] ou la Macroconomie Microfonde, le retour aux modles walrassiens et le dveloppement des modles dquilibre gnral calculable [MEGC].
Les critiques les plus acerbes et svres sont venues essentiellement, ds 1972, de Robert Emerson Lucas 6. Cest ce que la littrature qualifie de la fameuse critique de Lucas. Il discrdite les modles macroconomtriques traditionnels, en fustigeant leur incapacit expliquer et prvoir les bouleversements provoqus par le 1r et le 2me chocs ptroliers. Il leur reproche de manquer de fondations microconomiques suffisamment solides. De plus, Lucas interdit les prvisions myopes et adaptatives, il pose la problmatique des anticipations rationnelles, ce qui veut dire que les agents conomiques sont intelligents et capables de former leurs anticipations sur une base endogne et ainsi anticiper toute mesure de politique conomique. De fait, toute mesure de politique conomique, ajoute-t-il, devient inefficace du fait de la prise en compte des anticipations rationnelles, les agents pouvant lanticiper et la contrer.
Trente Glorieuses : Titre dun livre de Jean Fourasti, publi en 1977, qui dsigne la priode de forte croissance conomique, de plein-emploi et daugmentation des salaires rels et des revenus, quont connu les pays dvelopps , de laprs-guerre au premier choc ptrolier. 6 Laurat du prix Nobel dEconomie 1995.
Cette critique a pouss les conomtres penser plus profondment sur les fondements de leur discipline et a donn lieu des critiques plus svres. LEconomtrie va connaitre un changement radical, surtout en termes de relations quelle entretient avec la thorie conomique. - En 1970, George Box et Gwilym Jenkins dveloppent le modle ARMA [AutoRegressive with Moving Average] qui est un mlange des modles AR et MA dvelopps en 1927 respectivement par Georges Yule et Eugen Slustsky , comme une rponse aux dfaillances constates dans la capacit de prvision des modles labors la suite des travaux de Tinbergen. - Dj en 1974, Clive William John Granger et P. Newbold mettent en garde contre les spurrious regressions ou rgression fallacieuse, pour le cas dajustement par les MCO dun modle avec sries non stationnaires. - En 1980, dans un article qui a connu un succs destime lors de sa parution, intitul Macroeconomics and Reality, Christopher Sims7, en gnralisant le modle ARMA en modle VAR [Vector Auto Regressive] afin de tenir compte, au mme moment, de plusieurs variables, reproche aux conomtres davoir mis la charrue devant les bufs en remettant en cause la distinction priori entre variables endognes et variables exognes, et considre toute variable comme potentiellement endogne 8. Cest ce que la littrature appellera lEconomtrie sans thorie. La critique de Sims va permettre { lEconomtrie de devenir beaucoup plus autonome et de smanciper de la tutelle de la thorie conomique . - En 1987, Clive Granger et Robert Engle dveloppent la mthode de cointgration dans le traitement des sries non stationnaires. Une anne aprs, en 1988, Johansen propose une version amliore du test de cointgration Engle Granger. - En 1982, Robert Engle dveloppe le modle ARCH afin de prendre en compte la non linarit et la forte volatilit des variables financires, ce qui ntait pas possible avec les modles ARMA et VAR. Plusieurs mthodes encore ont t dveloppes depuis la fameuse critique de Lucas, et plus loin encore dans lhistoire, depuis la cration de la socit dEconomtrie. LEconomtrie a donc connu, ces deux dernires dcennies, un essor vertigineux. . Applications et place de lconomtrie La dmarche en sciences conomiques est hypothtico-dductive. Cest--dire que les thories conomiques ne sont valables que dans le domaine dfini par leurs hypothses. Sil est vrai que lusage des mathmatiques est la garantie de la rigueur et de la cohrence interne des thories conomiques modernes, la question reste cependant pose quant la pertinence de leurs hypothses. Ceci motive le recours { des outils plus puissants notamment lEconomtrie, qui est un outil de validation des thories. De fait donc, lconomiste ne doit-il pas tre aussi conomtre ? John Maynard Keynes, dans les annes 1930, crivait : Lconomiste doit tre mathmaticien, historien, philosophe, homme dEtat , . Sil faut transfrer la pense de Keynes aujourdhui, naurait-il pas lui-mme ajout lconomiste doit tre conomtre ? Il est clair quil nest plus possible { ce jour, de faire un bras de fer avec lirruption et la domination de lEconomtrie dans le champ de la science conomique, au risque, purement et simplement, de se soustraire de la catgorie dconomistes modernes.
Laurat, avec Thomas Sargent, du prix Nobel dEconomie 2011. Cette dmarche de Sims sinspire de lun des grands principes de la thorie de lquilibre gnral, sel on lequel toutes les variables conomiques sont dtermines simultanment.
8
Pour renchrir, dans une tude publie en 2006, les conomistes Kim, Morse et Zingales ont montr que le nombre darticles empiriques cits en conomie est pass de 11 % 60 % entre 1970 et 2000. Ce qui confirme limportance de plus en plus croissante de lEconomtrie dans lunivers des conomistes. Par ailleurs, lEconomtrie s'applique tous les domaines auxquels s'applique la science conomique. L'ouvrage de Levitt et Dubner, Freakonomics, tmoigne de la diversit des applications possibles de l'conomtrie. Voici quelques exemples significatifs: En conomie de guerre, Collier Hoeffler [1999] ont mis en vidence, par le recours un modle conomtrique, les dterminants politiques permettant de mettre fin aux guerres civiles et de relancer lconomie en priode post-conflit. En conomie de la croissance, Mankiw, Romer et Weil, en 1992, ont utilis un modle de rgression linaire pour tester empiriquement la pertinence du modle de Solow. Ils montrent que le modle de Solow augment du capital humain est cohrent avec les donnes observes. Barro et Sala-iMartin [1995], Easterly et Rebelo [1993], ont aussi eu recours aux mthodes conomtriques afin de rendre compte de leffet des dpenses publiques sur la croissa nce. En conomie de la criminalit, Levitt, en 1997, a utilis un modle linaire variables instrumentales pour estimer l'effet du nombre de policiers sur la criminalit. En 2002, Acemoglu, Johnson et Robinson ont utilis une rgression linaire pour estimer l'effet des institutions sur le dveloppement actuel des pays.
En ralit, on ne dispose pas de caractristiques rpondant simultanment ces six conditions. Le choix dun indicateur sera lobjet dun compromis guid par la spcificit de ltude en cours.
Source : Adapt de B. Goldfard et C. Pardoux, 1995.
1.
La moyenne arithmtique : =
La moyenne arithmtique9 est la mesure de rpartition quitable. Elle conserve la somme totale et satisfait toutes les conditions de Yule, sauf la 5me, car elle est une mesure sensible aux valeurs extrmes. Lorsque les valeurs sont alatoires, la moyenne arithmtique est appele Esprance mathmatique . 2. La mdiane [Me] : est la mesure qui divise la srie en deux groupes de tailles gales. Aprs avoir class les donnes en ordre croissant, elle correspond pour n impair [pair], au point milieu [ la moyenne arithmtique de deux points milieux]. Elle satisfait aux conditions 1, 3, 4 et 5 de Yule. Contrairement la moyenne arithmtique, la mdiane rsiste aux valeurs extrmes. 3. Le mode [Mo] : est la valeur dominante de la srie, celle qui a la frquence la plus leve. Pour une distribution discrte, le mode satisfait aux conditions 1, 3 et 4 de Yule. Le premier Quartile Q1 [ou quantile dordre 1, x25%] Le deuxime Quartile [ou quantile dordre x50%] Le troisime Quartile [ou quantile dordre x75%] Q2 2, Q3 3, Valeur telle quau moins 25% des valeurs prises par X lui sont infrieures. Aprs avoir class les donnes et spar la population en deux, le Q1 est la mdiane de la premire souspopulation. Le Q2 est la mdiane. Valeur telle quau moins 75% des valeurs prises par x lui sont infrieures. Le Q3 est la mdiane de la deuxime souspopulation.
4.
Les quartiles
Note : Les quartiles non plus ne subissent pas linfluence des valeurs extrmes. Comme la mdiane, les quartiles satisfont aux conditions 1, 3, 4 et 5 de Yule.
Indicateurs de dispersion 5.
La variance : =
( )
=
La variance empirique :
( )
=
La variance est la moyenne arithmtique des carrs des carts dune variable { sa moyenne arithmtique. Elle donne une ide de la dispersion [ou dviation] de chaque observation x t autour de sa moyenne. Mais comme on le voit, avec la variance on change dchelle, elle sexprime dans le carr de lunit en laquelle sexpriment les observations. Pour revenir { lchelle du dpart, on prend sa racine carre qui est lcart-type. Elle satisfait aux conditions 1, 2 et 6 de Yule. Note : La variance empirique est lestimateur non biais de la variance. La variance est un estimateur biais car utilisant un autre estimateur dans son calcul. Lcart-type : = Lcart-type empirique : = Lcart-type est la racine carre de la variance. Il est la mesure de dispersion la plus utilise. Elle satisfait aux conditions 1, 2 et 6 de Yule, et est plus sensible aux fluctuations dchantillonnage et aux valeurs extrmes que la moyenne arithmtique, en raison des lvations au carr.
6.
7. Ltendue : max xt min xt Ltendue est la diffrence entre la plus grande et la plus petite des valeurs observes. Elle est trs influence par les valeurs extrmes et ne satisfait pas aux conditions 2 et 5 de Yule. 8. LEtendue [cart] interquartile : EIQ = Q3 Q1 Lcart interquartile nest pas sensible aux valeurs extrmes.
Dans le langage courant, on dit simplement moyenne. Or, selon la manire dont le total des individus est calcul, il existe diffrentes moyennes [moyenne gomtrique, moyenne harmonique, moyenne quadratique].
( )
=
Les moments ont la vertu de permettre de mettre ensemble les principales mesures de description. A titre dexemple, si a=0 et r=1, on retrouve la moyenne arithmtique, qui nest rien dautre que le moment non centr dordre 1. La variance serait donc le moment centr sur la moyenne arithmtique dordre 2, etc. Note : dans la suite, on dira moment centr pour parler de moment centr sur la moyenne arithmtique. On peut aisment vrifier que le moment centr sur la moyenne arithmtique dordre 1 (1) est nul. 9. Lasymtrie [Skewness en anglais]: est base sur le moment centr dordre 3. Pour une distribution symtrique, telle que la loi normale, la moyenne arithmtique est gale la mdiane gale au mode. De plus, les moments centrs dordre impair sont nuls pour une distribution symtrique. Le coefficient dasymtrie de Fisher : 1 =
/
1 est nul pour une distribution symtrique, telle que la loi normale.
Asymtrie gauche [distribution tale droite] Distribution symtrique Asymtrie droite [distribution tale gauche]
1>0
x=Me=Mo 1=0
1<0
10. Laplatissement [Kurtosis en grec, qui signifie bosse] : est bas sur le moment centr dordre 4 et permet de mesurer limportance des queues dune distribution ou son aplatissement. Le coefficient daplatissement de Fisher : 2 =
2 est nul pour une distribution mesokurtique. Cest le cas dune distribution gaussienne [normale].
Distribution platokurtique Distribution mesokurtique Distribution leptokurtique
2>0
La loi normale
La loi normale est une des principales distributions de probabilit. On dit quelle est parfaite, car sa densit de probabilit dessine une courbe en cloche ou courbe de Gauss, qui est la fois symtrique et mesokurtique. Elle a t introduite, en 1733, par le mathmaticien Abraham de Moivre, et mise en vidente plus tard, au 19me sicle, par Carl F. Gauss. Elle est galement connue sous le nom de la loi de Gauss. Une variable distribue selon cette loi est dite normale ou gaussienne.
10
Un test d'hypothse est une dmarche consistant valuer une hypothse statistique en fonction d'un chantillon. Il sagit donc de confronter une hypothse dite nulle [HO] contre une hypothse de recherche ou alternative [H1]. Une notion essentielle qui concerne les tests est la probabilit que l'on a de se tromper. Il existe deux faons de se tromper lors dun test statistique : La premire faon de se tromper est de commettre lerreur [ou risque] de premire espce, not , qui est la probabilit de rejeter tort HO alors quelle est vraie. On dit, dans ce cas, que est la probabilit davoir un faux positif. La deuxime faon de se tromper est de commettre lerreur [ou risque] de deuxime espce, not , qui est la probabilit de ne pas rejeter HO alors quelle est fausse. On dit, dans ce cas, que est la probabilit davoir un faux ngatif. HO est vraie Ne pas rejeter HO Rejeter HO Erreur de 1re espce HO est fausse Erreur de 2me espce
Lidal serait que ces deux erreurs soient nulles, mais puisque lon ne dispose que dun nombre fini dobservations, il faut faire un choix. Le risque tant difficile { valuer, voire impossible, seul le risque est utilis comme critre de dcision. Note : On accepte une hypothse en refusant sa fausset et non en acceptant sa vrit.
Tests informels Histogramme des frquences tuyau dorgue] Box plot [ou Bote--pattes] QQ plot [ou droite de Henry] [ou
Tests formels Test de Jarque Bera Test de Shapiro Wilk Test K2 dAgostino Pearson En termes defficacit Si n > 88 Si n 50 Si n 20
Les tests informes donnent une prsomption tandis que les tests formels apportent une approche plus rigoureuse et objective.
Ci-aprs sont exposs uniquement les tests les plus frquemment utiliss et les plus oprationnels.
10
11
Haavelmo, T. (1944), The Probability Approach in Econometrics, Supplement to Econometrica, 12, 1-118. Il existe une batterie de test de normalit, ici nous ne reprenons que quelques uns.
11
Le Box plot, invent par Tukey en 1977, est un outil graphique trs pratique qui permet de caractriser une distribution en fournissant un rsum riche dinformations sur sa dispersion et son asymtrie. Du fait quil renseigne sur lasymtrie dune distribution, le Box plot est galement utilise comme test de normalit. Les tapes suivre dans sa construction peuvent tre rsumes comme suit : a. Porter sur une chelle les valeurs calcules suivantes : Q1, Q2, Q3, Min xi et Max xi b. Construire la bote : - La longueur de la bote est donne par lEIQ - La largeur de la bote est fixe priori. c. Calculer la longueur des moustaches ou des pattes [infrieure et suprieure] : Pour savoir jusquo vont les moustaches, on calcule deux valeurs adjacentes : Frontire Basse [FB]= Q1 1.5EIQ Frontire Haute [FH]= Q3 + 1.5EIQ Selon Tukey, la valeur 1.5 serait plus pragmatique. Pour la longueur de la moustache infrieure : prendre, parmi les valeurs xi prises par X, la valeur minimale xb directement suprieure FB, soit xb = min {xi| xi FB}. Pour la longueur de la moustache suprieure : prendre, parmi les valeurs xi prises par X, la valeur maximale xh directement infrieure FH, soit xh = max {xi| xi FH}. A retenir : - Pour une distribution symtrique, Q2 divise la bote exactement en deux parties gales. - Pour une distribution symtrique, Q2= .
Illustration
Considrons lexemple suivant : X 6 7 8 Q1 = 8.5 Q2 = 12 FB = 8.5 (1.5)7 = 2 9 10 11 12 Q3 = 15.5 EIQ = 7 FH = 15.5 + (1.5)7 = 26 Etendue 13 14 15 16 17 18 Min xi = 6 et Max xi= 18 = 12 Etendue = 10 Xb = 6 Xh =18
*
FB Min xi Xb Q1 Q2 Q3 Max xi Xh FH
Il ressort, puisque Q2 spare la bote en deux parties gales, que la distribution est symtrique, ce qui est une prsomption de normalit. De plus la mdiane (Q2) est gale la moyenne.
12
Note : la Botepattes permet galement de dtecter les valeurs aberrantes ou singulires [dviants ou atypiques ou encore outliers]. Aprs avoir construit le Box plot, est valeur aberrante celle situe au-del des pattes. . Le test de Jarque-Bera [JB] Le test de Jarque-Bera, propos en 1980 par Carlos Jarque et Anil Bera, est parmi les tests de normalit les plus populaires dans les milieux acadmiques. Mais la remarque { faire, dores et dj{, est quil est particulirement appropri pour grand chantillon, soit n > 88. Le test JB est fond sur les coefficients dasymtrie et daplatissement. Sa richesse consiste { ce quil permet de conclure { la fois sur lasymtrie et limportance des queues [aplatissement] dune distribution. Les hypothses du test sont : H0 : Normalit H1 : Non normalit Sous lhypothse de normalit de la srie, la statistique du test JB suit asymptotiquement une distribution du Khi deux 2 { degrs de libert avec le risque davoir un faux positif [ou seuil de signification] = 5%. La statistique du test est calcule comme suit : JB = n
S2 6
(K 3)2 24
n 6
S2 +
(K 3)2 4
Seuil Valeur
1% 9.210
5% 5.991
Critre de dcision : Si JB la valeur du 2(2) de la table au seuil , alors RH0 de normalit. . Le test de Shapiro-Wilk Le test de Shapiro Wilk, propos en 1965 par Samuel Shapiro et Martin Wilk, est considr dans la littrature comme lun des tests de conformit { la loi normale les plus fiables et les plus efficaces, particulirement pour petits chantillons [n 50]12. Ce test est bas sur la statistique W, calcule comme suit :
n 2 a [x n i+1 =1 i 2
x i ]
2
W=
x (i) x
12
13
ai : sont des valeurs lues dans la table des coefficients de Shapiro et Wilk, connaissant n et lindice i.
Les hypothses du test sont : H0 : la variable X est gaussienne H1 : la variable X est non gaussienne La statistique W est confronte une valeur lue dans la table des valeurs limites de W propose par Shapiro et Wilk, avec n le nombre dobservations et au seuil [5% en gnral]. Critre de dcision : Si W < WTable(n) au seuil , alors RH0 [la variable est non gaussienne]13. Note : Les deux tables utilises pour mener ce test sont reprises en annexe.
La thorie conomique
Les donnes
Les mthodes
De par sa nature lEconomtrie est intimement lie la thorie conomique qui lui fourni les modles et thories quelle teste. Aujourdhui encore, malgr lmancipation de lEconomtrie depuis le fameux article de 1980 de Sims, lon ne peut trancher en dfaveur du mariage thorie conomique Economtrie. Selon Ado et Davidson [1998], L'conomtrie est prcisment le moyen qui permet au discours conomique d'chapper la vacuit de son formalisme, en permettant une mise en correspondance des thories et des faits conomiques. C'est elle qui permet de confirmer ou
13
Pour tester les thories, lEconomtrie utilise les donnes observes, les informations fournies par un chantillon. Lconomtrie a principalement recours trois types et deux formats de donnes. Trois types de donnes : Chroniques [times series en anglais], on parle galement des sries chronologiques ou sries temporelles, notes Xt : sont de donnes indices par le temps. Ex. Le PIB de la RDC de 2000 2010.
Ce sont les mthodes statistiques qui permettent de mettre en uvre et dexploiter un modle { partir dinformations provenant de lchantillon. La mthode la plus populaire en Economtrie est celle des moindres carrs ordinaires. En recourant aux mthodes statistiques, et partir dinformations livres par le monde rel, lconomtre poursuit un triple objectif : Quantifier et tester les thories Faire des prvisions Evaluer lefficacit des mesures de politique conomique
14
Deux formats des donnes : Quantitatives [ex : PIB, Taux dinflation, etc.] Qualitatives [ex : paix, sexe, religion, niveau dtude, etc.]
15
En gnral, le modle spcifi par lconomiste est dfini comme tant une maquette de la ralit ou dun phnomne sous forme dquations dont les variables sont des grandeurs conomiques. A ce sujet, Lester C. Thurow note ceci : Les quations dcrivent quoi ressemblerait le monde rel sil ressemblait la thorie . . Modle conomtrique Toujours selon Barbancho, un modle conomtrique nest autre chose quun modle conomique qui contient les spcifications ncessaires pour son application empirique. Cest donc le modle conomique auquel on ajoute un terme derreur ut.
Ct=0 + 1Yt + ut
La premire partie de ce modle [0 + 1Yt] constitue sa partie systmatique et la deuxime [ut] sa partie stochastique ou alatoire. Il convient de noter galement que le terme derreur ut [bruit, perturbation ou ala] dnote de la diffrence entre lconomiste et lconomtre. Il synthtise linfluence sur Ct [variable explique] de toutes les autres variables oublies et des erreurs ventuelles de spcification de la forme fonctionnelle dans le modle spcifi par lconomiste. De plus, sa prsence dans le modle rend les paramtres 0 et 1 inconnus, on ne sait plus les calculer, il faut donc les estimer.
14
16
.II.
THEORIE DE LA CORRELATION
Lanalyse de la corrlation a pour objet de prsenter les mesures statistiques destines { rendre compte du sens et de la force de la liaison mathmatique qui peut exister entre deux variables quantitatives X et Y. Il faut, dores et dj{, noter que dans ce cadre , la position des variables est symtrique. Lanalyse ne permet pas de distinguer variable endogne de la variable exogne. Loutil graphique diagramme de dispersion ou graphique nuage de points est le plus adapt et indiqu pour dbuter ltude de la corrlation. Aprs lavoir ralis, la forme du nuage des points renseigne partir dun simple coup dil sur le type dune ventuelle liaison entre X et Y. Plusieurs situations sont possibles : Figures A. Relations linaires, de gauche droite, positive et ngative.
600 500 400 300 200 100 0 0 500 1000 1500 2000 600 500 400 300 200 100 0 0 500 1000 1500 2000
-100
50
100
150
0 -2 0 2 4
Lanalyse du plot donne certes une ide sur le sens et le t ype dassociation entre X et Y, mais elle ne permet pas de quantifier son intensit. Depuis toujours, afin de mesurer la force du lien qui peut exister entre X et Y, les statisticiens ont eu recours au calcul de la covariance. Si on note par n la taille de lchantillon et i le numro de lobservation, la covariance empirique15 entre X et Y est calcule par la formule : Cov (X, Y) =
15
17
Lide est que si X et Y covarient, leur covariance devrait tre grande. Elle serait modrment faible si les deux variables ne covarient pas. Malheureusement, comme mesure du degr de dpendance entre X et Y, la covariance prsente la faiblesse dtre fortement influence par les units de mesure des variables en prsence. Cest cette limite qui a conduit au dveloppement des coefficients de corrlation.
rXY =
cov (X,Y) = X Y
i X i x (Y i y ) X i x 2 i Y i y 2
[2.1]
Si lon considre les carts { la moyenne arithmtique16, la relation [2.1] peut galement scrire comme suit :
rXY =
i xi yi 2 2 i yi
[2.2]
Proprits de la covariance et proprits du coefficient de corrlation linaire Proprits de la covariance Cov (X, Y) = Cov (Y, X) Cov (X, X) = Var (X) Cov (k, X) = 0 Cov X, Y var X . var(Y) Proprits du rXY rXY = rYX rXX = 1 rkX = 0 1 rXY 1 Commentaires Comme la covariance, le rXY est symtrique. La corrlation entre une variable et ellemme est gale { lunit. La corrlation entre une constante et une variable est nulle. Le coefficient de corrlation linaire est un nombre sans dimension dont lintervalle de variation est : [1, +1]17.
. Hypothses fortes au calcul du rXY Le calcul du coefficient de corrlation linaire de Bravais Pearson entre les variables X et Y nest adapt quau strict respect des hypothses suivantes : Les variables X et Y doivent tre quantitatives ; Les variables X et Y doivent tre sont gaussiennes ; La relation entre X et Y doit tre linaire 18 ;
Note : Lorsque la liaison entre X et Y est non linaire mais monotone, le r XY ne devient pas hors de propos. Seulement, dans ce cas despce, il donne des informations sur le xistence de la liaison, mais estime mal son intensit. Noublions pas que le coefficient de corrlation linaire sert avant tout caractriser une liaison linaire. Lorsquelle ne lest pas, ce coefficient peut induire en erreur sur lexistence et lintensit de la relation entre variables considres.
16 17
La somme des carts la moyenne arithmtique est toujours gale 0, soit i Xi x = 0. On peut aisment dmontrer que par construction, le rXY reste compris entre -1 et 1. 18 Cette information est livre par le graphique nuage des points.
18
Puisque le travail se fait sur un chantillon, aprs calcul et avant toute interprtation, le rXY doit tre soumis un test de significativit qui permet de vrifier si la corrlation calcule existe bel et bien au sein de la population. Les hypothses du test sont : H0 : XY = 0 H1 : XY 0n [hypothse dabsence de corrlation] [hypothse dabsence de dcorrlation]
XY est la corrlation thorique, inconnue au niveau de la population, rXY est la corrlation empirique estime { partir dinformations fournies par lchantillon. Sous H0, on dmontre que la statistique du test suit une distribution de Student au seuil [5% sauf indication contraire] et (n 2) degrs de libert. Le test est de la forme : Rejet H0 si
r XY
1 r 2 XY n 2
. Signification clinique du coefficient de corrlation de Bravais - Pearson La signification clinique ou linterprtation du rXY nest valable que si, aprs test, on rejette lhypothse de dcorrlation. Le travail dinterprtation dun coefficient de corrlation linaire se fait toujours en deux temps : une interprtation par au signe/sens de la liaison et une interprtation par rapport au degr de dpendance.
Si rXY > 0, X et Y sont positivement corrles [la relation linaire entre X et Y est positive]. Si rXY < 0, X et Y sont ngativement corrles [la relation linaire entre X et Y est ngative]. Si rXY = 0, X et Y sont non corrles [pas de liaison linaire, mais possibilit dune liaison dun autre type].
Si rXY = 1, le lien linaire entre X et Y est parfait. Dans ce cas, lune des variables est fonction affine de lautre, les n points (xi, yi) sont aligns. Si 0.80 < rXY < 1, le lien linaire est trs fort. Si 0.65 < rXY < 0.80, le lien linaire est fort [lev]. Si 0.50 < rXY < 0.65, le lien linaire est modr. Si 0.25 < rXY < 0.50, le lien linaire est faible. Si 0.025 < rXY < 0.25, le lien linaire est trs faible. Si rXY proche de 0, alors il y a absence de lien entre X et Y.
Note : Le coefficient de corrlation linaire entre deux variables quantitatives gaussiennes indpendantes est nul, mais la rciproque nest pas toujours vraie. Donc r XY = 0 ne signifie pas toujours quil y a indpendance entre X et Y. Cela peut tout simplement vouloir dire quil y a absence dune liaison
19
linaire entre les variables tudies. Ceci dit, le calcul dun coefficient de corrlation doit toujours commencer par un examen graphique. Lautre faiblesse majeure du coefficient de Bravais Pearson est dtre trs sensible aux points aberrants.
[2.3]
o Di = Ri - Si et n = nombre dobservations Avantages du XY de Spearman sur le rXY de Bravais Pearson Le rXY de Bravais - Pearson Le XY de Spearman A propos de la normalit Pour calculer rXY, les variables doivent tre Le XY lve lhypothse de normalit. De plus, dans gaussiennes. le cas des variables distribues normalement, le XY reste adapt car il fournit les mmes rsultats que le rXY de Bravais Pearson. Concernant une liaison non linaire monotone Le rXY donne une ide sur le sens de la liaison mais Dans ce cas, le XY est appropri, il estime mieux estime mal sa force. que le rXY ce type de liaison. La prsence des points atypiques Le rXY est fortement influenc par la prsence des Le XY rsiste aux points aberrants. Dans ce cas, il dviants [points aberrants]. est donc prfr au rXY. Note : Lorsque la liaison entre les deux variables tudies est non linaire et non monotone, les deux coefficients rXY et XY ne sont plus adapts. On peut soit transformer les donnes avant de les calculer ou carrment, lorsquon dispose de plusieurs valeurs de Y pour chaque valeur de X ou linverse, calculer le rapport de corrlation. La dmarche du test statistique sur le XY de Spearman est la mme que celle sur le coefficient de corrlation de Bravais Pearson. Remarques importantes sur le calcul du XY de Spearman Le calcul du coefficient de corrlation de Spearman exige que les donnes soient remplaces par leurs rangs. Et en prsence dex aequo dans les donnes, on leu r affecte un rang moyen, donn par la moyenne arithmtique de leurs rangs respectifs. Mais lorsquon compte plusieurs ex aequo, aprs avoir remplac les donnes par leurs rangs, il est conseill de faire subir au coefficient de Spearman quelques corrections ou simplement de lui prfrer le coefficient de Bravais-Pearson, mais calcul sur les rangs. Dans ce recueil, nous optons pour cette dernire option.
20
En rsum, lestimation dun coefficient de corrlation suivra toujours [sauf indication contraire], dan s lordre, les cinq tapes suivantes : (i) (ii) (iii) (iv) (v) Test de linarit [utiliser un diagramme de dispersion] Test de normalit [choisir le plus appropri connaissant n] Choix et estimation dun coefficient de corrlation Test de significativit statistique sur le coefficient calcul Interprtation ou signification clinique du coefficient estim [valable seulement si H0 est rejete]
Critre synthtique de choix dun coefficient de corrlation Informations fournies par les donnes Type de liaison linaire linaire Normalit Variables normales Coefficient de corrlation appropri [en termes de robustesse] - Coefficient rXY de Bravais Pearson - Coefficient XY de Spearman - Coefficient XY de Spearman
Lune au moins de deux variables est non normale Non linaire monotone Variables normales ou non Prsence des points atypiques
Les alternatives face ces faiblesses sont notamment la corrlation pour variables qualitatives, le rapport de corrlation, la rgression linaire et non linaire, la causalit, la cointgration, etc.
21
Etape 2. Test de normalit Puisqutant appropri pour petit chantillon, nous appliquons le test de Shapiro Wilk.
n 2 a [x n i+1 =1 i 2
x i ]
2
x (i) x
()
-15 -15 -15 -15 -5 0 10 15 20 20 0
()
225 225 225 225 25 0 100 225 400 400
35 35 30 25 5
W= = 0.83154032 Wtable =0.842 [ 5%, pour n=10] Puisque W<Wtable, RH0. La variable X est non gaussienne.
, 2
10 40
2050
=20 ; n=10 ; =5
22
()
-4 -3 -3 -2 0 0 2 3 3 4
()
16 9 9 4 0 0 4 9 9 16 76
8 6 6 4 0
W= = 0.915205263 Wtable =0.842 [ 5%, pour n=10] Puisque W>Wtable, Non RH0. La variable Y est gaussienne.
, 2
0 =5 ; n=10 ; =5
Etape 3. Choix et estimation dun coefficient de corrlation Eu gard aux rsultats des tests de linarit et de normalit [X est non gaussienne], le coefficient de corrlation appropri dans ce cas est le XY de Spearman. Les calculs sont confins dans le tableau ci-aprs : X 20 5 5 40 30 35 5 5 15 40
6(18,5) XY = 1 10(10 2 1) = 0. 887878788
Y 5 1 2 7 8 9 3 2 5 8
Note : Deux nombres au moins identiques ont mme rang qui est donn par la moyenne arithmtique de leurs rangs respectifs.
dabsence de corrlation entre X et Y, le coefficient de corrlation calcul est statistiquement significatif]. Etape 5. Signification clinique [interprtation] Il existe bel et bien une corrlation linaire positive trs forte entre lhabilit en lecture (X) et le nombre dheures de lecture par semaine (Y) au sein de la population tudie.
23
Exercice 2
Montrer rigoureusement que par construction le coefficient de corrlation linaire est toujours comprise entre - 1 et 1 [Utiliser la formule de Bravais Pearson]. Solution de lexercice 2 Si le lien linaire entre X et Y est parfait, Y (X) scrirait comme une fonction affine de X (Y) : Y = + X Dune part, on aura : Cov (X, Y) = E(XY) = E{[X E(X)] [Y E(Y)]} = E{[X E(X)][ + X E( + X)]} = E{[X E(X)][ + X E(X)]} = E{[X E(X)] [X E(X)]} Y = X Dune part, on aura : Cov (X, Y) = E(XY) = E{[X E(X)] [Y E(Y)]} = E{[X E(X)][ X E( X)]} = E{[X E(X)][ X + E(X)]} = E{[X E(X)] [X E(X)]}
= [X E(X)]
= Var(X) Dautre part, on a ceci :
2
= [X E(X)]
= Var(X) Dautre part, on a ceci :
2 2
=1
=1
Exercice 3
Le tableau ci-aprs renseigne sur lvolution de loffre de jus de banane (X) et son prix en USD (Y). N X 1 10 2 8 3 9 4 11 5 14 6 6 7 4 8 12 9 7 10 5 11 8
Travail faire : - Calculer le coefficient de corrlation appropri. - Tester sa significativit statistique - Evaluer sa signification clinique
Solution de lexercice 3 1. Test de linarit
10 8 6 4 2 0 0 5 10 15
Ass. Cdrick Tombola M. Le diagramme de dispersion tmoigne de lexistence dune association linaire positive entre X et Y. 2. Test de normalit Test sur la variable X i
1 2 3 4 5 6 7 8 9 10 11
24
X
10 8 9 11 14 6 4 12 7 5 8
()
4 5 6 7 8 8 9 10 11 12 14
()
-4,5454545 -3,5454545 -2,5454545 -1,5454545 -0,5454545 -0,5454545 0,4545455 1,4545455 2,4545455 3,4545455 5,4545455
()
20,661157
ai
0,5601 0,3315 0,226 0,1429 0,0695
10 7 5 3 1
12,5702479 6,47933884 2,38842975 0,29752066 0,29752066 0,20661157 2,11570248 6,02479339 11,9338843 29,7520661
W=
, 2 ,
9,5497 = 0,983494579 Wtable=0,850 Puisque W >Wtable, alors Non RH0. La variable X est normalement distribue.
= 8,545454545 ; n =11 ;
92,7272727 = 5,5
Y
7 6 7 8 9 6 5 8 6 6 7
()
5 6 6 6 6 7 7 7 8 8 9
()
-1,818181818 -0,818181818 -0,818181818 -0,818181818 -0,818181818 0,181818182 0,181818182 0,181818182 1,181818182 1,181818182 2,181818182
()
ai
0,5601 0,3315 0,226 0,1429 0,0695
3,30578512 0,66942149 0,66942149 0,66942149 0,66942149 0,03305785 0,03305785 0,03305785 1,39669421 1,39669421 4,76033058
4 2 2 1 1
W=
, 2 ,
3,5678 = 0,933474435
Wtable=0,850 Puisque W >Wtable, alors Non RH0. La variable Y est normalement distribue.
3. Choix et estimation dun coefficient de corrlation Les deux variables tant gaussiennes et linairement associes, on peut indiffremment estimer le r XY de Bravais-Pearson ou le XY de Spearman. Dans ce cas, les deux coefficients devraient donner pratiquement la mme chose. Aprs calcul, on a les rsultats suivants :
25
Corrlation entre X et Y
Le XY de Spearman 0,95227273
4. Signification statistique du coefficient calcul La statistique calcule est : = 10.1129979 pour le rXY de Bravais-Pearson, et = 9.3589914, pour le XY de Spearman. Et la valeur de la table, au seuil de 5%, est de : t0.025 ; 9 =2.262 Conclusion : le coefficient de corrlation calcul est statistiquement non nul. 5. Signification clinique il existe bel et bien une corrlation linaire positive trs forte entre quantit offerte de jus de banane et son prix, ce qui est conforme la moi de loffre.
Exercice 4
A partir dun chantillon de 27 objets, on a trouv que la valeur dun coefficient de corrlation linaire tait 0.4. Peut-on en conclure, un seuil de signification de 0.05 que le coefficient de corrlation diffre significativement de la valeur zro ? Quadviendrait la rponse obtenue prcdemment si lon considre un seuil de signification de 0.01. Solution de lexercice 4 Lexercice livre les informations suivantes : rXY =0.4 ; n=27 ; = 0.05. Aprs calcul, on a tcal=2.1821789. En considrant le seuil donn, = 0.05, et 25 degrs de libert, la table de la loi de Student donne la valeur : t0.025 ; 25 = 2.060. On peut donc conclure, un seuil de signification de 0.05 que le coefficient de corrlation diffre significativement de la valeur zro. Au seuil de signification de 0.01, t0.005 ; 25 = 2.787, ce coefficient de corrlation devient significatif.
Exercice 5
Soit le jeu de donnes normalement distribues ci-dessous.
Bloc I
X 10 8 13 9 11 14 6 4 12 7 5 Y 8,04 6,95 7,58 8,81 8,33 9,96 7,24 4,26 10,84 4,82 5,68 X 10 8 13 9 11 14 6 4 12 7 5
Bloc II
Y 9,14 8,14 8,74 8,77 9,26 8,10 6,13 3,1 9,13 7,26 4,74 X 10 8 13 9 11 14 6 4 12 7 5
Bloc III
Y 7,46 6,77 12,74 7,11 7,81 8,84 6,08 5,39 8,15 6,42 5,73 X 8 8 8 8 8 8 8 19 8 8 8
Bloc IV
Y 6,58 5,76 7,71 8,84 8,47 7,04 5,25 12,5 5,56 7,91 6,89
26
Estimer pour chaque cas le coefficient de corrlation de Bravais Pearson Quel constat se dgage t-il de ces calculs ? A prsent, raliser un graphique nuage des points pour chaque cas. Quelle leon peut-on tirer ? Calculer le coefficient de Spearman pour le bloc IV. Quel avantage prsente-t-il ?
Solution de lexercice 5 (i) Aprs calcul, on a le coefficient de Bravais-Pearson ci-aprs, pour chaque cas : Bloc I 0,81642052 (ii) Bloc II 0,81623651 Bloc III 0,81628674 Bloc IV 0,81652144
rXY
Pour les 4 blocs, on obtient pratiquement la mme valeur du coefficient de corrlation de BravaisPearson, soit rXY = 0.82. Ce qui semble traduire dans ces diffrents cas, lexistence dun lien linaire positif trs fort. Graphique nuage ds points pour chaque bloc Bloc I Bloc II
10 5 0 15 10 5 0 0 10 20 0 5 10 15
(iii)
15 10 5 0 0
Bloc III
15 10 5 0 0
Bloc IV
10
20
10
20
La leon tirer est que lestimation du coefficient de corrlation de Pearson doit toujours saccompagner dun examen graphique. Car, comme on le voit, le coefficient estim rXY = 0.82, ne correspond, en toute rigueur, quau premier graphique. Le deuxime, par exemple, fait tat dune liaison fonctionnelle presque parfaite entre X et Y dont le rXY semble sous-estimer lintensit. Quant au troisime et au quatrime graphiques, il y a un point atypique qui fausse compltement le rXY de Bravais-Pearson. Pour preuve, il suffit de retirer le point aberrant, soit le couple (13, 12.74) et (19, 12.5), respectivement dans le troisime et quatrime graphiques, le coefficient de corrlation de Pearson qui tait de r XY=0.82, devient respectivement de 0.99999655 et de 0 [puisque rkX=0]. (iv) On remarquera quau bloc IV, la variable X prsente plusieurs ex aequo, nous avons donc calcul le coefficient de Bravais-Pearson sur les rangs. Coefficient de Bravais-Pearson calcul sur les rangs Bloc IV Lien entre X et Y 0.5
Par au rapport au coefficient de Pearson, le coefficient de rang prsente lavantage de rsister aux points atypiques.
27
Exercice 6
Voici un chantillon de deux variables gaussiennes : X -2 -1 0 1 2 Y 4 1 0 1 4
Travail faire : - Estimez le coefficient de corrlation de Bravais - Pearson - A quoi renvoie ce rsultat ? - Faites maintenant un diagramme de dispersion. Que voyez-vous ? Quelle nuance pouvez-vous donc formuler dans ce cas ?
Solution de lexercice 6 - Les deux variables tant supposes gaussiennes par lexercice, et puisque le test de linarit ici ne fait pas un pralable, on passe directement lestimation du rXY comme prsente dans le tableau ci-dessous : X -2 -1 0 1 2 Somme Moyenne 0 2 rXY = 0 - rXY = 0 signifie que les variables X et Y seraient non corrles [indpendance] - Le diagramme de dispersion des couples (xi, yi) est :
5 4 3 2 1 0 -3 -2 -1 0 1 2 3
Y 4 1 0 1 4
Xi -2 -1 0 1 2 0
Yi 2 -1 -2 -1 2 0
(Xi )(Yi ) -4 1 0 -1 4 0
(Xi )2 4 1 0 1 4 10
(Yi )2 4 1 4 1 4 14
Il ressort de ce diagramme de dispersion quil existe bel et bien une liaison [de type non linaire] entre les variables X et Y. La nuance faire, au vu de ces rsultats, est quun coefficient de corrlation de Bravais Pearson nul ne devrait pas toujours sinterprter comme une absence de relation entre variables en cause. La meilleure interprtation serait que les deux variables tudies sont non linairement corrles, car un rXY =0 laisse toujours la possibilit dexistence, entre les variables considres, dune liaison dun autre type.
28
Exercice 7
A Washington, un journaliste a dcouvert quil existe une trs forte corrlation entre le fait davoir un nid de cigognes sur sa demeure et le fait davoir des enfants. Do il conclut que les cigognes apportent les bbs . Quelle remarque pouvez-vous faire une telle conclusion ? Solution de lexercice 7 La remarque principale formuler ce type de corrlation que rien ne peut expliquer ou qui en ralit tient un autre phnomne-source est que la corrlation peut tre fortuite ou artificielle. Par ailleurs, bien analyser les choses, tenant compte des ralits de Washington, la prsence dun nid de cigog nes sur le toit signifierait plutt que la famille qui y habite est aise et donc dispose, financirement, avoir plus denfants.
Exercice 8
En rsolvant un TP de statistique 1 sur le calcul du coefficient de corrlation linaire, un tudiant de G1 FASE fournit le tableau suivant : Xi 80 100 115 110 70 125 105 90 110 95 =100 =50 Yi 32 50 62 56 8 80 62 50 62 38 Xi -20 0 15 10 -30 25 6 -10 10 -5 1 rXY = Yi -18 0 12 6 -42 30 12 0 12 -12 0
()
Sans avoir { refaire tous les calculs, { regarder ce tableau, vous concluez quil y a erreur de calcul. Par quoi la voyez-vous ? Solution de lexercice 8 Par la somme des carts de la variable Y sa moyenne arithmtique. Cette somme est forcment gale zro, une valeur diffrente indique tout simplement une erreur de calcul.
Exercice 9
Soient les donnes sur les variables X et Y reprises dans le tableau ci-aprs et le nuage de points correspondant :
12 10 8
X Y
1 3
1,1 6,8
1,25 8,3
1,5 9,3
2 9,81
2,25 9,85
29
Estimer les coefficients de corrlation de Bravais-Pearson et de Spearman, puis commenter. Solution de lexercice 9 Les calculs sont synthtiss dans le tableau ci-aprs : X 1 1,1 1,25 1,5 2 2,25 Moyenne 1,52 7,84 rXY = 0,78 XY = 1 Y 3 6,8 8,3 9,3 9,81 9,85 x -0,52 -0,42 -0,27 -0,02 0,483 0,733 y -4,84 -1,04 0,46 1,46 1,97 2,01 xy 2,50 0,43 -0,12 -0,02 0,95 1,47 5,21 x 0,2669 0,1736 0,0711 0,0003 0,2336 0,5378 1,28 y 23,46 1,09 0,21 2,12 3,87 4,03 34,77 Ri 1 2 3 4 5 6 Si 1 2 3 4 5 6 Di 0 0 0 0 0 0 Di 0 0 0 0 0 0 0
Les calculs montrent simplement que le XY de Spearman est prfr au rXY de Bravais-Pearson lorsque la liaison entre X et Y est non linaire mais monotone, car comme on le voit, le rXY a sous-estim lintensit dune relation non linaire certes, mais visiblement parfaite entre X et Y.
Exercice 10
[Il y a au moins une rponse exacte, cocher, la question suivante]. Le coefficient de corrlation linaire entre deux variables statistiques : (a) ne peut tre calcul que si les deux variables sont quantitatives (b) est un nombre positif ou nul (c) nest gal zro que lorsque les variables sont indpendantes (d) est un nombre sans dimension.
30
.III.
o 0 et 1 sont les paramtres du modle qui permettent de caractriser la relation de dpendance linaire qui existe chaque date t entre Xt et Yt. Encadr 2. Fonction affine Une fonction affine est toute fonction de la forme : Y = a + bX [avec a et b *] a : est lordonne { lorigine ou lorigine b : est la pente de la droite ou le coefficient angulaire [directeur] La fonction affine est appele aussi fonction linaire si a =0 Graphe dune fonction affine [considrons le cas o a > 0 et b > 0] La pente dune droite mesure la variation de Y quand on se dplace le long de la droite en accroissant X dune unit. Y E Y = Y1 Y0 D a 0 X = X1 X0 F Y = a + bX Gomtriquement, la pente b est donne par :
c t oppos c t adjacent
b = tg () =
= DF
EF
Et lquation dune droite passant par deux points, de coordonnes (X0, Y0) et (X1, Y1), est : Y Y0 = b (X X0) X Algbriquement, la pente drivant Y par rapport X : sobtient en
b=
dY dX
ou
b=
Y X
Y Y
19
Cette information est gnralement fournie par la thorie conomique, ou peut simplement dcouler de lobjectif de ltude du modlisateur.
Ass. Cdrick Tombola M. Sous sa spcification conomtrique, le modle [3.1] scrit comme suit : [3.2] Yt = 0 + 1Xt + ut
31
Dans ce cas de la rgression linaire simple 0 est le terme constant ou lorigine et 1 la pente. Comme pour la corrlation, avant toute analyse, il intressant de toujours commencer par un examen graphique travers un diagramme de dispersion du type de relation qui lie les deux variables considres. Il faut noter, par ailleurs, que le raisonnement qui sera dvelopp dans la suite de ce chapitre, ne peut sappliquer que si Y peut scrire comme une fonction affine de X. Considrons le jeu de donnes ci-aprs o un chercheur veut expliquer lhabilit en lecture (Y) de dix sujets chantillonns par le nombre dheures de lecture par semaine (X). Y est mesure en laboratoire { laide dun test dhabilit en lecture alors que X est estim par les sujets eux -mmes. Y X 20 5 5 1 5 2 40 7 30 8 35 9 5 3 5 2 15 5 40 8
Dun point de vue pratique, rgresser Y sur X prsente un objectif double : Ajuster un modle linaire pour expliquer les valeurs prises par Y par celles de X. Autrement, il sagit de faire un ajustement linaire, cest--dire de remplacer le nuage de points des couples (x i, yi) par une droite qui sy adapte le mieux que possible. Prdire les valeurs de Y pour les nouvelles valeurs de X.
Pour le jeu de donnes ci-dessus, on a les graphiques suivants : Graphique nuage de points
50 40 30 20 10 0 0 2 4 6 8 10 50 40 30 20 10 0 0 2 4 6 8 10
et
Lajustement linaire [ou rgression linaire] consiste donc tracer une droite dajustement appele galement droite de rgression qui, sans passer par tous les points du nuage, sy approche le mieux. Pour a, il faut donc un critre quantifiant la qualit de lajustement. Le critre auquel on se rfre dans ce chapitre, et trs souvent en conomtrie, est le critre ou la mthode des Moindres Carrs Ordinaires [MCO] 20. On utilise souvent le terme anglais OLS [Ordinary Least Squares] pour dsigner la mme mthode.
20
Certains auteurs ironisent en disant que la mthode nous sert { mettre un chapeau sur nos .
Ass. Cdrick Tombola M. Hypothses Lapplication du critre des moindres carrs repose sur les hypothses suivantes : Hypothses sur la partie systmatique H1. Les variables X et Y sont observes sans erreur. Y est
alatoire par lintermdiaire de ut, cest--dire que la seule erreur possible sur Y provient des insuffisances de X expliquer ses valeurs dans le modle. H2. Le modle est linaire en ses paramtres tels que lexprime lquation [3.2]. H3. Le nombre dobservations n doit tre suprieur au nombre des paramtres estimer.
32
Cest--dire quen moyenne, linfluence de ut sur le modle est nulle, ce qui revient admettre que le modle est correctement spcifi. H5. Hypothse non autocorrlation des erreurs : E(uiuj) = 0 i j Les erreurs ut de diffrentes priodes sont indpendantes les unes des autres. H6. Hypothse dhomoscdasticit des erreurs : E(uiuj) = i =j Les erreurs ut ont une variance constante et finie. Plus explicitement, il sagit dassumer que les variables explicatives omises dans le modle influent toutes pratiquement de faon constante sur la variable explique. H7. Hypothse de normalit des erreurs: ut (0, ) Cette hypothse est la cl de linfrence statistique. Elle est donc ncessaire pour mener les tests. H8. Hypothse dindpendance entre la partie systmatique et la partie alatoire : Cov (Xt, ut)=0. Cette hypothse signifie que lerreur et les variables explicatives ont une influence spare sur la variable end ogne.
Note : (i) Lorsque les hypothses H4, H5 et H6 sont ralises, on dit que les erreurs sont des bruits blancs. Et lorsquon y ajoute lhypothse H7, on parle des bruits blancs gaussiens. (ii) Lorsque toutes les hypothses sous-tendant la mthode des MCO sont remplies, le thorme de Gauss Markov avance que ses estimateurs sont BLUE [Best Linear Unbiased Estimator], cest --dire quils sont les meilleurs estimateurs linaires, non biaiss et variance minimale.
= =
=1 =1
0 + 1 X t 0 1 Xt
2
=0 =0
[3.3] [3.4]
33
En appliquant ces drives partielles, on obtient les quations normales, partir desquelles sont tirs les estimateurs des MCO :
Y = n0 + 1 X XY = 0 X + 1 X2
[3.5] [3.6]
[3.8]
Un dveloppement mathmatique simple permet dexprimer 1 par le produit de la covariance empirique entre X et Y et de la variance empirique de X. 1 =
cov (X,Y) 2 X
X t (Y t ) X t 2
[3.9]
[3.10]
0 et 1 sont donc les estimateurs des moindres carrs ordinaires. 1 est le paramtre dintrt qui capture entirement la dpendance linaire de Y envers X. 1re consquence : La droite des moindres carrs Yt = 0 + 1 Xt passe forcment par lorigine 0 et le point de coordonnes ( , ), appel le centre de gravit ou le point moyen du nuage de points. Pour le vrifier, il suffit de raliser une projection pour le point : ( ) = 0 + 1 = ( 1 ) + 1 = Ce rsultat montre que lorsquon travaille sur les carts { la moyenne arithmtique [variables centres] , on reste sur la mme droite dajustement ce qui implique que la pente 1 reste inchange , mais lon soulve les axes jusquau centre de gravit. Y 45
40 35 30 25
= 20
15 10 5 0 0 1 2 3
(, ) x
4 = 5
10
34
Ainsi, en travaillant avec les carts { la moyenne arithmtique, lorigine 0 peut disparaitre momentanment, car une petite manipulation suffit le retrouver. La fonction affine Yt = 0 + 1 Xt devient linaire : = 1 2me consquence : la droite des moindres carrs a pour quation : Yt =
cov (X,Y) 2 X
[3.11]
(Xt )
[3.12]
0 + 1 Xt 0 + 1 Xt
( 1 ) 1 X t +
=
3me consquence : la somme et donc la moyenne arithmtique des rsidus est nulle dans une rgression avec constante. En effet : e = Yt 0 + 1 Xt = n - n0 - n1 = n n( 1 ) - n1 =0 4me consquence : il existe un lien entre la pente dune rgression linaire simple 1 et le coefficient de corrlation de Bravais Pearson rXY: 1 =
cov (X,Y) 2 X
= rXY
cov (X,Y) X X
Lcart type tant non ngatif, la pente 1 et le coefficient de corrlation de Pearson rXY auront toujours le mme signe. Synthse des formules Donnes brutes Modle estim Yt = 0 + 1 Xt Equations normales Variables centres rXY connu Connaissant lorigine 0 et le centre de gravit
Yt = 0 + 1 Xt = 1
Y = n0 + 1 X
Formules
XY = 0 X + 1 X2
Estimateurs 1 =
21
1 =
cov (X,Y) 2 X
2
1 = rXY
X t Y t n
2 X2 t n
1 = 0 = 1
Y 1 Y 0 X 1 X 0
21
Lestimateur est une formule, et lestimation est la valeur quon trouve en appliquant lestimateur.
35
Lanalyse de la variance a pour objet de driver un indicateur synthtique, appel coefficient de dtermination R2, qui value la qualit de lajustement ralis en appliquant le critre des moindres carrs. Il indique donc dans quelle mesure, la variable explicative X nous permet damliorer nos connaissances sur la variable endogne Y. Soit yt = + et [3.13]
[3.14]
Aprs dveloppement de la relation [3.14], on obtient lquation danalyse de la variance : SCT = SCE + SCR 2 = 2 + e2 Interprtation de lquation danalyse de la variance : SCT est la somme des carrs totaux. Elle indique la variabilit totale de Y. SCE est la somme des carrs expliqus. Elle indique la variation de Y due sa rgression linaire sur X. SCR est la somme des carrs rsiduels. Elle indique la variabilit de Y non explique par le modle.
2
[3.15] [3.16]
= SCT
SCE
[3.17]
Ainsi, le R peut tre interprt comme la proportion de variance de Y explique par le modle. Toujours partir de la relation [3.15], on peut dduire les informations suivantes : Au meilleur des cas SCR = 0 SCT = SCE 2 R =1 Le modle est parfait, la droite de rgression passe par tous les points du nuage. Intervalle de variation du R
2
Au pire des cas SCE = 0 SCT = SCR 2 R =0 Le modle est mauvais, la meilleure prdiction de Y est sa propre moyenne. 0R R
2 2
1
SCR
2
= SCT = 1 - SCT =
SCE
1 2
Autres formules du R
2 X2 t n 2 Y2 t n
=1 1 =
xt yt 2
2 2
Avec 1 la pente de la droite de rgression de X sur Y, soit Xt = 0 + 1 Yt. 2 Plus le R est proche de 1, meilleur est lajustement, la connaissance des valeurs de X permet de
36
deviner avec prcision celles de Y. 2 Plus le R est proche de 0, mauvais est lajustement, X napporte pas dinformations utiles sur Y. 2 Il faut tout de mme faire attention quant au crdit accorder au R , il doit toujours tre accompagn dautres tests [Student et Fisher essentiellement] avant de trancher sur la bont dun modle , mais il reste un critre non ngligeable pour la prvision.
2 2
Pour une rgression linaire simple, et seulement dans ce cas, le R nest rien dautre que le carr du coefficient de corrlation de Pearson. La dmonstration est relativement simple. Partant de la relation 1 = rXY
2
X t 2 Y t 2
= = =
2 1
=
SCT
1 X t SCT
0 + 1 X t 0 + 1 Y t SCT
2
SCE SCT
Note : Comme le coefficient de corrlation linaire de Pearson, le R , pour une rgression linaire simple, est symtrique.
2 ut
1 n
2
2
2 ut
0, 1 =
2 u
22 23
Pour les dtails, lire par exemple Bosonga (2010), Bourbonnais (2005), Bofoya (2007). Appele souvent matrice Omega ().
Ass. Cdrick Tombola M. Test de significativit individuelle Le test de significativit individuelle porte sur chaque paramtre. Les hypothses du test sont : H0 : i = 0 H1 : i 0n [le paramtre est statistiquement nul, non significatif] [le paramtre est statistiquement non nul, significatif]
37
Il sagit dun test bilatral [two-tail ou two-sided]24. Il est bas sur la statistique t de Student calcule comme suit : ti =
i i
i
[3.18]
[3.19]
On dmontre, sous H0, que cette statistique suit une distribution de Student au seuil [5% sauf indication contraire] et (n 2) degrs de libert. Critre de dcision : Si t i > t/2 ; (n 2) [valeur lue dans la table de Student], alors RH0, le paramtre i est statistiquement non nul, la variable lui associe est par consquent non pertinente dans la prdiction de Y. Intervalle de confiance des paramtres i Le RH0 revient simplement { refuser que le paramtre i de la population est non nul, cela ne signifie nullement que i serait la vraie valeur du paramtre i. Ainsi, on peut, en se basant sur les paramtres estims i et en assumant un risque donn, construire des intervalles de confiance pour les paramtres i. Ces intervalles de confiance sont trouvs en appliquant la formule : I =i t/2 ; (n 2) i Test de significativit conjointe ou globale Un autre test consiste tester la significativit conjointe de tous les paramtres estims du modle. Cest le tes bas sur la statistique de Fisher donne par le rapport suivant : F=
SCE 1 SCR (n 2)
[3.20]
[3.21]
2
F=
[3.22]
Le test F teste statistiquement la raison dtre du modle. Par ailleurs, partant de la relation [3.22], daucuns considrent quil teste la significativit du coefficient de dtermination.
24
38
Dans le cas dune rgression linaire simple, le test F est confondu au test de significativit individuelle de la pente. Les deux tests sont bass sur les mmes hypothses, et on dmontre dans ce cas que : F = t2 1 Preuve : F=
SCE 1 SCR (n 2)
[3.23]
=
2
1
e2 t (n 2) 2 1 2 ut 2
2 ut 1 2
= t2
Les hypothses du test sont donc25 : H0 : 1 = 0 H1 : 1 0n [le modle nest pas bon] [le modle est bon]
Comme on le voit, valider la significativit de la pente revient, en mme temps, admettre la bont du modle. Sous H0, on dmontre que la statistique F suit une loi de Fisher respectivement 1 et (n-2) degrs de libert. Critre de dcision : Si F > F [1 ; (n 2)] [valeur lue dans la table de Fisher, au seuil de 5%, sauf indication contraire], on rejette H0, le modle est bon. Significativit de la pente versus significativit du r XY de Bravais Pearson Partant de la relation [3.22] et [3.23] ci-haut, on montre facilement que tester 1 = 0, revient tester rXY = 0. Cela implique quaccepter la significativit de la pente, cest accepter galement la significativit du coefficient de corrlation linaire. En effet, en considrant les relations [3.22] et [3.23], et en sachant que le R2 correspond au carr du rXY, on tablit :
t2 =
1
R2
(1 R 2 ) (n 2)
t1 =
1 r 2 XY (n 2)
r2 XY
r XY
1 r 2 XY (n 2)
25
Le test de significativit globale ne porte que sur les paramtres associs aux variables exognes.
39
Partant de la prvision ponctuelle, la prvision par intervalle est faite en appliquant la formule ciaprs : Yn+h I =Yn+h t/2 ; (n 2) e n +h [3.25]
e n +h = 2 ut 1 + +
n
X n +h x 2 x2 t
1 2
[3.26]
26
Lerreur de prvision capte lcart entre ce qui sera ralis et ce quon prvoit.
40
On cherche expliquer la consommation des mnages (C) par le revenu (R), soit : Ct = + Rt + ut Travail faire : (i) Tracer le nuage de points et commenter. (ii) (iii) (iv) (v) (vi) (vii) (viii) (ix) (x) Estimer la consommation autonome et la propension marginale consommer et . En dduire les valeurs estimes de Ct. Calculer les rsidus et vrifier la proprit selon laquelle la moyenne des rsidus est nulle. Calculer lestimateur de la variance de lerreur. Tester la significativit de la pente. Construire lintervalle de confiance au niveau de confiance de 95% pour le paramtre . Calculer le coefficient de dtermination et effectuer le test de Fisher permettant de dterminer si la rgression est significative dans son ensemble. Ecrire et vrifier lquation danalyse de la variance. Interprter. Aprs un travail minutieux, un tudiant de L1 FASE trouve le coefficient de corrlation linaire entre Ct et Rt suivant rXY = 0.99789619. Sans le moindre calcul, tester la significativit de ce coefficient. Argumenter. En 2002 et 2003, on prvoit respectivement 16800 et 17000 euros pour la valeur du revenu. Dterminer les valeurs prvues de la consommation pour ces deux annes, ainsi que lintervalle de prvision au niveau de confiance de 95%.
(xi)
Exercice 2
Soit le modle linaire Yt = 0 + 1Xt + ut. O Yt reprsente la quantit offerte de pommes et Xt le prix. On donne les informations suivantes : = 5 et =3. Aprs estimation, on a la droite de rgression suivante : = 0 + 1 Xt. Connaissant le couple (Y=2.5 ; X=2) par lequel passe cette droite de rgression, trouver 0 et 1 .
41
Exercice 3
Soit un modle linaire simple : Yt = 0 + 0Xt + ut On donne les informations suivantes : YX=184500 Y2=26350 X2=1400000 =60 Travail demand : Estimer les coefficients du modle Evaluer la qualit de cet ajustement Tester la significativit globale du modle =400 n=7
Exercice 4
Soit le modle : Yt= 0 + 1Xt + ut Yt : salaire moyen horaire par jour [en USD] Xt : nombre dannes dtudes On donne par ailleurs les informations suivantes : rXY= 0.951916 ; x=3.894440 et y=2.945636 Aprs estimation, sur base dun chantillon de 13 observations, un tudiant de L1 FBA prsente l es rsultats incomplets ci-aprs : = 0.030769 + .. Xt Travail demand : (i) (ii) (iii) (iv) (v) Complter les pointills. Tester la significativit du rXY. Interprter ces rsultats. Semblent-ils logiques ? Calculer le R2. Tester la significativit de la pente et la significativit densemble du modle.
Exercice 5
Le tableau suivant donne lge et la tension artrielle Y de 12 femmes : Individu Age (X) Tension artrielle (Y) Travail demand : (i) (ii) (iii) Dterminer lquation de la droite de rgression de Y sur X. Tester la significativit de la pente. Quelle conclusion peut-on tirer ? Estimer la tension artrielle dune femme ge de 50 ans. 1 56 136 2 42 132 3 72 136 4 36 130 5 63 138 6 47 132 7 55 136 8 49 130 9 38 142 10 42 134 11 68 136 12 60 140
Exercice 6
Les donnes statistiques ci-dessous portent sur les poids respectifs des pres et de leur fils an. Pre Fils 65 68 63 66 67 68 64 65 68 69 62 66 70 68 66 65 68 71 67 67 69 68 71 70
Ass. Cdrick Tombola M. Travail demand : (i) (ii) (iii) (iv) Calculer la droite des moindres carrs du poids des fils en fonction du poids des pres. Calculer la droite des moindres carrs du poids des pres en fonction du poids des fils. Que vaut le produit des pentes des deux rgressions ? Juger de la qualit des ajustements faits en (i) et (ii).
42
Exercice 7
Cocher la bonne la rponse. 1. La droite des MCO dune rgression linaire simple passe -t-elle par le point ( , ) ? A. Toujours B. Jamais C. Parfois 2. Pour une rgression linaire simple, le R2 est symtrique : A. Oui B. Non C. Parfois 3. Pour une rgression linaire simple, le R2 correspond au carr du F de Fisher : A. Oui B. Non
Exercice 8
Soient les donnes suivantes :
6 1
= 114
6 1
= 36
6 2 1
= 226
6 1
= 702
Exercice 9
Soit le modle suivant sans terme constant : Yt = Xt + ut. Trouver lestimateur des MCO.
Exercice 10
Soit les rsultats dune estimation conomtrique : = - 32.95 + 1.251Xt n = 20 R2 = 0.23 = 10.66 1) A partir des informations connues, on demande de retrouver les statistiques suivantes : la somme des carrs des rsidus (SCR), la somme des carrs totaux (SCT), la somme des carrs expliqus (SCE), la statistique F de Fisher et lcart-type de la pente. 2) La pente est-elle significativement suprieur 1 ?
43
Exercice 11 Montrer algbriquement que : 1. La somme des rsidus est toujours gale 0. 2. Tester lhypothse H0 : 1 = 0 [avec 1 la pente], revient tester lhypothse rXY = 0. Exercice 12
Le tableau ci-aprs renseigne sur la quantit offerte dun bien (Y) et son prix (X) N Y X 1 23 5 2 25 7 3 30 9 4 28 6 5 33 8 6 36 10 7 31 9 8 35 7 9 37 8 10 42 11
Travail faire : (i) (ii) (iii) (iv) Tracer le diagramme de dispersion et commenter. Rgresser Y sur X. Calculer les rsidus de cette rgression. Juger de la qualit de cet ajustement. Tester la significativit individuelle et conjointe des paramtres.
(v) Exercice 13
Le coefficient de corrlation linaire entre deux variables X et Y est r = 0.60. Si les carts-type de X et Y sont respectivement 1.50 et 2 ; et leurs moyennes, respectivement, 10 et 20. Trouvez les quations de rgression de Y en X et de X en Y.