Anda di halaman 1dari 2

Statistique Descriptive Multidimensionnelle - IG2

La rgression linaire avec R

Lobjectif de ce TD est de vous faire manipuler les commandes de bases permettant deffectuer une rgression
linaire sous R mais galement de contrler vos rsultats, slectionner les modles et effectuer des
reprsentations graphiques.
NB : Il est inutile de se dpcher de taper les commandes du TP en vitesse (et de prendre une avance artificielle
sans rien comprendre leur significationsurtout pour ceux qui ne viennent quirrgulirement en cours).
Replacez ce TD dans le cadre de ce que vous connaissez dj de R et du cours.
1/ Afin de pouvoir conserver certaines donnes si vous le souhaitez, effectuez un changement de rpertoire de
travail.
2/ Nous allons utiliser un jeu de donnes simple dj implant.
data()
data(cars)
cars
Que reprsente ce jeu de donnes (attention aux units) ?
names(cars)
Comment doit-on appeler les variables ?
dim(cars)
Quelle est la taille de la matrice ?
plot(cars)
Est-ce que la reprsentation graphique est adapte ?
La rgression linaire multidimensionnelle est obtenue trs simplement par la commande lm.
?lm
Notez au passage que lm ne sert pas uniquement la rgression linaire mais permet
galement dimplmenter dautres modles (analyse de variance notamment).
Notez aussi quil est ncessaire de spcifier le modle dans la syntaxe de lm. Un coup d il aux exemples en
bas de page permet de comprendre que la formule se met sous la forme :
Y ~ X1 + X2 + + Xp
On y va
reg<-lm(dist~speed,cars)
reg
Pas terrible. On aurait pu dire bien des choses encore
Faisons connaissance avec lobjet que nous venons de construire
attributes(reg)
Sa carte didentit
La fonction lm est tellement importante que lon a cre une classe pour elle toute seule.
On voit galement dans la rubrique names que lobjet reg contient un certain nombre dinformations qui ne
sont manifestement pas affiches par la command reg.
summary(reg)

Cest nettement mieux.

Il est crucial que vous compreniez toutes les rubriques qui apparaissent ici. Elles constituent le cur de la
rgression linaire. Ceux qui arrivent en avance ce point sont pris dattendre mes commentaires avant daller
plus loin.
anova(reg)

comparez avec summaryet le cours

Revenez names(reg). Affichez les diffrentes valeurs et, avec laide en ligne, dites ce quelles reprsentent.
Un certain nombre de ces rubriques ne nous sera daucune utilit : terms, call, assign, effects. Par
contre xlevel sera exploite lors du chapitre consacr lanalyse de variance.
Continuons notre exploration :
plot(reg)
4 graphiquesVous nen connaissez quun, ventuellement deux (les graphiques 1 et
3) mais le 2 et le 4 vous sont sans doute inconnus.
Le graphique 2 (QQ-plot) permet de vrifier lhypothse de normalit des rsidus : si les points sont peu prs
aligns en se confondant avec la premire bissectrice des axes, on peut dire que les
rsidus suivent une loi normale.

Statistique Descriptive Multidimensionnelle - IG2

Le graphique 4 (Cooks D) permet de reprer les points influents , cest dire ceux pour qui la rgression
linaire est mal (ou pas) adapte, parce quils se situent trop loin de la droite de
rgression. Ces points sont reprs par de grandes valeurs du D de Cook.
Nous pouvons tracer dsormais la droite de rgression
plot(cars,pch=20,col='blue')
abline(reg=reg,col='red')
Recommencez avec abline(reg$coeff,col='yellow')On ne devrait jamais taper une nouvelle
commande sans se renseigner avant
Passons la prvision. Nous allons avoir besoin de la commande predict.
Je ne vous donne volontairement pas dindications
Quelle valeur prdisez-vous pour une vitesse de 20 ? Donnez un intervalle de confiance pour cette valeur (avec
les options confidence puis prediction) ? Quelles diffrences notez-vous ?
La solution est 61.06908.
Nous allons enfin passer aux rudiments de la slection de modles. Lexemple cars est-il adapt la slection
de modles ?
Renseignez-vous sur les commandes update et step.
Choisissez le jeu de donnes cpus dans la librairie MASS.
Pour avoir une ide globale du comportement des variables les unes par rapport aux autres, quelles commande
dj vue utilisez-vous ?
Effectuez la rgression de perf contre toutes les autres variables quantitatives. Affinez enfin le modle en
slectionnant pas ou pas vous-mme ou automatiquement les variables pertinentes (Vous pouvez galement
utiliser la doc sur cette librairie trs utile et jeter un coup dil aux fonctions stepAIC, addterm,
dropterm).

Anda mungkin juga menyukai