Anda di halaman 1dari 14

EXPERIENCES COMMENTEES

LE LOGICIEL R COMME OUTIL DINITIATION LA STATISTIQUE DESCRIPTIVE : ENQUTE SUR LES DPENSES DES MNAGES
Hubert RAYMONDAUD1

TITLE Introduction to descriptive statistics with the Software R: Household expenditure statistics RSUM Le logiciel R, libre et gratuit, est un outil privilgi pour lapprentissage de lanalyse exploratoire des donnes. En plus de sa gamme tendue de mthodes et de ses graphiques de qualit, il comporte un langage de commandes qui permet lutilisateur de se familiariser avec les techniques de statistique descriptive et de les approfondir ; grce lui, on peut facilement analyser de grands tableaux de donnes en tout ou en partie. R est prsent ici dans le cadre dun travail pratiqu avec des tudiants du brevet de technicien suprieur agricole. Mots-cls : logiciel R, statistique descriptive, traitement des donnes. ABSTRACT The free, open-source statistical software R is a primary tool for education in exploratory data analysis. In addition to a broad spectrum of methods and quality graphics, it features a command language that allows the user to gain familiarity with, and a thorough understanding of, descriptive statistical techniques; analyses can easily be performed with it, both on large data sets and subsets thereof. R is described here in the context of an experiment carried out with students from the higher agricultural technician certificate program. Keywords: software R, descriptive statistics, data analysis.

1 Introduction
Cet enseignement avec R a t dvelopp depuis trois ans avec des classes de BTSA2, formation en deux ans aprs le baccalaurat pour le traitement et lanalyse des donnes issues de stages, collectifs ou individuels, raliss dans le cadre du diagnostic de territoire et de la conception de projets de services en espace rural (BTSA SER). Il est la transformation dun enseignement fait depuis plus de trente ans, dans un cadre similaire, avec les divers outils logiciels dont je pouvais disposer dans les centres de formation et lyces o jenseignais et dont lapprentissage tait compatible avec le niveau des tudiants et le temps dont ils disposaient pour ce travail. Le diagnostic de territoire ncessite de traiter et danalyser dune part des donnes issues des bases de lINSEE (portraits de zones3) et dautre part les donnes issues denqutes en relation avec les projets dvelopper.
1 2

LEGTA Louis Giraud 84200 Carpentras-Serres, hubert.raymondaud@educagri.fr Brevet de Technicien Suprieur Agricole 3 http://www.insee.fr/fr/bases-de-donnees/default.asp?page=statistiques-locales.htm Statistique et Enseignement, 2(2), 49-62, http://www.statistique-et-enseignement.fr/ Socit Franaise de Statistique (SFdS), Mars/March 2012

50

EXPERIENCES COMMENTEES
Le logiciel R comme outil dinitiation la statistique descriptive

Quelle que soit lorigine des tudiants de BTSA de cette filire, jai toujours constat quils sont compltement dmunis quand il sagit de rinvestir les mthodes simples de la statistique descriptive, pourtant au programme des classes du collge et du lyce. cette difficult sajoute celle de la matrise de loutil logiciel, tant pour la gestion des fichiers de donnes que pour la mise en uvre des mthodes statistiques. La squence ici prsente, positionne en dbut de formation, est organise en trois parties associant des objectifs de rinvestissement de mthodes de statistique descriptive, des objectifs d'apprentissage des procdures R correspondantes et des objectifs dinterprtation des rsultats obtenus et de rdaction d'un rapport de synthse. Les mthodes de statistique descriptive mises en uvre sont celles d'une premire exploration graphique et numrique permettant de caractriser l'chantillon. Cette premire tape est trs importante car elle permet de bien comprendre le profil des participants lenqute mais aussi les associations entre variables. Il est donc crucial de savoir bien utiliser les diffrents outils graphiques et numriques de lanalyse descriptive. Les croisements de deux variables qualitatives (tableaux d'effectifs), d'une variable qualitative avec une variable quantitative (comparaisons de groupes), de deux variables quantitatives (nuages de points), et avec une variable qualitative (groupes de nuages), ne sont abords que trs partiellement au lyce, alors mme qu'ils fournissent la plus grande partie des rsultats de l'exploration des donnes ncessaires une premire analyse. C'est aussi cette occasion que R rvle sa spcificit et toute son efficacit par rapport l'utilisation d'un tableur, peu adapt ce type de traitement, avec ce type de public. En effet, bien que l'on puisse faire des nuages de points et des tableaux croiss d'effectifs avec les tableurs actuels, cela ncessite, pour chaque nouveau graphique ou tableau, de rorganiser les donnes, de slectionner les lignes et colonnes correspondantes, et ensuite de juxtaposer manuellement les graphiques, ce qui rend les explorations longues et fastidieuses, difficults difficilement surmontables dans le temps rduit dont on dispose avec des lves peu habitus grer des donnes mme de petite taille. On ne rencontre pas ces difficults avec R qui possde un langage permettant de travailler directement avec des groupes d'individus ou variables. Les graphiques peuvent tre juxtaposs ou superposs au moment de leur cration, dans des fentres particulires.

2 Contexte de lexploration
2.1 Prsentation du fichier de donnes
Le fichier HabitConso.csv contient un extrait de 205 individus statistiques (mnages) et 6 variables. Les donnes sont extraites et adaptes partir dune enqute faite en 2000 dans le cadre dun diagnostic de territoire de la communaut de communes de la COVE (Carpentras), pour un projet douverture dune maison de pays permettant la valorisation du patrimoine historique et naturel et la commercialisation de produits du terroir. Les tudiants de BTSA ont interrog les personnes sortant d'une vingtaine de magasins alimentaires, en juillet, sur tout le territoire de la COVE.

Statistique et Enseignement, 2(2), 49-62, http://www.statistique-et-enseignement.fr/ Socit Franaise de Statistique (SFdS), Mars/March 2012

EXPERIENCES COMMENTEES
H. Raymondaud

51

Le fichier au format .csv (texte) permet l'importation directe dans R, quel que soit le format d'origine du fichier. Les variables retenues sont : RegionDomicile (qualitative) CSP (qualitative) BudgetMensuelAlimentaire (quantitative) BudgetMensuelFruits (quantitative) RevenuMensuel (quantitative) BudgetAnnuelLoisir (quantitative) Rgion du domicile des personnes interroges Catgorie socio-professionnelle Dpense mensuelle d'alimentation Dpense mensuelle destine aux fruits Revenu mensuel du mnage Dpense annuelle destine aux vacances

2.2 Pourquoi choisir lutilisation du logiciel R ?


Mon choix du logiciel R relve de plusieurs considrations parmi lesquelles : la gratuit ; l'utilisation de plus en plus rpandue dans l'enseignement suprieur et les organismes de recherche (INRA, INSERM, CNRS...) ; un langage de programmation interactif facile apprendre, permettant aussi bien la mise en uvre des mthodes de la description statistique et de l'infrence, mme les plus rcentes, que la programmation de simulations probabilistes simples ou complexes ; une bibliothque de fonctions trs fournie, rassembles dans des packages et proposes sur internet par une communaut de dveloppeurs, spcialistes des mthodes qu'ils proposent ; la possibilit de construire ses propres fonctions ; des graphiques d'une grande qualit et d'une grande varit ; des outils mathmatiques comme le calcul matriciel, l'intgration numrique, l'optimisation... Jutilise R avec les lves en leur proposant un document comprenant les commandes saisir pour raliser les analyses demandes. Cela rend son utilisation rapide et facile, d'autant plus que l'on peut disposer d'un diteur coloration syntaxique (Tinn-R) qui facilite la lecture et l'criture des lignes de commande. Une sance de deux heures est ainsi suffisante pour raliser les premires analyses exploratoires. Au bout de deux sances, certains lves crivent dj des procdures simples. Un traitement de cette enqute, au niveau dexigence pour cette filire, se fait en 4 sances de deux heures. La littrature franaise traitant de R est abondante. Les principales rfrences que j'ai utilises et que je conseille sont prsentes dans la bibliographie en fin d'article.

3 tapes de lexploration
3.1 Importation et contrle des donnes
La premire tape consiste, comme toujours, importer des donnes dans R, sous forme d'un objet R appel data.frame qui est en fait un tableau de donnes individus variables. On pourra ensuite commencer les descriptions statistiques. Les principaux objets de R sont les vecteurs (suites numriques ou alphabtiques indices), les matrices (tableaux de nombres), les listes (collections d'objets de diffrents types), les data.frame qui sont les classiques tableaux de donnes individus variables.

Statistique et Enseignement, 2(2), 49-62, http://www.statistique-et-enseignement.fr/ Socit Franaise de Statistique (SFdS), Mars/March 2012

52

EXPERIENCES COMMENTEES
Le logiciel R comme outil dinitiation la statistique descriptive

L'importation des donnes doit toujours tre suivie du contrle des donnes importes, l'aide de quelques outils de R : la commande setwd() permet de fixer le chemin d'accs au dossier contenant le fichier importer ; la commande read.table() importe le fichier .csv sous la forme d'un tableau de donnes (data.frame) que l'on nomme dans cet exemple habit ; attach() permet l'utilisation de habit par dfaut, names() liste le nom de toutes les variables du tableau import ; summary() fait un rsum de toutes les variables du tableau ; habit[1:3,] extrait les donnes de toutes les variables des 3 premires lignes du tableau et les affiche.

Ci-dessous, dans les encadrs de prsentation des lignes de commandes R et des rsultats obtenus, les fonctions et le nom des paramtres sont de couleur rouge sombre, leurs arguments sont en orange, les rsultats en vert.
setwd("chemin d'accs au dossier") habit <- read.table("HabitConso.csv", sep = ";", header = T, dec = ",") attach(habit) names(habit)
[1] "RegionDomicile" "CSP" [3] "BudgetMensuelAlimentaire" "BudgetMensuelFruits" [5] "RevenuMensuel" "BudgetAnnuelLoisir"

summary(habit)
RegionDomicile CENTRE:56 EST :30 NORD :58 OUEST :26 SUD :35 CSP COMMERCANT :42 ENSEIGNANT :55 FONCTERRITA:47 LIBERAL :28 OUVRIER :33 BudgetMensuelAlimentaire Min. : 257.0 1st Qu.: 874.0 Median : 973.0 Mean : 929.5 3rd Qu.:1057.0 Max. :1313.0 BudgetMensuelFruits Min. : 6.0 1st Qu.: 26.0 Median : 43.0 Mean : 47.6 3rd Qu.: 59.0 Max. :138.0 RevenuMensuel Min. : 520 1st Qu.:1759 Median :2732 Mean :2698 3rd Qu.:3515 Max. :4925 BudgetAnnuelLoisir Min. : 85.0 1st Qu.: 407.0 Median : 735.0 Mean : 890.5 3rd Qu.:1303.0 Max. :2005.0

habit[1:3,]
RegionDomicile CSP BudgetMensuelAlimentaire BudgetMensuelFruits RevenuMensuel BudgetAnnuelLoisir 1 SUD FONCTERRITA 1039 24 3548 1664 2 NORD OUVRIER 761 86 1587 311 3 SUD LIBERAL 973 138 4773 735 ...

3.2 Principaux traitements graphiques et rsums numriques


Les vrifications tant faites, on peut commencer lanalyse descriptive selon les phases suivantes : 1. la description de chacune des variables qualitatives, en utilisant les tableaux d'effectifs des tris plat et les graphiques adquats ; 2. la description des relations entre les variables qualitatives deux deux, par les tableaux d'effectifs des tris croiss et les graphiques correspondants ; 3. la description des associations entre des variables qualitatives et les variables quantitatives, en ralisant des sries de graphiques juxtaposs permettant de reprer des groupes particuliers ; 4. la description des relations entre les variables quantitatives deux deux, en reprsentant les nuages de points et les rsums numriques correspondant aux modles d'ajustement choisis. On pourra complter cela en ralisant le croisement de deux variables quantitatives par une variable qualitative, par exemple en utilisant des couleurs identifiant, sur les points du nuage, les modalits de la variable qualitative.
Statistique et Enseignement, 2(2), 49-62, http://www.statistique-et-enseignement.fr/ Socit Franaise de Statistique (SFdS), Mars/March 2012

EXPERIENCES COMMENTEES
H. Raymondaud

53

Cela permet de mettre en vidence d'ventuelles structures, dcoulant de l'effet des variables qualitatives. 3.2.1 Tris plat de variables qualitatives : exemple de RegionDomicile et de CSP Il sagit donc simplement de dnombrer les effectifs de chaque modalit des variables pour construire les tableaux des effectifs et les illustrer. Le logiciel permet, avec la fonction plot(NomDeVariable,...), dobtenir directement des diagrammes en barres sans tre oblig de passer par la production du tableau des effectifs comme c'est le cas dans un tableur. On peut obtenir le tableau des effectifs des catgories des variables nominales avec la fonction table(NomDeVariable,...), qui est plus pratique que la mise en uvre des tableaux croiss dynamiques de tableurs. Les exemples des commandes figurent au-dessus des graphiques obtenus. La commande plot() produit le graphique dans une nouvelle fentre graphique, avec des choix d'chelles par dfaut, mais que l'on peut modifier en utilisant des paramtres additionnels. Ce choix par dfaut est utile dans les sances d'initiation avec les lves car cela permet de mieux se concentrer sur l'utilisation et l'interprtation des graphiques, en vitant dans un premier temps des difficults dues la construction fine du graphique.
plot(RegionDomicile, xlab = "Rgion du domicile", ylab = "Effectif", main = "Diagramme en barres") plot(CSP, xlab = "Catgorie SocioProfessionnelle", ylab = "Effectif", main = "Diagramme en barres")

# tri plat de la variable RegionDomicile (table(RegionDomicile))


RegionDomicile CENTRE EST 56 30 NORD 58 OUEST 26 SUD 35

(table(CSP))
CSP COMMERCANT 42 LIBERAL 28 ENSEIGNANT FONCTERRITA 55 47 OUVRIER 33

Statistique et Enseignement, 2(2), 49-62, http://www.statistique-et-enseignement.fr/ Socit Franaise de Statistique (SFdS), Mars/March 2012

54

EXPERIENCES COMMENTEES
Le logiciel R comme outil dinitiation la statistique descriptive

3.2.2 Description de distributions de variables quantitatives La fonction hist(NomDeVariable,...) produit un histogramme avec un dcoupage en classes et des tiquettes par dfaut, mais que l'on peut paramtrer volont, comme le montre l'exemple ci-dessous. La fonction boxplot(NomDeVariable,...) produit un diagramme en bote (appel aussi bote et moustaches ou bote et pattes) de la totalit de la srie des revenus mensuels.
# Histogramme de RevenuMensuel hist(RevenuMensuel, breaks = seq(500, 5000, 500), right = F, col = "grey90") boxplot(RevenuMensuel, ylab = "Montant en uro", xlab = "Diagramme en bote de la srie des revenus mensuels")

Il est intressant de remarquer que c'est l'histogramme qui permet de voir que la distribution observe n'est pas homogne et qu'il faut donc analyser l'effet des variables qualitatives, telles que CSP ou RegionDomicile, voire les combinaisons de modalits issues du croisement de ces deux variables.

3.3 Principaux outils de comparaisons


3.3.1 Comparer les distributions dune variable quantitative observe dans diffrents groupes (i) Juxtaposer et comparer les diagrammes en botes des groupes ou les diagrammespoints Croiser les variables RevenuMensuel et RegionDomicile consiste reprsenter graphiquement (diagrammes en botes ou diagrammes-points) les sries observes (variable quantitative) en fonction des modalits de la variable qualitative. C'est dans ce type de reprsentation que se rvlent toute la spcificit et l'efficacit de R pour l'analyse exploratoire, car ce type de juxtaposition des graphiques, en fonction d'une variable qualitative, n'est pas possible raliser avec un tableur.

Statistique et Enseignement, #(#), ##-##, http://www.statistique-et-enseignement.fr/ Socit Franaise de Statistique (SFdS), Mars/March 2012

EXPERIENCES COMMENTEES
H. Raymondaud # RevenuMensuelRegionDomicile boxplot(RegionDomicile ~ RevenuMensuel, ylab = "RevenuMensuel", xlab = "RegionDomicile") # par contre on obtient un autre # graphique avec plot(RevenuMensuel, RegionDomicile)

55

Les diagrammes-points sont une reprsentation non rsume ( la prcision graphique prs) de toutes les valeurs des sries, alors que les diagrammes en botes sont un rsum par des paramtres de rangs, les cinq quartiles (en admettant de nommer quartiles 0 et 4 le minimum et le maximum). Dans la version utilise ici, le minimum est remplac par la plus petite valeur de la srie suprieure au premier quartile moins 1,5 fois l'intervalle interquartile et le maximum par la plus grande valeur de la srie infrieure au troisime quartile plus 1,5 fois l'intervalle interquartile. Les comparaisons visuelles de groupes sont plus faciles avec les diagrammes en botes, alors que les diagrammes-points permettent de mieux visualiser les distributions observes de la variable sur les diffrents groupes. La simple utilisation de paramtres particuliers (horizontal, col) comme arguments de la fonction boxplot() permet de modifier la prsentation des graphiques pour l'adapter l'effet recherch, comme le montrent les deux graphiques ci-dessous, qui permettent de comparer le budget annuel loisir des diffrentes CSP. La couleur rend l'identification des CSP et les comparaisons plus faciles. La juxtaposition des diagrammes en botes et des diagrammes-points permet de voir l'effet d'une distribution sur la forme de la bote (position, dispersion, symtrie). Ce type de reprsentation n'est pas possible avec un tableur si ce n'est avec une programmation complexe (visual basic), hors de porte des classes de lyce.

Statistique et Enseignement, #(#), ##-##, http://www.statistique-et-enseignement.fr/ Socit Franaise de Statistique (SFdS), Mars/March 2012

56

EXPERIENCES COMMENTEES
Le logiciel R comme outil dinitiation la statistique descriptive plot(BudgetAnnuelLoisir, CSP, col # BudgetAnnuelLoisirCSP boxplot(BudgetAnnuelLoisir ~ CSP, = c("blue", "yellow", "red", horizontal = T, ylab = "CSP", xlab "orange", "green")[CSP]) = "BudgetAnnuelLoisir", col = c("blue", "yellow", "red", "orange", "green"))

Les commandes de R sont simples, la syntaxe est facile comprendre, les possibilits d'amlioration des graphiques, l'aide de paramtres, sont trs nombreuses. (ii) Juxtaposer et comparer les histogrammes Nous avons vu un peu plus haut que l'histogramme de la srie des revenus mensuels permettait de mettre en vidence une distribution non homogne. Il faudrait pouvoir raliser les histogrammes par catgorie de CSP. Cette juxtaposition d'histogrammes peut tre ralise manuellement mais c'est long et fastidieux car il faut paramtrer chacun des histogrammes de faon ce que l'on puisse les comparer. On peut raliser automatiquement des histogrammes par catgorie d'une variable qualitative, en utilisant un package spcialement conu pour faire des graphiques complexes, lattice, qui doit tre charg dans R pour tre utilis. La commande est simple, comme le montre lexemple de lhistogramme des sries de revenus mensuels par CSP :

Statistique et Enseignement, #(#), ##-##, http://www.statistique-et-enseignement.fr/ Socit Franaise de Statistique (SFdS), Mars/March 2012

EXPERIENCES COMMENTEES
H. Raymondaud
require(lattice) histogram(~ RevenuMensuel | CSP, layout = c(1, 5))

57

On met en vidence que c'est la variable CSP qui est responsable de la structure observe dans la distribution de la srie. La position des distributions varie en fonction de la CSP. 3.3.2 Rsums numriques correspondant aux croisements variables quantitatives variables qualitatives Pour dterminer un ensemble de paramtres centraux et de tendance d'une srie quantitative, pour chaque modalit d'une variable qualitative, on peut utiliser le package Hmisc. Dans l'exemple ci-dessous, on cre une fonction moyetqu() qui calcule l'effectif, la moyenne, l'cart-type, les quantiles d'ordre 0%, 10%, 25%, 50%, 75%, 90%, 100% d'une srie (les quantiles 0% et 100% dsignant le min et le max). En utilisant cette fonction comme argument dans la fonction summary(), on obtient les valeurs calcules avec moyetqu(), pour la variable RevenuMensuel, par catgorie de CSP, prsentes dans un tableau.

Statistique et Enseignement, #(#), ##-##, http://www.statistique-et-enseignement.fr/ Socit Franaise de Statistique (SFdS), Mars/March 2012

58

EXPERIENCES COMMENTEES
Le logiciel R comme outil dinitiation la statistique descriptive

moyetyqu <- function (x, pquant = c(0, .10, .25, .50, .75, .90, 1)){ moy <- mean(x) et <- sd(x) quant <- quantile(x, prob = pquant) c(Moyenne = moy, Ecartype = et, quant) } require(Hmisc) summary(RevenuMensuel ~ CSP, fun = moyetyqu)
RevenuMensuel N=205 + Quantiles + +-------+-----------+---+--------+---------+----+------+-------+------+-------+------+----+ | | |N |Moyenne |Ecartype |0% |10% |25% |50% |75% |90% |100%| +-------+-----------+---+--------+---------+----+------+-------+------+-------+------+----+ |CSP |COMMERCANT | 42|1747.881| 231.0901|1144|1436.2|1628.75|1780.0|1900.00|1969.9|2219| | |ENSEIGNANT | 55|2706.764| 214.0431|2227|2400.0|2576.00|2732.0|2852.50|2954.0|3170| | |FONCTERRITA| 47|3476.191| 205.4495|3004|3223.6|3338.00|3515.0|3592.50|3703.4|3940| | |LIBERAL | 28|4528.679| 245.2382|3866|4244.3|4398.00|4513.5|4710.25|4807.3|4925| | |OUVRIER | 33|1234.030| 262.3907| 520| 929.6|1123.00|1278.0|1444.00|1496.6|1587| +-------+-----------+---+--------+---------+----+------+-------+------+-------+------+----+ |Overall| |205|2698.488|1087.7611| 520|1319.8|1759.00|2732.0|3515.00|4398.0|4925| +-------+-----------+---+--------+---------+----+------+-------+------+-------+------+----+

3.3.3 tudier la relation entre deux variables qualitatives en tablissant la distribution croise de ces deux variables ou les distributions conditionnelles tudier lassociation entre deux variables qualitatives par le biais dune reprsentation graphique nest pas toujours ais. Il sagit de faire comprendre aux tudiants quen ralit le statisticien a le choix entre trois reprsentations du tableau double entre, soit lune ou lautre des reprsentations des distributions conditionnelles ou la distribution des effectifs du tableau. Lexemple trait ci-dessous est celui de ltude du tableau deux entres, reprsentant les effectifs des combinaisons des modalits de RegionDomicile et CSP. La fonction table() permet d'obtenir le tableau des effectifs des combinaisons des modalits des deux variables. La fonction plot(variable1,variable2,) permet d'obtenir la reprsentation graphique en barres superposes des frquences relatives conditionnelles des deux variables. Il est intressant de remarquer que la fonction plot() reconnat la nature des variables et adapte automatiquement le type de graphique. On est trs loin du fonctionnement d'un tableur...

Statistique et Enseignement, #(#), ##-##, http://www.statistique-et-enseignement.fr/ Socit Franaise de Statistique (SFdS), Mars/March 2012

EXPERIENCES COMMENTEES
H. Raymondaud # Tri crois CSPRegionDomicile table(CSP, RegionDomicile)
RegionDomicile CSP CENTRE EST NORD OUEST SUD COMMERCANT 9 4 16 6 7 ENSEIGNANT 14 9 12 8 12 FONCTERRITA 16 6 15 3 7 LIBERAL 8 5 7 4 4 OUVRIER 9 6 8 5 5

59

plot(RegionDomicile, CSP, col = c("blue", "yellow", "red", "orange", "green"), ylab = "CSP", xlab = "RegionDomicile")

plot(CSP, RegionDomicile, col = c("violet", "pink", "black", "brown", "grey"), xlab = "CSP", ylab = "RegionDomicile")

Attention limpression en noir et blanc du graphique ci-dessus sera peu lisible

Attention limpression en noir et blanc du graphique cidessus sera illisible

3.3.4 tudier la relation entre deux variables quantitatives en tablissant des nuages de points Dans un premier temps il s'agit de choisir les couples de variables quantitatives que l'on veut croiser. Si l'on na pas de raison de privilgier certains couples, R, simplement avec la commande plot(variable1,variable2,), nous offre la possibilit de prsenter, en une seule fois, tous les croisements 2 2, dans une matrice de nuages de points. L'utilisation des couleurs pour marquer les CSP permet de reprer les facteurs des structures dans les nuages de points. Marquer les CSP par la couleur revient faire un croisement par une troisime variable qualitative. On peut ainsi rechercher quel facteur est l'origine des structures observes et cela de manire rapide est efficace.

Statistique et Enseignement, #(#), ##-##, http://www.statistique-et-enseignement.fr/ Socit Franaise de Statistique (SFdS), Mars/March 2012

60

EXPERIENCES COMMENTEES
Le logiciel R comme outil dinitiation la statistique descriptive

plot(habit[,3:6]) # porte sur les colonnes 3 6 de la dataframe habit

Ou encore mieux, en marquant les CSP par des couleurs : plot(habit[,3:6], col = c("blue", "yellow", "red", "orange", "green")[CSP])

Le package lattice propose des fonctions permettant de rpartir automatiquement les nuages en fonction de la CSP, ce qui offre une lecture encore facilite, comme cela est visible dans la reprsentation ci-dessous, avec la fonction xyplot().
require(lattice) xyplot(BudgetMensuelAlimentaire ~ RevenuMensuel | CSP)

L encore on est trs loin des possibilits d'un tableur... Avec des tudiants de BTSA, la squence a t ralise en deux sances de deux heures, comprenant quelques rappels sur les mthodes et outils de la statistique descriptive.
Statistique et Enseignement, #(#), ##-##, http://www.statistique-et-enseignement.fr/ Socit Franaise de Statistique (SFdS), Mars/March 2012

EXPERIENCES COMMENTEES
H. Raymondaud

61

4 Conclusion
J'utilise R pour trois activits diffrentes : l'illustration de mes cours, le traitement de donnes de l'exprimentation agricole et la formation des lves de BTS au traitement des donnes. Dans ces trois activits R a progressivement remplac l'utilisation de logiciels spcifiques et les tableurs. Les exemples de cet article ont montr quelques diffrences d'importance entre un tableur et un vritable logiciel de traitement statistique. Dans la pratique du traitement des donnes l'efficacit de R facilite les analyses et offre un panel tendu de mthodes. Les fonctions graphiques qui reconnaissent les types de variables et produisent les graphiques adapts, la possibilit d'utiliser des variables qualitatives pour analyser et comparer des groupes, des possibilits de requtes permettant de travailler sur une partie des donnes sans tre oblig de manipuler des tableaux de donnes, la possibilit de construire ses propres fonctions, sont quelques-unes des spcificits d'un vritable logiciel statistique. Un atout d'importance de R est la grande varit de mthodes offertes dans les packages dvelopps par les spcialistes des mthodes proposes. Aprs avoir longtemps utilis les tableurs, j'ai choisi R comme outil privilgi pour l'apprentissage des traitements statistiques avec les lves. En effet, les difficults rencontres lors des nombreuses manipulations des donnes, le temps important ncessaire lorsqu'il s'agit de faire des traitements par groupe, la difficult de grer de grands lots de donnes, rendent les traitements statistiques avec un tableur longs et laborieux avec des lves parfois peu familiariss avec l'outil informatique. R, avec son langage facile comprendre et lire, permet de construire des progressions que les lves peuvent suivre pour raliser rapidement et facilement les traitements demands et ainsi mieux se concentrer sur l'analyse et l'interprtation des rsultats et la recherche de traitements complmentaires. Il me semble donc que R peut avoir une place privilgie au lyce pour l'apprentissage et la mise en uvre des mthodes statistiques. En prolongement aux mthodes de l'analyse exploratoire des donnes, R offre des possibilits tendues dans le domaine des probabilits et de l'infrence statistique. Enfin, son langage permet de concevoir des simulations simples ou complexes, en probabilit ou en infrence, ce qui en fait un outil de choix pour mettre en uvre les simulations et l'algorithmique prsents dans les programmes de la seconde la terminale. C'est ce titre que j'ai propos d'introduire R dans le document ressource des nouveaux programmes de terminales S et ES.

Rfrences
[1] [2] Lafaye De Micheaux, P., R. Drouilhet et B. Liquet (2010), Le logiciel R Matriser le langage, effectuer des analyses statistiques, Springer. Millot, G. (2009), Comprendre et raliser des tests statistiques l'aide de R Manuel pour les dbutants, De Boeck.
Statistique et Enseignement, #(#), ##-##, http://www.statistique-et-enseignement.fr/ Socit Franaise de Statistique (SFdS), Mars/March 2012

62

EXPERIENCES COMMENTEES
Le logiciel R comme outil dinitiation la statistique descriptive

[3] [4] [5] [6] [7] [8] [9]

Husson, Fr., S. L et J. Pags (2009), Analyse de donnes avec R, Presses Universitaires de Rennes. Cornillon, P.-A. (2010), Rgression avec R, Springer. Cornillon, P.-A., A. Guyader, Fr. Husson et al. (2010), Statistique avec R (2e dition), Presses Universitaires de Rennes. Sarkar, D. (2008), Lattice, Multivariate Data Visualization with R, Springer. Bertrand, Fr. (2010), Initiation aux statistiques avec R ; cours, exemples, exercices et problmes corrigs, Licence 3, Master 1, Ecoles d'ingnieur, Dunod. Robert, Chr. P. et G. Casella (2011), Mthodes de Monte-Carlo avec R, Springer. Enseignement de statistique en biologie, Universit de Lyon 1 : http://pbil.univlyon1.fr/R/enseignement.html

[10] Semin-R, groupe dutilisateurs de R : http://rug.mnhn.fr/semin-r/ [11] Hoaglin, D. C., Fr. Mosteller, and J. W. Tukey (1982), Understanding Robust and Exploratory Data Analysis, Wiley, Series in Probability and Statistics. [12] Document ressource des nouveaux programmes de terminales S et ES : tlchargeable sur le site Eduscol, http://eduscol.education.fr/cid45766/ressources-pour-faire-la-classeau-college-et-au-lycee.html

Statistique et Enseignement, #(#), ##-##, http://www.statistique-et-enseignement.fr/ Socit Franaise de Statistique (SFdS), Mars/March 2012