Anda di halaman 1dari 46

Introduction a lanalyse des statistiques des donnes : travaux ` e pratiques avec le logiciel R.

Christophe Pallier1

Christophe Lalanne2

25 fvrier 2005 e

1 2

www.pallier.org christophe.lalanne.free.fr

Rsum e e Ce document est destin a accompagner des travaux pratiques dintroduction a lanalyse des e ` ` donnes exprimentales avec le logiciel R. Le traitement des mmes exemples sous Statistica est e e e galement prsent. e e e

Ce document est disponible en version pdf et en version html, a partir de ladresse http ://www.pallier.org/ressources `

Table des mati`res e


1 Introduction ` R a 1.1 1.2 1.3 1.4 Installation du syst`me de base . . . . . . . . . . . . . . . . . . . . . . . . . . . . e Modules additionnels . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Interfaces graphiques . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Documentation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4 4 6 6 7 9 9 11 12 12 14 14 15 15 15 16 17 17

2 Premiers pas 2.1 2.2 2.3 2.4 2.5 2.6 Entrer des commandes dans la console R . . . . . . . . . . . . . . . . . . . . . . . Aide en ligne . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Quitter R . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Sauvegarder les commandes dans un script . . . . . . . . . . . . . . . . . . . . . . Sauver les rsultats dune analyse . . . . . . . . . . . . . . . . . . . . . . . . . . . e Organisation du travail . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

3 Manipulations de base 3.1 3.2 3.3 3.4 3.5 Objets . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Accder aux lments dun vecteur . . . . . . . . . . . . . . . . . . . . . . . . . . e ee Arrays, listes et data.frames . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Variables . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

Lire des donnes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . e 1

4 Statistiques lmentaires ee 4.1 Manipulation des distributions de probabilits . . . . . . . . . . . . . . . . . . . . e 4.1.1 4.1.2 4.2 Distributions univaries . . . . . . . . . . . . . . . . . . . . . . . . . . . . e Distributions conjointes . . . . . . . . . . . . . . . . . . . . . . . . . . . .

19 19 19 21 22 22 22 23 24 24 24 25 25 25 26 26 27 27 27 28 29 29 31 31

Rsums numriques et reprsentations graphiques . . . . . . . . . . . . . . . . . e e e e 4.2.1 4.2.2 Rsums numriques . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . e e e Reprsentations graphiques . . . . . . . . . . . . . . . . . . . . . . . . . . e

4.3

Dnition de fonctions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . e

5 Tests statistiques 5.1 5.2 5.3 5.4 5.5 5.6 5.7 Test du khi-deux . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Estimation de la moyenne dun groupe . . . . . . . . . . . . . . . . . . . . . . . . Comparaison de deux groupes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Analyse de variance sur un facteur . . . . . . . . . . . . . . . . . . . . . . . . . . Anova sur deux facteurs . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Anova sur des protocoles de mesures rptes . . . . . . . . . . . . . . . . . . . . e ee Rgression linaire . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . e e

6 Exemples danalyses de donnes e 6.1 6.2 6.3 6.4 6.5 Dossier sommeil . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Dossier pdagogie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . e Dossier ngligence . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . e Dossier family . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Dossier IO . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

A Solutions sous R A.1 Dossier sommeil . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

A.2 Dossier pedago . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . A.3 Dossier ngligence . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . e A.4 Dossier family . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . A.5 Dossier IO . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . B Solutions sous Statistica B.1 Dossier Sommeil . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . B.2 Dossier Pdago . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . e B.3 Dossier Ngligence . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . e B.4 Dossier family . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . B.5 Dossier IO . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . C Prise en main de Statistica C.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . C.2 Organisation des donnes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . e C.3 Statistiques descriptives . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . C.3.1 Rsum numrique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . e e e C.3.2 Remarque . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . C.4 Reprsentations graphiques . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . e C.4.1 Histogrammes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . C.4.2 Bo a moustaches . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . tes ` C.4.3 Nuages de points en 2D . . . . . . . . . . . . . . . . . . . . . . . . . . . . C.4.4 Remarque . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

31 32 32 32 33 33 34 35 36 38 40 40 41 41 41 42 42 42 43 43 44

Introduction ` R a

R est un logiciel pour lanalyse statistique des donnes. Il fournit les procdures usuelles (te e tests, anova, tests non paramtriques...) et poss`de des possibilits graphiques performantes e e e pour explorer les donnes. Pouvant tre utilis aussi bien en mode interactif quen mode batch, e e e R est un logiciel libre, dont le code source est disponible et qui peut tre recopi et dius e e e gratuitement. Des versions compiles de R sont disponibles pour Linux, Windows et Mac OS X. e Au moment de la rdaction de ce document (Octobre 2004), la version courante de R est la 2.0. e

1.1

Installation du syst`me de base e

Le site principal du logiciel R est www.r-project.org. Le tlchargement de R se fait a partir dun des sites du Comprehensive R archive Network ee ` (CRAN), par exemple cran.cict.fr (cf. Fig. 1.1).

Fig. 1.1 Site de tlchargement de R ee

Fig. 1.2 RGui : linterface graphique de R sous Windows

Installation sous Windows : Le programme dinstallation pour Windows est accessible en suivant les liens Windows, puis Base. Le nom de ce programme dpend de la version, il sagit, e par exemple, de Rw2000.exe pour la version 2.0. Tlchargez ce chier sur votre disque, puis ee cliquez-le pour installer le logiciel. Si vous acceptez loption par dfaut Create a desktop icon, e une icne reprsentant une lettre R en bleu est ajoute sur le bureau. Cliquez dessus, pour o e e voir appara la fentre RGui (R Graphical User Interface, voir gure 1.2) tre e

Installation sous Mandrake Linux : Pour une installation sous Linux, vriez sil existe un e paquetage rpm adapt a votre distribution et prt a tre install. Si tel est le cas, tlcharger-le e` e `e e ee et installez le, en tant quadministrateur, avec la commande rpm -i R*.rpm. Si vous utilisez Mandrake Linux 10.x, R fait partie de la distribution de base (il est sur les CD), et il sut de taper urpmi R-base pour linstaller. En labsence de binaire prcompil, il vous faudra rcuprer le code source (R-2.0.0.tar.gz) et e e e e le compiler avec une commande configure && make && make install (en tant quutilisateur root). Cela ne doit pas poser de probl`me mais ncessite que les outils de compilation soient e e bien installs sur votre syst`me (notamment le compilateur fortran g77). e e Pour lancer R sous Linux, il sut de taper R dans un terminal (cf. Fig. 1.3).

Fig. 1.3 R dans un terminal sous Linux

1.2

Modules additionnels

Apr`s avoir install le syst`me de base, vous pouvez installer des modules supplmentaires, e e e e parfois appels paquetages (packages), qui ajoutent des fonctions a R. e ` Pour lanalyse des donnes dexpriences, les paquetages car, gregmisc, vcd, psy, multcomp e e fournissent des fonctions supplmentaires intressantes. Par exemple, multcomp fournit die e verses procdures pour eectuer des comparaisons multiples (Dunnett, Tukey, Sequen, AVE, e Changepoint, Williams, Marcus, McDermott, Tetrade). Ces modules sont disponibles sur les sites CRAN dans la section Contributed extension packages. Pour installer un module sous Windows, dans RGui, utiliser le menu Package/Install package from CRAN (il faut tre connect a Internet). e e Pour installer un module sous Linux, il faut dabord tlcharger le chier package.tar.gz du ee CRAN, puis, en tant que root, excuter : e
R CMD INSTALL package.tar.gz

1.3

Interfaces graphiques

Rest un programme avec lequel on communique en tapant des commandes plutt quen cliquant o dans des menus ou sur des icnes. o 6

Fig. 1.4 Linterface Rcommander sous Linux

Il existe cependant des syst`mes a bases de menu et dicnes (des cliquodrmes) qui g`rent e ` o o e linteraction avec R, et permettent, plus ou moins, dviter de taper des commandes. Citons, e entre autres, les interfaces graphiques Rcommander (Linux + Windows, cf. gure 1.4), et SciViews (Windows). Nanmoins, il nous para quapprendre les commandes de R permet de mieux comprendre ce e t quon fait et autorise nalement plus de exibilit. Pour ces TPs, nous avons fait le choix de e vous enseigner les rudiments du langage R.

1.4

Documentation

De nos jours, beaucoup de gens trouvent naturel de pouvoir utiliser les logiciels sans lire de documentation. Si cela est raisonnable pour les logiciels qui ralisent des oprations assez simples, e e cest dangereux avec les logiciels qui eectuent des oprations conceptuellement compliques. e e 7

Dans le cas de R, qui comprend de nombreuses commandes, il est illusoire denvisager utiliser ce logiciel sans lire un minimum de documentation. Notre exprience est que les premi`res heures e e danalyse de donnes avec R ncessitent de frquents recours aux documentations, mais lorsquon e e e est devenu a laise, alors il ny a pratiquement plus besoin de sy rfrer. ` ee Il est donc utile de savoir o` chercher linformation a propos de R. u Pour les dbutants, on trouve sur Internet un bon nombre de documents sur R, notamment dans e la section Documentation/Contributed du site www.r-project.org. Mentionnons en particulier : R pour les dbutants par Emmanuel Paradis. e Introduction au syst`me R par Yves Brostaux. e le site Statistiques avec R, ralis par Vincent Zoonekynd, a ladresse suivante : e e ` http ://zoonek2.free.fr/UNIX/48 R/all.html. Introduction to analysis of variance with R, (qui bien quinachev, vous sera sans doute e utile). Notes on the use of R for psychology experiments and questionnaires par Jonathan Baron and Yuelin Li. R poss`de aussi une documentation ocielle, sous forme de chiers pdf et html, qui est copie sur e e votre disque dur lors de linstallation du logiciel. Dans linterface graphique sous Windows, les manuels au format pdf sont accessibles dans les menus Help/Manuals. Il est fortement conseill e de parcourir, au minimum, les deux documents An Introduction to R et R Data Import et Export. Les manuels sont galement accessibles sous forme html, dans le menu Help/Html help sous e Windows, et en tapant help.start() sous Linux. Cela ouvre votre navigateur Internet sur une page web locale qui contient divers liens, entre autres vers ces manuels. Par exemple, le lien Packages/base liste les commandes de bases de R. Il existe plusieurs livres publis qui traitent de R. Pour les dbutants, les deux livres suivants e e peuvent orir une aide utile : Introductory statistics with R par Peter Dalgaard dit par Springer-Verlag. e e An R and S-plus companion to applied regression par John Fox, dit par Sage publications. e e Pour un niveau plus avanc : e Modern Applied Statistics with S-PLUS par Venables et Ripley. Mixed-Eects Models in S and S-PLUS par Pinheiro et Bates

Premiers pas

Linteraction avec R se fait en tapant des commandes dans la fentre R Console. e

2.1

Entrer des commandes dans la console R

Pour commencer, vous pouvez utiliser R comme une calculatrice. Cliquez dans la fentre R e Console, puis tapez :
2+3

Le rsultat, 5, doit sacher. e Poursuivez avec :


a=5 a+8

RGui doit se prsenter comme sur la Figure 2.1 page suivante. e Le principe de R est le suivant : vous entrez une ligne de commande, et quand vous tapez sur Entre, R lit cette ligne et eectue lopration demande. e e e Essayez maintenant les commandes suivantes :
a=1:10 a b=rnorm(10) plot(a,b) plot(a,b,pch=16,col=2)

La commande plot provoque lachage dune fentre graphique (Fig. 2.2). e Cliquez a nouveau dans la fentre R Console, puis tapez : ` e
a=c(3,4,6,7,8,9) a length(a) b=c(alpha,beta) b length(b)

Fig. 2.1 De simples additions

La variable a contient un vecteur numrique a six lments. e ` ee La variable b contient un vecteur contenant deux cha nes de caract`res. e Les concepts de vecteur et de variable sont essentiels dans R. On y reviendra plus tard ; pour le moment, retenez que : un vecteur nest rien dautre quun suite ditems qui ont tous le mme type (numrique, cha e e ne de caract`res, ...). Cest lobjet de base dans R. e une variable contient un objet, et permet de le retrouver sans le r-crire en entier. ee Comme on la dj` vu, la liste des variables peut tre ache par ls()., et un variable peut ea e e tre dtruite par la commande rm(nom). e e Entrez les commandes suivantes, pas a pas, et observez le rsultats : ` e
a=rnorm(20,mean=55,sd=10) mean(a) sd(a) max(a) summary(a) hist(a) boxplot(a)

10

Fig. 2.2 Fentre graphique e

stripchart(a) stripchart(a,pch=16,cex=2,col=2,method=jitter,vertical=T) x1=rnorm(10,mean=100,sd=10) x2=rnorm(10,mean=110,sd=10) boxplot(x1,x2) t.test(x1,x2) plot(x1,x2) summary(lm(x2~x1)

2.2

Aide en ligne

A tout moment, une aide en ligne est disponible a laide de la commande help.search(mot cl). ` e La description dtaille dune commande sobtient en tapant ?nom de la commande. e e Essayez :
?t.test help.search("test") help.start()

11

2.3

Quitter R

La fentre R Console tant active, slectionnez File/Exit et rpondez Oui a la question e e e e ` Save workspace image ? Et voil`... a Tout votre travail est-il perdu ? Non. Redmarrez R, et remarquez la ligne : e
[Previously saved workspace restored]

Tapez ls() et constatez que vos variables sont toujours l`. a Le workspace (espace de travail), cest a dire lensemble des variables, a t sauvegard sur ` ee e le disque. Cela permet de reprendre une analyse de donnes au point o` on la laisse quand on e u e a quitt R. e Si vous voulez nettoyer le workspace, cest a dire supprimer toutes les variables quil contient, ` tapez la commande rm(list=ls()). Il est possible de choisir le nom de chier o` est sauvegard le workspace (par dfaut .RData). u e e Cela permet de faire plusieurs analyses indpendantes sans les mlanger. (Voir les menus File/Load e e workspace/ Save Workspace). Une alternative plus recommande et de crer un dossier pour e e chaque analyse de donnes indpendantes. e e

2.4

Sauvegarder les commandes dans un script

Tapez la commande history(). Une fentre sache listant les derni`res commandes que vous e e avez tapes (voir gure 2.3 page suivante). e La mani`re la plus ecace de travailler avec R consiste a sauvegarder les commandes au fur et e ` a mesure dans un chier texte. Pour cela, en parall`le avec R, ouvrez un diteur de chier texte ` e e (le plus simple dentre eux, bien quil soit tr`s limit, est le bloc-notes de Windows disponible e e dans les accessoires).1 En utilisant le copier/coller, copier dans le chier texte les commandes qui font lessentiel de lanalyse. A la n de votre session de travail, sauvez ce chier avec un nom explicite (par exemple le nom de lexprience) et une extension .R. e
Pour ceux qui emploient lditeur Emacs, il existe un package appel ESS qui fournit la colorisation syntaxique e e des commandes R, et plein dautres fonctions utiles (voir stats.ethz.ch/ESS.
1

12

Fig. 2.3 Historique des commandes ach par history() e

Quand vous reprendrez cette analyse quelques jours ou mois plus tard, vous pourrez rutiliser ce e chier, quon appelle habituellement un script. R vous permettra de r-executer les commandes e de ce script en utilisant la commande source. Faites un essai : crez un chier qui contient les lignes suivantes : e
a=rnorm(100) b=rnorm(100) summary(a) summary(b) cor.test(a,b)

Sauvez-le dans Mes documents, sous le nom test.R. Dans R, utilisez le menu File/Change Dir pour aller dans Mes Documents. Puis tapez :
source(test.R,echo=T)

Vriez que cela marche. e

13

Sous Linux, il nest pas ncessaire de dmarrer R : on peut entrer R BATCH script.R sur une e e ligne de commande dans un terminal et les rsultats sont crits automatiquement dans le chier e e script.Rout.

2.5

Sauver les rsultats dune analyse e

Les commandes et les rsultats des analyses statistiques et les graphiques peuvent tre copis/colls e e e e dans un document. Les rsultats (sans les commandes) peuvent tre copis automatiquement dans un chier texte e e e grce a sink. Tapez : a `
sink(monanalyse.txt,split=T) a=1:10 mean(a) summary(a) sink()

Puis ouvrez le chier monanalyse.txt. Les graphiques peuvent tre sauvs directement dans des chiers graphiques en utilisant les e e commandes postscript, jpeg ou png (voir laide en ligne de ces fonctions). Mentionnons le paquetage R2HTML qui permet de crer des rapports au format html de faon e c semi-automotique.

2.6

Organisation du travail

Lexprience prouve que la meilleure stratgie est de crer un rpertoire (dossier) par analyse e e e e de donnes, et dy disposer : (a) les chiers de donnes brutes ; (2) le chier script contenant les e e commandes R ; (3) le workspace et le(s) chiers(s) rsultats (textes et graphiques). e

14

3
3.1

Manipulations de base
Objets

Lobjet de base en R est le vecteur. Un vecteur peut contenir des valeurs numriques, des valeurs e de vrit (True or False), des cha e e nes de caract`res... Les fonctions les plus utilises pour crer e e e des vecteurs sont c, rep et seq :
c(1,2,3,4,5,6) c(T,T,F,F) c(a,b) rep(55,10) rep(c(1,2),10) rep(c(a,b),c(2,7)) seq(1,10,by=.1)

Un type de vecteur particuli`rement utile est le type factor. Les facteurs sont des vecteurs utiliss e e pour classier les valeurs dautres vecteurs (les facteurs sont des variables indicatrices). Par exemple, tant donn 100 scores provenant de plusieurs groupes de sujets, une variable facteur e e peut dsigner ces sous-groupes. e
(a=factor(c(rep(alpha,10),rep(beta,10)))) (b=gl(3,4,48,labels=c(a,b,c))) (x=rnorm(48)) tapply(x,b,mean) boxplot(x~b) stripchart(x~b,method=jitter) stripchart(x~b,method=jitter,vertical=T)

On peut crer un facteur a partir dun vecteur grce a la fonction factor, ou directement avec e ` a ` la fonction gl.

3.2

Accder aux lments dun vecteur e ee

(a=rnorm(50)) a[1] a[2] a[c(1,3,5)]

15

a>0 a[a>0] (b=gl(2,25,labels=c(g1,g2))) a[b==g1]

Une particularit de R est que les lments dun vecteur peuvent avoir des noms : e ee
v=c(1,2,3,4) names(v)=c(alpha,beta,gamma,delta) v[beta]

Cela sav`re tr`s utile pour crer des dictionnaires. Par exemple, un vecteur freq donnant e e e la frquence dusage des mots peut avoir les mots comme names ; il sut alors de taper e freq[aller] pour obtenir la frquence du mot aller. e
mots=c(aller,vaquer) freq=c(45,3) freq freq[mots==aller] names(freq)=mots freq freq[aller]

3.3

Arrays, listes et data.frames

Dautres objets de R sont les les listes, les arrays (vecteurs multidimensionnels) et les data.frames. Les data.frames sont des listes de vecteurs qui ont tous la mme longueur. Les data.frames sont e tr`s bien adapts pour stocker des donnes prsentes sous forme de tableau bi-dimensionnel. e e e e e
(a=array(1:20,dim=c(4,5))) a[2,4] (b=list(alpha=1:3, beta=c(a,b,c,d))) names(b) b$alpha b$beta (c=data.frame(a=gl(2,5,10),b=1:10,x=rnorm(10))) c$a c$b c$x c[1:2,]

16

3.4

Variables

Les objets peuvent tre enregistrs dans des variables avec loprateur = (ou <-). Pour voir le e e e contenu de lobjet reprsent par une variable, il sut de taper le nom de celle-ci. e e
a<-c(1,2,3) a ls() rm(a) ls()

Les vecteurs contenus dans une liste ou dans un data.frame sont accessibles avec le symbole $. Un data.frame peut tre attach pour que ses vecteurs soient directement accessibles. e e
mydata<-data.frame(a=gl(2,5,10),b=1:10,x=rnorm(10)) names(mydata) mydata$a mydata$b mydata$x attach(mydata) a b x detach(mydata)

3.5

Lire des donnes e

Quand les donnes sont tr`s peu nombreuses, on peut les entrer directement dans un vecteur e e (comme on la fait jusquici) avec la fonction c. Les fonctions scan et read.table permettent de lire des donnes enregistres dans des chiers e e textes. scan lit une suite de donnes dans un vecteur. e Avec un diteur de texte, crez un chier datafile1.txt contenant : e e
3.4 5.6 2.1 6.7 8.9

Puis, dans R, entrez :


scores<-scan(datafile1.txt)

17

On peut galement entrer des donnes directement en ligne de commande : e e


scores<-scan()

La fonction read.table lit des donnes prsentes sous forme tabulaire (par ex. les chiers .csv e e e enregistrs par Excel) et renvoie un data.frame. e Crez un chier datafile2.txt contenant : e
sujet s1 s2 s3 s4 s5 groupe exp exp exp cont cont score 3 4 6 7 8

Puis importez le dans R :


a<-read.table(datafile2.txt,header=T) a

R dispose dun diteur de data.frame tr`s limit : e e e


scores<-edit(data.frame(a))

scan et read.table ne lisent que des chiers textes, Le package foreign permet de lire directement certains chiers de donnes binaires provenant de SPSS, SAS, ... e
library(help=foreign)

Mentionnons galement lexistence de packages permettant daccder a des informations stockes e e ` e dans des bases de donnes (MySQL, Oracle...). e

18

Statistiques lmentaires ee

Cette section a pour but dillustrer quelques concepts fondamentaux de la statistique infrentielle, e et de prsenter les principales fonctions de R pour le traitement statistique des donnes recueillies e e lors dun protocole exprimental. e

4.1
4.1.1

Manipulation des distributions de probabilits e


Distributions univaries e

Direntes fonctions permettent de gnrer des nombres alatoires suivant une certaine distrie e e e bution de probabilit : e
runif(10) # distribution uniforme rnorm(10) # distribution normale rnorm(10,mean=100) rbinom(10,size=1,prob=.5) # distribution binomiale

La fonction rnorm gn`re des nombres alatoires distribus selon une loi normale. En augmentant e e e e le nombre dchantillons gnrs (de 10 a 10000), on constate que la distribution des valeurs e e ee ` obtenues se rapproche de plus en plus dune distribution normale continue :
s1=rnorm(10,mean=2) summary(s1) s2=rnorm(100,mean=2) summary(s2) s3=rnorm(10000,mean=2) summary(s3) par(mfrow=c(3,3)) hist(s1) hist(s2) hist(s3) # organisation des graphiques selon une matrice 3 x 3 # histogrammes

# graphes en evitant le chevauchement des points de m^me coordonnes e e stripchart(s1,method=jitter,vert=T,pch=16) stripchart(s2,method=jitter,vert=T,pch=16) stripchart(s3,method=jitter,vert=T,pch=.)

plot(density(s1))

# fonction de densit e

19

x=seq(-5,5,by=.01) # vecteur de coordonnes normes pour les abscisses e e lines(x,dnorm(x,mean=2),col=2) plot(density(s2)) lines(x,dnorm(x,mean=2),col=2) plot(density(s3)) lines(x,dnorm(x,mean=2),col=2)

En premi`re approximation, la distribution thorique de la taille des individus de sexe masculin, e e franais, et dans la tranche dge 20-35 ans,suit une loi normale de moyenne 170 et dcart-type c a e 10. On peut donc non seulement situer un individu, ou un groupe dindividus, dans cette distribution, mais galement valuer la probabilit quun individu choisi au hasard parmi la population enti`re e e e e mesure moins de 185 cm, ou plus de 198 cm, ou ait une taille comprise entre 174 et 186 cm. Lorsque lon ne dispose pas des tables de lois normales N (; 2 ) (il y en a une innit puisquil e y a 2 param`tres libres), on utilise la loi normale centre-rduite N (0; 1 2 ) (encore appele loi e e e e Z), dont la table est disponible la plupart des manuels ou bien sur le web. Cependant R fournit directement les tables des lois normales, par lintermdiaire de la commande pnorm, qui prend en e arguments la valeur rep`re, la moyenne et lcart-type thoriques. e e e
taille=seq(130,210,by=1) plot(taille,dnorm(taille,mean=170,sd=10),type=b,col="red") pnorm(185,mean=170,sd=10) abline(v=185,col=4) text(185,.012,paste("P(X<185)=",signif(p,3)),col=4,pos=2,cex=.6) p=pnorm(198,mean=170,sd=10) abline(v=198,col=4) text(198,.002,paste("P(X>198)=",round(1-p,3)),col=4,pos=4,cex=.6)

La probabilit quun individu choisi au hasard parmi la population enti`re mesure moins de 185 e e cm (P (X < 185)) est de 0.933 (obtenu par pnorm(185,mean=170,sd=10)). La probabilit quun e individu mesure plus de 198 cm est de 0.003 (1 P (X < 198), et la probabilit que sa taille soit e comprise entre 174 et 186 est 0.290 (P (X < 186) P (X < 174)). On constate que la probabilit quun individu choisi alatoirement dans une population de e e moyenne 170 10 mesure plus de 198 cm est tr`s faible. Cest sur la base de ce calcul de probae bilits que repose le test de typicalit, ou test Z : un groupe dindividus (i.e. un chantillon) e e e sera dclar atypique ou non reprsentatif de la population parente dont il est issu, lorsquil a e e e une position au moins aussi extrme quune certaine position de rfrence, correspondant en e ee gnral a la probabilit 0.05. e e ` e R permet galement de gnrer dautres distributions de probabilits, notamment la loi binoe e e e miale, les lois statistiques telles que le t de Student, le F de Fisher-Snedecor, le chi-deux ( 2 ), etc. On peut ainsi voir dans lexemple qui suit que la distribution du t de Student tend vers la loi normale lorsque la taille de lchantillon est susamment grande (dans cet exemple, on a e manipul le degr de libert df, donn en argument de la fonction dt). e e e e 20

?pnorm ?pt ?pbinom help.search(distribution) pnorm(2) pt(3,df=10) # fonction de rpartition de la loi du t de Student e qnorm(.99) # donne la valeur associe au 99`me centile dune distribution normale e e t<--50:50/10 plot(dnorm(t),type=l,col=red) par(new=T) # le prochain graphe sera superpos au prcdent e e e plot(dt(t,df=5),type=l)

Imaginons que vous disposiez dune pi`ce dont vous vous demandez si elle est baise. Vous e e prvoyez de la lancer 10 fois a pile ou face. A partir de quelle proportion relative dessais e ` face/pile (ou linverse) considrerez- vous que la pi`ces est truque ? e e e Si la pi`ce nest pas truque, le nombre de pile suit une loi binomiale. e e
plot(dbinom(0:10,rep(10,11),prob=1/2),type=h) hist(rbinom(100,10,.5)) hist(rbinom(1000,10,.5)) hist(rbinom(10000,10,.5))

Supposez que vous tiriez a pile ou face 10 fois de suite, et que la pi`ce retombe 8 fois sur pile. ` e Quelle la probabilit dobserver cela si la pi`ce nest pas biaise ? e e e
binom.test(8,10) prop.test(8,10,1/2) # test approch e

4.1.2

Distributions conjointes

Si lon reprend lexemple prcdent des tailles de la population franaise masculine (20-25 ans), e e c on a une distribution similaire (i.e. suivant une loi normale de moyenne 70 et dcart-type 7) pour e les poids. On peut bien videmment se poser les mmes questions que prcdemment, mais on e e e e peut galement sintresser a la relation entre ces deux variables quantitatives. En reprsentant e e ` e le poids en fonction de la taille, on peut valuer la liaison linaire entre ces deux variables a e e ` laide du coecient de corrlation de Bravais-Pearson. e Pour illustrer cela, nous allons utiliser les donnes issues dune population denfants de sexe e masculin ags de 11 a 16 ans. e `
taille<-scan() # saisie manuelle des donnes e 1: 172 155 160 142 157 142 148 180 167 165 11:

21

Read 10 items # indicateur de fin dentre-sortie gnr par R e e e e poids<-scan() 1: 50.5 38.1 57.3 39.3 46.1 37.1 45.9 66.3 60 50.5 11: Read 10 items plot(poids~taille) r<-lm(poids~taille) # mod`le linaire (x,y) e e summary(r) # diagnostic de la rgression e abline(r) # trac de la droite de rgression e e -55.1963626 + 175 * 0.6568411 # "prdiction" pour taille=175 cm e predict(r,list(taille=c(175))

Ensuite, a partir de la connaissance de cette liaison linaire, on peut se demander quelle serait ` e le poids thorique (non observ) dun individu dont on ne conna que la taille : cest le domaine e e t de la rgression linaire. Lachage des param`tres de la droite de rgression donne la relation e e e e poids = 0.657 x taille - 55.196. Ainsi, on peut prdire que le poids dun enfant mesurant 175 cm e sera de 59.8 kg.

4.2
4.2.1

Rsums numriques et reprsentations graphiques e e e e


Rsums numriques e e e

Le rsum statistique des principaux indicateurs descriptifs de position et de dispersion peut e e tre obtenu a laide des fonctions mean, sd, median ; la fonction summary donne un rsum plus e ` e e complet par exemple, lorsquil sagit dun vecteur, elle indique la moyenne et la mdiane, ainsi e que ltendue et les valeurs des premier et troisi`me quartiles. e e
a<-rnorm(100) mean(a) sd(a) # ecart-type corrig e summary(a) boxplot(a) mean(a,trim=.1) # moyenne sans les 10 % dobservations en fin de vecteur

4.2.2

Reprsentations graphiques e

Les fonctions graphiques standard en 2D boxplot, plot, hist ont t vues dans les sections ee prcdentes. La cration de graphiques personnaliss sous R est facilite par son extrme soue e e e e e plesse quant au paramtrage des graphiques (positionnement, symboles et type de tracs, etc.). e e Lutilisation de laide en ligne est vivement recommande. e Pour les graphiques en trois dimensions (z tant une matrice de dim 3), on pourra utiliser les e fonctions image et contour : 22

x=1:10 y=1:10 z=outer(x,y,"*") persp(x,y,z) image(z) contour(z)

4.3

Dnition de fonctions e

Il est possible de dnir ses propres fonctions sous Ret denrichir ainsi le langage. e Par exemple, Rne poss`de pas de fonction pour calculer lerreur-type (/ (N )). On peut en e dnir une de la mani`re suivante : e e
se <- function (x) { sd(x)/sqrt(length(x)) }

Lexemple suivant permet de calculer la moyenne arithmtique apr`s suppression des valeurs e e atypiques, i.e. suprieures a 2 cart-types de la moyenne : e ` e
clmean <- function (x) { m<-mean(x) d<-sqrt(var(x)) threshold<-2 mean(x[(x-m)/d<threshold]) } a<-c(rnorm(100),5) mean(a) clmean(a)

On peut lire le code des fonctions existantes :


clmean ls t.test methods(t.test) getAnywhere(t.test.default)

23

Tests statistiques

Ce chapitre a pour but de prsenter de mani`re non exhaustive certains tests statistiques eme e ploys frquemment en statistique infrentielle. e e e Comme on la vu prcdemment (voir section 4.1), la dtermination des seuils de signicativit e e e e (p) se fait grce aux fonctions associes a chaque distribution (voir section 4.1). a e `
1-pnorm(167,mean=150,sd=10) 1-pbinom(8,10,0.5)

5.1

Test du khi-deux

Soit le tableau de contingence A x B suivant a analyser : ` B1 B2 A1 13 10 A2 24 7 A3 20 18

Le calcul du test du 2 associ a ce tableau seectue de la mani`re suivante : e` e


a<-scan() 1: 13 24 20 4: 10 7 18 7: Read 6 items chisq.test(matrix(a,2,3,byrow=T))

5.2

Estimation de la moyenne dun groupe

Lintervalle de conance de la moyenne peut tre obtenu a laide de la fonction t.test : e `


a<-10+rnorm(10,sd=10) t.test(a,conf.level=.01)

Si lhypoth`se de normalit nest pas soutenable, le test de Wilcoxon (non-paramtrique) peut e e e tre utilis a laide de la fonction wilcox.test : ce test des signes permet de dterminer si la e e ` e mdiane du groupe peut tre considre comme signicativement dirente de 0. e e ee e 24

5.3

Comparaison de deux groupes

Ce sont les mmes fonctions t.test (test paramtrique) et wilcox.test (test non paramtrique) e e e qui permettent la comparaison entre deux groupes ; dans ce cas, on passe en arguments les deux groupes :
a<-rnorm(10) b<-rnorm(10,mean=1) t.test(a,b) wilcox.test(a,b) c<-c(a,b) x<-gl(2,10,20) t.test(c~x) wilcox.test(c~x)

5.4

Analyse de variance sur un facteur

Lorsque lon est en prsence dun ensemble de k observations indpendantes (un seul facteur e e inter-sujets), on peut comparer leurs moyennes respectives a laide de la fonction aov (ou selon ` un mod`le linaire gnral, avec la fonction lm). e e e e
x<-rnorm(100) a<-gl(4,25,100) plot(x~a) r<-aov(x~a) anova(r) pairwise.t.test(x,a) t.test(x[a==1],x[a==2])

5.5

Anova sur deux facteurs

Avec deux facteurs inter-sujets, le principe danalyse est le mme, mais on tudie galement e e e linteraction entre les deux facteurs.
x<-rnorm(100) a<-gl(2,50,100) b<-gl(2,25,100) plot(x~factor(a:b)) interaction.plot(a,b,x) l<-aov(x~a*b) anova(l)

25

5.6

Anova sur des protocoles de mesures rptes e e e

Avec un seul facteur intra-sujet, on proc`dera ainsi : e


subject<-gl(10,3,30) cond<-gl(3,1,30) x<-rnorm(30) interaction.plot(cond,subject,x) summary(aov(x~cond+Error(subject/cond))

Avec deux facteurs intra, la dmarche est a peu pr`s identique : e ` e


subject<-gl(10,4,40) cond1<-gl(2,1,40) cond2<-gl(2,2,40) table(cond1,cond2) x<-rnorm(40) plot(x~factor(cond1:cond2)) interaction.plot(cond1,cond2,x) interaction.plot(cond1,subject,x) interaction.plot(cond2,subject,x) summary(aov(x~cond1*cond2+Error(subject/(cond1*cond2))))

5.7

Rgression linaire e e

Comme nous lavons vu dans le cas des distributions conjointes (cf. section 4.1.2), la dmarche e pour eectuer de la rgression linaire est la suivante : e e
a<-rnorm(100) b<-2*a+rnorm(100) plot(b~a) r<-lm(b~a) anova(r) abline(r)

a<-rnorm(100) b<-2*a+rnorm(100) c<-5*a+rnorm(100) pairs(cbind(a,b,c)) summary(lm(c~a*b))

26

Exemples danalyses de donnes e

Ces exemples proviennent principalement du site web Analyse Statistique des Donnes en Psye chologie (ASDP) de lUFR de Psychologie de luniversit Paris 5 (piaget.psycho.univ-paris5.fr/, e lien Analyse des Donnes puis Donnes). e e

6.1

Dossier sommeil

Lors dune exprimentation mdicale, on a relev le temps de sommeil T de 10 patients (facteur e e e Sujet) sous leet de deux mdicaments (do` le facteur Mdicament M). Chaque sujet a pris e u e successivement lun et lautre des deux mdicaments. e

Source Student (1908) The probable error of a mean, Biometrika, VI, 1-25.

Donnes e

Fichier sommeil.txt

Question Ces donnes ont t recueillies pour tester lhypoth`se que le mdicament m2 est e ee e e plus ecace que le mdicament m1. Est-ce le cas ? e

Une solution

Voir lexemple de script list en A.1 et B.1 (Statistica). e

6.2

Dossier pdagogie e

Lors dune exprimentation pdagogique, on dsire comparer lecacit de quatre mthodes e e e e e denseignements. On dispose des notes obtenues a un examen par quatre groupes dl`ves ayant chacun reu un ` ee c des 4 types denseignements.

Source : Donnes ctives. e

Donnes e

Fichier pedago.txt

27

Questions

Comparer les rsultats obtenus en fonction des mthodes. e e

Une solution

Voir lexemple de script list en A.2 et B.2 (Statistica). e

6.3

Dossier ngligence e

Une recherche a port sur la pseudo-ngligence quon observe chez des sujets normaux. Ce e e nom provient des similarits quelle prsente avec lhmi-ngligence (atteinte de la moiti du e e e e e champ visuel) de sujets atteints dune lsion crbrale. La tche des sujets consiste a dterminer e ee a ` e le milieu subjectif dune baguette de 24cm avec la seule aide dinformations kinesthsiques. La e pseudo-ngligence se traduit par une dviation systmatique vers la droite (pour les droitiers) e e e de ce milieu subjectif par rapport au milieu objectif de la baguette. Les donnes portent sur 24 femmes droiti`res (facteur S) rparties selon 2 conditions (12 sujets e e e pour chacune) : active (c1) o` le sujet peut librement dplacer son doigt pos sur un curseur u e e mobile le long de la baguette ; ou passive (c2) o` le sujet commande un moteur dclenchant u e le mouvement de la baguette dans un sens ou dans lautre, alors que son doigt ne bouge pas (facteur C). Chaque sujet excute cette tche dans 6 situations exprimentales obtenues par le e a e croisement de : la main utilise, gauche (m1) ou droite (m2) ; et lorientation du regard, 30 a e ` gauche (o1), 0 (o2) ou 30 a droite (o3) (facteurs M et O). Pour chaque sujet et chaque situation ` on mesure la dviation en cm entre le milieu subjectif et le milieu objectif de la baguette. Une e dviation a droite est note par une valeur positive, a gauche par une valeur ngative. e ` e ` e On sintresse ici a leet de la condition (C) lorsque le sujet utilise sa main habituelle (m2) e ` (Rappel : tous les sujets sont droitiers) et lorsquil se trouve en face du milieu de la baguette (avec lorientation a 0 degrs) ` e

Source Chokron, Imbert (1993) - Egocentric reference and asymmetric perception of space, Neuropsychologia, 31, 3, 267-275. Dapr`s J.M. Bernard (1994) - Structure des donnes, d e e

Donnes e

chier neglige2.txt

Questions

Importer ces donnes, les visualiser, comparer les groupes. Conclusion ? e

Une solution

Voir lexemple de script list en A.3 et B.3 (Statistica). e

28

6.4

Dossier family

Etude ralise au USA sur les origines des strotypes lis au sexe. 35 familles choisies au hasard e e ee e et ayant une lle aine (ou lle unique) en ninth grade (Troisi`me). e e Le p`re a rpondu a un questionnaire sur ses intrts pour le sport, not sur une chelle numrique e e ` ee e e e de 0 a 50 (FATH) ` La m`re a rpondu au mme questionnaire (MOTH) e e e Le professeur dducation physique de chacune des lles a not les performances physiques e e gnrales de la lle de 0 a 20 (PROF). e e ` La lle a rpondu galement au questionnaire dinrt pour le sport (GIRL). e e ee

Source Hays, W.L. (1994) - Statistics, Fort Worth : Harcourt Brace College Publishers (5`me e dition), p.671-672 e

Donnes e

family.txt

Questions

Que faire avec ces donnes ? e

Une solution

Voir lexemple de script list en A.4 et B.4 (Statistica). e

6.5

Dossier IO

En 1980, on a interrog des lycens (garons et lles) sur leurs intentions dorientation apr`s le e e c e bac (tudes scientiques, littraires ou techniques). e e

Source Il sagit de donnes en partie ctives, inspires dun exemple de M. Reuchlin. e e

Donnes e

Fichier io.txt

Questions Peut-on dire que lorientation envisage est lie au sexe chez lensemble des lycens e e e de cette anne 1980 ? e

29

Une solution

Voir lexemple de script list en A.5 et B.5 (Statistica). e

30

Solutions sous R

e Nous proposons ici des scripts pour analyser les exemples du chapitre 6. Il y a plusieurs mani`res de rsoudre le mme probl`me avec R. Par consquent, vos scripts peuvent direr. e e e e e

A.1

Dossier sommeil

sommeil<-read.table(sommeil1.txt,header=T) sommeil attach(sommeil) summary(M1) summary(M2) plot(M1,M2,xlim=c(0,10),ylim=c(0,10),col=2) identify(M1,M2,SOMMEIL) abline(0,1) stripchart(M2-M1,method=stack) t.test(M2-M1) t.test(M1,M2,paired=T) detach()

A.2

Dossier pedago

a<-read.table(pedago.txt) attach(a) boxplot(notes~pedago) stripchart(notes~pedago,method=stack,vertical=T) tapply(notes,pedago,mean) tapply(notes,pedago,sd) tapply(notes,pedago,summary) barplot(t(tapply(notes,pedago,mean))) m<-aov(notes~pedago) summary(m) TukeyHSD(m) plot(TukeyHSD(m))

31

A.3

Dossier ngligence e

d<-read.table(neglige4.txt) x<-d$V1 a<-gl(2,12,24) b<-gl(2,6,24) table(a,b) tapply(x,list(a=a,b=b),mean) interaction.plot(a,b,x) l<-aov(x~a*b) summary(l) model.tables(l,se=T) t.test(x[a==1 & b==1],x[a==1 & b==2]) t.test(x[a==2 & b==1],x[a==2 & b==2])

A.4

Dossier family

fam<-read.table(family.txt,header=T) fam attach(fam) data<-as.matrix(fam[,-1]) pairs(data,panel=panel.smooth) cor(data) cor.test(FATH,GIRL) cor.test(MOTH,GIRL) cor.test(INST,GIRL) l<-lm(GIRL ~ FATH + MOTH + INST) summary(l) detach(fam)

A.5

Dossier IO

a<-read.table(io.txt,header=T) attach(a) table(Sexe,Mati`re) e chisq.test(table(Sexe,Mati`re)) e

32

Solutions sous Statistica

Cette section prsente la faon de traiter les probl`mes prsents dans le chapitre 6. e c e e e De mani`re gnrale, lorsque lon dispose de simples chiers texte pour les donnes, limportation e e e e des donnes se fait a laide de la commande Fichier Importer des donnes Rapide. Le e ` e cas chant, lorsque le chier de donnes est dj` sous le format Statistica (extension .sta), il e e e ea sut simplement dutiliser la commande Fichier Ouvrir des donnes. e

B.1

Dossier Sommeil

Une fois les donnes charges, une bo de dialogue Tables et Statistiques Elmentaires e e te e sache. On choisit Test T pour des chantillons apparis. Une nouvelle bo de dialogue e e te sache dans laquelle on va dnir la premi`re et la seconde variable a laide du bouton VARIABLES. e e ` Il est intressant de visualiser les donnes sous forme de bo a moustaches (cf Fig. B.2) ; e e tes ` pour cela, il sut de cliquer sur le bouton BOITE A MOUSTACHES, et de slectionner ensuite loption e Mdiane/Quartile/Etendue dans la boite de dialogue suivante. e Ensuite, on peut lancer le test t sur le panneau initial (sil nest plus visible, cliquer sur la petite bo de dialogue Reprendre analyse ou SUITE si vous tes sur la derni`re fentre graphique), te e e e en appuyant sur le bouton TESTS. Le rsultat de lanalyse sache dans une nouvelle fentre de sortie (cf Fig. B.1). A la lecture e e des rsultats, on voit que le test t est signicatif : t = -4,06213, p/2 = ,0014165 (p = ,002833, e dl = 9). On pourra remarquer que lanalyse aurait abouti au mme rsultat en drivant le protocole e e e par dirence, et en eectuant un test t contre une moyenne thorique = 0 (p = ,0016). e e Sous Statistica, aller dans Autres tests de significativit, Diffrence entre deux moyennes, e e cocher Moyenne du cas 1 vs. Moyenne de la population 2, M1=-1,56, s1=1,24, n=10, ap-

Fig. B.1 Rsultat du test t pour chantillons apparis sous Statistica e e e

33

Fig. B.2 Achage des dirences de groupe sous forme de bo a moustaches sous Statistica e te `

puyer sur Calculer et lire le seuil p correspondant1 .

B.2

Dossier Pdago e

Il sagit ici de mettre en oeuvre une ANOVA dordre 1 (un seul crit`re de classication, ou un seul e facteur de groupe a 4 modalits). Apr`s avoir saisi les donnes, ou import le chier, lanalyse ` e e e e de variance seectue soit via le module ANOVA/Dcomposition de la variance, soit via le e module plus gnral pour les analyses de variance (groupes indpendants et mesures rptes) e e e e ee ANOVA/MANOVA. En supposant que le tableau de donnes a t correctement saisi (2 colonnes comprenant la e t e e VD et la VI sous forme indice 1, 2, 3, 4 par exemple ; les observations en ligne), il sut e de slectionner les variables de lanalyse en cliquant sur le bouton Variables et dindiquer la e colonne contenant la variable indpendante et celle contenant la variable dpendante. Apr`s e e e avoir valid, on revient sur lcran prcdent, et on indique la liste des facteurs inter (la VI est e e e e un facteur de groupe) que lon veut prendre en compte dans lanalyse en cliquant sur le bouton Liste fact. inter et en indiquant Tous2 .
1 ` Une autre solution consiste a eectuer le calcul a la main : t(n1) = ( )/(s/ (n)) = 3.97, et a comparer ` ` x la valeur aux valeurs rep`res de la table du t : p .003 (p/2 .0015) e 2 On pourrait vouloir restreindre lanalyse a deux conditions seulement, auquel cas on indiquerait les conditions ` individuelles

34

Fig. B.3 Rsultat de lanalyse de variance dordre 1 sous Statistica e

Lorsque lon valide en appuyant sur la touche OK, le panneau danalyse de variance sache, le plan danalyse considr (facteurs systmatique inter, intra etc.) tant indiqu dans la partie ee e e e suprieure. Lorsquon clique sur le bouton Tous les effets, Statistica lance lanalyse de variance e dordre 1, et une fentre de rsultats sache. Cette derni`re comprend un tableau dANOVA e e e dordre 1 classique, avec le carr moyen de leet et celui de lerreur (MC eet et MC error), les e degrs de liberts associs aux sommes des carrs (3 et 86), la valeur du F (6,635689), ainsi que e e e e e le seuil p associ (0,000434) (cf. Fig. B.3). Par dfaut3 , Statistica ache en rouge les valeurs e signicatives par rapport aux seuils rep`res (que lon peut rednir dans les options Statistica). e e Il est galement possible davoir une reprsentation graphique des moyennes des groupes de e e sujet en cliquant sur le bouton Comparaison moy., puis en slectionnant la sortie graphique, mais e par dfaut ce nest pas une bo a moustache qui est ache (cf. Fig. B.4). e te ` e

B.3

Dossier Ngligence e

Le protocole doit tre analys a laide dune ANOVA dordre 2 (deux groupes indpendants de e e` e sujets), avec comme facteurs principaux (systmatiques) de lanalyse les conditions Active et e Main, a deux modalits chacune. ` e Nous utiliserons comme dans le dossier prcdent le module ANOVA/MANOVA, en supposant les e e donnes dj` disponibles au bon format et prsentes dans le tableau de donnes (3 colonnes e ea e e comprenant la VD et les 2 VI sous forme indice 1, 2 par exemple ; les observations en e ligne). On dnira comme prcdemment les variables dpendantes et indpendantes, ainsi que e e e e e les facteurs inter a prendre en compte dans lanalyse (i.e. tous). ` En rptant les mmes tapes que celles eectues dans le dossier Pdago, on obtient le tableau e e e e e e dANOVA dordre 2 avec leet des deux facteurs systmatiques et linteraction entre ces deux e facteurs (cf. Fig. B.5). Linteraction entre les deux facteurs, et son seuil de signicativit peuvent e
3

ce nest le cas lors des comparaisons multiples

35

Fig. B.4 Comparaison de moyennes sous Statistica

tre visualis en cliquant sur le bouton Comparaison moy., puis en slectionnant la sortie graphique. e e e Etant donn quil y a deux variables, il faudra indiquer quelle variable sera reprise sur laxe des e abscisses (cf. Fig. B.6). En revanche, puisquon est dans un cas dANOVA a plusieurs facteurs, il faudra analyser les ` moyennes qui sont signicativement direntes prises deux a deux : on utilisera pour cela les come ` paraisons multiples (non planies) qui sont accessibles en cliquant sur le bouton Tests post-hoc. e Le test de Tukey-HSD peut-tre utilis, et on slectionnera loption Diffrences significatives. e e e e Le rsultat du test sache dans une nouvelle fentre, sous forme dun tableau indiquant en e e ligne les comparaison par paire de modalits des deux variables4 . e On notera que que sous Statistica, le rsultat du test de Tukey-HSD indique les seuils p pour e les dirences signicatives et non les intervalles de conance a 95 % comme sous R. e `

B.4

Dossier family

Il sagit ici dun probl`me classique de rgression multiple. La matrice des corrlations peut e e e tre obtenue dans le menu Analyse Statistiques lmentaires rapides Matrice de e ee corrlations. e
le tableau tant une matrice symtrique de seuils de signicativit p, on peut se contenter de lire la moiti e e e e des valeurs...
4

36

Fig. B.5 Rsultat de lanalyse de variance dordre 2 sous Statistica e

Fig. B.6 Graphique de linteraction des deux facteurs sous Statistica

37

Fig. B.7 Rsultat de la rgression multiple sous Statistica e e

Apr`s avoir cliquer dans le commutateur de modules de Statistica Rgression multiple (ou menu e e Analyse Autres statistiques Rgression multiple), il faut spcier la variable dpendante e e e (ici les donnes de la lle), et les variables indpendantes, i.e. les variables prdictrices (les 3 e e e autres sries de donnes p`re, m`re, prof). Une fois le codage des variables eectu, valider en e e e e e appuyant sur OK. Un tableau indiquant les rsultats de la rgression multiple coecients , R 2 e e sache (cf. Fig. B.7). Lanalyse des valeurs prdites et des rsidus est obtenue grce a la commande Analyse des e e a ` rsidus dans la fentre Analyse de la rgression multiple, puis en slectionnant Afficher e e e e Rsidus & Prv.. e e

B.5

Dossier IO

Ce dossier comprend un tableau de contingence 3 x 2 pour lequel il faut mettre en oeuvre une procdure danalyse des tableaux de contingence (module Analyse des Correspondances). Lorsque e la bo de dialogue sache, on slectionne loption Analyse des Correspondances (AC), ainsi te e que Frquences sans var. de classement, puis on slectionne toutes les modalits de la vae e e riable en colonnes. Lorsque lon clique sur OK, un panneau intitul Rsultats de lAnalyse des Correspondances e e appara et indique dans la partie suprieure le rsultat du test du chi-deux : ici, 2 = 6.66667, dl = t e e 2, p = 0.357. Les indicateurs descriptifs concernant le tableau de contingence sont accessibles via le panneau de contrle dans la partie infrieure : o e les distributions marginales (lignes et colonnes) sont accessibles en cliquant sur le bouton

38

ou Pourcentages Colonnes les eectifs thoriques sont accessibles en cliquant sur le bouton Thorique (Chi) e e les carts a lindpendance (dirence entre eectifs observs et eectifs thoriques) sont e ` e e e e accessibles en cliquant sur le bouton Obs. moins Thorique e le carr moyen de contingence (2 ) est indiqu dans toutes les fentres de rsultats prcdentes e e e e e e et dsign par le terme Inertie Totale e e Les contributions au 2 sont indiques pour chaque croisement des modalits des deux variables e e en cliquant sur le bouton Contrib. au Chi-deux.
Pourcentages Lignes

39

C
C.1

Prise en main de Statistica


Introduction

Etant donn la richesse de linterface, ou plutt des interfaces (cf. infra) de Statistica, nous nous e o contenterons dvoquer quelques-unes de ses principales fonctionnalits, an que le lecteur soit a e e ` mme : (1) douvrir ou dimporter un chier de donnes, (2) deectuer des statistisques descripe e tives lmentaires, (3) de crer des reprsentations graphiques et (4) danalyser des protocoles ee e e simples (cf. galement la section B). De plus amples informations peuvent tre obtenues grce e e a aux manuels de Statistica, a laide en ligne, ou aux nombreux tutoriels disponibles sur le web. ` Statistica est un logiciel tr`s puissant permettant de faire de lanalyse descriptive et infrentielle. e e Statistica est organis en dirents modules Statistiques Elmentaires, ANOVA/MANOVA, etc. , e e e accessibles au travers du commutateur de modules (cf. Fig. C.1), qui est automatiquement lanc e au dmarrage. Il demeure ensuite accessible dans le menu Analyse Autres Statistiques. e Chaque module correspond en fait a un environnement danalyse particulier, et linterface de ` Statistica (boutons, menus) est spcique de chaque module, et des fentres actives (feuille e e de donnes, graphique). Lorsque lon bascule dun module a lautre, par exemple de celui e ` des Statistiques Elmentaires a celui ddi a lanalyse de variance ANOVA/MANOVA, il est e ` e e ` prfrable de fermer le module prcdent : utiliser pour cela le bouton Fermer & Basculer ee e e vers ; cela vitera davoir plusieurs fentres Statistica ouverte en mme temps. e e e

Fig. C.1 Commutateur de modules de Statistica

40

C.2

Organisation des donnes e

Statistica contient un gestionnaire de donnes intgr, mais nous allons nous limiter a exposer e e e ` bri`vement lorganisation des donnes dans la feuille de donnes. Celle-ci est quivalente a un e e e e ` tableur (comme Excel) dans lequel les observations sont disposes en lignes, et les variables e en colonnes. En fait, les observations sont le plus gnralement les sujets, et les variables les e e modalits des variables indpendantes (V.I.). Lintersection ligne-colonne contient ainsi la valeur e e de la variable dpendante (V.D.). e Lorsquil ny a quune seule V.I. a plusieurs modalits, on peut coder ses modalits dans une ` e e autre colonne-variable, qui sert alors de variable de classement. Dans le cas o` on a plusieurs u V.I. a plusieurs modalits (cas par exemple dun protocole de mesures rptes), les variables ` e e ee correspondent en fait au croisement de chaque modalit de chaque variable. Par exemple, si lon e a 2 V.I. A et B a 2 niveaux (i.e. un plan de type S A2 B2 ), il y aura 4 colonnes disposes ` e 1 comme suit : a1b1 a1b2 a2b1 a2b2. Il est utile de sassurer de la bonne disposition prcisemment e des donnes en achant un graphique, car si lordre des facteurs est inverss par exemple, il e e risque dy avoir des probl`mes lors de linterprtation de linteraction A x B. e e Laide en ligne est gnralement bien rdige et indique dans chaque situation (plan avec groupes e e e e indpendants, groupes apparis, mesures rptes, plan factoriel, split-plot etc.) comment e e e ee organiser les donnes. Nhsitez pas a vous y rfrer, mme pour vrication. e e ` ee e e

C.3
C.3.1

Statistiques descriptives
Rsum numrique e e e

Les statistiques descriptives constitue un module a part enti`re Statistiques Elmentaires ` e e , accessible depuis le commutateur de modules (le chier permettant le lancement direct de ce module est Sta_bas.exe). Le choix des rsultats a acher se fait dans le menu Analyse e ` Panneau de dmarrage, puis Statistiques Descriptives, ou dans le menu Analyse e Statistiques lmentaires rapides Autres (cf. Fig. C.2). Par dfaut, le rsum numrique ee e e e e indique le nombre dobservations, la moyenne, le minimum, le maximum et lcart-type, pour la e ou les variable(s) slectionne(s) (bouton Variables). e e Il est galement possible de paramtrer le type de rsultats a acher (moyenne, mdiane, quane e e ` e tiles, cart-type etc.), a laide du bouton Davantage de Statistiques. En revanche, il faut e ` garder a lesprit que Statistica ne calcule que des cart-types et variances corrigs 2 . ` e e
1 Il faut faire attention a lordre, en eet, car Statistica va dterminer les modalits des facteurs a partir de ` e e ` lordre dans lequel ils sont rangs dans la feuille de donnes ; ainsi, si on rangeait les donnes sous la forme a1b1 e e e a2b1 a1b2 a2b2, le plan correspondant serait S B2 A2 , et pire encore si on intervertissait 2 colonnes, on aurait un plan incorrect puisque mlangeant les facteurs ! e 2 Pour obtenir des cart-types et variances non corrigs, il faut multiplier les valeurs obtenues par n1 . e e n

41

Fig. C.2 Panneau de Statistiques Descriptives

C.3.2

Remarque

Par ailleurs, toutes les fonctions dcrites dans les paragraphes prcdents sont gnralement e e e e e accessibles a laide dun clic droit eectu dans la colonne de la ou les variable(s) du tableau de ` e donnes (Statistiques Rapides Autres). e

C.4

Reprsentations graphiques e

Les outils graphiques se trouvent dans le mme module que celui utilis pour les statistiques e e descriptives ; ils apparaissent dans la partie infrieure de la bo de dialogue Statistiques e te Descriptives. Les graphiques les plus couramment utiliss sont les histogrammes, les bo a e tes ` moustaches catgorises et les nuages en 2D (nuages bivaris). Lorsque lon slectionne un type e e e e de graphique, une nouvelle bo de dialogue appara et permet de prciser ou paramtrer le te t e e graphique slectionn. Si aucune variable na t slectionne, il est possible de le faire a laide e e ee e e ` du bouton Variables.

C.4.1

Histogrammes

Pour les histogrammes (cas des variables catgorises), on peut choisir entre des histogrammes e e simple (cas dune seule variable) ou multiple (cas de plusieurs variables), et y associer une courbe

42

Fig. C.3 Panneau de Statistiques Descriptives

dajustement normale par exemple (cf. Fig. C.3). Il est galement possible dacher les eectifs e cumuls, plutt que les eectifs simples (cela peut permettre dobtenir la fonction de rpartition e o e discr`te de la variable). e

C.4.2

Bo tes ` moustaches a

Les bo a moustaches sont tr`s utiles pour les donnes catgorises. Elles peuvent tre prsentes tes ` e e e e e e e sous forme classique (mdiane, 1er et 3`me quartiles, tendue), ou a laide dautres indicateurs e e e ` (moyennes, erreur-type ou cart-type et intervalles de conance a 95 %) (cf. Fig. C.4). e `

C.4.3

Nuages de points en 2D

Pour les nuages en 2D (cas des variables numriques), on peut galement choisir des nuages e e simple ou multiple, associs a une fonction dajustement pr-dnie ou paramtrable. Des boue ` e e e tons radio permettent de slectionner le type daxes du rep`re, qui peuvent tre de type cartsien e e e e ou polaire. On peut galement inclure les ellipses et bandes de conance (en gnral au seuil e e e p = .95) de la moyenne. Dautres options tr`s utiles sont disponibles ne cliquant sur le bouton Options. La nouvelle e bo de dialogue qui sache permet en eet de slectionner le nombre dobservations a inclure te e ` dans le graphique, de spcier lachage des tiquettes dobservations (ce qui permet de reprer e e e directement une observation sur le graphique par une tiquette de type i1, i2, ..., sans avoir a le e `

43

Fig. C.4 Panneau de Statistiques Descriptives

faire a laide de ses coordonnes). ` e

C.4.4

Remarque

Par ailleurs, toutes les fonctions dcrites dans les paragraphes prcdents sont gnralement e e e e e accessibles a laide dun clic droit eectu dans la colonne de la ou les variable(s) du tableau de ` e donnes (Graphiques Rapides (...)). e

44