Anda di halaman 1dari 10

MASTERPODEPRO

AnalysedesDonnes

Universit de Thessalie Dpartement dAmnagement, DUrbanisme et Dveloppement Rgional MASTER PODEPRO

Cours : ANALYSE DES DONNEES Dure : 26 heures

Objectif du cours : Limportant dveloppement des bases de donnes a conduit mettre au point de nombreuses mthodes pour synthtiser les informations volumineuses et reprer les grandes structures dun vaste tableau de donnes quantitatives, mais aussi qualitatives. Le cours a donc pour objectif de procder une prsentation thorique de ces mthodes, de leur intrt, de leurs biais et limites, ainsi qu une initiation lapplication concrte de ces divers outils, mettant en exergue les prcautions ncessaires leur utilisation. Aprs un rapide rappel des principes essentiels de lanalyse statistique : thorie des probabilits et statistique descriptive, lessentiel du cours a pour objectif de familiariser les tudiants aux mthodes les plus courantes dAnalyse des Donnes Multidimensionnelles et multi varies. Les deux principaux types de mthodes de la statistique multidimensionnelle seront traits, savoir : les mthodes de classification, qui tentent de regrouper les points (cluster analysis etc), de faon procder une typologie des units tudies. Ces oprations de dcoupage en classes dune ou plusieurs sries statistiques est base sur le principe de la discrtisation savoir rendre discontinue (s), une ou plusieurs sries mesures sur une chelle continue de valeurs. Principalement, deux techniques seront abordes : la classification ascendante hirarchique la classification non hirarchique les mthodes factorielles, qui consistent projeter le nuage de points sur un sous-espace, en perdant le moins d'information possible Trois techniques fondamentales seront abordes: l'analyse en composantes principales (plusieurs variables quantitatives), l'analyse des correspondances (deux variables qualitatives, reprsentes par un tableau de contingences) l'analyse des correspondances multiples (plus de deux variables qualitatives). Enfin, le cours se terminera par la prsentation dune mthode quelque peu spcifique de reprsentation et classification des donnes qui repose sur un traitement visuel des donnes, particulirement efficace dans le cas de donnes gographiques, savoir la mthode Bertin. La logique de lAnalyse des donnes Dans tous les cas, les mthodes apprhendes dans ce cours, ont pour objectif de conserver au mieux linformation contenue dans la ou les sries statistiques tudies, tout en permettant une rduction du volume initial dinformation de faon obtenir la meilleure lisibilit possible. Ce principe de rduction de linformation et sa lisibilit est dailleurs primordial lorsque lon souhaite procder un travail de cartographie des donnes. La rduction du volume de donnes en quelques grandes dimensions doit cependant se faire avec une perte minimale dinformation, ce qui est un compromis dlicat qui exige que soient pris en compte, un certain nombre de paramtres : - lordre de grandeur des phnomnes tudis - la forme des distributions - leur dispersion - lexistence ventuelle de cas particuliers, atypiques. Une mthode danalyse la croise de plusieurs sciences

MASTERPODEPRO

AnalysedesDonnes

Lanalyse statistique unidimensionnelle et multidimensionnelle des donnes doit tre considre comme un outil contribuant largement : lanalyse et la comprhension des phnomnes et comportements dmographiques, sociaux, conomiques etc, qui ne sont pas tous systmatiquement quantitatifs, grce la production de ce que lon peut qualifier de mta-variables les tudes prospectives quelles soient sectorielles ou territoriales, Elle est galement une tape prliminaire et incontournable de la cartographie et de la reprsentation visuelle des phnomnes et comportements. Organisation du cours et mthode de travail Chaque cours fera lobjet : (i) dune prsentation thorique, concernant les principes, la logique et les algorithmes relatifs aux mthodes tudies Les tudiants intresss par une prsentation mathmatique plus pousse, pourront se reporter aux documents qui seront fournis chaque cours. du traitement dexemples concrets, bass sur des donnes relles, laccent tant mis sur les mthodes de lecture et interprtation des rsultats

(ii)

A la fin de chaque cours, un document de T.P. (Travaux Pratiques) sera distribu aux tudiants qui seront donc appels appliquer par eux-mmes, les mthodes prsentes auparavant. Cela signifie quun travail personnel assez consquent est exig de la part des tudiants. Ces derniers devront sorganiser sous forme de tandem.

MASTERPODEPRO

AnalysedesDonnes

Droulement du cours 1 Mercredi 3h 22-02-2006

Vendredi 24-02-2006 Mercredi 01-03-2006

3h

3h

Introduction Rappel de la thorie des probabilits, principes et lois. Principes de la rduction de linformation : - Variables et indices - Ordre de grandeur - Forme des distributions - Dispersion et concentration - Irrgularits des sries Les processus de discrditation La relation entre caractres (corrlation, etc) Les tests statistiques La notion de distance Les mthodes de classification hirarchiques et non hirarchiques partir de ltude de certains exemples classiques - Classification hirarchique : fournir un ensemble de partitions plus ou moins fines obtenues par regroupements successifs de parties - Classification non hirarchique : produire une partition en un nombre k fix de classes

Vendredi 3h Prsentation et analyse des exemples de classification hirarchiques et 03-03-2006 non hirarchiques quauront tudi et prpar les groupes dtudiants 5 Mercredi 3h LAnalyse en Composantes Principales (ACP) 08-03-2006 6 Vendredi 3h Prsentation et analyse de deux exemples dACP 10-03-2006 7 Mercredi 3h LAnalyse des Correspondances Tableaux de contingence 15-03-2006 8 Vendredi 3h LAnalyse des Correspondances Multiples 17-03-2006 9 Mercredi 3h Prsentation et analyse des exemples dAnalyse des Correspondances 22-03-2006 quauront tudi et prpar les groupes dtudiants 10 Mercredi 3h La Mthode Bertin 29-03-2006 Si ncessaire, les 4 dernires sances pourront tre portes de 2 3heures Bibliographie de Base : - Bguin M., Pumain D., (2003), La reprsentation des donnes gographiques, Statistique et cartographie, Armand Colin, Collection Cursus, 192 pages. - Benzcri J.P. & F., (1984), Pratique de lAnalyse des Donnes, Dunod, 457 pages - Bouroche J.M., (2002), Lanalyse des donnes, PUF, Collection Que sais-je. No 1854, 8me dition, 127 pages. - Cibois P., (2000), L'analyse factorielle, 2000, PUF, Collection Que sais-je. N 2095, 127 pages - Dervin C., (1992), Comment interprter les rsultats dune analyse factorielle des correspondances, Collection STAT-ITCF, 72 pages. - Doise W., Clmence A., Lorenzi-Cioldi F., (1992), Reprsentations sociales et analyses de donnes, PUG, Grenoble, 264 pages. - Fnelon J.P., (1999), Quest-ce que lanalyse de donnes?, Seisam, 311 p. - Georgin J.P., (2002), Analyse interactive des donnes (ACP, AFC) avec Excel 2000. Thorie et pratique, Presses Universitaires de Rennes, Collection Didact Statistique, 266 pages. - Groupe Chadule (1997), Initiation aux pratiques statistiques en gographie, Armand Colin, Collection U, 4me dition, 203 pages - Lebart L., Morineau A., Piron M., (2004), Statistique exploratoire multidimensionnelle, Dunod, 2me dition, 439 pages. - Sanders L., (1990), Lanalyse des donnes applique la gographie, Montpellier, Reclus, Alidade, 267 pages. - Tomassone R., (1988), Comment interprter les rsultats dune analyse factorielle discriminante, Collection STAT-ITCF, 56 pages

MASTERPODEPRO

AnalysedesDonnes

1re Sance : Thorie des Probabilits Si la notion de probabilit est assez ancienne, elle remonte en fait plus de trois sicles et demi, ce nest que dans les annes 1930 que Kolmogorov formalise les fondements du calcul des probabilits et en en fait une construction axiomatique cohrente. 1. Notions de probabilits Il existe deux manires essentielles de dfinir une probabilit : (a) probabilits inductives ou exprimentales et (b) probabilits dductives ou thoriques. (a) Probabilit exprimentale ou inductive: la probabilit est dduite de toute la population concerne par exprimentation. Par exemple, si lon observe le nombre de naissances dans un pays durant trois annes et que lon constate que parmi les 10.000 naissances, 5.150 sont des garons et 4.850 des filles, on en dduit que P[garon] = 0.515 (51,5%). Cette probabilit a t value posteriori (ex-post). (b) Probabilit thorique ou dductive: cette probabilit est connue grce l'tude du phnomne sous-jacent sans exprimentation. Il s'agit donc d'une connaissance a priori (ex-ante) par opposition la dfinition prcdente. Par exemple, dans le cas classique du d parfait, on peut dire, sans avoir jeter un d, que P["obtenir un 4"] = 1/6. Comme il n'est pas toujours possible de dterminer des probabilits a priori, on est souvent amen raliser des expriences. Il faut donc pouvoir passer de la premire la deuxime solution. Ce passage est suppos possible en terme de limite (i.e. avec une population dont la taille tend vers la taille de la population relle). Cest bien parce quil est relativement peu courant de connatre priori les probabilits de ralisation dvnements que la notion de probabilit est lie la notion dexprience ou de mesure. De plus, on peut toujours affecter au rsultat de lexprience, une valeur numrique, ce qui nous permettra ainsi de dfinir une variable dite alatoire, correspondant prcisment la mesure numrique de lexprience. Par exemple, dans le cas du jet dune pice de monnaie, on peut toujours dcider que Pile = 1 et Face = 0. Le rsultat de lexprience ne peut tre que 1 ou 0. Cependant la variable a un caractre alatoire dans la mesure ou la rptition de lexprience telle que lancer la pice de le mme faon, plusieurs fois de suite (reproduction lidentique) ne donne pas toujours le mme rsultat. Le rsultat est alatoire car il est incertain : on ne peut savoir avec certitude quel sera le rsultat de lexprience, cest que lon appelle communment le hasard. On entend par hasard, lensemble des causes qui font que le rsultat nest pas prvisible et provoquent finalement une dispersion des rsultats. Le but finalement de la thorie des probabilits nest pas de tenter de dcrire selon un processus dterministe les causes de la variabilit des rsultats mais den prendre acte et de fournir un cadre alternatif de quantification des rsultats dun trs grand nombre dexpriences, en donnant chaque issue possible de lexprimentation une mesure, sa probabilit. Cette dernire va dpendre de la faon dont se droule lexprimentation laquelle conditionne finalement le nombre total dissues qui peuvent dcouler de lexprimentation. Par exemple, dans une urne, nous avons 3 billets de banque: 1 billet de 5, 1 billet de 10 et 1 billet de 20.. Nous dcidions den tirer deux au hasard. Le nombre total dissues de lexprimentation dpend du mode de tirage. Tirage avec remise : 9 issues possibles

MASTERPODEPRO

AnalysedesDonnes

(5,5), (5,10), (5,20), (10,5), (10,10), (10,20), (20,5), (20,10), (20,20) Tirage sans remise : 6 issues possibles (5,10), (5,20), (10,5), (10,20), (20,5), (20,10) La probabilit dobtenir un et un seul billet de 20 est gale 4/9 dans le 1er cas et 4/6 dans le second cas La diffrence de rsultat constat dans lexemple prcdent est due au fait que le nombre de combinaisons possibles dcoulant de lexprimentation diverge. Cela nous amne en toute logique nous pencher sur la notion danalyse combinatoire. 2. Principales rgles de lanalyse combinatoire 2.1. Factorielle Si une action peut tre obtenue de n1 faons diffrentes, puis suivant cette action, de n2 faons diffrentes indpendantes des prcdentes, puis de n3 faons diffrentes etc, alors, le nombre de possibilits correspondant l'ensemble de ces actions est gal : n! = On appelle factorielle n et l'on note n! le nombre : n! =

n
k 1

i
n 1

(4 ! = 4.3.2.1)

2.2. Arrangements de p objets parmi n Nombre de possibilits de ranger p objets choisis parmi n et lordre a une signification :

Anp =

n! = n(n 1)...(n p + 1) (n p )!

Il y a 6 arrangements possibles de 2 symboles parmi 3 diffrents A, B, C (A,B) , (A,C) , (B,A) , (B,C) , (C, A) , (C,B) Les arrangements (A,B) et (B,A) sont diffrents car lordre a une signification. 2.3. Permutations de n objets Arrangement de n objets parmi n en tenant compte de l'ordre : Pn = An = n!
n

Ainsi, il y a 6 = 3! permutations possibles de 3 symboles diffrents A, B, C: (A,B,C) , (A,C,B) , (B,A,C) , (B,C,A) , (C,A,B) , (C,B,A) 2.4. Combinaisons de p parmi n objets On ne tient pas compte de l'ordre des objets dans le rangement : C n =
p

n! p!(n p)!
p (n )

La notation anglo-saxonne pour les combinaisons est un peu diffrente :

Il y a 3 combinaisons possibles de 2 symboles parmi 3 diffrents A, B, C : (A,B) , (A,C) , (B,C) La combinaison (A,B) est quivalente la combinaison (B,A) car lordre na pas de signification. Proprits :

MASTERPODEPRO
n 0 Cn = Cn = 1 n C np = C n p

AnalysedesDonnes

C np = C np11 + C np1 C np = 2 n
p =1 n

3. Epreuves et Evnements Une exprience est dite alatoire si ses rsultats ne sont pas prvisibles avec certitude en fonction des conditions initiales. On appelle preuve la ralisation d'une exprience alatoire. On appelle vnement la proprit du systme qui une fois l'preuve effectue est ou n'est pas ralise. Soit l'exprience alatoire "lancer deux ds discernables" (et non pips si l'on veut vraiment une exprience alatoire) et l'vnement A = "obtenir un total de nombres suprieur 10". Lvnement A se ralise pour les preuves (6,5), (5,6), (6,6).

MASTERPODEPRO

AnalysedesDonnes

Correspondance entre les oprateurs logiques et les ensembles. Logique vnement certain tat du systme vnement A vnement impossible vnement contraire l'vnement B entrane l'vnement A A et B vnements incompatibles A ou B (ou non exclusif) A ou B exclusif Ensemble espace entier lment

partie {A} partie vide

partie complmentaire A

{}

{B} {A}
intersection {A} {B} parties disjointes {A} {B} = runion {A} {B}

{A} + {B} = ({A}) {B}) ({A} {B})

somme

A partir de ces notions, on peut prciser le calcul de probabilits d'un vnement A:

Probabilit thorique:

P ( A) =

nombre de cas favorables . nombre total de cas nombre d ' epreuves qui realisent A nombre total d ' epreuves

Probabilit exprimentale:.

P ( A) =

Cette 2me approche est aussi appele approche frquentiste. Elle ne permet pas de donner une valeur ni mme un sens la probabilit d'un vnement non rptable du genre "neigera-t-il le 25 octobre 2990" ce qui limite de fait le champ d'application du calcul des probabilits. Pour les frquentistes, seules ont un sens les probabilits calcules posteriori sur la base de la rptition d'un grand nombre d'vnements identiques; pour les subjectivistes, au contraire, la notion de probabilit a priori, valuable en fonction d'un sentiment individuel d'incertitude, peut avoir un sens.

MASTERPODEPRO

AnalysedesDonnes

4. Espace probabilis 4.1. Axiomatique de Kolmogorov A chaque vnement de lensemble , on associe un nombre positif compris entre 0 et 1, sa probabilit. Dfinition 1 On appelle probabilit sur (, S) o est l'ensemble des vnements et S une classe de parties de ), ou loi de probabilit, une application de S dans [0,1] telle que:

P () = 1
Pour tout ensemble dnombrable d'vnements incompatibles A1, A2, .An on a :

P(U Ai ) = P( Ai )
Dfinition 2 L espace probabilis est form par le tripl (,S ,P) Une loi de probabilit n'est donc rien d'autre qu'une mesure positive de masse totale 1. On peut donc relier la thorie des probabilits celle de la mesure. 4.2. Proprits lmentaires De l'axiomatique de Kolmogorov, on peut dduire les proprits suivantes: Proprit 1 : P() = 0 Proprit 2 : Proprit 3 : Proprit 4 : Proprit 5 :

P ( A ) = 1 P( A)

P ( A) P( B ) si A B P ( A B) = P( A) + P( B) P( A B)
P ( Ai ) P( Ai ) : Il n'y a stricte galit que si tous les vnements Ai sont
i

deux deux incompatibles. Proprit 6 : Continuit monotone squentielle. Soit Si lim An = alors lim P ( An ) = 0
n n

A1 A2 A3 ... An

Proprit 7 : Thorme des probabilits totales: Soit = Bi un systme complet d'vnements tel que {Bi}constitue une partition de , alors :

A : P ( A) = P( A Bi ) .
i

MASTERPODEPRO

AnalysedesDonnes

5. Probabilit conditionnelle - Thorme de Bayes 5.1. Thorme des probabilits composes Soit deux vnements A et B raliss respectivement n et m fois au cours de N preuves. On a donc : P(A) = n/N P(B) = m/N. Si de plus A et B sont raliss simultanment k fois, on a

P( A B) = k / N .

Que peut-on dduire sur la probabilit de l'vnement B sachant que l'vnement A est ralis? Cette probabilit est appele probabilit conditionnelle de B sachant A et se note P(B/A). Dans ce cas, P(B/A) = k/n Par dfinition, on a : P ( B / A) =

P( A B) P( A B) et P( A / B) = P( A) P( B)

Consquences Deux vnements A et B sont dits indpendants si P ( A B ) = P ( A).P ( B ) ou encore si P(B/A) = P(B) (l'information sur la ralisation de A n'apporte rien l'vnement B) et de mme P(A/B) = P(A).

5.2. Thorme de Bayes - Probabilits des causes Soit un vnement A qui peut dpendre de N causes diffrentes, notes Ci et incompatibles deux deux (on ne peut avoir deux causes ralises simultanment). Etant donne la ralisation de l'vnement A, quelle est la probabilit que ce soit lvnement Ci qui en soit la cause ? On cherche donc P(Ci/A) Puisque toutes les causes sont incompatibles deux deux et toutes les causes possibles A sont supposes connues, on a alors : - d'aprs le thorme des probabilits totales : P ( A) =

P( A C )
i i

- puis en appliquant le thorme des probabilits conditionnelles, on a:

P ( A C i ) = P(C i ).P( A / C i )
Alors P (C i / A) =

P(C i A) P(C i ).P( A / C i ) = P( A) P(Ci ).P( A / Ci )


i

Exemple: Deux machines M1 et M2 produisent respectivement 100 et 200 objets. M1 produit 5% de pices dfectueuses et M2 en produit 6%. Quelle est la probabilit pour qu'un objet dfectueux ait t fabriqu par la machine M1? En dautres termes quelle est la probabilit que ce soit la machine 1 qui soit lorigine de la pice dfectueuse? L'vnement constat A = pice dfectueuse

MASTERPODEPRO

AnalysedesDonnes

On cherche finalement P(M1/A) les causes sont les machines M1 et M2 :Compte tenu des productions de ces machines, on a : P(M1) = 1/3 et P(M2) = 2/3 (deux causes indpendantes et incompatibles). Les probabilits conditionnelles sont donc P(A/ M1) = 0,05 et P(A/ M2) = 0,06

P ( M 1 / A) =
P( M 1 / A) =

P ( A / M 1 ).P ( M 1 ) P ( A / M 1 ).P ( M 1 ) = P ( A) P ( A / M 1 ).P ( M 1 ) + ( PA / M 2 ).P ( M 2 )


0,05. 1 3 = 0,05 29% 0,17

1 2 0,05. + 0,06. 3 3

10

Anda mungkin juga menyukai