Anda di halaman 1dari 17

LANALYSE DES DONNEES

Encadr par :

M.HARTI

Ralis par :

GHAYOUBA maha El RACHEQ Mohammed OUALI ALAMI Mohammed ZEROUAL Abdellah TAJMOUATI Mehdi

LANALYSE DES DONNEES

REMERCIEMENTS

Remerciements les plus sincres toutes les personnes qui auront contribu de prs ou de loin l'laboration de ce mmoire. Remerciements au Professeur Harti pour ses indications et la richesse de ses enseignements qui ont contribu l'laboration de ce travail. Une pense de gratitude tous les consultants et internautes rencontrs lors des recherches effectues et qui ont accept de rpondre aux questions avec gentillesse.

LANALYSE DES DONNEES

Sommaire

INTRODUCTION..

page 4

1 re PARTIE : PRESENTATION DE L'OUTIL DE TRAVAIL Logiciel Sphinx. page 5

2me PARTIE : PRESENTATION DE L'ETUDE Rgression Multiple Analyse des composantes principales Analyse factorielle des correspondances pages 6-8 pages 9-14 pages 15-17

LANALYSE DES DONNEES

Introduction
La sant bucco-dentaire est le bon tat de sant de la bouche dune personne, en particulier la bonne sant de ses dents et de ses gencives. La carie et les maladies parodontales sont les affections bucco-dentaires les plus frquentes selon les mdecins. Elles posent un problme de sant partout dans le monde. Cette tude a valu la sant bucco-dentaire et les habitudes dhygine de jeunes tudiants Fs afin de mettre en place un programme de prvention dans les coles. Le questionnaire a permis dobtenir des renseignements sur la frquence du brossage et sur les moyens utiliss pour lhygine bucco -dentaire ainsi que latteinte carieuse des dents. Lenqute comporte un chantillon de 47 personnes bien cible via un questionnaire sous la forme dun formulaire web qui traire la fiabilit de linformation et qui gre les diffrents cas dexceptions, linformation est stocke dans une base de donne. Lchantillon cible englobe des tudiants dune cole prive suprieure et public ainsi que une masse de lycens issu dun tablissement prive et public.

LANALYSE DES DONNEES

LOGICIEL SPHINX

Sphinx est un logiciel d'enqute et d'analyse de donnes. Il permet dassister dans chacune des quatre grandes tapes de ralisation d'une enqute: La ralisation du questionnaire. La saisie des rponses. Les traitements quantitatifs des donnes et l'analyse des donnes qualitatives. La rdaction du rapport d'tude.

LANALYSE DES DONNEES I. Rgression multiple


On effectue une rgression multiple car on dispose de plusieurs variables explicatives. Cette enqute reprsente le cas ou plusieurs facteurs influencent le phnomne quon cherche expliquer. Pour liminer leffet dautres facteurs on ne raisonne que sur la strate des individus qui ont un bon tat de sante et qui brossent les dents un minimum de fois. Apres filtrage on obtient 20 observations suivantes sont disponibles pour lanalyse. Apres dfinition de la variable expliquer (Etat de sante) et des variables explicatives on obtient le graphe de corrlation ci-dessous :
etat.sante nombre.visit e.dentiste etat.sante nombre.visite.dentiste satisfaction.visite nombre.carie.precedement nombre.carie.actuel frequence(fois/jour) durre(min) CHANGEZ-VOUS LA BROSSE DENTS ? nbr.compagne AGE : SEXE : 1,00 -0,65 0,19 -0,70 -0,53 0,23 0,20 -0,04 0,11 0,31 -0,33 1,00 -0,37 0,61 0,20 0,28 -0,22 0,21 -0,07 -0,26 -0,19 1,00 -0,11 -0,38 -0,12 0,21 -0,66 0,16 0,11 0,17 1,00 0,22 0,11 -0,24 -0,09 0,03 -0,51 0,10 1,00 -0,11 -0,20 0,27 -0,32 -0,27 0,16 1,00 -0,10 0,13 0,13 -0,31 -0,69 1,00 -0,08 0,06 0,11 0,14 1,00 -0,32 0,11 -0,19 1,00 -0,33 0,02 1,00 0,13 1,00 satisfacti nombre.carie. nombre.ca on.visite precedement rie.actuel frequence( fois/jour) durre(min) CHANGEZ-V nbr.com OUS LA BRO pagne AGE : SEXE :

Le calcul est fait selon la mthode pas pas ascendante, les termes sont classs dans l'ordre de leur importance pour l'explication de la variable (tat de sant). Equation de la rgression : Dans un premier temps le modle est comme suivant : etat.sante = -0.345*nombre.carie.precedement - 0.432*nombre.carie.actuel +0.791*frequence(fois/jour) 0.223*nombre.visite.dentiste 0.007*satisfaction.visite -0.296*SEXE + 4.516 6

LANALYSE DES DONNEES


Les variables dur (min) , CHANGEZ-VOUS LA BROSSE DENTS ? , nbr.compagne , ge : ne sont pas significatives et n'ont pas t prises en compte dans la rgression pas pas car elles sont faiblement corrl ce qui ninfluence gure le rsultat de lquation de rgression. Les 6 variables expliquent 85.0% de la variance de la variable (tat de sante), ainsi que le Coefficient de corrlation multiple : R = 0,92 Cest la variable la plus fortement corrle qui a t choisie en premier. Il faut notamment faire attention aux variables explicatives auto corrles. Certains termes de l'quation sont peu influents, leur rapport coefficient / cart-type est infrieur 1,96, il sagit des variables satisfaction.visite et sexe et qui est fortement corrl avec la variable frquence ce qui ncessite de la retirer ce qui donne le modle suivant : Equation de la rgression : etat.sante = -0.379 * nombre.carie.precedement -0.449 * nombre.carie.actuel +1.057 * frequence(fois/jour) -0.215 * nombre.visite.dentiste -0.008 * satisfaction.visite +3.769 Les 5 variables expliquent 84.2% de la variance de la variable etat.sante Coefficient de corrlation multiple : R = 0,92 Attention aux variables explicatives auto corrles car lexistence de plusieurs variables corrls entre elles, donne un effet ngatif. Dans un autre contexte la variable nombre.visite.dentiste est retire ainsi le modle gnr est comme suivant : Equation de la rgression : etat.sante = -0.657 * nombre.carie.precedement -0.441 * nombre.carie.actuel +0.657 * frequence(fois/jour) -0.125 * SEXE : +3.567 Les 4 variables expliquent 71.6% de la variance de tat.sante Coefficient de corrlation multiple : R = 0,85

LANALYSE DES DONNEES


Apres une rflexion intuitive et dans le cadre de parfaire lanalyse, on se contentera pas de lexamen de coefficient de corrlation. Il faut galement une estimation prcise des coefficients de rgression. Le paramtre F rend compte de cette information. La premire variable introduite nest pas la variable nombre.carie.precedement . En effet bien que fortement corrl avec variable tat.sante il se dduit quon doit tenir compte de la variable nombre.visite.dentiste et puisque la variable sexe est corrle avec la variable frquence, elle est carte ce qui nous ramne a un modle sous la forme : Equation de la rgression : etat.sante = -0.667 * nombre.carie.precedement -0.444 * nombre.carie.actuel +0.778 * frequence(fois/jour) +3.222 Les 3 variables expliquent 71.4% de la variance de etat.sante Coefficient de corrlation multiple : R = 0,85 Le premier model reste meilleur et il dmontre quune bonne hygine bucco-dentaire dans le milieu des jeunes tudiant est nettement lie a la frquence de brossage exprime par le nombre de fois par jour ainsi que le nombre de visite chez le dentiste et videment le nombre de dents carieuses qui refltent clairement la situation de lindividu.

LANALYSE DES DONNEES II. Analyse des composantes principales


Lanalyse en composantes principales aide dcrire et explorer un ensemble dobservations rassembles sous la forme dun tableau de donnes. 1) Dterminer le nombre daxes de lanalyse Pour rpondre cette question, il faut consulter le tableau des valeurs propres qui accompagne LACP. Linertie de chaque axe et linertie cumule figurent galement dans ce tableau.
f1 f2 f3 f4 f5 f6 f7 f8 f9 f10 Valeur 3,118 1,943 1,449 propre 0,908 0,876 0,725 0,381 0,295 0,22 0,085 % expliqu 31,19% 19,43% 14,49% 9,08% 8,76% 7,25% 3,81% 2,95% 2,20% 0,85% % cumul 31,19% 50,62% 65,11% 74,19% 82,95% 90,20% 94,00% 96,96% 99,15% 100,00%

Il est important que les valeurs propres des axes retenus restituent une bonne proportion de lanalyse. Cela signifie que la somme de l'inertie explique par chacun des axes reprsente une partie importante de l'inertie totale. Cette somme est une mesure de la fiabilit de la lecture des figures reprsentant les individus comme les variables et donc de la qualit globale explicative de l'analyse. Les axes (1) et (2) ont t retenu alors que le 3me reste sous rserve. 2) Analyse des Variables Loutil Sphinx gnre les diffrentes figures concernant les variables comme suivant : Contribution des variables
f1 nombre.visite.dentiste satisfaction.visite etat.sante nombre.carie.precedement nombre.carie.actuel frequence(fois/jour) durre(min) CHANGEZ-VOUS BROSSE DENTS ? nbr.compagne AGE : 19,78% 9,88% 21,10% 17,94% 12,32% 0,80% 5,39% LA 3,64% 0,89% 8,27% f2 0,67% 15,15% 1,28% 10,56% 4,76% 1,64% 0,05% 28,41% 22,10% 15,39% f3 1,05% 8,66% 15,09% 1,27% 5,49% 47,84% 0,47% 8,76% 6,88% 4,48% nombre.visite.dentiste satisfaction.visite etat.sante nombre.carie.precedement nombre.carie.actue frequence(fois/jour)

Coordonnes des variables


f1 -0,785 0,555 0,158 -0,748 -0,62 -0,158 f2 -0,114 -0,543 0,468 -0,453 0,304 -0,178 -0,032 0,743 -0,655 0,547 f3 0,123 -0,354 0,017 -0,136 -0,282 0,833 -0,082 0,356 0,316 -0,255

0,41 durre(min) CHANGEZ-VOUS LA BROSSE -0,337 DENTS ? nbr.compagne AGE : 0,167 0,508

LANALYSE DES DONNEES


Le tableau donne, pour les 2 premires composantes, les contributions relatives (positives et ngatives) des critres.

Axe 2 (19.4%)

nbr.compagne satisf action.v isite nombre.carie.precedement

f requence(fois/jour) nombre.v isite.dentiste durre(min) Axe 1 (31.2%) etat.sante nombre.carie.actuel

AGE :

CHANGEZ-VOUS LA BROSSE DENTS ?

Figure 1 : La carte montre les positions des 10 critres. 27 observations ne sont pas prises en compte (non-rponse au moins un des critres).50.6% de la variance est explique par les deux axes reprsents.

10

LANALYSE DES DONNEES

Interprtation des axes : Laxe (1) contient 31,2% de linformation initiale : Cet axe oppose dune part des variables caractristiques dune population en bonne sante caractris par une satisfaction des visites du mdecin et par un ge considrable dautre part une population ayant un tat dhygine buccodentaire dplorable caractris par un nombre important de visite chez le dentiste et plusieurs dents carieuses avant comme aprs la visite . Laxe (2) contient 19,4% de linformation initiale : Cet axe oppose dune part des variables caractristiques dune part une population moins jeune cible par les compagnes de prvention dautre part une population plus ge et qui ressente le besoin de changer la brosse a dent rgulirement. 3) Interprtation Des Individus On applique ACP sur Les individus ce qui revient a trait chaque observation, Sphinx gnre une reprsentation des individus, et dans lintrt de mettre une cohrence dans cette reprsentation on assimile les observations a leur taux de satisfaction de la visite du dentiste. Axe 1 : Dune part on remarque quil existe d es individus qui ont les mmes caractristiques il sagit de N32, N13, N8 des individus interprtables car ils disposent dune grande contribution qui rend stable la reprsentation dautre part on les observations N36 et 26 ont des caractristiques communes. Axe 2 : On remarque de laxe 2 regroupe deux individus N5 N25 qui ont les mmes caractristiques,

11

LANALYSE DES DONNEES

On limine les observations qui ont une faible contribution comme on limine les observations qui ont un cosinus proche de 0 ce qui remet en cause la qualit de la reprsentation.

Observations n 3 4 5 6 8 10 12 13 16 22 25 26 27 28 32 35 36 40 41 45 coord(1) -0,034 0,884 -0,621 -1,219 2,06 -1,237 0,241 2,297 0,224 0,239 0,44 -4,282 1,584 -1,501 2,811 0,296 -3,549 2,003 0,136 -0,772

Axe (1)
cos(1) 0 0,193 0,026 0,06 0,27 0,269 0,011 0,628 0,008 0,009 0,014 0,759 0,427 0,439 0,564 0,009 0,854 0,504 0,003 0,223 ctr(1) 0,00% 0,53% 0,26% 1,01% 2,90% 1,05% 0,04% 3,60% 0,03% 0,04% 0,13% 12,51% 1,71% 1,54% 5,39% 0,06% 8,59% 2,74% 0,01% 0,41% coord(2) -0,08 1,472 -3,368 -1,084 -0,76 0,046 1,356 -0,574 -1,5 1,548 -3,083 0,44 0,995 0,053 -0,444 0,89 0,433 1,234 1,685 0,738

Axe (2)
cos(2) 0,002 0,535 0,769 0,047 0,037 0 0,349 0,039 0,37 0,389 0,679 0,008 0,169 0,001 0,014 0,079 0,013 0,191 0,393 0,204 ctr(2) 0,01% 2,37% 12,42% 1,29% 0,63% 0,00% 2,01% 0,36% 2,46% 2,62% 10,41% 0,21% 1,08% 0,00% 0,22% 0,87% 0,21% 1,67% 3,11% 0,60% qualit 0,002 0,728 0,796 0,107 0,307 0,269 0,36 0,667 0,378 0,399 0,692 0,767 0,596 0,44 0,579 0,088 0,867 0,695 0,396 0,427

12

LANALYSE DES DONNEES

La carte montre les coordonnes des 20 observations. 27 observations ne sont pas prises en compte (non-rponse au moins un des critres).50.6% de la variance est explique par les deux axes reprsents. Chaque observation est reprsente par un point.
Axe 2 ( 19.4%)

80 65

70 50 60 70 60 66 Axe 1 ( 31.2%)

50

40 40 40

50 50 70 50 55 40 50 62

Figure 2

13

LANALYSE DES DONNEES


4) La projection des individus sur les variables La projection est reprsent par le nuage des points suivant : Figure 3

nbr.compag ne satisfaction.visite nombr e.car ie.pr ecedement

freq uence(fois/jour ) nombr e.visite.dentiste durr e( min)

etat.sante

nombr e.car ie.actuel

AGE :

C H AN GEZ- VOUS LA BR OSSE D EN TS ?

Laxe 1 : Dune part on nobserve que les individus caractris par un bon tat de sante affirme un pourcentage de satisfaction lors de la visite chez le mdecin, plus g et appartenant a une classe moyenne dautre part les individus de sante dfectueuse accumule les visites chez le dentiste car ils disposent dun nombre important de dents carieuses avant et aprs la visite ce qui revient a dire que la visite est insatisfaisante . Laxe 2 : Prcise que les individus cible par les compagnes de prvention sont moins jeune et essaient de modifier leur habitudes dhygine. 14

LANALYSE DES DONNEES

III. Analyse factorielle des correspondances


1) Interprtation des Axes LAFC du tableau considr fournit des valeurs propres suivantes :
f1 Valeur propre % expliqu % cumul 0,727 40,19% 40,19% f2 0,203 11,21% 51,40% f3 0,174 9,61% 61,01% f4 0,164 9,07% 70,08% f5 0,131 7,23% 77,31% f6 0,119 6,58% 83,88% f7 0,092 5,11% 89,00% f8 0,065 3,59% 92,59%

Dans notre enqute les deux premiers axes expliquent prs de 51,40% de linertie : une reprsentation des variables et des individus sur les plans 1-2 .de plus le pourcentage dinertie sur laxe 3 est inferieur 10% donc ltude de cet axe napparait pas ncessaire. Dans notre enqute et daprs les rsultats prcdents, on peut se contenter dun facteur seulement que lon interprtera en saidant des tableaux contenant les contributions des variables dhygine et des observations a la construction de chaque axes. 2) Analyse des lignes et des colonnes du tableau Laxe 1 contient 40,19% de linformation initiale. Cet axe oppose dune part les individus qui respectent les normes de lhygine bucco-dentaire : excellente N (17,37), bonne N(15,43) , et dautre part les individus dans une situation extrme : mauvaise N(3,35) , trs mauvaise N(26,36) . Interprtation de laxe 1 : cest un facteur de diffrenciation entre les individus selon ltat dhygine dentaire. Laxe 2 contient 11,21% de linformation initiale, nanmoins il ne sinscrit pas dans la logique de lAFC. Analyse des correspondances multiples : Variables :type.visite, etat.sante, carie.actuel(oui,non), BROSSEZ-VOUS APRS CHAQUE REPAS ?, marque(Signal,Colgate,Miswak,Autre), demobrossage(oui,non), SEXE . 15

LANALYSE DES DONNEES

Autre prciser:

Autre Trs mauv aise

excellente aquaf resh sensody ne

moy enne Miswak oui

aquaf resh aquaf f resh resh

sensody ne sensody ne

f resh non non sante masculin

Oui f minin non oui Signal sensody ne

Mauv aise

Esthtique

Colgate

Bonne

Figure 4 La carte montre les positions des 20 modalits et les coordonnes des 45 observations. 51,40% de la variance est explique par les deux axes reprsents. Sur le graphe laxe 1 apparait immdiatement comme laxe de ltat dhygine croissant : a gauche (trs mauvais) a droite (excellent) , les autres catgories stagent entre ces deux extrmes. On note par ailleurs que chaque tat dhygine sloigne du centre dans la mme direction que le moyen de brossage utilis. Le moyen dominant (miswak) se trouve gauche ou la prsence du sexe masculin. Le moyen (signal) ou autre prciser (sensodyne) est dans la mme direction que la moyenne du sexe fminin ayant un bon tat dhygine dentaire. On note aussi que certains tat dhygine mal dfinie du point de vue sante sloignent du centre dans la direction perpendiculaire correspondant a laxe n2.Cet axe peut ici tre interprt : on remarque en effet que le bas du graphique est occup par les proccups par lesthtique alors que le haut comprend en majorit des adeptes de la prvention. Sans oublie la variable sante qui est commune au deux monde.

16

LANALYSE DES DONNEES


Pourquoi ne pas ajouter la variable qui dtermine la dure que prend lindividu pour changer la brosse afin de vrifier lhomognit de notre analyse et davoir la certitude que leffet de Gutmann a t vit.
Autre prciser:

Trs mauv aise Autre

excellente

4mois ou plus moy enne f minin Miswak Oui non non sante 03mois masculin Esthtique Mauv aise Oui

Signal

oui non

Colgate

Bonne

Figure 5 Lvidence que la variable (0a3mois) rejoint la partie gauche ceci dit les individus en bon tat change la brosse dans un dlai de moins de 3 mois alors que les individus en mauvais tat sont ceux qui ngligent cette prcaution dhygine dentaire.

17

Anda mungkin juga menyukai