Anda di halaman 1dari 3

TD 2 - Correction Analyse en Composantes Principales

Introduction

Question 1 Parmi touts les variables, quel est le couple de variables qui sont les plus corrles entre elles ? Les moins corrles entre elles ? Les variables les plus corrles entre elles sont vief et vieh (0, 91). Il nest pas tonnant que les esprances de vie des hommes et des femmes soient corrles. Les variables les moins corrles entre elles sont chom et depsoc (-0,19) : il y a peu de rapport entre les dpenses socales et le taux de chmage. Question 2 Pour chacun des couples ( chom ,depsoc ), ( pib , devel ) et ( spauvr , vieh ), commentez la rpartition des valeurs, identiez les ventuels individus anormaux et expliquez le lien avec les corrlations mesures. Le nuage correspondant (chom,depsoc), est assez uniformment rparti, mis part deux points qui correspondent des valeurs trs importantes du taux de chmage : en regardant les donnes, on voit quil sagit de sk (16, 7%) et pl (17, 9%). Ceci est cohrent avec la corrlation faible. Le couple (pib, devel) a une dpendance presque parfaitement linaire, ceci prs quun point a une valeur trs leve de pib. Il sagit de lu, qui prsente un PIB par habitant record de 278. Il est intressant de noter que ce point a lui seul semble expliquer une correlation mdiocre de 0, 69. Finalement, le couple (spauvr, vieh) exhibe bien une dpendance, mais celle-ci nest pas linaire. Le taux de corrlation de 0, 70 ne recouvre pas la mme ralit que pour (pib, devel). Il ny a pas vraiment ici de point singulier. Question 3 Quelle est la particularit de la variable chom ? On propose de changer son signe ; pourquoi est-ce naturel au vu de linterprtation des donnes ? La variable chom reprsente le taux de chmage ; alors que toutes les autres variables sont considres comme bonnes quand elles sont grandes, celle-ci doit tre aussi petite que possible. On remarque dailleurs que sa corrlation avec les autres variables est ngative. Si on change son signe, on obtient une variable qui sera corrle positivement avec les autres, ce qui simpliera lanalyse. Dans tout ce qui suit, on supposera que le signe de la variable chom a t chang.

Analyse en composantes principales

Question 4 Faire une reprsentation en histogramme des valeurs propres. Combien de composantes principales faut-il retenir ? Quel est le pourcentage dinertie totale explique par le sous-espace principal correspondant ? Les valeurs propres sont bien sr donnes par les variances des composantes principales. On obtient lhistogramme suivant pour les 5 premires valeurs propres :

Le critre de Kaiser ( > 1) conduit considrer les 2 premires valeurs propres. On pourrait tre tent de ne pas conserver la seconde, mais on en garde toujours au moins deux n de reprsentation. Linertie totale est 8 (car il y a 8 variables) et linertie porte par les 2 premiers axes est 5, 31 + 1, 02 = 6, 33. Cela reprsente 79% de linertie totale. Question 5 Quelles sont les variables qui dterminent les deux premires composantes principales (prciser les critres utiliss) ? Que peut-on dire de la premire composante principale ? On regarde les corrlations des variables avec les axes. Pour le premier axe, on remarque dabord que toutes les variables sont corrles ngativement avec lui. Il y a donc un eet taille (le fait que la corrlation soit ngative plutt que positive ne change rien). En prenant un seuil arbitraire de 0, 8, les variables les plus corrles avec le premier axe sont : devel (0, 96), spauvr (0, 95), vieh (0, 87), vief (0, 84). En ce qui concerne la seconde composante principale, on remarque que les corrlations sont beaucoup moins importantes. On notera seulement que cette composate oppose chom (0, 59) depsoc (0, 45). Question 6 Comment peut-on interprter les deux premiers axes principaux grce aux corrlations avec les variables ? La premier axe principal, qui est de facteur de taille , est corrl ngativement avec des variables qui renvoient une image positive des pays. Il est cependant dicile de donner un nom prcis cet axe (mauvaise sant socioconomique ?). Pour le second axe (qui est donc le facteur de forme ), on rappellera dabord que les valeurs des corrlations sont plutt faibles. Toutefois, on peut remarquer que les variables corrles positivement avec cet axe (en particulier chom et pib) sont des indicateurs de bonne sant conomique. Par opposition, les variables corrlles ngativement comme depsoc, vief et vieh, sont plutt reprsentative dune bonne situation sociale ou sanitaire. Question 7 Calculer la contribution de fr la premire composante principale, qui est manquante dans le tableau ( XXX ). Pour calculer cette valeur, on utilise le fait que la somme des contribution des individus laxe 1 doit faire 10000 dix-millimes. La contribution de fr est donc : 10000 470 177 1 696 145 = 245. Question 8 Quels sont les pays qui dterminent les deux premires composantes principales ? Y a-t-il des pays surreprsents ? On expliquera les critres choisis. Il faut comparer les contributions des pays leur poids, cest--dire 1/25 = 400/10000. On dcide de garder ceux dont les contributions sont suprieure 600, ce qui correspond des blocs clairement spars. Le signe nest pas donn par le tableau des contributions, il est donc ncessaire de se reporter la projection des individus. Les pays qui dterminent les deux premires composantes principales sont alors : axe 1 : en positif lt (0, 1413), lv (0, 1316), pl (0, 0915), sk (0, 0696), ee (0, 0719), hu (0, 0603) ; en ngatif lu (0, 0939). axe 2 : en positif lu (0, 2388), ee (0, 0705) ; en ngatif pl (0, 1089), fr (0, 0795), gr (0, 0708). Question 9 Quelle nouvelle interprtation de la premire composante principale obtient-on grce la projection des individus ? On peut remarquer que le premier axe principal spare peu prs les pays de leurope des 15 (en ngatif) des nouveaux entrants de lEurope des 25. Le Luxembourg se situe en dehors du nuage des autres points dune part parce 2

que son PIB par habitant est trs lev, mais aussi (pour le 2e axe) parce que son niveau de dpenses sociales en % du PIB est trs faible pour un pays de leurope des 15. Notons que cette faiblesse des dpenses sociales pourrait tre un eet doptique d la valeur leve de pib. Question 10 Quest-ce que la qualit de reprsentation des individus ? Quels sont les deux individus qui sont le plus mal reprsents par le premier plan principal ? La qualit de reprsentation des individus se mesure par le cosinus carr de langle que forme le point par rapport sa projection (en centrant autour du barycente des individus). Si cki est la coordonne de lindividu i sur laxe k, alors la qualit de reprsentation dun individu par le premier plan principal est : c2 + c2 1i 2i . c2 + c2 + + c 2 1i 2i 8i Il faut donc ajouter les deux premires colonnes du tableau des qualits de reprsentation (ce ne sont pas des valeurs cumules ici). Les donnes obtenues sont :
at be cy cz de dk ee es fi fr gr hu ie it 8007 9343 610 7926 6811 6786 8893 2833 7594 9252 6559 8277 7149 9110 lt lu lv mt nl pl pt se si sk uk 9704 7715 9941 1507 8572 8932 2672 8820 3400 7391 6107

Les deux individus les plus mal reprsents sur le premier plan principal sont sans conteste Chypre (cy) et Malte (mt).

Anda mungkin juga menyukai