dpartement de sociologie
Claire Durand
durandc@ere.umontreal.ca
Table des matires
Claire Durand - L'analyse factorielle et l'analyse de fidlit - 13 juillet 2005
1
2
3
3
4
17
18
19
19
Exemple:
- De faon mesurer la satisfaction des gens face leur travail, j'ai d'abord dtermin que celleci portait sur trois grandes dimensions: la qualit des relations interpersonnelles, la nature mme
du travail et les aspects extrinsques (salaire, horaire,...).
- Pour chacune des dimensions, j'ai pos quatre (4) questions du type "Etes-vous trs satisfait,
assez satisfait, peu satisfait ou pas du tout satisfait a) de la qualit de vos relations avec vos
collgues... b) de la qualit de vos relations avec vos suprieurs... c) de la qualit de vos
relations avec vos subordonns d) de la qualit gnrale des relations interpersonnelles votre
travail...
- En agissant ainsi, je suppose qu'une dimension gnrale de satisfaction face au climat des
relations interpersonnelles existe et que le positionnement des individus face cette dimension
"explique", "prdit" leur positionnement sur chacune des "variables mesures".
- Si cette hypothse est vraie, les personnes auront tendance rpondre de la mme manire aux
quatre questions portant sur cette dimension et leurs rponses ces questions seront plus
correles entre elles qu'avec les autres variables pour lesquelles on demande leur degr de
satisfaction.
- Cette perspective suppose aussi que l'on conoit que les variables mesures constituent un
chantillon de l'ensemble des variables aptes mesurer le concept choisi.
L'analyse factorielle tente de donner un sommaire des patrons de corrlations entre les
variables. Elle tente de dcomposer les patrons de corrlations pour les expliquer par un
nombre restreint de dimensions. Elle est souvent utilise comme mthode d'analyse
exploratoire en vue de crer des chelles.
Les quations:
Contrairement l'entendement intuitif, il faut comprendre que ce sont les rponses aux variables
mesures qui dpendent des scores aux facteurs et non pas l'inverse. Ainsi, l'analyse pose que
la rponse des individus diverses questions portant, par exemple, sur leur satisfaction face aux
relations avec leurs collgues ou avec leurs suprieurs dpend de deux lments: d'une part, la
satisfaction gnrale face aux relations interpersonnelles et d'autre part, un lment rsiduel qui
comprend l'erreur de mesure et un aspect unique propre la satisfaction spcifique qui est
mesure.
Les quations s'crivent ainsi:
S'il y a un seul facteur et trois variables:
x1 = b1F+U1
x2 = b2F+U2
x3 = b3F+U3
o:
et
Quoiqu'il soit possible de faire des rotations orthogonales ou obliques en ACP, cette utilisation ne
respecte pas les bases mmes de l'ACP, savoir une solution unique et des composantes indpendantes entre elles
qui expliquent chacune une proportion dcroissante de la variance.
Claire Durand - L'analyse factorielle et l'analyse de fidlit - 13 juillet 2005
La mention SPSS Windows rfre l'item ANALYSE FACTORIELLE du menu droulant ANALYSEFACTORISATION La mention SPSS syntaxe rfre la version UNIX ou PC ainsi qu ' la syntaxe que l'on peut
diter soi-mme dans la version Windows.
Claire Durand - L'analyse factorielle et l'analyse de fidlit - 13 juillet 2005
b) La mesure de Kaiser-Meyer-Olkin
Plus communment appel le KMO, la mesure de Kaiser-Meyer-Olkin est un indice
d'adquation de la solution factorielle. Il indique jusqu' quel point l'ensemble de variables
retenu est un ensemble cohrent et permet de constituer une ou des mesures adquates de
concepts. Un KMO lev indique qu'il existe une solution factorielle statistiquement acceptable
qui reprsente les relations entre les variables.
Une valeur de KMO de moins de .5 est inacceptable
.5 est misrable
.6 est mdiocre
.7 est moyenne
.8 est mritoire
.9 est merveilleuse (ref: SPSS professional statistics)
Le KMO reflte le rapport entre d'une part les corrlations entre les variables et d'autre part, les
corrlations partielles, celles-ci refltant l'unicit de l'apport de chaque variable.
On obtient le KMO
- en indiquant Indice KMO et test de Bartlett dans la fentre CARACTRISTIQUES
(SPSS Windows).
- en indiquant KMO dans la sous-procdure /PRINT (SPSS syntaxe)
c) Le test de sphricit de Bartlett:
Ce test vrifie l'hypothse nulle selon laquelle toutes les corrlations seraient gales zro. On
doit donc tenter de rejeter l'hypothse nulle i.e. que le test doit tre significatif (la probabilit
d'obtenir la valeur du test doit tre plus petite que .05). Toutefois le test est trs sensible au
nombre de cas; il est presque toujours significatif lorsque le nombre de cas est grand. Ses
rsultats sont donc intressants presque uniquement lorsqu'il y a moins de 5 cas par variable.
On obtient le test de sphricit automatiquement
- avec l'indication Indice KMO et test de Bartlett dans la fentre CARACTRISTIQUES
(SPSS Windows).
- avec l'indication KMO dans la sous-procdure /PRINT (SPSS syntaxe)
10
11
f) La structure obtenue
La structure obtenue, c'est--dire le tableau des corrlations entre les variables et les facteurs
(Matrice des composantes en rotation orthogonale et Matrice des types en rotation oblique), doit
tre simple, ce qui veut dire que chaque variable doit avoir une corrlation plus grande que .3
avec au moins un facteur et avec un seul facteur.
Ces matrices sont imprimes automatiquement
- en indiquant Structure aprs rotation dans la fentre ROTATION (SPSS Windows). Pour
avoir ces mmes tableaux avant rotation, on indique Structure factorielle sans rotation dans
la fentre EXTRACTION.
- en indiquant DEFAULT dans la sous-procdure /PRINT (SPSS syntaxe)
12
13
14
En rsum, voici les commandes pour l'analyse factorielle avec Spss -Windows:
6 Allez dans ANALYSE,
6 choisir FACTORISATION - ANALYSE FACTORIELLE
Dans le tableau principal de l'analyse factorielle
a) Choisir les VARIABLES que l'on veut analyser
b) Dans CARACTRISTIQUES :
c) Dans EXTRACTION :
- METHODE4
- EXTRAIRE
- AFFICHER
d) Dans ROTATION:
- MTHODE
- DISPLAY
e) Dans OPTIONS:
- VALEURS MANQUANTES
6 EXCLURE TOUTE OBSERVATION INCOMPLTE OU EXCLURE
SEULEMENT LES COMPOSANTES NON VALIDES OU
REMPLACER PAR LA MOYENNE
- AFFICHAGE DES PROJECTIONS
6CLASSEMENT DES VARIABLES PAR TAILLE
6SUPPRIMER LES VALEURS ABSOLUES INFRIEURES (.30)
Nota bene : On ne peut pas choisir plus d'une mthode la fois. C'est la mme chose pour les rotations.
Il est habituellement prfrable d'diter le fichier de syntaxe de faon pouvoir faire plusieurs analyses la fois,
sinon il faut diter le fichier Rsultats pour ne pas faire imprimer plusieurs fois les mmes informations.
Claire Durand - L'analyse factorielle et l'analyse de fidlit - 13 juillet 2005
15
SIGNIFICATION
16
/EXTRACTION PC
/ROTATION VARIMAX
/EXTRACTION ULS
/ROTATION VARIMAX
/ROTATION OBLIMIN.
*Dans SPSS Windows, il faut, pour chaque
extraction ou rotation, refaire la commande
dAnalyse facorielle au complet (i.e. choisir le
mode d'extraction appropri dans EXTRACTION
et la rotation dsire dans ROTATION). Il est
nettement prfrable d'diter la commande pour
demander les extractions et rotations pour un
ensemble de variables dtermin en une seule
commande. Attention, c'est dans la fentre
EXTRACTION que l'on demande le Graphique
des valeurs propres (Scree plot) ainsi que la
solution factorielle sans rotation et que l'on
dfinit les critres (nombre de facteurs et/ou
ditrations) le cas chant. Dans ROTATION,
on demande la Structure aprs rotation et les
cartes factorielles (loading plots).
17
Blalock (1968):
"Les sociologues thoriciens utilisent souvent des concepts qui sont formuls un assez haut
niveau d'abstraction. Ce sont des concepts relativement diffrents des variables utilises qui sont
le lot des sociologues empiriques... Le problme du lien entre la thorie et la recherche peut donc
tre vu comme une question d'erreur de mesure".
La mesure peut tre vue comme le "processus permettant de lier les concepts abstraits aux
indicateurs empiriques" (Carmines et Zeller, 1979).
Deux concepts cls: La fidlit et la validit
Fidlit:
Consistance dans la mesure : Jusqu' quel point plusieurs mesures prises avec le
mme instrument donneront les mmes rsultats dans les mmes circonstances.
Exemple: Je fais passer un questionnaire portant sur l'idologie deux fois aux
mmes personnes deux mois d'intervalle et j'obtiens des rsultats diffrents
entre les deux passations. Est-ce que l'idologie d'une personne peut changer si
vite ou si c'est l'instrument qui n'est pas fiable?
La fidlit demeure au plan empirique: elle dit si en soi l'instrument est un bon instrument.
Validit:
La validit concerne la relation entre la thorie et les concepts qui lui sont relis d'une part et
la mesure d'autre part: elle est concerne par l'adquation de la traduction du concept en mesure.
Plusieurs types de validit:
validit relie au critre: relation entre l'instrument et ce quoi il devrait thoriquement tre
reli. On parle de validit prdictive quand le critre est mesur aprs et de validit concurrente
quand le critre est mesur en mme temps.
validit de contenu: relation entre le /les concepts mesurer et l'instrument utilis. Un instrument
de mesure de l'alination mesurera le sentiment d'absence de pouvoir, d'absence de normes,
d'isolation sociale, etc. Ceci implique que le domaine et les concepts doivent tre bien dfinis.
18
validit de construit: relation entre l'instrument et d'autres instruments suppos mesurer des
concepts relis.
validit convergente et discriminante: voir analyse factorielle: Jusqu' quel point chaque
indicateur constitue une mesure d'un et d'un seul concept.
La fidlit:
6 Alpha de Cronbach:
19
o
et
Si les items sont standardiss de faon avoir la mme variance, la formule se modifie comme
suit:
o
et
Ce coefficient Alpha peut tre considr comme la moyenne des coefficients alpha que l'on
obtiendrait pour toutes les combinaisons possibles de deux sous-ensembles des items mesurant
un mme concept. Il peut aussi tre vu comme l'estim de la corrlation que l'on obtiendrait
entre un test et une forme alternative du mme test comprenant le mme nombre d'items.
Le coefficient alpha est la borne infrieure de la fidlit relle i.e la fidlit relle ne peut pas
tre infrieure la valeur du alpha et elle est gale cette valeur lorsque les items sont parallles
i.e. les scores vrais ont la mme moyenne et la variance d'erreur est la mme.
Remarquer que la valeur de alpha augmente avec le nombre d'items, mais ce la condition que
la corrlation moyenne inter-item ne soit pas diminue avec l'ajout de nouveaux items (i.e.
toutes choses gales par ailleurs). L'amlioration du alpha devient marginale au-del d'un
certain nombre d'items (environ 6-7).
20
Plusieurs outils sont disponibles pour valuer la fidlit d'un ensemble de variables. La
procdure POSITIONNEMENT-ANALYSE DE FIABILIT de SPSS permet d'examiner les
informations pertinentes:
Matrice de corrlation: Tout comme avec l'analyse factorielle, cette matrice permet de voir
jusqu' quel point les items sont corrls entre eux et quels items sont plus fortement corrls.
S'il s'avrait que deux concepts sont mesurs plutt qu'un seul, les corrlations pourraient nous
permettre de reprer cette possibilit.
21
Les statistiques d'items: les corrlations inter-items: Donnent les indications trs importantes
sur les diffrences de corrlations entre les items. Des corrlations trs faibles ou ngatives
devraient tre repres dans la matrice de corrlation et la pertinence de garder des items
montrant une corrlation ngative avec un ou plusieurs items value. Si cette situation existe,
soit que plus d'un concept est mesur, soit que certains items mesurent mal le concept ou que
l'chelle aurait due tre inverse pour cet item (Par exemple, dans le cas o des items sont
formuls ngativement et d'autres positivement).
22
d) Dans STATISTIQUES :
- CARACTRISTIQUES POUR
6 ITEM
6 CHELLE
6 CHELLE SANS LITEM
- PRINCIPALES STATISTIQUES
6 MOYENNES
6 VARIANCES
6 CORRLATIONS
6 COVARIANCES
- COHRENCE INTER-ITEM
6 CORRLATIONS
6 COVARIANCES
- TABLEAU ANOVA
6 AUCUN
6 (TEST F - teste qu'il n'y a pas de diffrence
significative entre les diffrentes mesures de
l'chelle)
- T carr de Hotelling
- Test dadditivit de Tukey
En rsum, la syntaxe:
RELIABILITY
/VARIABLES=q65c q65d q65e q65f q65g q65h
/FORMAT=LABELS
/SCALE(ALPHA)=ALL
/MODEL=ALPHA
/STATISTICS=DESCRIPTIVE SCALE CORR
/SUMMARY=TOTAL MEANS VARIANCE CORR .
11) Notes additionnelles
a) Relation entre l'analyse factorielle, l'analyse en composantes principales et l'analyse de
fidlit.
23
Le but premier de ces analyses est d'en arriver regrouper ensemble les items qui mesurent le
mme concept de faon ce qu'une addition des rponses un ensemble d'items constitue une
nouvelle mesure, composite, d'un concept. Par exemple, si on additionne les rponses de chaque
rpondant chacun des items mesurant la satisfaction envers un aspect extrinsque de son
travail, on obtiendra pour chaque rpondant une mesure de satisfaction extrinsque.
L'analyse en composantes principales (ACP) dcompose la matrice de corrlation en tenant
compte de l'ensemble de la variance des items. Elle en extrait un certain nombre de facteurs
indpendants. Le but de l'analyse en composantes principales est d'expliquer le plus de variance
possible avec un nombre de composantes le plus restreint possible. Aprs extraction, une part
seulement de la variance totale est explique. Le mode d'extraction et de rotation permet de
dterminer les sous-ensembles d'items qui sont plus fortement corrls entre eux et qui peuvent
donc constituer des mesures d'un nombre restreint de concepts.
L'analyse factorielle (AF) fait la mme chose que l'ACP mais tient compte uniquement de la
variance commune l'ensemble des items. Elle extrait des facteurs qui peuvent tre
indpendants ou corrls entre eux. Son but est de reproduire le plus fidlement possible la
matrice de corrlation. Comme l'ACP, elle permet de dterminer des sous-ensembles plus
fortement corrls entre eux.
Comme l'ACP et l'AF ne retiennent qu'une partie de la variance totale dans la solution finale, les
rsultats de l'analyse de fidlit peuvent contredire en partie ceux de l'analyse factorielle ou de
l'ACP. On peut expliquer cette situation par le fait que la variance commune d'un item est bien
relie celle d'un autre item mais que leurs variances spcifiques sont peu ou pas du tout
corrles ou mme en corrlation ngative. Comme l'analyse de fidlit considre l'ensemble
de la variance, cette situation peut faire qu'un item bien identifi un facteur en AF se rvle
un mauvais contributeur l'chelle.
24
Comme il est possible que certains rpondants n'aient pas rpondu tous les items d'un
ensemble donn, le nombre de cas valides peut varier d'une analyse l'autre selon que l'on retire
ou que l'on ajoute un item. Ceci peut modifier les rsultats. Il existe dans certaines procdures
des moyens d'estimer les valeurs manquantes, entre autres en remplaant la valeur manquante
par la moyenne du groupe. Comme rgle gnrale, les valeurs manquantes ne sont pas
estimes: les cas qui n'ont pas rpondu toutes les questions n'apparaissent pas dans l'analyse.
Nous n'avons pas le temps d'aborder toute cette problmatique durant le cours (Il existe dans
BMDP, par exemple, 15 manires diffrentes d'estimer les valeurs manquantes, chacune ayant
son biais propre) mais il demeure qu'il faut examiner les rsultats et la modification du nombre
de cas valides selon les analyses.
Bibliographie
Tabachnik,Barbara G.; Fidell,Linda S. (1996): Using multivariate statistics. Harper and Row,
New York. 509 pages.
Norusis,M. J. (1993): Spss professional statistics. SPSS, Chicago.
Norusis,M. J. (1993): Spss advanced statistics. SPSS, Chicago.
25
More confusion:
Because both solutions were derived by the same solution of the eigenvalue problem, the spectral
decomposition of a symmetric matrix, both analysis was performed with the same computer program.
You just told it: do you have the communality estimation or not. Some programmers, like the maker of
SYSTAT did not even understand the difference. Because the default value varied, so the naive users
kept on getting whatever the programmers had to think as the main method.
Still more confusion:
The calculation of the factor solution has been two stage. Earlier the first stage was calculated by the
'principal axes' method. Some people do not see the difference with 'principal axes' and 'principal
components'. They might have factors but they claim they have principal components.
Rotation
If you bother to stick to the definition of 'principal components' you will not rotate them, because if you
rotate, the maximum variance part is not true anymore.
More tradition
In some areas the use of multivariate methods was started during the time when the statistician felt that
PCA is the method and FA is some trick, there they swear still by PCA, because all the articles have
PCA.
GREED
Some like PCA better because it gives sometimes higher loadings, but for some reason they still want
to remove leaves and frogs from their blueberry pie.
Hope this helps.
- Lauri Tarkkonen
Lauri Tarkkonen / email: lauri.tarkkonen@helsinki.fi Tel:+358 0 666108
Korkeavuorenkatu 2 b B 11, 00140, Helsinki, Finland FAX +358 0 1913379