Anda di halaman 1dari 4

Bâtons juxstaposés

CHAPITRE VI
Analyses statistiques bivariées

1. Introduction
Les analyses bivariées
Elless consistent à étudier les variables prises en couple, via des
techniques descriptives ou probabilistes.
L’objectifs de ces études est :
• la mise en évidence d’un lien ou d’une absence de lien entre
2 variables ;
• lorsqu’il existe, l’étude de ce lien (sens, intensité).
Bâtons superposés

2. Couple qualitatif
Un couple de variables qualitatives est décrit par ses fréquences
conjointes dans un tableau tris croisés.
Les fréquences obtenues peuvent être calculées
• par rapport à l’effectif total ;
• par rapport aux effectifs marginaux, par ligne ou par colonne.

Exemple : Effectifs et fréquences


Tableaux croisés
Tableau croisé Mention * Lieu de travail Tableau croisé Mention * Lieu de travail
Effectif % du total
Lieu de travail Lieu de travail
Interna Interna
Limousin France tional Total Limousin France tional Total
Mention CAI 1 2 5 8 Mention CAI Bâtons superposés
2,9% à 10022,9%
5,7%
14,3% %
AGE 11 3 2 16 AGE 31,4% 8,6% 5,7% 45,7%
AGT 3 7 1 11 AGT 8,6% 20,0% 2,9% 31,4%
Total 15 12 8 35 Total 42,9% 34,3% 22,9% 100,0%
Lieu de 
100,0% travail
* Lieu de travail Tableau croisé Mention * Lieu de travail
Limousin
Tableau croisé Mention * Lieu de travail
% du total Tableau croisé Mention * Lieu de travail France
International
e travail % compris dans Mention
Lieu de travail % compris dans Lieu de travail
Lieu de travail
Interna Lieu de80,0%
travail
Interna Tableaux croisés
Limousin
Interna Tableau croisé Mention * Lieu de travail
ance tional Total Tableau croisé MentionFrance
* Lieu detional
travail Total
Internati
2 5 8 Mention CAI
Effectif Limousin
2,9% France14,3%
5,7% tional 22,9%
Total % du total
Mention AGECAI 12,5%
31,4% 25,0%5,7% 62,5%45,7%100,0% Limousin France onal
Total
3 2 16 Lieu de8,6%
travail Lieu de travail
60,0%
AGE 68,8% 18,8% Mention CAI 6,7% 16,7% 62,5% 22,9%
Interna12,5% 100,0%
AGT 8,6% 20,0% 2,9% 31,4%
Effectif

7 1 11 Interna
Total 42,9% AGE 73,3% 25,0% 25,0% 45,7%
12 8 35 AGT 27,3% 34,3% 63,6% 22,9%9,1% 100,0%
100,0%
Limousin France tional Total AGTLimousin France 58,3%
20,0% tional 12,5%
Total 31,4%
Total
Mention CAI 42,9%
1 34,3%
2 522,9% 8 100,0% Mention
Total CAI 2,9%
100,0%5,7%100,0%
14,3% 100,0%
22,9% 100,0%
n * Lieu de travail Tableau
AGE croisé Mention
11 * Lieu
3 de travail
2 16 AGE 31,4% 8,6% 40,0%
5,7% 45,7%
%Diagrammes
compris dans
AGT Lieu de travail
3 7 1 11 AGT 8,6% 20,0% 2,9% 31,4%
e travail
Exemple : Effectifs et fréquences (2)
Total 15 12
Lieu de travail 8 35 Total 42,9% 34,3% 22,9% 100,0%
Interna
20,0%
Internati
rance
on tional
* Lieu de travail Total Tableau
Tableaucroisé
croiséMention
Mention ** Lieu
Lieu de
de travail
travail Tableau croisé Mention * Lieu de travail
25,0% 62,5% 100,0% %% compris dans Limousin
Mention France onal Total % compris dans Lieu de travail
du total
Mention CAI 6,7% 16,7% 62,5% 22,9%
u 18,8%
de travail12,5% 100,0% AGE 73,3%
Lieu de travail
travail
25,0% 25,0% 45,7%
Lieu de travail
63,6% 9,1% 100,0% Interna 0,0%
Interna AGT 20,0% 58,3% Interna
12,5% 31,4% Internati CAI AGE AGT
34,3% 22,9% 100,0% Total Limousin
100,0% France tionaltional TotalTotal
France tional Total Limousin 100,0%
France 100,0% 100,0% Mention M1 AES
Mention Limousin France onal Total
2 5 8 MentionCAICAI 12,5%
2,9% 25,0% 14,3%
5,7% 62,5% 100,0%
22,9%
AGE 68,8% 18,8% 5,7%12,5% 100,0% Mention CAI 6,7% 16,7% 62,5% 22,9%
3 2 16 AGE 31,4% 8,6% 45,7% Tableaux croisés
AGE 73,3% 25,0% 25,0% 45,7%
7 1 11 AGT
AGT 27,3% 63,6% 2,9%
8,6% 20,0% 9,1% 100,0%
31,4%
AGT 20,0% 58,3% 12,5% 31,4%
12 8 35 Total
Total 42,9% 34,3%
42,9% 34,3% 22,9%
22,9% 100,0%
100,0% Total 100,0% 100,0% 100,0% 100,0%
Mesure du lien entre deux variables qualitatives
ntion * Lieu de travail Diagrammes
Tableau croisé Mention * Lieu de travail Le lien existant entre deux variables quantitatives peut se mesu-
% compris dans Lieu de travail
u de travail Lieu de travail
rer à l’aide de l’écart à l’indépendance ϕ2 ou de sa version norma-
Interna
Internati
lisée appelée V de Cramer :
France tional Total
25,0% 62,5% 100,0% Limousin France onal Total
18,8% 12,5% 100,0% Mention CAI 6,7% 16,7% 62,5% 22,9%
V =du0Khi-deux
• Tests : les variables sont indépendantes ;
AGE 73,3% 25,0% 25,0% 45,7% Signific
63,6% 9,1% 100,0%
34,3% 22,9% 100,0% Total
AGT 20,0%
100,0%
58,3%
100,0%
12,5%
100,0%
31,4%
100,0%
• V = 1 : lesValeur
variables
ddl
sont.
(totalement) liées.
Khi-deux de Pearson 16,101a 4 ,003
Rapport de vraisemblance 14,796 4 ,005
Association linéaire par linéaire 2,449 1 ,118
Nombre d'observations valides 35
a. 7 cellules (77,8%) ont un effectif théorique inférieur à 5.
Vincent Jalby – Université de Limoges – M1 AES - Analyse des données – 2018-2019 – VI. Analyses statistiques bivariées Page 1
L'effectif théorique minimum est de 1,83.
Tests du Khi-deux
Signific
Valeur ddl . Mesures symétriques
Khi-deux de Pearson 16,101a 4 ,003
Tests du Khi-deux Valeur Signific.
Valide Transport
Manquant Total
Ressources Temps de
N
processeur
Pourcentage /FORMAT=AVALUE
N00:00:00,01
Pourcentage N Pourcentage
Sexe * Transport 200 100,0% 0TABLES 0,0% 200 100,0%
Temps écoulé 00:00:00,00
/STATISTICS=PHI
Dimensions
Exemple : V = 0.359 demandées /CELLS=COUNT
2 3. Couple quantitatif
Tableau croisé Sexe * Transport
Cellules
/COUNT ROUND CELL.
Effectif disponibles 524245
Ressources Temps de
Transport
La description exhaustive d’un couple de variables quantitatives
processeur 00:00:00,01
n’est pas possible. On peut par contre
Transport en
Récapitulatif
Vélo de traitement
commun des observations
Voiture Total
Temps écoulé 00:00:00,00
Sexe Homme 20 30 5Observations
0 100
• en faire une représentation graphique ;
Femme 5 0Dimensions
Valide 30 2 0Manquant
100 2
Total
demandées6 0
Total N 70 Pourcentage N7 0 200
Pourcentage •N étudier le lien entre les deux variables.
Pourcentage
Sexe * Transport 2 0 0Cellules
100,0% 0 0,0% 200 100,0%
disponibles 524245
Mesures symétriques
Exemple : V = 0 Tableau croisé Sexe * Transport Exemple : vente d’immeubles par Agence Immobilière
Signification
Effectif Récapitulatif • Prix : prix (effectif) de vente de l’immeuble ;
de traitement des observations
approximative
Valeur
Nominal par Transport
Phi ,359 ,000
Nominal Transport en
V de Cramer commun
,359 ,000
• Appartement : nombre d’appartements dans l’immeuble ;
Observations
Vélo Voiture Total
N d'observations valides Valide
200 Manquant Total;
• Age : âge de la construction
Sexe Homme 20 30 50 100
Femme 20 N 30Pourcentage
50 100 N Pourcentage N Pourcentage
• Terrain : superficie du terrain ;
Sexe * Transport 4 0
Total 2 0 0 6 0 100,0% 100 200 0 0,0% 200 100,0%
CROSSTABS • Parking : nombre de parkings ;
/TABLES=Sexe BYMesures symétriques
Transport
Exemple : V =Tableau
1
/FORMAT=AVALUE croisé Sexe * Transport
TABLES
• Superficie : superficie totale des appartements.
/STATISTICS=PHI Signification
Effectif Valeur approximative
/CELLS=ROW
/COUNTpar
Nominal ROUND CELL.
Phi Transport
,000 1,000
Nominal V de Cramer ,000 1,000
Vélo Voiture Total
Tableaux croisés
N d'observations valides 200
Sexe Homme 0 100 100
Femme 100 0 100
Total 100 100 200
DATASET ACTIVATE Jeu_de_données0.

SAVE OUTFILE='/Users/vincent/Desktop/lien_quali.sav'
/COMPRESSED.
TestCROSSTABS
du Khi-Deux Page 6
Lorsque les donnéesBYsont
/TABLES=Sexe issues d’un échantillon, le test du khi-
Transport
deux permet de vérifier
/FORMAT=AVALUE l’existence du lien.
TABLES
/STATISTICS=PHI
Lorsque la signification (sig.) de ce test est inférieure à 5 % ou
/CELLS=COUNT
10 %,/COUNT
on peutROUND CELL. qu’il existe un lien significatif entre les
considérer
deux variables. croisés
Tableaux
L’étude plus précise de ce lien utilise une technique multi-
dimensionnelle : l’analyse des correspondances.
Page 2
Lien entre deux variables quantitatives
Exemple Pour mesurerPage 5 entre X et Y, on utilise le coefficient de cor-
le lien
rélation linéaire :
∑( x i − x )( y i − y )
r= σx σy
∈ [−1, +1]

Il mesure l’intensité de la liaison linéaire :

Y = aX + b

Discussion suivant les valeurs de r


• r = 0 : il n’existe pas de lien (linéaire) entre X et Y
• r = 1 : il existe un lien positif entre X et Y :

Y = aX + b avec a>0

• r = −1 : il existe un lien négatif entre X et Y :

Y = aX + b avec a<0

Vincent Jalby – Université de Limoges – M1 AES - Analyse des données – 2018-2019 – VI. Analyses statistiques bivariées Page 2
Exemple
&[PageTitle]

Corrélations

Prix Appartement Age Terrain Parking Superficie


Prix Corrélation 1 ,923** -,114 ,742** ,225 ,968**
Sig. ,000 ,586 ,000 ,280 ,000
N 25 25 25 25 25 25
Apparte Corrélation ,923** 1 -,014 ,800** ,224 ,878**
ment Sig. ,000 ,946 ,000 ,281 ,000
N 25 25 25 25 25 25
Age Corrélation -,114 -,014 1 -,191 -,363 ,027
Sig. ,586 ,946 ,360 ,075 ,898
N 25 25 25 25 25 25
Terrain Corrélation ,742** ,800** -,191 1 ,167 ,672**
Sig. ,000 ,000 ,360 ,425 ,000
N 25 25 25 25 25 25
Parking Corrélation ,225 ,224 -,363 ,167 1 ,089
Sig. ,280 ,281 ,075 ,425 ,671
N 25 25 25 25 25 25
Superfi Corrélation ,968** ,878** ,027 ,672** ,089 1
cie Sig. ,000 ,000 ,898 ,000 ,671
N 25 25 25 25 25 25
**. La corrélation est significative au niveau 0.01 (bilatéral).

Lorsque Sig. < 5 % ou 10 %, la corrélation est significative.


Exemple : r = −0363.

Exemple : r = 0.968

&[PageTitle]

20

Page 1

15

Régression linéaire
La régression linéaire a pour but d’étudier en détail la liaison li-
Parking

néaire entre 2 variables quantitatives à partir du modèle :


10

Exemple : r = 0.742 Y = aX + b + Erreur


5 Total = Régression + Résidu
Elle a pour but
• de vérifier la qualité de l’ajustement linéaire ;
0

• d’estimer les paramètres a et b. 20 40 60 80

Age

Exemple : qualité de l’ajustement


Régression
Variables introduites/éliminéesb

Variables Variables
Modèle introduites éliminées Méthode
1 Superficiea . Introduire
a. Toutes variables requises introduites
b. Variable dépendante : Prix

Récapitulatif du modèle

Erreur
standard de
Modèle R R-deux R-deux ajusté l'estimation
1 ,968a ,937 ,934 54148,601
&[PageTitle]
a. Valeurs prédites : (constantes), Superficie
ANOVAb

Somme des
Modèle carrés ddl Carré moyen F Signification
1 Régression 1,01E+012 1 1,006E+012 343,250 ,000a
Résidu 6,74E+010 23 2932071036
Total 1,07E+012 24
a. Valeurs prédites : (constantes), Superficie
b. Variable dépendante : Prix

Exemple : r = −0.114 Coefficientsa

Coefficients non Coefficients


standardisés standardisés
Vincent Jalby – Université de Limoges – M1 AES - Analyse des données – 2018-2019 – VI. Analyses
Modèle
statistiques
B
bivariées
Erreur
standard Bêta t Signification
Page 3
1 (constante) 57203,322 16611,673 3,444 ,002
Superficie 219,995 11,874 ,968 18,527 ,000
a. Variable dépendante : Prix
a. Utilise la taille d'échantillon de la moyenne harmonique = 11,077.
Somme des b. Les effectifs des groupes ne sont pas égaux. La moyenne harmonique des effectifs des groupes est utilisée. Les
Modèle carrés ddl Carré moyen F Signification niveaux des erreurs de type I ne sont pas garantis.
1 Régression 1,01E+012 1 1,006E+012 343,250 ,000a
Résidu 6,74E+010 23 2932071036
Total 1,07E+012 24
a. Valeurs prédites : (constantes), Superficie Diagrammes des moyennes
Exemple : Estimation des coefficients
b. Variable dépendante : Prix

Coefficientsa

1800
Coefficients non Coefficients
standardisés standardisés

Moyenne de Salaire mensuel net


Erreur
Modèle B standard Bêta t Signification
1 (constante) 57203,322 16611,673 3,444 ,002
Superficie 219,995 11,874 ,968 18,527 ,000
a. Variable dépendante : Prix 1700
A 1 facteur
A 1 facteur
Descriptives
1000000
Prix = 220 × Superficie + 57 203 + Erreur Descriptives
Salaire mensuel net
1600
Salaire mensuel net Intervalle de confiance à 95
Intervalle de confiancepour la moyenne
à 95%

800000
Erreurpour la moyenne
Borne Borne
N Moyenne Erreur
Ecart-type Borne
standard inférieure
Borne supérieu
A 1 facteur standard inférieure supérieure
N Moyenne Ecart-type Minimum
1500
CAI 8 1806,25 332,133 117,427 1528,58 2083,
CAI 8 1806,25 332,133
Descriptives 117,427 1528,58 2083,92 1450
AGE 16 1558,75 130,735 32,684 1489,09 1628,
SalaireAGE
mensuel net 16 1558,75
CAI 130,735 AGE 32,684 1489,09
AGT 1628,41 1300
600000 AGT 12 1531,67 164,694
Intervalle
47,543
de confiance à 95%
1427,02 1636,
AGT 12 1531,67 164,694
Mention M1 AES47,543 1427,02 1636,31 1230
Total 36 1604,72 pour la moyenne 37,265
223,587 1529,07 1680,
Prix

Total 36 1604,72 223,587


Erreur Borne37,265 Borne 1529,07 1680,37 1230
N Moyenne Ecart-type standard inférieure supérieure Minimum Maximum
Test d'homogénéité
Test d'homogénéité des variances
CAI 8 1806,25 332,133des variances
117,427 1528,58 2083,92 1450 2500
400000
AGE Salaire 16 1558,75 130,735 32,684 1489,09 1628,41 1300 1750
Salaire mensuel netmensuel net
AGT 12 1531,67 164,694 47,543 1427,02 1636,31 1230 1800
Statistique Statistique
Total 36 1604,72 223,587 37,265 1529,07 1680,37 1230 2500
de Levene de Leveneddl1 ddl1
ddl2 ddl2
Signification Signification
Test d'homogénéité 2,121
des variances
2,121 2 3 32 3 3
,136 ,136
200000
Salaire mensuel net [3ex]
R-deux linéaire = 0,937
Statistique ANOVA à 1 ANOVA
facteur à 1 facteur
de Levene ddl1 ddl2 Signification Page 2
Salaire
2,121 mensuel
2 net
Salaire mensuel
33 net ,136
0 Somme des Somme des Moyenne des Moyenne des
ANOVA à 1 facteur
carrés ddl
carrés carrés
ddl F
carrés Signification
F Signification
Salaire mensuel net
0 1000 2000 3000 4000 Inter-groupes 422768,056422768,056
Inter-groupes
Somme des Moyenne des
2 211384,028
2 5,257
211384,028 ,010
5,257 ,010
Intra-groupes carrés 1326929,17
ddl carrés 3 3 F Signification
40209,975
Superficie Intra-groupes 1326929,17 33 40209,975
Inter-groupes
Total 422768,056 2 211384,028
35 5,257 ,010
Intra-groupes Total 1749697,22
1326929,17 3 3 1749697,22
40209,975 35
Tests post
Total
hoc
1749697,22 35

Tests post hoc


Tests post hoc
Comparaisons multiples
Page 8 Comparaisons multiples Comparaisons multiples
Variable dépendante: Salaire mensuel net
Variable dépendante: Salaire mensuel net
Test Variable dépendante:
de Tukey Salaire mensuel net
Test de Tukey
Test de Tukey Différence Différence Intervalle de confiance à 95%Intervalle de con
de de Différence Borne
(I) Mention M1 (J) Mention M1 moyennes Erreur Borne Borne
(I) Mention M1 (J) Mention M1 moyennes
standard deErreur inférieure supérieure
AES AES (I-J) Signification
CAI
AES (I)
AGEMention AES
M1 (J) Mention
247,500
* M1(I-J)
86,830
standard
moyennes
,020 34,44
Erreur 460,56 inférieure
Signification
CAI AES
AGT AGE AES * 247,500
91,526
*
(I-J)
,01486,830 50,00
standard,020499,17
Signification
34,44
274,583
86,830 * * -460,56
AGE CAI
CAI AGT 7 , 5 0 0*
- 2 4AGE 274,583 ,02091,526
247,500 86,830
,014-34,44 ,020
50,00
AGT
AGE CAI 27,083 76,576 * ,934 * -160,82 214,99 86,830 ,020 - 4 6,014
0,56
AGT -247,500 274,583 91,526
AGT - 2 7 4 , 5 8 3* 91,526 CAI ,014
*
-499,17 -50,00
AGT CAI 27,083 AGE -24 7 , 76,576 ,934
5 0 0 - 2 1 4 , 9 9 86,830 - 1 6,020
0,82
-2 7,083 76,576 AGE ,934 160,82
AGT CAI AGT
*. La différence moyenne est significative au niveau 0.05.
- 2 7 4 , 5 8 3* 91,526
27,083 ,014
76,576 - 4 9,934
9,17
AGE -27,083
AGT CAI - 2 7 4 , 76,576
5 8 3* ,934
91,526 - 2 1,014
4,99
Sous-ensembles homogènes
*. La différence moyenne est significative
AGE au niveau 0.05.- 2 7 , 0 8 3 76,576 ,934
*. La différenceSalaire
moyennemensuel net au niveau 0.05.
est significative
Sous-ensembles
a,b
homogènes
Test de Tukey
Sous-ensembles homogènes
Sous-ensemble pour alpha =
0.05
Mention M1 AES N 1 2
AGT 12 1531,67
AGE 16 1558,75
4. Couple Quali/Quanti CAI 8 1806,25
Signification ,946 1,000
L’étude du lien entre une variable quantitative et une variable Page 1
Les moyennes des groupes des sous-ensembles homogènes
qualitative : Analyse de la variance (ANOVA). sont affichées.
a. Utilise la taille d'échantillon de la moyenne harmonique = 11,077.
• Si les deux variables sont liées, la variable quantitative aura
b. Les effectifs des groupes ne sont pas égaux. La moyenne harmonique des eff
des moyennes significativement différentes sur chacun des niveaux des erreurs de type I ne sont pas garantis.
37
groupes définis par la variable qualitative. 2500

• L’hypothèse H0 est du type :


2250

Moyenne G1 = Moyenne G2 = Moyenne G3 Diagrammes des moyennes


Salaire mensuel net

2000

Exemple 1750
Les salaires (moyens) des anciens étudiants de M1 AES sont-ils 1800
liés à la mention suivie ?
Moyenne de Salaire mensuel net

A 1 facteur 1500

Descriptives
Salaire mensuel net
Intervalle de confiance à 95% 1250
pour la moyenne
Erreur Borne Borne
N Moyenne Ecart-type standard inférieure supérieure Minimum Maximum
1700 CAI AGE AGT
CAI 8 1806,25 332,133 117,427 1528,58 2083,92 1450 2500
AGE 16 1558,75 130,735 32,684 1489,09 1628,41 1300 1750 Mention M1 AES
AGT 12 1531,67 164,694 47,543 1427,02 1636,31 1230 1800
Total 36 1604,72 223,587 37,265 1529,07 1680,37 1230 2500

Test d'homogénéité des variances


Salaire mensuel net
Statistique
Vincent Jalby – Université
de Levene ddl1
ddl2
de Limoges – M1 AES - Analyse des données – 2018-2019 – VI. Analyses statistiques bivariées
Signification
Page 4
2,121 2 33 ,136 1600
ANOVA à 1 facteur
Salaire mensuel net
Somme des Moyenne des
carrés carrés

Anda mungkin juga menyukai