Psy5520 - Cours 8 - Méthodes Alternatives

Régression multiple:
Méthodes alternatives
PSY-5520
Méthodes alternatives de
régression
 Multicollinéarité:
 Reformulation du modèle
 Régression sur les composantes principales
 Régression ‘ridge’
 Mauvais ajustement du modèle:
 Régression non-linéaire
 Régression polynômiale
 Régression segmentée
 Non normalité de la distribution des résidus et
présence de scores extrêmes:
 Régression robuste
 Régression pondérée
Régression Non Linéaire
Modèles intrinsèquement
linéaires
linéaires (Suite)
Régression polynômiale
 Modèles linéaires comportant un ou plusieurs termes
d’ordre supérieur
 Modèle quadratique:
Y = β 0 + β1 xi + β 2 xi2 xi = X i − X
 Modèle cubique:
Y = β 0 + β1 xi + β 2 xi2 + β 3 xi3 xi = X i − X
 Modèle polynômial général:
Y = β 0 + β1 xi + β2 xi2 + ... + βp xip xi = Xi − X

Transformation de la variable
indépendante
 En général, la corrélation entre X et Xp est très
élevée, ce qui se traduit par une forte collinéarité
 Pour réduire le problème, on centre X par rapport à
la moyenne:
Exemple numérique
 Relation entre le nombre de superviseurs et la
performance dans une ligne de montage
Exemple numérique
Exemple numérique
Yi = 705.474 + 54.893 xi − 4.249 xi2

non-linéaires (Exemples)
− e ( b−cX )
• Modèle de f ( x ) = ae
Gompertz:
a
f ( x) = ( b − cX )
• Modèle logistique: 1+ e
-(bX )c
f(x) = a[1 - e ]
• Modèle de Weibull:
Paramètres: a, b et
c
Critère des moindres
carrés et régression non-
linéaire
 Étant donné la fonction Y' = f(X,θ ), on
recherche le vecteur des coefficients θ qui
minimise fE = Σ [Y - f(X,θ )]2
 Dans le cas d’un modèle linéaire, une solution
unique existe et on l’obtient par la solution
des équations normales
 Dans le cas d’un modèle non-linéaire, il
n’existe pas de solution unique à ce système
d’équations: on doit procéder par optimisation
Surfaces & Contours
Σ (Y-
x2
Y’)2
Illustration
x1
Σ (Y-
Y’)2
Fonction d’erreur:
représentation graphique
• Cas non-linéaire: il peut

exister plusieurs
minima ou maxima
• Cas linéaire: un seul

minimum existe
Exemple 1
15.3
− bX
15.2
Y ' = ae
15.1
15.0
Y
0 2 4 6 8 10
X
SPSS
SPSS
SPSS
SPSS
SPSS
Exemple: Réponse à un
médicament
− e( b−cX )
Y ' = ae
y = Réponse
x = dosage
Détermination des
paramètres initiaux
 Travaux antérieurs
 Nature du modèle: détermination

analytique
 Essais et erreurs (grille)
 linéarisation
SPSS: Régression non
linéaire
linéaire
linéaire
linéaire
Régression segmentée
Régression Linéaire Simple

Définition
 Supposons qu’une variable a un effet linéaire à
l’intérieur d’une certaine étendue de ses valeurs,
mais un effet linéaire différent pour une autre
étendue…
 Régression segmentée:
 permet un changement dans la pente
 Le modèle implique deux ou plusieurs segments
 Le vrai modèle est continu, mais avec une brisure structurale
Exemple: segments
continus
y = a1 + b1 x pour x ≤ c
y = a2 + b2 x pour x > c
a1 + b1c = a2 + b2 c
a2 = a1 + c(b1 − b2 )
Y y = a1 + b1 x pour x ≤ c
y = [ a1 + c(b1 − b2 )] + b2 x pour x > c
X
Définition
 Supposons qu’une variable a un effet linéaire à
l’intérieur d’une certaine étendue de ses valeurs,
mais un effet linéaire différent pour une autre
étendue…
 Régression segmentée discontinue:
 permet un changement dans la pente ET dans l’intercept
 Le modèle implique deux ou plusieurs segments
 Le vrai modèle n’est pas continu au niveau de la brisure
structurale
Problème
 Où se trouve(nt) le(s) point(s) de
rupture?
 L’utilisation de critère statistiques est
dangereuse
 Il est préférable de définir ce(s)
point(s) sur la base de la théorie
Modèle
 Régression segmentée, continue:
Y ' = b0 + b1 X + b2 C ( X − PRUPTURE ) 
C = 1: X > PRUPTURE
C = 0: X ≤ PRUPTURE
 Régression segmentée, discontinue:
Y ' = b0 + b1 X + b2C + b3 C ( X − PRUPTURE ) 
C = 1: X > PRUPTURE
Exemple numérique
 Fichier: Regseg_Ex1.sav
Ruptur
eà
x=303
Exemple numérique
 Création d’une variable indiquant que X est
plus petit (C=0) ou plus grand (C=1) que le
point de rupture (303):
Exemple numérique
 Création d’une variable telle que:
PR = (X – 303) x C
Exemple numérique
 Régression: Y en fonction de X et de PR:
 Régression: Y en fonction
de X et de PR:
 Sous X=303, le
coefficient de
régression n’est pas
significatif
 À partir de X=303, la
pente passe à
0.567+0.007 =
0.574, un
accroissement qui est
significatif…
Exemple numérique
 Régression: Y en fonction de X et de PR:
 Régression: Y en fonction
de X et de PR:
 Sous X=303, le
coefficient de
régression n’est pas
significatif
 À partir de X=303, la
pente passe à
0.567+0.007 =
0.574, un
accroissement qui est
significatif…
Syntaxe SPSS
RECODE X (0 THRU 303 = 0)(303 THRU HI = 1) INTO C.
COMPUTE PR = C * (X – 303).
REGRESSION
/VARIABLES = Y X PR
/DEPENDENT = Y
/ ENTER X
/ ENTER PR.
Régression Segmentée
Discontinue
 Relation discontinue à une valeur donnée de la
variable indépendante
Ruptur
eà Y ' = b0 + b1 X + b2C + b3  C ( X − PRUPTURE ) 
x=45 C = 1: X > PRUPTURE
Discontinue
 Données:
Discontinue
 Résultats:
Discontinue
 Résultats:
 Résultats:
 Sous X=45, Y augmente de 0.63 unités
pour chaque augmentation d’une unité
dans X. Ce résultat n’est pas
significativement différent de zéro
 À X=45, le saut est de 30.931 unités,
résultat significatif
 Au-dessus de X=45, Y augmente de
2.72+0.633 = 3.35 unités pour chaque
augmentation d’une unité dans X. Ce
résultat est significatif
CORRECTION DE
L’HÉTÉROSCÉDASTICITÉ
Moindres Carrés Généralisés
Régression Robuste
Moindres Carrés
Généralisés
 Compléter une régression OLS et sauvegarder les valeurs résiduelles
 Calculer le logarithme naturel du carré des valeurs résiduelles
'
YLN = ln(e2 )
 Compléter une régression OLS en utilisant Y’LN comme variable
dépendante et en incluant toutes les variables indépendantes
 Sauvegarder les valeurs prédites (Y’)
 Créer une nouvelle variable définie par : 1
W= Y'

e
Compléter une régression OLS en utilisant W comme pondération
 Les résultats de cette régression sont de manière approximative,
corrigés pour l’hétéroscédasticité
Moindres Carrés Généralisés:
Exemple numérique
 Fichier: CPS83.SAV
 Variables:
 Dépendante: Wklywage
 Indépendante: yrseduc
 Diagramme de dispersion:
 Hétérocédasticité évidente…
 Régression GLS indiquée…
Exemple numérique
 Régression OLS & Sauvegarde des valeurs résiduelles
Exemple numérique
 Régression OLS & Sauvegarde des valeurs résiduelles
Exemple numérique
 Calcul du logarithme naturel du carré des valeurs résiduelles:
Exemple numérique
 Régression OLS en utilisant Y’LN comme variable dépendante et
en incluant toutes les variables indépendantes et sauvegarde
des valeurs prédites (Y’)
Exemple numérique
 Régression OLS en
utilisant Y’LN
comme variable
dépendante et en
incluant toutes les
variables
indépendantes et
sauvegarde des
valeurs prédites
(Y’):
Exemple numérique
 Calcul des
pondérations:
1
W= '
eY
Exemple numérique
 Compléter une
régression
pondérée:
Comparaison OLS vs GLS
Régression Robuste
Régression ‘OLS’
 Lorsque tous les prérequis sont
respectés, la régression multiple
régulière est optimale:
 Produit des estimations des coefficients
de régression qui ont de bonnes
propriétés statistiques
 Dans le cas contraire, la méthode peut
produire des résultats inappropriés
Régression robuste:
Introduction
 Alternative à la régression linéaire
lorsque les conditions ne sont pas
idéales
 Distributions non normales
 Présence de cas extrêmes
 Hétéroscédasticité
 Méthode dont les prérequis sont
moins restrictifs que dans le cas de
la régression ‘OLS’
Effets des cas extrêmes
 Ils peuvent avoir une influence importante sur
la régression
 Aucun cas extrême: l’influence de chaque cas est 1/n
 Cas extrêmes présents: le poids attribué à ces cas
peut atteindre des proportions suffisantes pour se
traduire par des distortions importantes dans les
résultats
 Leur présence rend leur détection plus difficile:
 Ils attirent vers eux le plan de régression
 Les valeurs résiduelles sont plus faibles qu’elles ne
devraient l’être
Régression robuste:
objectif
 Identifier les cas extrêmes
 Diminuer l’influence de ces cas et
l’impact qu’ils ont sur les
estimations des coefficients de
régression
 Maintenir élevée la valeur des
résidus qui leur sont associés
Estimateurs L
 Obtenus en minimisant la somme d’une
fonction des résidus:
OLS L2:
∑ ( Y − Y ') = minimum

2
 OLS L1:
∑ Y − Y ' = minimum
 OLS Lp:
∑ Y − Y ' = minimum
p
1≤ p ≤ 2
L1 = Min(abs(résidus))
100
80
60
40
20 L1 - PRED
X
OLS Pred
0 X
Y
-20 X
0 10 20
SPSS: Fonction à
minimiser
Fonction à minimiser: L1
Régression pondérée: Étapes
 Estimer l’équation de régression
(OLS) et analyser (et sauvegarder)
les résidus
 Si aucun problème est apparent,
conserver cette solution
 S’il y a problème: RÉGRESSION
PONDÉRÉE
Régression pondérée:
Étapes
 Utilisant la procédure NONLIN, effectuer une régression
utilisant le critère L1, et sauvegarder les valeurs
résiduelles non-standardisées
 Calculer une nouvelle variable:
NEWY = ABS(résidus)
 Calculer une régression linéaire NEWY vs X, et
sauvegarder les valeurs prédites (pred)
 Est-ce que les valeurs résiduelles varient en fonction de X?
 Calculer les poids: W = 1/pred**2
 Plus la valeur résiduelle est grande, plus son poids est petit…
 Exécuter une régression pondérée (OLS)
Relation entre le taux de
mortalité dans les grands
Exemple centres urbains et le taux de
pollution atmosphérique
Sauvegarde des résidus
non standardisés
Résultats avant
pondération
Calcul de abs(résidus)
Newy versus X et sauvegarde
des valeurs prédites
Poids
Régression pondérée
Régression pondérée
SPSS: Estimation des
pondérations
Variable liée aux

variationsÉtendue
dans la de la
dispersion despuissance
erreurs
à examiner
pondérations
On recherche la
plus petite
valeur de la
fonction de
vraisemblance
maximale…
1
w = 1.8
Xi
pondérations
La variable
wgt_1 contient
les pondérations
recherchées…
SPSS: Régression pondérée
SPSS: Relation entre X et W
Les points observés

pour les valeurs
élevées de X ont
moins de poids que
ceux observés pour
les valeurs faibles
de X: correction
pour
l’hétérocédasticité
…
Estimateurs M
 Obtenus en minimisant une fonction telle
que:
 ei
  yi − xβ
'

∑ ρ  s
=∑ρ

i
s 
 = minimum

median ei − median( ei )
s=
0.6745
 La constante 0.6745 fait de s une
estimation non biaisée de σ lorsque n est
grand et que la distribution de l’erreur est
normale
Estimation M: procédure
1. Obtenir un ensemble de valeurs initiales pour les
coefficients de régression (eg ceux que l’on
obtient par OLS)
2. Calculer les résidus à partir des données de
l’étape précédente
3. Obtenir un ensemble de pondérations (Wi)
initiales:
1. 0 ≤ Wi ≤ 1
2. Wi est faible pour les grands résidus
3. Wi est grand pour les petits résidus
4. La relation entre Wi et les résidus est déterminée par la
fonction d’influence
Estimation M: procédure
(Suite)
4. Utilisant les pondérations obtenues en (3),
compléter une régression pondérée pour
obtenir un nouvel ensemble de coefficients
de régression
5. De (4), obtenir un nouvel ensemble de
résidus et retourner à l’étape 3
6. Ré-itérer les étapes 3-5 jusqu’à ce qu’il n’y
ait plus de changement important entre
deux itérations successives
Fonction d’influence
 Contrôle le poids attribué à chaque observation
 La plupart des fonctions d’influence impliquent des
résidus ré-échelonnés définis par:
ei median ei − median(ei )
ui = , s=
s 0.6745
 s est une alternative résistante basée sur la médiane
des résidus (MAD: ‘Median Absolute Deviation’)
 Lorsque la distribution des erreurs est normale, MAD
sera très près de l’erreur standard d’estimation
 Lorsque la distribution des erreurs n’est pas normale,
MAD sera plus résistant que l’erreur standard
d’estimation
Fonctions d’influence .
 OLS:
 Wi = 1 pour tout i
 tous les cas ont un poids de 1
 LAV (Least-Absolute-
Values):
 Wi = 1 / |ui| (pour ui ≠ 0)
 Problème: pour les valeurs
rapprochées de 0, les poids
sont trop élevés!
Fonctions d’influence
 Fonction de Huber:
 Wi = 1 if |ui| ≤ c
 Wi = c/|ui| if |ui| > c
 Diminue graduellement le poids des cas associés à des résidus
supérieurs à une constante d’ajustement c
 Plus c est grand, plus cette fonction s’approche de OLS
 La fonction d’influence n’atteint jamais 0: aucun cas n’est
totalement éliminé
 Avec c=1.345, l’estimation est 95% aussi efficace qu’OLS lorsque
les erreurs sont normalement distribués
Fonction de Huber
Residus vs Poids
1.2
0.8
Poids
0.4
0.0
-1.0 1.3 3.7 6.0
Residus
(Suite)
2
 Fonction de Tukey:   ui  
2
wi = 1 −    if ui ≤ c
  c  
wi = 0 if ui > c
 Plus le résidu s’approche de c, plus le poids diminue.
 Si le résidu dépasse c, le poids devient nul (le cas est
effectivement éliminé de l’analyse)
 Avec c=4.685 et des erreurs normalement distribuées,
l’efficacité atteint 95% de celle d’OLS
 Fonction utile lorsque les distributions ont des extrémités très
importantes
 Problème: il peut exister plusieurs solutions et la méthode est
sensible aux valeurs initiales; on peut obtenir des estimations
inadéquates des coefficients de régression
Fonction de Tukey
(Suite)
 Fonction de Andrew:
u 
sin  i 
wi = c if ui ≤ cπ
ui
c
wi = 0 if ui > cπ
 Les résultats sont similaires à ceux obtenus avec
la fonction de Tukey
 La constance c est généralement égale à 1.339
(Suite)
u 
sin  i 
wi = c if ui ≤ cπ
ui
c
wi = 0 if ui > cπ
Exemple: Pollution et
Mortalité
 Influence de la pollution sur le taux de
mortalité dans les grandes villes
américaines (n=60)
 On transforme la variable
indépendante pour corriger un
problème de normalité (asymétrie
très prononcée)
Exemple
Exemple: Régression OLS
 La pollution permet
d’expliquer 2.3% de
la variance dans la
mortalité
 À partir de cette
analyse, on est
amené à conclure
que la pollution a
peu d’impact sur le
taux de mortalité
 Quatre données se
démarquent du groupe:
Los Angeles, San
Francisco, San Diego et
San Jose
 Pollution élevée
 Taux de mortalité faible
 Quatre villes de
Californie:
 Erreurs non aléatoires
 Une ou plusieurs
variables importantes ont
été omises
 Solutions:
 Inclure les variables qui ont
été omises, si c’est possible…
 Reconduire l’analyse suite à
l’élimination des 4 points
déviants
 Utiliser une procédure de
régression robuste
 Une régression robuste offre
une meilleure alternative
 Résultats plus raisonnables
qu’une régression OLS
affectée par des cas
extrêmes non corrigés
Exemple: Régression
Robuste
Éléments d’une régression
robuste
 Estimation robuste des coefficients de
régression et des erreurs standards
 Une différence par rapport aux estimations OLS
indiquent les effets de cas influents: les résultats
OLS ne sont pas fiables
 Valeurs prédites et valeurs résiduelles robustes
 Les prédictions se conforment à la majorité des points
 Les résidus permettent d’identifier les cas vraiment
inhabituels
 Poids robustes: indices permettant de déceler les
cas extrêmes
Limites de la régression
robuste
 Les mêmes problèmes pouvant survenir
en régression multiples peuvent
survenir en régression robuste
 Multicollinéarité
 Données manquantes
 Erreurs de spécification (choix du modèle)
 Elle n’élimine pas l’étape de diagnostic
et d’exploration préliminaire des
données
Avantages de la régression
robuste
 On obtient des coefficients et des erreurs
standards robustes
 Des différences importantes entre une solution
OLS et une solution robuste indiquent que les
effets de scores extrêmes sont importants:
confirmation des résultats d’OLS
 Une prédiction fondée sur une solution robuste
pourrait mieux correspondre à la majorité des
données, puisque les scores extrêmes attirent
moins le plan de régression vers eux
 Un outil de diagnostic permettant une
meilleure détection des scores extrêmes
Exercices
 Analysez les données contenues dans le fichiers
NONLIN.SAV. La fonction liant X à Y est de la forme:
a : 100 -130
− e( b−cx )
Y ' = ae b:0-4
c:0-2
 Analysez les données contenues dans le fichier
DAVIS.SAV:
 Est-ce que le poids rapporté par les sujets permet de prédire
leur poids réel?
 Est-ce que la taille rapportée par les sujets permet de
prédire leur taille réelle?

Psy5520 - Cours 8 - Méthodes Alternatives

Diunggah oleh

Informasi Dokumen

Judul Asli

Hak Cipta

Format Tersedia

Bagikan dokumen Ini

Bagikan atau Tanam Dokumen

Opsi Berbagi

Apakah menurut Anda dokumen ini bermanfaat?

Apakah konten ini tidak pantas?

Hak Cipta:

Format Tersedia

Psy5520 - Cours 8 - Méthodes Alternatives

Diunggah oleh

Hak Cipta:

Format Tersedia

Régression multiple:

Y = β 0 + β1 xi + β2 xi2 + ... + βp xip xi = Xi − X

Yi = 705.474 + 54.893 xi − 4.249 xi2

• Cas non-linéaire: il peut

• Cas linéaire: un seul

 Nature du modèle: détermination

 Essais et erreurs (grille)

Régression Linéaire Simple

Variable liée aux

Les points observés

Anda mungkin juga menyukai