Anda di halaman 1dari 33

Rgression multiple : principes et exemples dapplication Dominique Laffly UMR 5 603 CNRS Universit de Pau et des Pays de lAdour

Octobre 2006

Destin de futurs thmaticiens, notamment gographes, le prsent expos na pas pour vocation de prsenter la thorie de lanalyse des donnes par rgression au sens statistique du terme. Pour cela nous renvoyons aux nombreux ouvrages rdigs par les statisticiens eux-mmes. Le but recherch ici est de proposer des exemples concrets de traitement ayant fait appel lanalyse par rgression linaire multiple selon diffrentes logiques a priori loignes les unes des autres. Nous verrons successivement comment la mthode des rgressions linaires multiples permet : danalyser les liens entre une variable dpendante quantitative expliquer et plusieurs variables quantitatives explicatives indpendantes comme on ladmet gnralement ; de dterminer les quations dun ajustement polynomial non-linaire pour lanalyse des liens entre deux variables quantitatives ; de dterminer les quations de surfaces de tendances ; danalyser la rugosit du relief ; de dterminer les quations polynomiales dun modle de correction gomtrique applicable des vecteurs et/ou des donnes raster.

1. RGRESSION LINAIRE : LES PRINCIPES


Lanalyse descriptive des donnes repose sur une dmarche en plusieurs tapes. On dfinit tout dabord les caractristiques des variables prises une une (analyse univarie ou tri plat), puis on observe les liens qui les caractrisent deux par deux (analyse bivarie ou tri

croise) pour finir par lobservation des structures multiples liant plusieurs variables (analyse multivarie). On distingue alors deux familles principales, la premire consiste observer les liens unissant une variable avec plusieurs autres (1 n), la seconde considre n, analyse

simultanment les structures multiples liant diffrentes variables (n

factorielle). Selon la nature des variables retenues les mthodes de calcul seront diffrentes mais la logique reste la mme. Lanalyse par rgression linaire multiple est une des solutions qui existe pour observer les liens entre une variable quantitative dpendante et n variables quantitatives indpendantes.

Toutes mthodes faisant appel aux rgressions reposent sur lacceptation des hypothses fondatrices de la statistique paramtrique1 et la notion dajustement par les moindres carrs. La moyenne arithmtique dune variable est par consquent considre comme un centre de gravit et la notion des moindres carrs consiste minimiser la somme des rsidus levs la puissance deux entre la valeur observe et celle extrapole.

1.1. Rgression linaire simple

Un exemple simple dajustement par les moindres carrs est donn par lanalyse bivarie de variables quantitatives qui peut se simplifier par le calcul des variances et de la covariance des deux variables X et Y retenues.

La variance rpond la formule suivante :

o :

n, nombre dindividus xi, valeur de la variable x pour lindividu i


x , moyenne arithmtique de la variable x

Pour simplifier lextrme, la statistique paramtrique repose sur lhypothse que les donnes sont des variables indpendantes distribues selon une loi normale.

La covariance considre les variations communes des deux variables selon la formule :

CovXY =

1 N

(x
n i =1

x * yi y

)(

o :

n, nombre dindividus xi, valeur de la variable x pour lindividu i


x , moyenne arithmtique de la variable x

yi, valeur de la variable x pour lindividu i


y , moyenne arithmtique de la variable y

Enfin, le coefficient de corrlation est donn par la formule :

Ceof .cor =

CovXY VarX * VarY

Le coefficient de corrlation correspond au cosinus de langle form entre deux droites de rgression se croisant aux coordonnes des moyennes arithmtiques des deux variables observes (centre de gravit suppos). On dfinit donc deux droites rpondant chacune une quation affine :

X ' = a1Y + b1 et Y ' = a 2 X + b2

X et Y tant les valeurs estimes partir des valeurs observes X et Y.

Dans le cas de lanalyse bivarie, les coefficients des quations sont facilement donns par :

a1 =

(x
n i =1 n

x yi y
i

)(

(x
i =1

a2 =

(x
n i =1 n

x yi y
i

)(

(y
i =1

b1 = y a1x

b2 = x a 2 y

Prenons comme exemple la matrice thorique suivante (table A1) :

id 1 2 3 4 5 6 7 8 9

Y X' Y' X-moyX Y-moyY (X-moyX) (Y-moyY) (X-moyX)(Y-moyY) 2 18 1.847222222 13.95157895 -4.777777778 8.333333333 22.82716049 69.44444444 -39.81481481 3 15 3.622222222 13.05473684 -3.777777778 5.333333333 14.27160494 28.44444444 -20.14814815 4 12 5.397222222 12.15789474 -2.777777778 2.333333333 7.716049383 5.444444444 -6.481481481 5 9 7.172222222 11.26105263 -1.777777778 -0.666666667 3.160493827 0.444444444 1.185185185 6 6 8.947222222 10.36421053 -0.777777778 -3.666666667 0.604938272 13.44444444 2.851851852 8 5 9.538888889 8.570526316 1.222222222 -4.666666667 1.49382716 21.77777778 -5.703703704 10 6 8.947222222 6.776842105 3.222222222 -3.666666667 10.38271605 13.44444444 -11.81481481 11 7 8.355555556 5.88 4.222222222 -2.666666667 17.82716049 7.111111111 -11.25925926 12 9 7.172222222 4.983157895 5.222222222 -0.666666667 27.27160494 0.444444444 -3.481481481

Table A1 : Exemple thorique Le coefficient de corrlation est de -0.72844463, les quations sont : Y = -0.8968X+ 15.745 (en jaune)

et X = -0.5917Y + 12.497 (en magenta)

La somme des carrs des carts entre les valeurs observes et celles thoriques est ici minimale pour les deux droites de rgression, ce qui correspond lajustement par les moindres carrs. Notons que ces carts sont appels rsidus et quils sont perpendiculaires (cest--dire indpendants dun point de vue mathmatique) laxe de la variable explicative dont les valeurs ne changent pas par dfinition (figure A8).

Moyenne X = 6.77

Moyenne Y = 9.66

Figure A8 : Les deux droites de rgression et le coefficient de corrlation

1.2. Rgression linaire multiple

Lexemple dvelopp partir de deux variables permet de comprendre la logique de la thorie de la rgression mais il ne peut tre gnralis de la sorte aux rgressions multiples. Le systme deux quations deux inconnus prsent se rsolvait facilement comme on la vu. Les quations se compliquent avec plusieurs rgresseurs, deux mthodes distinctes permettent de rsoudre les quations. La premire repose sur la connaissance des coefficients de corrlation linaire simple de toutes les paires de variables entre elles, de la moyenne arithmtique et des carts-types de toutes les variables. La seconde repose sur des calculs matriciels.

1.2.1. Les tapes de calcul fond les variables descriptives

Soit un ensemble de p variable o la p-ime variable est la variable indpendante. Toutes les variables sont au pralable centres-rduites. Soit r12, r13 rpp les coefficients de corrlations linaires des paires de variables et s1, s2, , sp les carts-types. Prenons un exemple avec p = 4 soit 3 variables dpendantes. Dans un premier temps on calcule les coefficients de rgression linaire a1, a2, a3 en rsolvant un systme de p-1 quations p-1 inconnues :

r1p = a1 + r12a2 + r13a3 r2p = a2 + r21a1 + r23a3 r3p = a3 + r31a1 + r32a3


Pour rsoudre ce systme on procde par substitutions successives :

a1 = r1p - r12a2 + r13a3


do

r2p = a2 +( r21 * (r1p - r12a2 + r13a3)) + r23a3 a2 = r2p - r21a1 + r23a3 a3 = r3p - r31a2 + r32a3
Connaissant dsormais les coefficients de rgression on dtermine ceux des variables brutes :

Enfin, la constante dajustement est donne en rsolvant lquation pour la coordonne lorigine :

= y a1 x1 a 2 x 2 a3 x 3

Le coefficient de dtermination multiple est donn par : R 2 = j =1 a 'j r jp


p 1

Prenons garde au fait que ce coefficient dont les ap-1 constituent en quelque sorte la contribution crot avec le nombre de variable. Par consquent, ce comportement dterministe li aux proprits des variables alatoires doit tre compenser, on calcule alors le coefficient ajust : (n 1) (1 R 2 ) n ( p 1) 1

R 2 ajust = 1

O :

n : nombre dindividus

On peut galement rsoudre le systme dquations en prenant comme principe ljustement par les moindres carrs (Chadule) :
n

i =1

2 i

min

O :

: variance rsiduelle

Les coefficients aj sont alors extraits des quations :

Cov p ,1 = a1Var1 + a 2 Cov1, 2 + ... + a p 1Cov1, p 1 Cov p , 2 = a1Cov 2,1 + a 2Var2 + ... + a p 1Cov 2, p 1 Cov p , p 1 = a1Covp 1,1 + a 2 Cov1, 2 + ... + a p 1Varp 1

Les p-1 coefficients sont ensuite obtenus par rsolution du systme. Avec deux variables explicatives X1 et X2 et une variable expliquer Y on a par exemple :

a1 =

(Var

X2

(Var

* CovYX1 CovYX 2 * Cov X 1 X 2


X1

) (

* VarX 2 Cov

) )

2 X1 X 2

Y * (rYX (rYX * rX X X * (1 r
1 1 2

2 X1 X 2

)) ))

a2 =

(Var

X1

(Var

* CovY21 CovYX1 * Cov X 1 X 2


X1 2 * VarX 2 Cov X1 X 2

) (

Y * (rYX (rYX * rX X
2 X * (1 rX X
2 1 21 1 2

Le coefficient de corrlation multiple est alors donne par :

RY , X 1 X 2 =

(r

2 YX1

2 + rYX 2 2 rYX1 * rYX 2 * rX 1 X 2

))

1 r

2 X1 X 2

= rYY '

1.2.2. La notation matricielle

Lquation de type :

est donne sous forma matricielle par :

y = X +

O : 1 x1,1 y1 1 x1, 2 y2 y = ... , X = 1 ... 1 x1,n 1 y n 1 1 x1,n yn x 2,1 1 x 2, 2 0 2 ... , = 1 , = ... x 2,n 1 2 n 1 x 2,n n

) Il sagit ds lors de calculer le vecteur des estimateurs dfini par lgalit suivante :
)

= ( X * X ' ) 1 X ' y
En notation matricielle X signifie la matrice X transpose et X-1 la matrice inverse.

Dans lexemple qui suit nous ralisons une rgression multiple pour expliquer la hauteur de neige en fonction de laltitude, de la rugosit, de la pente, de lorientation, de la latitude et de la longitude (table A2).

H_NEIGE vecteur altitude rugosite pente orient. lat long. 95 1 2768 252 22 324 8760219 438465.0625 150 1 4108 333 29 308 8760195 438474.0625 4 1 4045 62 5 249 8760168 438480.0625 0 1 4572 85 8 14 8760135 438489.0625 0 1 4614 115 10 63 8760105 438495.0625 80 1 4321 176 16 130 8760072 438498.0625 95 1 3886 72 6 199 8760039 438504.0625 20 1 4206 57 5 32 8760012 438507.0625 90 1 4192 266 23 197 8759985 438513.0625 10 1 4051 69 6 113 8759955 438519.0625 10 1 3746 62 5 149 8759922 438519.0625 50 1 3789 42 3 218 8759895 438525.0625 45 1 3771 44 4 53 8759865 438531.0625 60 1 3796 48 4 101 8759838 438534.0625 55 1 3885 77 7 332 8759811 438537.0625 3 1 4295 113 10 18 8759787 438540.0625 33 1 4467 147 13 50 8759760 438546.0625

0 35 45

1 4764 12 1 276 8759730 438552.0625 1 4313 38 3 350 8759703 438552.0625 1 4387 40 3 46 8759673 438558.0625 Table A2 : Hauteur de neige et variables environnementales

Le produit XX donne :

Do (XX)-1 :

Le produit XX est donne par la formule :

O :

a : matrice rsultat ; b et c : matrices initiales ; i : lignes ; j : colonnes.

Le produit dune matrice de k lignes et l colonnes par une matrices de l lignes par k colonnes donne une matrice carre de k lignes et colonnes. Do la matrice carre suivante :

Linversion dune matrice fait appel des notions de calculs matriciels pousss que nous ne dvelopperons pas ici. Retenons quen thorie toute matrice dont le dterminant est non nul peut tre inverse (rgle de Cramer). Do dans notre exemple (XX)-1 :

Et Xy :

Donc (XX)-1Xy donne les termes de lquation multiple :

Constante : -6111180.498 Altitude : -0.03526 Rugosit : 1.0379 Pente : -7.6228 Orientation : 0.0907 Latitude : 0.5191 Longitude : 3.6401

2. EXEMPLES DAPPLICATION
Lutilisation des rgressions multiples dpasse largement le cadre classique de lexplication dune variable dpendante partir de n variables indpendantes comme on ladmet gnralement. Nous verrons tout dabord un exemple appliqu lanalyse du trachome2 en fonction de paramtres biogographiques pour illustrer cette approche classique. Trois autres exemples nous permettront daller plus en avant dans lapplication des rgressions multiples : lajustement non linaire en analyse bivarie ; lanalyse par surfaces de tendance dun phnomne gographique et la dfinition des quations dun modle de correction gomtrique.

2.1. Indicateurs environnementaux et Trachome

Le trachome est une maladie contagieuse qui se transmet denfant enfant ou de mre enfant. Linfection se manifeste ds la premire anne et la prvalence augmente trs rapidement pour atteindre un maximum qui serait dautant plus prcoce que le niveau de lendmie est lev. La prvalence du trachome actif diminue ensuite progressivement et laisse place des lsions cicatricielles dont la frquence augmente avec lge. Il ny a pas de diffrence de prvalence selon le sexe significative dans lenfance, par contre lge adulte les femmes sont plus frquemment atteintes du fait des contacts avec les enfants, elles prsenteront par la suite plus frquemment un entropion trichiasis que les hommes. Le trachome actif est caractris par une inflammation de la conjonctive tarsale suprieure avec envahissement de la corne par un voile vasculaire (pannus). Ce stade inflammatoire reprsente la phase contagieuse de la maladie. Linflammation trachomateuse en milieu hyper-endmique persistera quelques annes avant dvoluer vers la cicatrisation qui pourra se faire selon deux modalits :

- soit linfection est reste modre et lvolution se fera vers la gurison spontane au prix de quelques cicatrices conjonctivales minimes sans consquence fonctionnelles : cest le trachome cicatriciel bnin. - soit linflammation conjonctivale a t intense et prolonge : la cicatrisation pourra alors dpasser son but et entraner une fibrose rtractile de la paupire suprieure. Il sagit alors dun trachome cicatriciel grave susceptible daboutir une dformation du tarse avec dviation des cils vers la corne ralisant un entropion trichiasis. Le frottement des cils chaque clignement entretien une rosion cornenne particulirement douloureuse, favorisant une surinfection qui voluera vers une ccit complte et irrversible par opacification de la corne. Une fois les lsions cicatricielles constitues, le seul moyen d'amliorer le pronostic et si possible dempcher la ccit est la chirurgie du trichiasis : les techniques chirurgicales sont relativement efficaces et sres, mais elles sont insuffisamment diffuses et utilises. Cest la dure et surtout lintensit de linflammation trachomateuse qui dterminent le risque de lvolution vers la ccit. Cette intensit est conditionne par deux facteurs : les surinfections bactriennes et les rinfections. La plus grande gravit des rinfections est explique par un mcanisme combin dhypersensibilit et dauto-immunit. Un certain nombre de facteurs de risque associs au trachome ont t identifis. Ces facteurs sont individuels, comportementaux, sociaux et aussi environnementaux. C'est ainsi que la difficult d'accs l'eau, l'accumulation d'ordures, la proximit avec le btail et la pullulation des mouches favorise la survenue d'un trachome. Linfluence de la gographie et du climat est voque depuis longtemps dans le complexe pathogne du trachome. En zone intertropicale sche, la diminution de lhumidit atmosphrique dessche les muqueuses conjonctivales et favoriserait linfection par les chlamydia. Les poussires pourraient jouer un rle non ngligeable en agressant la conjonctive et la corne. Par ailleurs en hiver, le froid nocturne augmente la promiscuit dans les chambres et favoriserait la circulation interhumaine du germe. Dans une tude pidmiologique Salim rapporte quau Soudan la prvalence du trachome actif est

inversement corrle avec la pluviomtrie et lhygromtrie. Nous avons aussi observ dans l'enqute nationale ralise au Mali, que le trachome actif tait plus frquent dans les rgions sches du nord comme Gao ou Tombouctou.

Lexemple dvelopp ci-dessous sinscrit pleinement dans la quatrime partie de louvrage. Il sagit de dterminer des facteurs environnementaux du risque au Mali.. Les donnes sont issues dune enqute biomdicale ralise auprs de 11 000 personnes en Afrique de louest. Elles sont confronts diffrentes variables environnementales susceptibles dtre lies la maladie : latitude (LAT), longitude (LONG), pluviomtrie (PLUVIO), temprature moyenne annuelle (TMOY) et hygromtrie (HYGRO) partir du fichier des villages. Ces variables ont t rcupres dans le fichier des individus femmes. Les donnes manquantes ont t extrapoles par rgression linaire multiple avec les variables LAT et LONG. Les donnes sur le trachome sont quant elles : trachome actif (TT), trachome ches les femmes (TF), trachome chez les enfants (TI) et trachome suspect (TS). La figure A9 prsente les cartes des variables environnementales retenues.

Figure A9 : Les variables environnementales

Par rgression linaire multiple, on calcule les degrs de liaisons entre les taux de prvalence entre la latitude, la longitude, la pluviomtrie, laltitude, la temprature moyenne et lhygromtrie (table xx).

Table A3 : Tables des corrlations multiples

Les coefficients de corrlation multiple sont donns par la table XX. A titre indicatif le cas 1 prsente les valeurs pour une rgression nintgrant que la latitude et la longitude, le cas 2 intgre toutes les variables environnementales retenues. On constate que les corrlations obtenues sont toujours significativement plus leves dans la cas 2.

TT TS TI TF

Cas 1 0.37 0.34 0.27 O.25

Cas 2 0.45 0.50 0.32 0.33

Table A4 : Taux de corrlation multiple

On peut ds lors envisager de produire des cartes de prdiction des taux de prvalence du trachome et des rsidus connaissant les variables environnementales. Les coefficients des quations sont donns par la matrice A5.

Constante LAT LONG PLUVIO ALT TMOY HYGRO

TF (0.33) TI (0.32) TS (0.50) 14.05981086 -0.166492463 -121.0795444 3.615939928 1.223183048 2.6892253 -0.190359364 0.314126994 -3.111756389 0.005563127 0.00153108 0.009886783 0.033674547 0.005407455 0.039777358 -1.25696877 -0.484097825 1.983162114 -0.115784009 0.061047239 0.225234599 Table A5 : Coefficients de rgression multiple

TT (0.45) 2.083385988 -0.248426023 -0.283659613 7.52743E-05 0.008239454 0.018222353 -0.027915423

Do, par exemple, pour TT :

TTestim = (-0.248426023 * LAT) (-0.283659613 * LONG) + (7.52743E-05 * PLUVIO) +


(0.008239454 * ALT) + (0.018222353 * TMOY) (0.027915423 * HYGRO) + 2.083385988

La figure A10 prsente les cartes des valeurs estimes de prvalence de TT, TI, TF et TS. On constate bien videmment des carts entre la simulation et les valeurs mesures dans les villages, le modle nexpliquant que 40 % de la distribution. Une carte de taux de prvalence de TT obtenue par interpolation spatiale inversement proportionnelle la distance - est prsente en vis--vis de celle issue de la modlisation par rgression multiple. Les deux documents sont trs diffrents et lon pourra retenir que ce nest pas la proximit un lieu caractris par de fort taux qui explique la rpartition spatiale de TT.

Figure A10 : Estimation des taux de prvalence par rgression multiple

2.2. Ajustement non-linaire et rgression multiple

Lexemple thorique dvelopp en introduction montrait un nuage de points distribus de manire non linaire, do un faible coefficient de dtermination (0.53) obtenu partir dun ajustement linaire.

Figure A11 : Ajustement linaire et non-linaire dordre 2

On voit bien sur la figure A11 que les points rpondent une distribution qui saligne sur un morceau de parabole de type polynme de degr 2 :

Y ' = a1 X 2 + a 2 X + b

Il sagit en fait dune rgression linaire multiple partir dune mme variable X dont les termes sont levs la hauteur du degr du polynme selon la formule gnrique :

Y ' = a1 X 1 + a 2 X 2 + ... + a n X n +

Dans lexemple prsent plus haut, un ajustement dun degr 2 permet dobtenir un coefficient de dtermination de lordre de 0.9895. Lorsque les formes de la distribution sont plus complexes, on peut lever encore lordre du polynme comme lillustre la figure A12.

Figure A12 : Ajustements non linaire dordre 3 5

Lorsque la distribution ne suit pas une loi polynomiale on peut observer les limites de lajustement comme lillustre la figure ci-dessous. On peut alors avoir recours, selon la

forme, une transformation logarithmique de la variable X pour donner une quation affine de type (figure A13) :

Y ' = a. ln( X ) + b

Figure A13 : Ajustements polynomial et logarithmique

2.3. Surfaces de tendances, rgression multiple selon la latitude et la longitude

Lorsque les phnomnes tudis sont fortement dpendants de leur position gographique on a recours aux surfaces de tendances pour extrapoler lensemble de lespace des valeurs initialement observes ponctuellement. Prenons un exemple thorique dun phnomne marqu par un fort gradient sud ouest nord est comme lillustre les figures A14 et A15.

Figure A14 : Cartogramme dun gradient

Une rgression linaire multiple avec comme variables indpendantes la latitude et la longitude nous donne ici un coefficient de dtermination de 1 et une quation :

Connaissant la latitude et la longitude on peut dsormais extrapoler la variable X tout lespace gographique dcoup en un maillage plus ou moins fin. On obtient alors un plan de rgression ou surface de tendance dordre 1 comme lillustre le schma suivant :

Figure A15 : Surface de tendance dordre 1 plan de rgression

On peut imaginer aisment une distribution gographique non linaire dun phnomne quelconque, une ondulation par exemple comme lillustre les figures A16 et A17..

Figure A16 : Cartogramme dune ondulation

Lajustement dun plan de rgression ne serait alors pas du tout reprsentatif, dans notre exemple le coefficient de dtermination est mme nul. Comme on avait recours des polynmes de degr n on peut envisager ici des surfaces polynomiales de degr n. Par exemple, lquation dune surface de degr 2 est :

Soit prsentement un coefficient de dtermination de 0.95 et une quation :

On obtient alors la surface suivante :

Figure A17 : Surface de tendance dordre 2

Pour des distributions plus complexes, on peut augmenter le degr du polynme, par exemple une surface de degr 3 comme lillustre les figures A18 et A19..

Figure A18 : Cartogramme dune vague

Figure A19 : Surface de tendance dordre 3

On atteint cependant rapidement des limites eut gard au nombre dinconnus dans le systme dquations rsoudre. Celui-ci est donn par la formule :

t Ninc

1 3

2 6

3 10

4 15

5 21

6 28

7 36

8 45

9 55

10 66

11 77

12 90

t, degr du polynme.

Lquation polynomiale dordre t se gnralise ensuite selon :


t i

Z ' = a k x i j y j
i =0 j =0

k=

i.i + j + j 2

Pour un polynme de degr 3, lquation gnrique est de la forme : Z ' = a1 X + a 2Y + a3 X 2 + a 4 XY + a5Y 2 + a6 X 3 + a7 X 2Y + a8 XY 2 + a9Y 3 +

Pour un polynme de degr 4, elle devient :


Z ' = a1 X + a 2Y + a3 X 2 + a 4 XY + a5Y 2 + a 6 X 3 + a 7 X 2Y + a8 XY 2 + a 9Y 3 + a10 X 4 + a11 X 3Y 2 + a12 X 2Y 2 + a13 X 2Y 3 + a14Y 4 +

Au-del, le systme dquation rsoudre devient difficile mettre en uvre et, surtout, la surface extrapole ne reprsente plus un phnomne gographique fortement dpendant de la latitude et de la longitude. Nous verrons dans un cours consacr au variogramme et covariogramme comment extrapoler des surfaces qui mettent en avant des cycles ou des phnomnes ponctuels.

2.4. Analyse du relief et indicateur de rugosit

Un cas particulier de dapplication des surfaces de tendances, donc des rgressions multiples, et celui de lanalyse de la rugosit du relief partir dun Modle Numrique de Terrain (MNT). Un MNT est une base de donnes raster compose de NC colonnes et NL lignes dont les mailles renseignent sur laltitude.

Figure A20 : Filtre de rugosit du relief

Afin dobtenir une information synthtique sur les formes locales du relief on fait glisser sur chaque pixel de limage une fentre de n mailles de cts lintrieur de laquelle on ajsute une surface de tendance dordre 1 locale. La rugosit correspond lcart-type calcul sur les rsidus entre les altitudes du MNT et celles de la surface de tendance. Plus la valeur de lcart-type est leve plus le relief est localement accident (creux, bosses,

crtes, talwegs) et inversement (plan dun versant, dune plaine). La figure A20 illustre la mthode mise en uvre.

Sans parler de la rsolution du MNT, le choix de la taille de la fentre repose sur le niveau dobservation attendu par lutilisateur. Une fentre de lordre de 3 9 pixels donnera des indicateurs locaux, ils seront plus globaux au-del. La figure A21 prsente une vue o diffrentes rugosits ont t calcules selon quatre tailles de fentres. Les teintes du rose au marron sont une gradation des valeurs de rugosit, respectivement de la plus faible la plus forte.

Figure A21 : Rugosit et taille des pixels

2.4. Rgression multiple et gorfrencement

Un dernier exemple dapplication des rgressions multiples est consacr la prsentation des gorfrencements fonds sur un modle polynomiale. Le principe dun gorfrencement consiste modifier les coordonnes dune image ou dun vecteur pour la rendre compatible avec un autre systme de coordonnes, en loccurrence celui dune carte. Par exemple, le cadastre initialement lev par triangulation godsique sur le terrain doit tre rectifi pour tre compatible avec les cartes grande chelle de lIGN. De mme, une photographie arienne et/ou une image de satellite doivent tre gorfrences pour

pouser les formes de la carte. Nous verrons plus loin que si les quations ncessaires de telles transformations sont les mmes pour les images ou les vecteurs, leur mise en uvre posera plus de problmes pour les images. ce sujet, notons ds prsent quune correction gomtrique et un gorfrencement sont deux notions diffrentes trop souvent confondues. La premire a pour but de corriger la gomtrie de limage qui, ltat brut, est trs perturbe par la combinaison : des carts dattitude du satellite (lacet, roulis et tangage) ; des proprits de lorbite, elles-mmes fonction du gode ; de la rotondit de la terre (dformation panoramique) ; de la vitesse de rotation de la terre (1669.79 km.h-1 lquateur, soit 4.17 km parcourus pendant les 9 s que durent lacquisition dune image Spot, par exemple) ; de langle de prise de vue des pixels composants limage ; des erreurs de parallaxe dues la forme du relief (corriges en intgrant les donnes dun MNT : orthorectification) ; des erreurs lies loptique du capteur ;

Figure A22 : Prise de points dappui

Selon les cas et les moyens financiers dont on dispose tout ou partie de ces perturbations seront corriges. Trs souvent, certaines des corrections sont ralises en mme temps que le gorfrencement, do la confusion cite plus haut.

La mise en uvre dun gorfrencement consiste relever les coordonnes de points identifiables sur les deux documents en question, la carte de rfrence (latitude et longitude) et limage ou le vecteur (colonne et ligne) comme lillustre la figure A22. Il est souhaitable de rpartir au mieux les points sur lensemble des zones en commun dans les deux documents. On obtient la matrice de coordonnes suivante :.

Un gorfrencement consiste dfinir les termes de deux polynmes dajustement de manire estimer les latitudes et les longitudes observes partir des coordonnes lignes et colonnes du document modifier. Par exemple, pour un polynme de degr 1 : Lat ' = a1 Lig * b1Col + 1 Lon ' = a 2 Lig * b2 Col + 2 Lat et Lon : la latitude et la longitude estimes ; Lig et Col : les coordonnes en ligne et en colonne de limage ou du vecteur; an, bn et n : les termes du polynme.

Notons quun minimum de points de contrle est prendre en fonction du degr du polynme, ce seuil rpond la formule :

S=

(t + 1)(t + 2 )
2 t, degr du polynme.

Le parallle avec les surfaces de tendances prsentes plus haut est vident et lon peut de la mme manire lever le degr des polynmes pour obtenir un meilleur ajustement. Notons cependant que la fiabilit du modle nest plus estime par le coefficient de dtermination mais par un incateur quadratique moyen (Root Meau Square ou RMS) donnant les disatnces entre la position observe et celle estime :

' ' RMS n = (lat n latn ) 2 + (lonn lonn )

n : numro du point ; lat et lon : latitude et longitude estimes ; lat et lon : latitude et longitude observes.

Les lignes surlignes en couleur dans la matrice indiquent des points aberrants quil conviendrait dliminer de la collection initiale. Ces aberrations sont souvent dues des erreurs de saisies ou des mauvaises interprtations entre limage et la carte ou bien encore grande diffrence dchelle voire de qualit entre limage et la carte. Aprs vrification de la qualit du modle celui-ci est appliqu limage pour obtenir une nouvelle image dsormais correctement gorfrence comme lillustre la figure A23.

Figure A23 : Image corrige et carte IGN

Le gorfrencement fond sur un modle polynomiale atteint rapidement ses limites puisquil nintgre pas les altitudes sources dimportantes erreurs de parallaxe. Il est nanmoins facile mettre en uvre et efficace avec des donnes vectorielles ou des images de secteurs offrant peu de dnivel.

Anda mungkin juga menyukai