par
Janie Coulombe
avril 2015
c
Janie Coulombe, 2014
Universit de Montral
Facult des tudes suprieures
Ce mmoire intitul
Janie Coulombe
(prsident-rapporteur)
Christian Lger
(directeur de recherche)
(membre du jury)
SOMMAIRE
Suite un stage avec la compagnie Hatch, nous possdons des jeux de don-
nes composs de sries chronologiques de vitesses de vent mesures di-
vers sites dans le monde, sur plusieurs annes. Les ingnieurs oliens de la
compagnie Hatch utilisent ces jeux de donnes conjointement aux banques de
donnes dEnvironnement Canada pour valuer le potentiel olien afin de sa-
voir sil vaut la peine dinstaller des oliennes ces endroits. Depuis quelques
annes, des compagnies offrent des simulations mso-chelle de vitesses de
vent, bases sur divers indices environnementaux de lendroit valuer. Les
ingnieurs oliens veulent savoir sil vaut la peine de payer pour ces donnes
simules, donc si celles-ci peuvent tre utiles lors de lestimation de la produc-
tion dnergie olienne et si elles pourraient tre utilises lors de la prvision
de la vitesse du vent long terme. De plus, comme lon possde des donnes me-
sures de vitesses de vent, lon en profitera pour tester partir de diverses m-
thodes statistiques diffrentes tapes de lestimation de la production dner-
gie. Lon verra les mthodes dextrapolation de la vitesse du vent la hauteur
dune turbine olienne et lon valuera ces mthodes laide de lerreur qua-
dratique moyenne. Aussi, on tudiera la modlisation de la vitesse du vent
par la distribution Weibull et la variation de la distribution de la vitesse dans le
temps. Finalement, lon verra partir de la validation croise et du bootstrap si
lutilisation de donnes mso-chelle est prfrable celle de donnes des sta-
tions de rfrence, en plus de tester un modle o les deux types de donnes
sont utilises pour prdire la vitesse du vent. Nous testerons la mthodologie
globale prsentement utilise par les ingnieurs oliens pour lestimation de la
production dnergie dun point de vue statistique, puis tenterons de proposer
des changements cette mthodologie, qui pourraient amliorer lestimation
de la production dnergie annuelle.
Mots cls : nergie olienne, Modlisation de la vitesse du vent, Distribution
Weibull, Bootstrap par blocs, Extrapolation de la vitesse du vent, Coefficient
de cisaillement du vent.
vii
SUMMARY
Sommaire . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . v
Summary . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . vii
Remerciements . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1
Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
5.1. Utilit des prvisions de la vitesse du vent sur des annes passes 67
xi
Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 95
Bibliographie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 99
xiii
3.4 Erreurs relatives (%) entre les vitesses de vent moyennes calcules
partir des diverses mthodes dextrapolation et la vitesse moyenne
lanmomtre 1, au site 31 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29
5.2 Erreurs relatives (%) entre la vitesse moyenne long terme estime
partir de chacun des trois modles de rgression et la vitesse
moyenne des vitesses de vent mesures lanmomtre 1 . . . . . . . . . . 75
5.3 Diffrence absolue relative (DAR) entre la racine carre de lerreur
quadratique moyenne de prvision sur 1 000 bootstraps et la racine
carre de lerreur quadratique trouve par validation croise, pour
chaque taille de bloc et chaque groupe de prdicteurs dans la
rgression (%) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 84
5.4 Rapports de la variance de lestimateur de la moyenne bootstrap
par bloc de longueur l par rapport la variance pour un bloc de
longueur 1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 90
1
REMERCIEMENTS
Dautre part, divers outils ont t dvelopps dans le pass afin damliorer les
prvisions du vent et du potentiel olien. Entre autres, des donnes simules
de type "mso-chelle" sont maintenant disponibles par lentremise de compa-
gnies spcialises qui utilisent des donnes environnementales, par exemple
lhumidit relative de lair ou le relief du site, pour simuler des vitesses de
vent horaires lendroit dsir. Ces mthodes ont, en quelque sorte, fait leur
preuve et sont maintenant utilises par les ingnieurs oliens dans divers pro-
jets. Par contre, on ne retrouve pas dans la littrature de validation exhaus-
tive de ces donnes simules permettant de tester lutilit des donnes "mso-
chelle" dans lvaluation du potentiel olien.
sites dans le monde, situs sur les continents de lAmrique du Nord, du Sud
et de lAfrique. Pour ces sites, des donnes de vitesse du vent et de direction
du vent mesures sur des mts de mesure sont disponibles pour des priodes
variant de deux neuf ans, aux dix minutes. De plus, nous possdons des jeux
de donnes simules horaires de type "mso-chelle" pour tous ces sites, sur
dix ans. Ces donnes sont elles aussi composes de la vitesse du vent et de la
direction sur une base horaire. Nous possdons aussi une troisime source de
donnes pour 15 des sites, soient des donnes collectes aux mts de mesure
de stations de rfrence (comme Environnement Canada, par exemple, qui col-
lecte plusieurs donnes environnementales).
Dans le chapitre 1, nous discuterons dabord du lien entre les vitesses de vent
mesures aux mts de mesure et le calcul de la production estime dnergie
annuelle. On verra les diverses tapes qui mnent au calcul du potentiel o-
lien, partir de la collecte des donnes. On discutera aussi de lutilisation des
courbes de puissance de turbines oliennes.
Dans le chapitre 2, nous dcrirons les divers jeux de donnes ainsi que les no-
tations utilises dans le mmoire. Nous prsenterons aussi une carte des divers
emplacements pour lesquels des donnes sont disponibles.
"mso-chelle" pour amliorer les prvisions. Le bootstrap sera quant lui uti-
lis et pemettra de tenir compte de la structure de dpendance entre les don-
nes, laquelle nest pas considre dans les autres chapitres. Il permettra aussi
de calculer lerreur de prvision de la vitesse du vent lorsque des donnes me-
sures sont disponibles sur une trop courte priode pour utiliser la validation
croise.
Pour la section touchant lextrapolation des donnes, nous utilisons les don-
nes collectes aux anmomtres 1, 2 et 3. Ceux-ci sont situs du mme cot du
mt trois hauteurs diffrentes, lanmomtre 2 tant sous lanmomtre 1 et
lanmomtre 3 tant au plus bas, sous lanmomtre 2. Comme le mt de me-
sure du site 31 possde des anmomtres installs quatre hauteurs diffrentes
(lanmomtre 4 tant situ sous lanmomtre 3 dans ce cas, comparativement
au cas o lanmomtre 4 est de lautre cot du mt comme la figure 1.1),
celui-ci fera exception lors des tests sur lextrapolation, dans le chapitre 3. La
figure suivante montre, pour les trente premiers sites, la disposition des an-
momtres sur le mt de mesure et donne une ide de la diffrence dhauteur
entre un mt de mesure et une turbine olienne.
Il est utile, pour les investigateurs dun site, davoir une estimation de la
production dnergie olienne annuelle cet endroit mais il leur faut aussi
connatre la tendance long terme de la vitesse du vent puisque lanne me-
sure nest pas ncessairement reprsentative de la tendance long terme.
Ainsi, des prvisions de la vitesse du vent dans le pass et lestimation dune
moyenne de la vitesse du vent long terme leur permet de garantir, en quelque
sorte, la banque quil vaut la peine dinstaller une turbine olienne un cer-
tain endroit. Voil pourquoi on tentera, dans le chapitre 5, dvaluer lerreur de
prvision de la vitesse du vent long terme partir de la validation croise et
du bootstrap, ce dernier tenant compte de la dpendance entre les vitesses de
vent mesures et permettant dvaluer lerreur de prvision lorsquon possde
trop peu de donnes pour faire une validation croise.
Chapitre 2
Dans ce mmoire, on se concentre sur trois types de jeux de donnes qui sont
disponibles pour lanalyse statistique, que lon prsente maintenant.
qui varie dun neuf ans, dpendamment des sites tudis. Notons quen g-
nral, les donnes collectes sont disponibles sur une priode dun deux ans
seulement. Dans le cadre de cette tude, nous avons recherch des sites pour
lesquels la compagnie Hatch avait des donnes collectes sur de plus longues
priodes afin davoir plus de latitude pour nos analyses.
Comme nous nutilisons pas les directions du vent dans ce mmoire, nous in-
troduisons maintenant une notation pour la vitesse du vent collecte sans sa
direction respective. On notera par ya,i,j la vitesse du vent en m/s lanmo-
mtre a, a=1,2,3,4, collecte durant lheure i, i=0,1,...,N et pour lindice des dix
minutes j, j=1,2,...,6. Lindice j va de 1 6 puisque pour chaque heure i on a
six priodes de dix minutes indices de 1 6.
Il sagit de lune des rfrences plus long terme utilise par les ingnieurs
dans le domaine de lolien. Les donnes sont simules partir dun modle
mathmatique sur ordinateur qui tient compte de divers indices environne-
mentaux comme la temprature extrieure, lhumidit relative, la densit de
lair, etc. Il va sans dire que ces donnes ne sont disponibles que pour le pass
13
puisque leur simulation ncessite ces informations. De plus, les donnes sont
simules pour un site bien prcis. Notez que le terme simules fait ici rfrence
un modle mathmatique dterministe, par opposition une simulation ala-
toire.
Pour obtenir lun de ces jeux de donnes, on doit contacter une compagnie sp-
cialise en simulation des donnes de vitesse du vent et les prix pour une seule
srie simule sur dix ans peuvent atteindre des centaines, voire des milliers
de dollars. Cest pourquoi les travailleurs de lindustrie olienne voudraient
sassurer que ces jeux de donnes, quoique ne reprsentant pas des donnes
mesures, soient fiables et quils peuvent tre utiliss comme rfrence long
terme de la tendance de la vitesse du vent.
Nous utilisons ici les sries de donnes de vent simules dune compagnie
particulire afin de tester lefficacit de ces donnes. Les donnes de vitesse
du vent et de la direction du vent sont disponibles pour chaque heure, sur dix
ans. Ici encore, nous nutiliserons pas les donnes de direction du vent dans
notre tude. Des jeux de donnes simules ont t commands pour reprsen-
ter chaque site o des donnes collectes taient disponibles. On notera par xs,i
la vitesse simule du vent en m/s pour lheure i, i=Smin ,Smin + 1,...,-1,0,1,...,N.
On remarque donc que la fin de la srie des donnes simules concordera avec
la fin des donnes collectes, en terme de temps. De plus, Smin reprsentera
lindice de la premire heure o lon possde une valeur de donne simule de
la vitesse du vent.
On notera donc par xr,i la vitesse fournie par la station de rfrence pour
lheure i, i=Rmin ,Rmin +1,...,-1,0,1,...,N. Comme pour les donnes mso-chelle,
la fin de la srie concorde avec les donnes collectes en terme de temps. Rmin
reprsente lindice de la premire heure o nous possdons une valeur de vi-
tesse du vent collecte la station de rfrence. Rmin peut tre infrieur, gal ou
suprieur Smin . Cependant, nous utiliserons gnralement les deux types de
donnes sur une priode de temps commune o les deux sont disponibles. No-
tez que nous possdons des donnes provenant de stations de rfrence pour
seulement 15 des 31 sites ltude.
o pi reprsente le nombre de donnes aux dix minutes qui ne sont pas man-
quantes pour lheure i. Rappelons que i = 0,...,N pour la srie de vitesses
de vent collectes, o la vitesse moyenne horaire au temps 0 est celle calcule
en faisant la moyenne des six prochaines observations aux dix minutes. Par
exemple, si lheure 0 se produit lorsquil est 0h00 un site particulier, la vitesse
moyenne correspondante lheure 0 sera celle calcule partir des vitesses de
16
vent collectes aux heures 0h00, 0h10, 0h20, 0h30, 0h40 et 0h50 qui ne sont pas
manquantes. Pour les donnes manquantes aux dix minutes ou aux heures et
sur lesquelles des calculs ont t entrepris dans les chapitres 3, 4 ou 5, notez
que les nombres N et N10 ont t rajusts de sorte quils reprsentent bien le
nombre de donnes non manquantes.
les diffrents endroits dans le monde pour lesquels on possde des donnes
de vent tant collectes que simules. Les endroits reprsents par des triangles
rouges ou verts seulement sont les sites o lon possde ces deux types de don-
nes et sont donc les sites analyss. Les triangles bleus ne sont pas considrs
dans ce mmoire.
Chapitre 3
partir des donnes de vitesse du vent aux dix minutes des anmomtres
1 (y1,i ), 2 (y2,i ) et 3 (y3,i ), i = 0,1,...,N10 , il est possible destimer la vitesse du
vent une hauteur dsire, quivalente la hauteur laquelle on voudrait
installer une turbine olienne. Pour ce faire, on doit se baser sur certaines lois
physiques. On utilise ici la loi de puissance pour expliquer le profil du vent.
Loi de puissance :
vitesse hauteur
log = log , (3.1.1)
vitesseref hauteurref
o est le coefficient de cisaillement du vent (cest pour lestimation de ce
coefficient quon a besoin dau moins deux vitesses de vent deux hauteurs
diffrentes), vitesse et hauteur reprsentent la vitesse du vent que lon cherche
et la hauteur dsire dextrapolation et hauteurref et vitesseref sont la vitesse
du vent et la hauteur de rfrence.
On doit dabord distinguer deux mthodes gnrales que nous avons utili-
ses pour extrapoler la vitesse du vent un certain point : celle dj utilise par
la compagnie Hatch, que nous appellerons la mthode du point de rfrence et
celle que nous proposons dans ce mmoire, appele la mthode de la rgres-
sion. Les diffrentes mthodes seront testes la prochaine sous-section. Nous
commenons dabord par les prsenter.
vitesse hauteur
log = log
vitesseref hauteurref
vitesse hauteur
exp log = exp log
vitesseref hauteurref
vitesse hauteur
= exp log ,
vitesseref hauteurref
Dans cette mme formule, on peut donc utiliser diffrentes hauteurs et vitesses
de rfrence. Par exemple, si lon possde des donnes de vitesse du vent aux
anmomtres 1, 2 et 3, et quon dsire extrapoler une hauteur o lon ne pos-
sde aucune vitesse du vent collecte, on peut utiliser la vitesse de rfrence
19
La hauteur et la vitesse de rfrence ne sont pas les seules quantits que nous
pouvons faire varier pour obtenir une extrapolation diffrente ; on considre
aussi deux faons diffrentes destimer le coefficient de cisaillement , soient
le calcul global et le calcul local. Le calcul global est prsentement utilis par la
compagnie Hatch pour faire les extrapolations, entre autres parce quil est plus
rapide et pratique faire. Nous avons suggr lutilisation du coefficient de
cisaillement local dans leur formule dextrapolation et comparerons leur per-
formance un peu plus tard. Nous croyons que lutilisation dun coefficient de
cisaillement local (variant aux dix minutes) mnera possiblement des pr-
visions plus prcises puisquon pourrait penser que le coefficient sadaptera
mieux aux variations de la vitesse du vent dans le temps.
log(v) = 0 + 1 log(h) + .
Supposons donc que nous avons les donnes collectes A hauteurs diff-
rentes et que nous dsirons extrapoler une hauteur h la vitesse du vent, afin
dobtenir une vitesse estime yi au temps i, i=0,1,...,N10 . On doit dabord esti-
mer les coefficients de la rgression linaire, pour les deux mthodes. Dans le
cas de la mthode globale, on utilise la variable dpendante va et la variable
indpendante ua , telles que dfinies plus tt. On obtient les estimateurs des
coefficients de rgression linaire suivants :
G,0 = v G,1 u,
L,i,0 = wi L,i,1 u,
Regardons maintenant la figure 3.2, qui illustre chacune des mthodes dextra-
polation lorsquun coefficient de cisaillement global est utilis, toujours partir
des donnes du site 31 et du temps i=113 501. On doit maintenant noter que
pour le graphique de droite, soit la mthode de la rgression deux ou trois
points avec un coefficient de cisaillement global, une seule extrapolation est
possible partir dune hauteur donne, quelles que soient les vitesses de vent
aux dix minutes. On aura donc, pour toute priode de dix minutes, la mme
valeur extrapole lanmomtre 1. On remarque aussi que les droites de r-
gression sur deux ou trois points varient trs peu ici, lorsquon utilise la vitesse
moyenne sur toute la priode. Cela produit donc des prvisions au logarithme
26
Comme lon dsire calculer lerreur dextrapolation et que lon se basera sur les
donnes mesures lanmomtre 1, on nutilisera pas dans nos estimations
de la vitesse extrapole les donnes de lanmomtre 1. Pour 30 des 31 sites,
nous navons que trois hauteurs diffrentes o des donnes sont mesures, ne
nous laissant la possibilit dutiliser que deux des trois anmomtres (les an-
momtres 2 et 3) pour extrapoler au plus haut anmomtre. Nous utiliserons
donc ces vitesses pour faire les rgressions linaires ncessaires et extrapola-
tions, telles que vues la section prcdente. Pour le site 31, nous utiliserons
aussi les donnes de lanmomtre 4, situ sous lanmomtre 3. Nous extra-
polerons donc partir des diverses mthodes et calculerons dans un premier
temps lEQM entre les valeurs estimes et les valeurs relles de vitesse du vent
27
collectes lanmomtre 1.
Notez que nous avons pu calculer lEQME partir de trois hauteurs (anmo-
mtres 2, 3 et 4) ou de deux hauteurs seulement (anmomtres 2 et 3), comme
28
le fait Hatch, pour le site 31, puisque nous possdons des donnes quatre
hauteurs pour ce site, et que nous avons donc prsent les rsultats pour les
diffrents nombres danmomtres utiliss. Ces rsultats se retrouvent dans le
tableau 3.2.
Nous avons encore une fois test les mthodes dextrapolation utilisant deux
anmomtres (anmomtres 2 et 3) ou trois anmomtres (anmomtres 2, 3 et
4). Remarquez que nous ne notons dans le tableau que les rsultats pour une
hauteur de rfrence relie lanmomtre 2 lorsque nous utilisons deux an-
momtres pour extrapoler, puisque les rsultats sont les mmes si on utilise
la hauteur de rfrence de lanmomtre 3 (une rgression linaire sur deux
points mne la mme prvision, quon se base sur la hauteur relie au pre-
mier ou au deuxime point de la rgression, i.e. y2,i,G = y3,i,G et y2,i,L = y3,i,L si
lon utilise seulement les anmomtres 2 et 3).
3.2.1. Discussion
Tout dabord, on peut voir dans les tableaux 3.1 et 3.2 que, comme prvu, les
mthodes dextrapolation du point de rfrence et de rgression avec coeffi-
cient de cisaillement local mnent toujours aux mmes EQME si lon utilise
seulement deux anmomtres dans le calcul. Ensuite, si lon fait le dcompte
des mthodes o lon obtient les meilleurs rsultats, donc celles menant aux
EQME minimales (nombres en gras), on trouve que la mthode du point de r-
frence avec coefficient de cisaillement global offre le meilleur rsultat pour 16
des 30 sites o lon possdait des rsultats (en comptant le site 31). La moyenne
des erreurs quadratiques moyennes dextrapolation pour les 30 sites abonde
dans le mme sens, avec une moyenne dEQME de 0,219 pour lextrapolation
30
y 2,i,G , de 13,348 pour y G , et de 0,318 pour les mthodes y 2,i,L et y i,L en comp-
tant les extrapolations partir de deux anmomtres du site 31. Pour le site 31
et lextrapolation partir de trois anmomtres, la mthode optimale est celle
du point de rfrence avec coefficient de cisaillement local o la hauteur de
rfrence est h2 (donc lanmomtre le plus haut quon puisse utiliser). Lutili-
sation de trois hauteurs plutt que deux nous mne de bonnes amliorations
de lerreur quadratique moyenne dextrapolation (EQME de 0,071 contre 0,083
pour les meilleures mthodes trois ou deux hauteurs utilises, respective-
ment, ce qui quivaut donc une amlioration de 14%). De plus, on voit que
pour chaque anmomtre k, yk,i,L fait toujours mieux que yk,i,G et que lEQME
de yk,i,G diminue mesure quon prend un anmomtre plus haut (quivalent
un k qui diminue), mais que le comportement de yk,i,L ne suit pas la mme
tendance.
MODLISATION DE LA DISTRIBUTION DE LA
VITESSE DES VENTS
La loi de Weibull deux paramtres est une loi de probabilit continue carac-
trise par les paramtres de forme, not k, et dchelle, not . La fonction de
densit de la Weibull est la suivante :
k x k1 ( x )k
fk, (x) = e .
La fonction de rpartition de la Weibull, quant elle, est dfinie par :
x k
Fk, (x) = 1 e( ) .
Lesprance et la variance dune variable alatoire X de la distribution Weibull
sont respectivement donnes par :
1
Ek, (X) = 1 +
k
2 2 2 1
Vark, (X) = 1 + 1+ .
k k
La figure 4.1 montre quatre exemples de fonctions de densit dune Weibull.
1.5
Densit ce point
1.0
chelle=0,5; forme=2,0
chelle=1,0; forme=2,0
chelle=1,5; forme=3,0
chelle=3,0; forme=4,0
0.5
0.0
0 1 2 3 4 5
valeur de x
n
!1
k
1 X k
= X , (4.2.2)
n i=1 i
Une fois que les estimateurs du maximum de vraisemblance (EVM) sont trou-
vs, il est possible de dessiner par-dessus lhistogramme des vitesses de vent
la courbe de densit de la Weibull ajuste. La figure 4.2 prsente un exemple
de lajustement dune fonction de densit de Weibull sur la distribution des vi-
tesses du vent en mtres/seconde. Les vitesses de vent utilises sont celles du
site 1, o environ neuf ans de donnes sont disponibles.
37
0.15
0.10
Frquence
0.05
0.00
0 5 10 15 20 25
Ici, nous avons utilis le test du khi-deux. Celui-ci sapplique bien dans
notre cas, puisque nous pouvons utiliser ce test sur des intervalles dune lar-
geur de 1 m/s entre 0 et 25 m/s, sachant que la fonction de puissance est dis-
crtise de cette faon et que nous lutiliserons un peu plus tard. Pour utiliser
ce test, nous devions estimer les probabilits thoriques de se retrouver dans
chacune des classes de la distribution de la vitesse du vent, en se basant sur la
38
Weibull ajuste sur les donnes collectes de vitesse du vent. Pour ce faire, il fal-
lait dabord estimer les paramtres de la Weibull. Nous devions aussi calculer
les frquences de la vitesse du vent pour chacune des classes afin de les com-
parer aux probabilits thoriques estimes. Nous avons utilis, pour chaque
site, les classes de vitesses du vent collectes suivantes : [0,1[ m/s, [1,2[ m/s,...,
[24, + [ m/s.
k !
a k b
= exp exp . (4.3.1)
Pour trouver les estimateurs du maximum de vraisemblance de k et pour
ce test, on devait donc maximiser la formule suivante, par rapport ces deux
mmes paramtres :
N10 25
n
Y Y
pi = pj j , j=1,...,25 le nombre de classes
i=0 j=1
k ! k !!n1
0 1
= exp exp ...
k !!n25
24
exp
25
X ((N10 + 1)fj (N10 + 1)pj )2
T = , (4.3.2)
j=1
(N10 + 1)pj
Lhypothse nulle pour le test est lhypothse selon laquelle les probabilits
que la vitesse prenne les valeurs dans les classes 1 25 proviennent dune
loi Weibull. La statistique trouve en (4.3.2) suit asymptotiquement, sous lhy-
pothse nulle et sous lhypothse que les donnes sont i.i.d., une loi du 2
25 1 2 = 22 degrs de libert. On rejettera donc lhypothse nulle si
T > 222;0,05 = 33,924 pour un test avec niveau de significativit de 5%.
4.3.1.1. Rsultats
4.3.1.2. Discussion
On peut voir dans le tableau 4.1 que lhypohse nulle est largement rejete
dans tous les cas. Effectivement, rappelons que les statistiques de test prsen-
tes dans ce tableau (comprises entre 192,34 et 51 530,94) sont compares
la valeur 33,92 pour dterminer du rejet ou non de H0 . Cest donc dire quon
41
On pense que les paramtres des Weibull ajustes sur diverses annes ou
mme divers mois varient de faon assez considrable. Serait-il prfrable de
42
On peut retrouver la figure 4.3 les diverses fonctions de densit des Weibull
ajustes sur les distributions de vitesse du vent annuelles au site 1, laide des
estimateurs du maximum de vraisemblance des deux paramtres. La premire
anne est lanne 2003 et la dixime, 2012.
Voyons dabord la notation utilise pour les donnes aux dix minutes regrou-
pes par mois ou par anne et pour les paramtres qui seront ajusts sur chaque
distribution annuelle ou mensuelle. Ici encore, on utilise les donnes de vitesse
du vent aux dix minutes de lanmomtre 1. On notera maintenant YAi,j,l la
donne de vitesse de vent aux dix minutes collecte durant lanne i, i = 1,...,A,
pour le j e mois de lanne i, j = 1,...,12 et pour ce mois de cette anne prcise,
durant le le dix minutes, l = 1,...,Ni,j . On comprend donc que Ni,j est le nombre
de vitesses de vent aux dix minutes collectes durant le j e mois de lanne i.
On fait ensuite lhypothse que les YMj ,1 ,...,YMj ,NMj , i.e. les donnes aux dix
minutes collectes durant le mois Mj , sont i.i.d. et distribues selon une Wei-
bull( Mj ) ou encore, de faon quivalente, une Weibull(Mj , kMj ). On estimera
ces deux derniers paramtres partir de la mthode du maximum de vraisem-
blance, tels que vus la section 4.2, afin dobtenir Mj .
dune telle distribution. Puis, si les paramtres sont identiques dun mois
lautre et que la taille de lchantillon est la mme, alors les (Mj , kMj ) sont
i.i.d. Nous devons donc absolument utiliser le mme nombre dobservations
pour chaque mois o lon ajustera une Weibull aux vitesses de vent mesures,
mais chaque mois ne contient malheureusement pas le mme nombre dob-
servations cause de donnes manquantes ou du nombre de jours qui varie
entre les mois. Nous avons donc dcid de faire un tirage alatoire sans re-
mise de q vitesses de vent aux dix minutes dans chaque mois et dutiliser ces q
donnes pour lajustement des Weibull mensuelles, plutt que les NMj donnes
disponibles variant pour chaque mois. Certains des mois prsentant plusieurs
vitesses de vent manquantes, q a t dfini comme suit :
1
q = min{NMj |Mj 1,...,M et NMj > 6 24 31}.
2
Nous avons donc choisi, parmi les mois o au moins la moiti des donnes
taient disponibles, le mois o il y avait le moins de donnes de vitesses de
vent aux dix minutes disponibles. Ainsi, sans perte de gnralit, notez que
NMj = q vitesses de vent aux dix minutes ont t utilises pour lajustement de
Weibull mensuelles et pour les estimations de variance asymptotique ou chan-
tillonnale des paramtres, et que les mois o moins de q vitesses de vent ont
t mesures nont pas t pris en compte dans les calculs.
o
M
1 X
k M = kM et
M j=1 j
M
1 X
M = Mj .
M j=1
Notez que la variance ci-haut est une matrice 2x2 et que nous nutiliserons que
les entits de la diagonale, qui reprsentent respectivement les estimations de
la variance des estimateurs du paramtre k et du paramtre ayant t multi-
plis par la racine carre de q.
On fera la mme chose avec les donnes aux dix minutes de chaque anne afin
de comparer les variances chantillonnales et asymptotiques annuelles aux va-
riances mensuelles ou globales. On considre maintenant YAi ,1 ,...,YAi ,NAi o
Ai = 1,...,A est lanne sur laquelle des donnes aux dix minutes sont collectes
pour un site particulier et NAi , le nombre de vitesses de vent aux dix minutes
collectes durant lanne i, sans perte de gnralit, et on note que pour YAi ,m
la me vitesse de vent aux dix minutes rcolte durant lanne i, correspond
une combinaison des indices (j,l) de sorte que les deux notations soient qui-
valentes.
46
On fait ensuite lhypothse que les YAi ,1 ,...,YAi ,NAi , i.e. les donnes aux dix
minutes collectes durant lanne Ai , sont i.i.d. et distribues selon une Wei-
bull( Ai ) ou encore une Weibull(kAi ,Ai ). On estime ces deux paramtres par-
tir des estimateurs du maximum de vraisemblance, toujours tels que vus
la section 4.2, et lon obtient Ai . On estime dabord la variance partir de
p
la variance chantillonnale des paramtres annuels multiplis par NAi , le
nombre dobservations disponibles pour chaque anne. Or, comme dans le cas
des mois, certaines annes prsentent plusieurs donnes manquantes et nous
avons besoin destimer les paramtres sur des distributions de mme taille.
Nous avons donc dcid, ici encore, de faire un tir alatoire sans remise de p
vitesses de vent aux dix minutes dans chaque anne et dutiliser ces p don-
nes pour lajustement des Weibull annuelles, plutt que les NAi donnes dis-
ponibles. Cette fois, p a t dfini de la faon suivante :
1
p = min{NAi |Ai 1,...,A et NAi > 6 24 365}.
2
On peut donc calculer la variance chantillonnale des paramtres annuels mul-
tiplis par p de la faon suivante :
A
p X
Vech,kA = (kAi k A )2 ,
A 1 i=1
A
p X
Vech,A = (Ai A )2 ,
A 1 i=1
o
A
1X
k A = kA et
A i=1 i
A
1X
A = A .
A i=1 i
Notez encore une fois que la variance ci-haut est une matrice 2x2 et que nous
nutiliserons que les entits de la diagonale, qui reprsentent respectivement
les estimations de la variance des estimateurs du paramtre k et du paramtre
ayant t multiplis par la racine carre de p.
o lon utilise encore une fois les entits de la diagonale comme estimations de
la variance.
4.4.1.1. Rsultats
1
Site p (ans) q (mois) Vasy,G Vasy,A Vasy,M Vech,k
Vech,kM
A
1
Site p (ans) q (mois) Vasy,G Vasy,A Vasy,M Vech,
Vech,M
A
4.4.1.2. Discussion
Ainsi, comme on voit une grosse diffrence entre les variances chantillonnales
et asymptotiques, on se demande maintenant si cela peut rellement nous per-
mettre de conclure que les paramtres varient de faon considrable (trop pour
najuster quune seule Weibull sur la distribution de la vitesse du vent) ou sil
ny a pas une autre raison qui nous chappe, qui mnerait de tels rsultats,
aussi diffrents entre les estimateurs de la variance. Prenons par exemple le
site 1, o la variance asymptotique du paramtre de forme annuel multipli
par la racine de p est denviron 3 et la variance chantillonnale du paramtre
de forme annuel multipli par la racine de p, plutt de lordre de 300 (et on
trouve peu prs le mme rapport pour les variances du paramtre dchelle
ce site). Comme on a utilis partout le mme nombre dobservations pour
lajustement dune Weibull (p dans le cas des paramtres annuels), on voit que
mme en prenant lchelle originale et en divisant par p les variances obtenues,
on obtient des variances chantillonnales et asymptotiques pour k de lordre
de 300
p
et p3 respectivement, qui sont toujours trs diffrentes. On se demande
donc si cette diffrence est trop importante pour quil ne sagisse que de la va-
riabilit des paramtres dans le temps, et si cela pourrait tre d la prsence
de dpendance entre les observations, menant des estimateurs qui seraient
davantage variables. Effectivement, lon pourrait peut-tre sattendre des va-
riances trs diffrentes dans le cas o lon estimerait la variance de paramtres
ajusts sur une distribution de donnes dpendantes par rapport indpen-
dantes, mais il ne sagit que dune hypothse pour le moment. Pour vrifier
cette hypothse ainsi que celle que les paramtres varient trop pour nutiliser
que des paramtres globaux, nous allons donc faire une simulation partir du
bootstrap et des paramtres ajusts sur la distribution globale de la vitesse du
vent, ainsi que les paramtres annuels et mensuels. Nous allons donc utiliser
des donnes indpendantes entre elles, gnres sous des modles prcis se-
lon lhypothse tester : notre hypothse nulle sera que la distribution du vent
devrait tre modlise par une Weibull avec paramtres globaux sur toute la
51
priode (et donc que des paramtres globaux suffiraient lors de la modlisa-
tion). En ce qui a trait aux hypothse alternatives, on aura dans un premier
temps (premire hypothse alternative) que la distribution pourrait plutt tre
dcompose en plusieurs distributions annuelles de la vitesse de vent qui pro-
viennent chacune dune Weibull diffrente. La deuxime hypothse alternative
sera plutt que la distribution sur neuf ans peut tre dcompose en 108 dis-
tributions mensuelles (neuf annes multiplies par douze mois) qui provien-
draient toutes de Weibull avec des paramtres diffrents. Pour voir quels r-
sultats mnerait lhypothse nulle (en faisant aussi lhypothse que les donnes
sont indpendantes), nous allons procder comme suit :
Rappelons que nous avons utilis q=2 383 donnes par mois, p=24 869 donnes
par anne et 444 777 donnes au total au site 1 pour nos ajustements de Wei-
bull (voir tableau 4.2). Sous H0 , on utilise les paramtres globaux kG , G ajusts
prcdemment au site 1 :
(1) Simulation dun jeu de donnes i.i.d de taille 444 777 partir dune
W eibull(kG ,G )
(2) Ajustement de paramtres globaux sur les donnes simules en (1) et
estimation de leur variance asymptotique
(3) Sparation des 444 777 donnes en neuf annes et utilisation de seule-
ment p=24 869 donnes par anne (choisies de faon alatoire dans les
444 777/949 420 donnes par anne disponibles)
(4) Ajustement de paramtres annuels sur chacune de ces distributions an-
nuelles de p donnes et estimation de la variance chantillonnale des
neuf paramtres dchelle et des neuf paramtres de forme, ainsi que
de la variance asymptotique (moyenne des variances asymptotiques de
chacun des neuf paramtres dchelle et de forme)
(5) Sparation des 444 777 donnes en 108 mois et utilisation de seule-
ment q=2 383 donnes par mois (choisies de faon alatoire dans les
444 777/1084 118 donnes disponibles pour chaque mois)
(6) Ajustement de paramtres mensuels sur chacune de ces distributions
mensuelles de q donnes et estimation de la variance chantillonnale
des 108 paramtres dchelle et de forme ainsi que de la variance asymp-
totique (moyenne des variances asymptotiques de chacun des 108 pa-
ramtres dchelle et de forme)
52
(7) Reproduire les tapes (1) (6) 1 000 fois pour obtenir 1 000 valeurs
de variance asymptotique globale, annuelle et mensuelle et le mme
nombre de valeurs de variance chantillonnale annuelle et mensuelle,
et ce pour chacun des deux paramtres dune Weibull
Rappelons encore que nous avons utilis q=2 383 donnes par mois, p=24 869
donnes par anne et 444 777 donnes au total au site 1. Sous HA,1 , on utilise
les paramtres annuels kAi ,Ai , i=1,...,9 ajusts prcdemment au site 1 :
(1) Simulation dun jeu de donnes de taille 444 777 partir de 444 777/9
49 420 donnes simules de chacune des distributions Weibull( kAi ,Ai ),
i=1,...,9, mises bout bout.
(2) Ajustement de paramtres globaux sur toute la distribution de 444 777
donnes cre en (1) et estimation de leur variance asymptotique
(3) Sparation des 444 777 donnes en neuf annes et utilisation de seule-
ment p=24 869 donnes par anne (choisies de faon alatoire dans les
49 420 donnes disponibles)
(4) Ajustement de paramtres annuels sur chacune de ces distributions an-
nuelles de p donnes et estimation de la variance chantillonnale des
neuf paramtres dchelle et des neuf paramtres de forme, ainsi que
53
Comme on vient de voir que dajuster des Weibull diffrentes chaque anne
ne mne toujours pas des variances mensuelles des paramtres aussi grandes
54
200
250
200
150
Frquence
Frquence
150
100
100
50
50
0
0
300 350 400 450 30 35 40 45 50
150
150
Frquence
Frquence
100
100
50
50
0
hypothse (en faisant encore lhypothse que les donnes sont indpendantes)
sont reprsentatives de ce quon a observ.
Rappelons toujours que nous avons utilis q=2 383 donnes par mois, p=24 869
donnes par anne et 444 777 donnes au total au site 1. Sous HA,2 , on utilise
les paramtres mensuels kMj ,Mj , j=1,...,108 ajusts prcdemment au site 1 :
(1) Simulation dun jeu de donnes de taille 444 777 partir de 444 777/108
4 118 donnes simules de chacune des distributions Weibull( kMj ,Mj ),
j=1,...,108, mises bout bout.
(2) Ajustement de paramtres globaux sur toute la distribution de 444 777
donnes cre en (1) et estimation de leur variance asymptotique
(3) Sparation des 444 777 donnes en neuf annes et utilisation de seule-
ment p=24 869 donnes par anne (choisies de faon alatoire parmi les
49 420 donnes disponibles pour chaque anne)
(4) Ajustement de paramtres annuels sur chacune de ces distributions an-
nuelles de p donnes et estimation de la variance chantillonnale des
neuf paramtres dchelle et des neuf paramtres de forme, ainsi que
de la variance asymptotique (moyenne des variances asymptotiques de
chacun des neuf paramtres dchelle et de forme)
(5) Sparation des 444 777 donnes en 108 mois et utilisation de seulement
q=2 383 donnes par mois (choisies de faon alatoire parmi les 4 118
donnes disponibles pour chaque mois)
(6) Ajustement de paramtres mensuels sur chacune de ces distributions
mensuelles de q donnes et estimation de la variance chantillonnale
des 108 paramtres dchelle et de forme ainsi que de la variance asymp-
totique (moyenne des variances asymptotiques de chacun des 108 pa-
ramtres dchelle et de forme)
(7) Reproduire les tapes (1) (6) 1 000 fois pour obtenir 1 000 valeurs
de variance asymptotique globale, annuelle et mensuelle et le mme
nombre de valeurs de variance chantillonnale annuelle et mensuelle,
et ce pour chacun des deux paramtres dune Weibull
contenus) dans les distributions des 1 000 variances trouves par simulations.
Or, en ce qui concerne les distributions des variances chantillonnales, on ob-
tient plutt les rsultats prsents la figure 4.5.
300
400
250
200
300
Frequency
Frequency
150
200
100
100
50
0
100 200 300 400 500 230 240 250 260 270
250
400
200
Frequency
Frequency
300
150
200
100
100
50
0
On voit maintenant que les valeurs obtenues plus tt (barres pointilles dans
le graphique) sont contenues dans les distributions, tant pour la distribution
des variances des paramtres annuels que mensuels. Cela indique donc que,
mme en simulant des donnes indpendantes, mais partir de distributions
diffrentes chaque mois, on obtient des valeurs pour les variances qui sont si-
milaires ce quon a obtenu dans la ralit. Ainsi, sil y a de la dpendance
entre les observations, ce ne serait peut-tre pas la cause des variances chan-
tillonnales si diffrentes des variances asymptotiques (environ cent fois plus
grandes).
On pense plutt que des paramtres globaux, dans un premier temps, ne per-
mettent pas de capturer la variabilit dans la distribution de la vitesse de vent,
dans le temps. Dans un deuxime temps, on a remarqu partir des rsul-
tats sous lhypothse HA,1 que des paramtres annuels ne sembleraient pas
non plus capturer toute la variabilit de la distribution de la vitesse du vent
et que cette distribution varie encore davantage quaux annes, puisque les
variances chantillonnales mensuelles obtenues pour chacun des paramtres,
partir des vraies donnes, taient respectivement de 240,31 et 1 791,02 alors
quon obtenait des variances moyennes de 41,01 et 134,70 respectivement, sous
HA,1 . Aprs avoir vu la figure 4.5 que des paramtres variant mensuellement
mnent des rsultats assez prs de ceux obtenus partir des donnes me-
sures, on pense quil est possible que des paramtres changs chaque mois
mnent une meilleure modlisation de la distribution de la vitesse du vent.
Bien sr, il nous est impossible, juste avec ces rsultats, de nous assurer que
de tels paramtres variant mensuellement reprsentent la solution tout pro-
blme de modlisation. Nous pensons aussi quil existe de la dpendance entre
les observations, puisque la vitesse du vent un moment prcis sera probable-
ment plus semblable celle une heure plus tard qu la vitesse du vent une
anne plus tard, donc il est possible que les simulations ne soit pas reprsen-
tatives de la ralit puisque les donnes simules taient indpendantes et fai-
saient donc abstraction de la structure de corrlation entre les observations.
Cest pourquoi nous voulons investiguer davantage sur la dpendance entre
les observations.
sont dpendantes entre elles, jusqu un certain dlai dans le temps. En effet,
si lon mesure la vitesse du vent aujourdhui un site particulier, et quon re-
tourne la mesurer une heure plus tard, on sattend ce que la vitesse nait pas
chang drastiquement sous des conditions mtorologiques plutt normales.
Par contre, il est possible que si lon retourne mesurer la vitesse du vent dans
plusieurs mois au mme site, la tendance du vent ait beaucoup chang et que
la vitesse ne soit plus autant relie aux mesures prises aujourdhui. Le temps
durant lequel il y a encore un lien (de la dpendance) entre les observations de
vitesse du vent est ce que nous aimerions tudier dans cette section.
Pour tudier la dpendance, nous utilisons la srie des vitesses de vent au site
1. Nous utilisons aussi un outil trs utile quand vient le temps danalyser des
sries chronologiques : un graphique dautocorrlation. Celui-ci nous permet-
tra de vrifier, pour ce site, jusqu quel dlai de temps (en heures, puis en
jours) la srie de vitesses du vent est-elle encore corrle. Chaque barre pr-
sente dans les graphiques nous indiquera la corrlation (un indice contenu
entre -1 et 1), pour diffrents dlais. Notez que la srie de vitesses de vent est
plutt stationnaire, elle ne prsente pas de tendance particulire dans le temps
et les vitesses de vent oscillent plutt autour de la moyenne long terme. Nous
avons donc utilis directement la srie des vitesses moyennes aux heures ou
aux jours sans y appliquer de transformation.
1.0
1.0
0.8
0.8
0.6
0.6
Corrlation
Corrlation
0.4
0.4
0.2
0.2
0.0
0.0
1.0
0.8
0.6
Corrlation
0.4
0.2
0.0
0 10 20 30 40 50 60
Temps (jours)
En ce qui a trait la corrlation entre les vitesses aux heures, on voit droite
de la figure 4.6 que la corrlation est bien prsente, au moins jusquau dlai
100 (prs de quatre jours). Si on regarde la figure 4.7, on peut aussi voir que la
corrlation entre les vitesses moyennes aux jours est significative sur un dlai
de plus de quatre jours (elle oscille ensuite autour de 0). Ces rsultats nous
aident mieux comprendre la structure de corrlation entre les observations.
De plus, cela va dans le mme sens que ce que lon croyait, cest--dire quil
existe bien de la dpendance entre les observations.
Comme nous venons de voir quil existe une dpendance non ngligeable sur
un dlai denviron trois quatre jours, nous aimerions maintenant reproduire
le test du khi-deux de la section 4.3.1 en utilisant la moyenne des vitesses de
vent sur trois jours plutt que les vitesses de vent aux 10 minutes comme en
4.3.1, pour quelques sites. Nous croyons que leffet de la dpendance entre les
observations sera amoindri en utilisant les moyennes et que les rsultats du test
pourraient maintenant tre plus fiables. Il sera intressant de remarquer si les
rsultats sont diffrents de ce quon avait avec les donnes aux dix minutes,
et si la Weibull semble maintenant approprie pour modliser la distribution
de la vitesse du vent. Nous avons donc refait le test partir des observations
moyennes aux trois jours de quelques-uns des sites prsentant des nombres
dobservations variables. Aux sites 18, 24, 25 et 26, lhypothse nulle na pas
t rejete pour des nombres dobservations aux trois jours allant de 32 226
60
(valeurs-p respectives de 0,996, 0,304, 0,348 et 0,921). Par contre, pour les sites
1, 15 et 30, on rejetait lhypothse nulle du test (valeurs-p<0,001) pour 1029, 369
et 282 observations, respectivement. Il est donc possible quon ne dtecte pas
la diffrence entre la densit de Weibull et la probabilit empirique dtre dans
chaque catgorie cause dun trop petit nombre dobservations moyennes aux
trois jours, pour les premiers sites. On pense donc toujours que la Weibull nest
pas compltement approprie pour modliser la distribution du vent, mme
en supprimant une portion de la dpendance entre les observations.
2000
1500
Puissance en kW
1000
500
0
0 5 10 15 20 25
25
" k k !#
X j1 j
= puisj exp exp 365,25 24 (4.5.1)
j=1
dans le cas o lon utilise les probabilits estimes dtre dans chaque classe.
Les valeurs puisj sont donnes sur la figure 4.8 ; il sagit de la puissance corres-
pondant la classe j, en kilowatts. Notez que le calcul sarrte pour la classe
de vitesse du vent 24-25 m/s puisque la puissance devient nulle aprs 25 m/s
et que le reste (les vitesses de vent suprieures 25 m/s) nest donc pas comp-
tabilis dans la somme. Par contre, la Weibull est bel et bien ajuste sur la dis-
tribution de toutes les vitesses de vent car la probabilit dtre dans chaque
62
4.5.1. Rsultats
4.5.2. Discussion
On remarque en regardant le tableau 4.4 que lerreur relative entre les deux
estimations de production dnergie oscille entre 5,05% et 6,28%. De plus,
pour 7 des 31 sites, lerreur relative est ngative et lestimation partir de la
Weibull sous-estime la production dnergie calcule partir des frquences
relles. Pour 24 des 31 sites, lestimation par la Weibull reprsente donc une sur-
estimation de la production dnergie annuelle trouve partir des frquences
relles de la vitesse du vent mesure au site. Si on tient plutt compte de ler-
reur relative absolue (la dernire colonne du tableau ci-dessus en absolu), on
trouve une moyenne derreur relative de 2,35%, avec cart-type de 1,72. La
diffrence entre les deux mthodes est donc plutt considrable (on parle de
dizaines et de centaines de milliers de kW/an de diffrence), et il pourrait tre
prfrable destimer la production dnergie annuelle toujours partir de la
distribution empirique, puisque celle-ci devrait mieux reprsenter la distribu-
tion du vent annuelle que la distribution de la Weibull ajuste sur les vitesses
de vent, dautant plus que lutilisation de la Weibull mne une sur-estimation
de la production dnergie dans la majorit des cas (menant du mme coup
un dficit dnergie par rapport aux attentes pour un site particulier).
Nous avons aussi pens que lutilisation de paramtres de Weibull variant dans
le temps pourrait permettre de pallier la mauvaise modlisation de la distri-
bution de vitesses de vent. La comparaison des variances des paramtres
65
Les ingnieurs oliens tentent de prdire les donnes de vent long terme
afin davoir un indice de la moyenne de la vitesse du vent long terme plu-
tt que sur quelques annes seulement. Par exemple, sils ont install un mt
de mesure il y a trois ans et quils collectent des donnes depuis ce temps,
ils ont une mesure de la vitesse moyenne du vent pour les dernires annes
mais les banquiers veulent une valuation de la vitesse moyenne du vent sur
un plus long horizon, gnralement dix ans, pour mieux tenir compte des va-
riations annuelles. Ces ingnieurs cherchent donc des moyens permettant de
prdire le vent, plus long terme, partir dautres sources de donnes. La m-
thode MCP (Measure-Correlate-Predict), souvent utilise dans le domaine de
lolien, consiste en une faon de prdire le vent dans le pass, au-del de la
priode de donnes mesures sur des mts, partir de donnes disponibles sur
une plus longue priode, par exemple les donnes provenant dEnvironnement
Canada ou les donnes simules.
Cest cette mthode qui permet aux ingnieurs de prdire la vitesse du vent
dans le pass. Par exemple, si deux annes de donnes collectes sont dispo-
nibles, mais que lon dsire obtenir une ide du vent moyen sur dix ans, on
prdit partir dune rgression linaire simple et des donnes simules (ou
dautres disponibles, comme celles dEnvironnement Canada) sur les huit annes
passes manquantes les vitesses de vent collectes puis on calcule la moyenne
de la vitesse du vent sur dix ans partir de deux annes relles et de huit an-
nes prdites. La prochaine section prsente les modles statistiques utiliss
pour la prvision de la vitesse du vent.
Rappelons que nous utiliserons, tout au long de ce chapitre, les donnes col-
lectes moyennes aux heures de lanmomtre 1 quon note par yi , i = 0,1,...,N
ou encore Y. Nous considrerons trois modles de prvision et commence-
rons dabord par prsenter le cas gnral. Soit X la matrice compose dune
premire colonne pleine de 1 et dautres colonnes qui reprsenteront les pr-
dicteurs dans la rgression linaire qui nous permettra de prdire la vitesse du
vent dans le pass. Ici, X aura donc deux ou trois colonnes, dpendamment de
si lon utilise seulement les vitesses de vent mso-chelle (ce que Hatch veut in-
vestiguer), seulement les vitesses de vent provenant dune station de rfrence
(ce quils font prsentement), ou les deux prdicteurs ensemble dans une r-
gression linaire multiple (ce qui, selon nous, pourrait tre mieux).
On supposera dabord que les donnes mesures Y sont relies aux prdic-
teurs par le modle linaire suivant :
Y = X + ,
Cest avec ces coefficients que nous pourrons prdire la vitesse du vent en de-
hors du domaine de rgression, partir de la formule suivante de prvision
faite partir dune rgression linaire :
p
ynouveau = x0nouveau ,
pour xnouveau un vecteur compos des prdicteurs (la premire entit valant 1),
pour un temps (nouveau) qui nest pas contenu dans 0,1,...,N et pour lequel on
dsire une prvision.
Maintenant, voyons les trois cas considrs. Nous utiliserons dabord les vi-
tesses de vent mso-chelle seules dans une rgression linaire simple o la
variable dpendante est la vitesse de vent collecte lanmomtre 1. La ma-
trice X sera donc compose dune colonne pleine de 1 et dune colonne compo-
se de N + 1 vitesses de vent mso-chelle. On obtiendra, partir de la formule
(5.2.1), deux coefficients quon notera s,0 et s,1 . On dfinira comme suit la pr-
vision faite partir de ces coefficients et des vitesses de vent mso-chelle :
On pourra faire la mme chose partir des donnes provenant dune station
de rfrence, en modifiant la matrice X de sorte que la seconde colonne soit
compose de (N + 1) vitesses de vent fournies par une station de rfrence
situe prs du site. On estime encore, partir de la formule (5.2.1), les coeffi-
cients expliquant la relation linaire entre les donnes mesures et celles de la
station, puis on obtient deux coefficients quon notera maintenant r,0 et r,1 .
Il est donc possible de faire des prvisions de la vitesse du vent en dehors du
domaine, de la faon suivante :
Ces donnes sont disponibles pour seulement 15 sites sur 31. Notez aussi que
certains des sites o nous possdons des donnes provenant dune station de
rfrence navaient des donnes collectes que sur deux ou trois annes. Pour
ces sites, o lon possde tout de mme au moins deux ans de donnes, on
gardera une plus petite partie de donnes pour lchantillon dapprentissage
(environ le quart des donnes disponibles sur la priode complte et les autres
trois quarts pour faire la validation). Pour simplifier les notations, lon notera
par N2ans la taille de lchantillon dapprentissage, dans tous les cas mme ceux
o lon utilise moins de deux ans. Une validation croise sera aussi faite pour
les 16 autres sites o nous navons pas de donnes de rfrence, afin davoir
une ide de lerreur de prvision faite partir de la rgression o lon utilise
seulement les donnes mso-chelle.
et
yi = 0 + s xs,i + r xr,i ,
quon utilise afin de prdire aux indices i = 0,...,N N2ans (donc sur lchan-
tillon de validation) la vitesse du vent collecte. Or, pour ces indices, on pos-
sde aussi la vitesse de vent moyenne horaire de lanmomtre 1, yi . Il est donc
possible destimer lerreur quadratique moyenne de prvision pour chacune
des trois mthodes de prvision :
72
cv 1 X
EQM
\s = (yi ys,i )2 ,
Nvalid iEvalid
cv 1 X
EQM
\r = (yi yr,i )2 et
Nvalid iEvalid
cv 1 X
EQM
\ s,r = (yi yi )2 .
Nvalid iEvalid
5.3.3. Rsultats
Les rsultats des validations croises entreprises pour tous les 31 sites sont
prsents dans le tableau 5.1, la page suivante. En gras, on retrouve les er-
reurs quadratiques moyennes minimales entre celles trouves partir des trois
divers modles de rgression linaire.
5.3.4. Discussion
Dans un premier temps, on peut voir partir des rsultats que la mthode
prsentement utilise par Hatch, soit de prvoir la vitesse du vent partir des
donnes de stations de rfrence seulement, mne aux pires rsultats sauf pour
le site 19. part ce site, le modle avec les donnes mso-chelle seules pour
prvoir les vitesses mesures fait toujours mieux que le modle prsentement
utilis. Cependant, cela ne veut pas dire quon devrait simplement remplacer
les donnes de station de rfrence par les donnes mso-chelle. En effet, en
dfinissant lamlioration relative comme suit pour le modle deux prdic-
teurs par rapport celui o lon utilise seulement les donnes mso-chelle :
q q
cv cv
\ s EQM
EQM \ s,r
100 q ,
cv
EQM s
\
donnes mso-chelle dj dans le modle alors que lutilisation des deux va-
riables augmente de 26,7% la prcision par rapport ce quils font prsente-
ment (minimum de 13,8%, maximum de 54,8%). Les deux types de donnes
sont donc utiles pour la prvision de la vitesse du vent mesure partir dune
rgression linaire (multiple dans ce cas).
5.3.6. Discussion
mieux que celui avec les donnes mso-chelle ici, et que cest le seul de nos
tests qui prsente de tels rsultats. Par contre, les donnes mso-chelle ne sont
pas bannir puisquelles apportent encore un peu dinformation dans le mo-
dle deux prdicteurs lors de la prvision de la vitesse du vent passe. En
76
1
0
= E (Yvalid Yvalid ) (Yvalid Yvalid ) . (5.4.1)
Nvalid
Ils ne peuvent tre calculs que si nous avons les valeurs de yi dans lensemble
de validation, ce qui nest gnralement pas le cas. Afin de voir comment nous
pourrions estimer lEQMP, faisons lhypothse, comme nous lavons fait jus-
qu maintenant, que les observations sont indpendantes, de mme variance.
Afin dallger la notation, dnotons par X et Xv les matrices de variables expli-
catives pour les observations dapprentissage et de validation, respectivement.
Voyons comment il est possible de dvelopper la formule de lerreur quadra-
tique moyenne de prvision si lon postule
Yapp =X +
Yvalid =Xv + v
o E() = 0Napp , E(v ) = 0Nvalid , V ar() = 2 INapp Napp , V ar(v ) = 2 INvalid Nvalid
et et v sont indpendants.
Lors de la validation croise, nous navons que Yapp puisque Yvalid nest g-
nralement pas observ. On estime donc par les moindres carrs sur le bloc
dapprentissage, soit
1
2 tr(X(X0 X)1 X0v Xv (X0 X)1 X0 ) + 0 + 2 tr(INvalid )
=
Nvalid
Il est donc possible destimer lEQMP avec cette dernire formule en rempla-
ant 2 par son estimateur bas sur la somme des carrs des rsidus de la r-
gression calcule sur les donnes appartenant Eapp .
1
E (Yvalid Yvalid )0 (Yvalid Yvalid )
Nvalid
1
E 0 X(X0 X)1 X0v Xv (X0 X)1 X0
=
Nvalid
20 X(X0 X)1 X0v v + 0v v .
et E (0v v ) = tr (V22 ) .
Finalement, on peut regrouper tout ensemble pour montrer que lerreur qua-
dratique moyenne de prvision sous les hypothses poses prcdemment de-
vient :
1
tr X(X0 X)1 X0v Xv (X0 X)1 X0 V11
Nvalid
La quantit quon veut estimer ici est lerreur quadratique moyenne de prvi-
sion, cest--dire
!
1 X
EQM P = E (yi yi )2 . (5.4.7)
Nvalid iE
valid
(3) Tirer de facon alatoire avec remise (N + 1) rsidus parmi ceux calculs
ltape prcdente, de sorte les mettre les uns aprs les autres et
ainsi crer une srie derreurs bootstrap de longueur (N + 1).
(4) Crer les observations bootstrap comme suit :
Y = XN + ,
Y = XN + , (5.4.8)
Voyons maintenant les tailles de blocs que nous avons considres ici.
fait pour des blocs de taille 200 afin de voir limpact sur les rsultats lorsque
des blocs plus longs sont utiliss. Il est intressant de remarquer que des blocs
de taille 26 24 couvriront environ une structure de dpendance entre les
donnes qui stend sur 24 heures, donc une journe, alors quune structure de
dpendance stendant sur 200 donnes correspond environ considrer quil
y a de la dpendance jusqu un dlai dune semaine entre les vitesses de vent
mesures. Aussi, nous avons vu dans la section 4.4.2 que la corrlation entre
les observations tait bien prsente sur un dlai de plus de quatre jours, et les
blocs de taille 200 couvriront au moins ces quatres jours o la corrlation est
plus forte.
5.4.2.3. Rsultats
blocs (l)
1 55 184 17 521 1 -2,95 -4,29 -2,33
26 -2,92 -4,26 -2,30
200 -3,19 -4,58 -2,60
2 21 827 8 762 1 -5,39 -1,41 -3,76
21 -5,48 -1,26 -3,66
200 -5,30 -1,68 -3,74
3 1 9605 17 521 1 3,72 0,83 1,43
26 3,73 0,79 1,46
200 3,63 0,68 1,33
4 34 532 17 521 1 -1,33 -3,24 -0,56
26 -1,30 -3,20 -0,52
200 -1,34 -3,39 -0,65
5 5 998 2 008 1 -5,66 -12,42 -11,37
13 -5,54 -12,44 -11,27
200 -7,64 -14,11 -13,26
6 12 329 17 521 1 5,36 - -
26 5,43 - -
200 5,37 - -
7 25 949 17 521 1 1,08 -2,80 -0,86
26 1,09 -2,84 -0,90
200 0,76 -3,09 -1,17
1
Les cases vides reprsentent les sites o nous ne possdions pas de donnes de stations de rfrence.
85
(Suite)
blocs (l)
8 5 998 2 613 1 -8,67 - -
14 -8,91 - -
200 -10,54 - -
9 28 994 17 521 1 -4,32 - -
26 -4,28 - -
200 -4,55 - -
10 23 008 17 521 1 -2,80 - -
26 -2,82 - -
200 -2,99 - -
11 3 673 17 521 1 -9,64 - -
26 -9,57 - -
200 -10,00 - -
12 5 999 2 671 1 6,12 - -
14 6,23 - -
200 4,80 - -
13 15 115 17 521 1 -2,82 - -
26 -2,86 - -
200 -2,90 - -
14 26 718 17 521 1 -4,37 - -
26 -4,34 - -
200 -4,56 - -
15 9 096 17 521 1 1,29 - -
26 1,25 - -
200 1,01 - -
16 11 532 17 521 1 -2,65 - -
26 -2,63 - -
200 -2,75 - -
17 5 887 2 989 1 -1,92 24,96 10,46
15 -1,80 25,07 10,57
200 -4,23 23,58 8,79
18 5 999 2 030 1 -3,05 -5,11 -3,44
13 -2,82 -4,93 -3,25
200 -4,87 -6,71 -5,45
19 7 999 2 086 1 -7,40 -12,71 -7,73
13 -7,99 -12,89 -7,87
200 -9,73 -14,72 -9,53
20 7 999 1 771 1 -3,41 -11,48 -7,31
13 -3,67 -11,67 -7,20
200 -7,10 -15,66 -10,28
21 15 999 3 321 1 -11,76 -30,82 -10,46
15 -11,58 -30,72 -10,20
200 -13,33 -31,02 -11,94
1
Les cases vides reprsentent les sites o nous ne possdions pas de donnes de stations de rfrence.
86
(Suite)
blocs (l)
22 5 999 2 585 1 26,37 - -
14 26,25 - -
200 24,05 - -
23 14 999 4 698 1 12,02 - -
17 12,11 - -
200 10,97 - -
24 11 999 4 721 1 -10,22 -7,41 -10,15
17 -10,13 -7,45 -10,12
200 -11,35 -8,97 -11,11
25 3 999 1 988 1 -13,33 - -
13 -13,32 - -
200 -17,28 - -
26 1 599 788 1 -13,41 - -
10 -13,19 - -
200 -16,83 - -
27 2 299 1 230 1 -4,34 - -
11 -3,92 - -
200 -6,58 - -
28 5 999 2 719 1 9,23 - -
14 9,54 - -
200 7,99 - -
29 8 999 3 833 1 9,91 9,98 15,24
16 10,02 10,11 15,31
200 9,41 9,32 14,90
30 2 741 17 521 1 2,41 8,03 2,00
26 2,35 8,12 1,71
200 2,03 7,72 1,85
31 16 863 17 521 1 -4,30 9,64 0,33
26 -4,38 9,58 0,31
200 -4,61 9,59 0,11
1
Les cases vides reprsentent les sites o nous ne possdions pas de donnes de stations de rfrence.
5.4.2.4. Discussion
On remarque, pour une majorit des sites, que la longueur des blocs ne
change pas beaucoup la diffrence absolue relative des racines carres des er-
reurs quadratiques moyennes par rapport celles obtenues par validation croi-
se. On voit aussi que le modle menant aux EQMP calcules partir du boots-
trap se rapprochant le plus de lEQM calcule avec la validation croise est
plutt difficile dterminer, puisque pour 7 des 15 sites o lon peut comparer
87
les trois modles, il sagit du modle deux prdicteurs (moyenne des DARs,r
1/3
absolues de 5,78%, l = Napp ), mais que ce modle est suivi de trs prs par
celui o lon utilise seulement les donnes mso-chelle (5 sites sur 15 o les
rsultats sont les plus similaires la validation croise, avec une moyenne des
1/3
DARs absolues de 6,50%, l = Napp pour les 31 sites ou une moyenne de 4,99%
sur les 15 sites comparables seulement). Notez que la moyenne des DARr ab-
1/3
solues tait plutt de 9,69% pour l = Napp .
Suite cette analyse, nous aurions aim trouver une diffrence dans les rsul-
tats lorsque nous faisions varier la taille des blocs dans le bootstrap. On croit
que la diffrence a t camoufle par un des termes dans lerreur quadratique
moyenne de prvision. Effectivement, en prenant en exemple la formule de
lEQMP sous lhypothse dindpendance entre les donnes, on pouvait voir
2
partir
de (5.4.4) que
le terme de variance multipli par 1 domine le terme
0 1 0 2
2 tr((X X)
Napp
Xv Xv )
, ce dernier tant dordre Napp , avec un Napp trs grand (rap-
pelons que les erreurs quadratiques moyennes de prvision sont calcules ici
partir des Napp observations de lchantillon dapprentissage). On ne peut pas
aussi clairement diffrencier les termes dans la formule (5.4.6), formule o lon
tenait compte de la covariance entre les donnes, mais on pense que le mme
phnomne se produit et que cela pourrait peut-tre expliquer pourquoi on ne
dtecte aucune diffrence au niveau de la taille des blocs dans le bootstrap. Ef-
fectivement, la variance dune prvision faite partir dune rgression linaire
peut tre dcompose en la variance due la prochaine observation autour de
la droite de rgression et la variance due lestimation de la droite de rgres-
sion (en considrant une rgression linaire simple). Comme nous possdons
ici un trs grand nombre dobservations pour faire la rgression linaire (peu
importe le modle considr), la variance due lestimation de la droite de
rgression risque dtre plutt faible par rapport celle due la prochaine
observation autour de la droite (plus dobservations mnent une estimation
moins variable de la droite de rgression). Or, on sattend ce que la taille
des blocs influence davantage la variance de lestimation de la droite que celle
de la prochaine observation. Par exemple, nous savons que des observations
dpendantes entre elles mneront une plus grande variance de la droite de
rgression que des donnes indpendantes (la dpendance entre les donnes
nous donnant accs moins dinformation diffrente sur ces dernires).
Nous sommes donc maintenant intresss voir leffet de la taille de bloc sur
la variance de la droite de rgression, ou encore de faon semblable sur la va-
riance de la prvision moyenne (cette prvision se trouvant sur la droite de
88
rgression et qui demeure une quantit dintrt pour les ingnieurs de chez
Hatch, pour qui une estimation de la variance pourrait tre utile).
Si lon ne possdait pas les premires Nvalid vitesses de vent collectes, on pour-
rait utiliser lun des modles linaires afin dobtenir des prvisions de la vitesse
du vent pour i Evalid , quon note yi et, du mme coup, lestimation de la vi-
tesse moyenne long terme par la mthode MCP deviendrait :
1 X X
y = yi + yi . (5.4.10)
N +1 iEvalid
iEapp
pour b=1,...,1 000, o yb,i est dfini en (5.4.9) et yb,i est dfini en (5.4.8).
Aprs avoir calcul pour les 1 000 bootstraps cette moyenne long terme esti-
me, on peut calculer la variance chantillonnale comme suit :
1000
1 X 2
V ar (yb ) =
yb y ,
999 b=1
89
o
1000
1 X
y = y
1000 b=1 b
On fait ces calculs pour les prvisions estimes partir des trois diffrents mo-
dles. On obtient ainsi trois mesures de variance de la moyenne long terme
estime et ce pour une taille de bloc l donne.
(Suite)
5.4.2.6. Discussion
On peut maintenant voir que la taille des blocs de rsidus a un effet sur la
variabilit de la moyenne long terme estime, contrairement lerreur quadra-
tique moyenne de prvision calcule partir du bootstrap. De faon gnrale,
1
lutilisation de blocs derreurs bootstrap de taille Napp
3
mne des variances
estimes entre 3,19 et 9,53 fois suprieures aux variances estimes partir de
92
blocs de taille 1. En ce qui a trait aux blocs de taille 200, ils mnent des va-
riances estimes entre 5,54 et 27,23 fois suprieures aux variances correspon-
dant aux blocs de taille 1. On remarque que le ratio 200/1 est peu prs tou-
jours deux fois plus grand que le ratio 26/1. Les rsultats indiquent donc quil
est important de tenir compte du dlai de corrlation entre les observations
dans le temps, si lon dsire utiliser le bootstrap pour obtenir une estimation
de la variance de la moyenne long terme de la vitesse du vent, parce quun
changement dans la taille de bloc changera lestimation de la variance de faon
importante. Il serait intressant de tester ici dautres tailles de blocs que celle
propose par Davison et Hinkley (voir par exemple Politis et Romano (1995))
et de tenter de dterminer de quelque faon que ce soit la taille optimale pour
lestimation de la variance de la moyenne long terme estime.
Nous avons ensuite prsent une mthodologie, toujours pour estimer lerreur
de prvision mais dans le cas o lon possdait seulement des donnes y ap-
partenant lchantillon dapprentissage (donc seulement les deux dernires
annes, par exemple), cas o on ne peut pas faire de validation croise. Des
blocs derreurs bootstrap ont permis de tenir compte de la dpendance entre
les observations, et des prvisions bootstrap faites partir de rsidus en blocs
de diverses tailles ont permis dobtenir des estimations de lerreur quadratique
93
prenne des valeurs dans les classes de 1 25 m/s ne proviendraient pas dune
loi Weibull. Nous avons ensuite voulu vrifier si un ajustement de Weibull
chaque anne ou mme chaque mois serait prfrable, puisque lindustrie
utilise prsentement une seule distribution globale pour modliser celle de la
vitesse du vent. Pour ce faire, on a valu la variabilit des paramtres ajus-
ts sur des distributions annuelles ou mensuelles et une comparaison de ces
variabilits nous a permis de remarquer, dans un premier temps, que les es-
timateurs de la variance asymptotique et chantillonnale ne menaient pas du
tout aux mmes rsultats, et dans un second temps, partir de simulations
bootstrap, que la dpendance entre les donnes ntait pas ncessairement la
raison des diffrences, mais plutt que lajustement de Weibull globales ou an-
nuelles ne suffisait pas capturer toute la variabilit de la distribution de la
vitesse du vent dans le temps. Aux vues des rsultats, on pense que des para-
mtres mensuels seraient prfrables mais on ne peut en tre sr, entre autres
parce que la dpendance entre les observations na pas t considre dans nos
simulations bootstrap. Finalement, dans ce chapitre, on a aussi voulu comparer
lestimation de la production dnergie annuelle faite partir de la distribution
empirique des vitesses de vent ou de la Weibull ajuste sur les vitesses de vent,
afin de voir quel point la modlisation par la Weibull engendre une diffrence
au niveau de lestimation. On a trouv, pour certains sites, des diffrences de
plus de 6% entre les deux estimations. Cela porte donc rflchir la faon
dont la production dnergie devrait dornavant tre estime.
Pour finir, nous croyons quil aurait aussi pu tre intressant de voir les choses
dun autre point de vue, dabord en utilisant ds le dbut des paramtres chan-
geant dans le temps (surtout quil est plausible, vus les rsultats au chapitre 4,
que ce soit prfrable par rapport des paramtres globaux). Nous aurions
donc pu explorer des approches baysiennes o les paramtres sont alatoires.
Dans un deuxime temps, nous aurions aussi pu considrer un point de vue
davantage ax sur les sries chronologiques. En effet, sauf vers la fin du cha-
pitre 4 et dans le bootstrap par bloc au chapitre 5, nous avons considr lin-
dpendance entre les vitesses de vent puisque cela demeurait plus simple que
lajustement de modles de sries chronologiques aux donnes. Dans de fu-
tures tudes, on pourrait donc ajuster des modles de sries chronologiques
aux donnes et tenter de dterminer le dlai pour lequel les vitesses de vent
sont dpendantes entre elles. Cela nous permettrait par la suite dajuster la
mthodologie du chapitre 5 avec des blocs de bonne taille, ou encore de pr-
dire la vitesse du vent passe partir des modles trouvs.
Somme toute, les analyses entreprises dans ce mmoire ont permis de trouver
que lutilisation dun coefficient de cisaillement local plutt que global pour-
rait amliorer lextrapolation de la vitesse du vent, que la modlisation de la
distribution des vitesses de vent par une seule Weibull ne tient pas compte
de la variabilit des paramtres dans le temps et quil faut donc faire davan-
tage attention cette tape puisque des paramtres variant de faon mensuelle
semblent dj tre plus prs de la ralit, quil semble tre prfrable dutiliser
la distribution relle des vitesses de vent pour estimer la production dnergie
plutt que la distribution de Weibull ajuste et finalement, quil pourrait tre
avantageux pour les ingnieurs oliens dutiliser des mthodes tenant compte
de la structure de dpendance entre les vitesses de vent plutt que de consid-
rer les vitesses de vent comme tant indpendantes entre elles lors de lestima-
tion de la production dnergie olienne annuelle.
BIBLIOGRAPHIE
Davison, A.C. et Hinkley, D.V. (1997). Bootstrap Methods and Their Application,
Cambridge University Press, Cambridge.
Knsch, H.R. (1989). The jacknife and the bootstrap for general stationary
observations. The Annals of Statistics, 17, 1217-1241.
Peterson, E.W. et Hennessey Jr, J.P. (1978). On the use of power laws for
estimates of wind power potential. Journal of Applied Meteorology, 17, 390-394.
Rice, J.A. (2007). Mathematical Statistics and Data Analysis, third edition,
Duxbury, Berkeley.
http://eolienne.f4jr.org/eolienne_etude_theorique
Consult le 9 dcembre 2013.
http://stat.ethz.ch/R-manual/R-devel/library/stats/
html/optim.html Consult le 17 mars 2014.
http://stat.ethz.ch/R-manual/R-patched/library/stats/
html/00Index.html Consult le 24 aot 2014.