Anda di halaman 1dari 62

Apunts del Tutorial de Verificaci

Helsinki, 4-6 de juny de 2009
Jordi Mercader Carb
rea de Recerca Aplicada i Modelitzaci
17 de juny de 2009
Apunts del Tutorial de Verificaci, Helsinki, 4 6 de juny de 2009 - 2 -
ndex

1. Conceptes bsics de verificaci (B. Brown) .................................................... 5
1.1. La verificaci ....................................................................................... 5
1.2. Per qu es verifica ? ............................................................................. 5
1.3. Identificaci dels propsits de la verificaci ....................................... 5
1.4. La bondat del pronstic ....................................................................... 6
1.5. Guia bsica per al desenvolupament destudis de verificaci ............. 7
1.6. Tipus dobservacions i pronstics ....................................................... 7
1.7. Relaci entre el pronstic i la observaci ............................................ 8
1.8. Bases estadstiques per a la verificaci ................................................ 8
1.9. Representaci grfica de les distribucions ........................................... 9
1.10. Comparaci i inferncia ..................................................................... 10
1.11. Atributs de la verificaci .................................................................... 10
1.12. Les qestions de la verificaci ........................................................... 11

2. Verificaci de predictands continus (B. Casati) .............................................. 12
2.1. Mtodes dexploraci ...........................................................................12
2.1.1. Distribuci conjunta: Scatter-plot ......................................... 12
2.1.2. Distribuci marginal: Quantile-quantile plots ....................... 12
2.1.3. Distribuci marginal: Box-plot, histogrames ........................ 12
2.1.4. Distribuci marginal: Estadstics ms utilitzats .................... 13
2.1.5. Probabilitat condicional: Histograma i box-plots ................. 13
2.2. Mesures contnues ............................................................................... 14
2.2.1. Biaix lineal, error mitj ......................................................... 14
2.2.2. Error absolut mitj ................................................................ 14
2.2.3. Error mitj quadrtic ............................................................. 15
2.2.4. Arrel quadrada de lerror quadrtic mitj ..............................15
2.2.5. Correlaci lineal .................................................................... 15
2.2.6. MSE i correcci del biaix ..................................................... 16
2.2.7. MAE i skill score .................................................................. 16
2.2.8. MSE skill score ..................................................................... 16
2.2.9. Correlaci danomalia .......................................................... 17
2.2.10. Scores continus de classificaci / ordre .............................. 18
2.2.11. Error Lineal en lEspai de la Probabilitat (LEPS) .............. 18

3. Verificaci de predictands categrics (A. Ghelli) .......................................... 19
3.1. Conceptes bsics dels predictands categrics ..................................... 19
3.2. Taules de contingncia bidimensionals i ndexs derivables ............... 19
3.3. Taules de contingncia multi-categriques ......................................... 23

4. Verificaci dels pronstics per conjunts i probabilstics (L.J. Wilson) ........ 25
4.1. El pronstic probabilstic .................................................................... 25
4.2. ndexs per a la verificaci de pronstics probabilstics ...................... 25
4.2.1. Brier Score ........................................................................... 25
4.2.2. Brier Skill Score ................................................................... 26
4.3. Diagrames de fiabilitat ........................................................................ 26
4.3.1. Com construir un diagrama de fiabilitat ............................... 26
4.3.2. Interpretaci dels diagrames de fiabilitat ............................. 28
Apunts del Tutorial de Verificaci, Helsinki, 4 6 de juny de 2009 - 3 -
4.4. Discriminaci i Caracterstica Operativa Relativa (ROC) .................. 28
4.4.1. Avaluaci de la capacitat de discriminaci .......................... 29
4.4.2. Construcci de la corba ROC ............................................... 29
4.5. Verificaci de pronstics per conjunts (ensemble) ............................. 31
4.5.1. Interpretaci de la Funci de Distribuci de Probabilitat dels
ensembles ....................................................................................... 31
4.5.2. Rank Probability Score (RPS) i Continuous RPS ................ 32
4.5.3. Rank Histogram, Diagrama de Talagrand ........................... 33

5. Intervals de confiana i tests dhiptesis (I. Jolliffe) ..................................... 34
5.1. Tipus dinferncia ............................................................................... 34
5.2. Estimaci dintervals .......................................................................... 34
5.2.1. Interval de confiana ............................................................ 34
5.2.2. Intervals de confiana pels encerts (hit rate) ....................... 35
5.2.3. Interval de Bayes (o interval creble) ................................... 35
5.2.4. Interval per re-mostreig (bootstrap interval) ....................... 36
5.2.5. Intervals de confiana per a diferncies ............................... 37
5.2.6. Intervals de confiana pel coeficient de correlaci
de Pearson ...................................................................................... 37
5.3. Intervals de predicci ......................................................................... 37
5.3.1. Intervals de predicci per a coeficients de correlaci ......... 38
5.4. Test dhiptesis .................................................................................. 38
5.5. Teoria de la decisi i p-values ........................................................... 39
5.6. Tests de permutaci i aleatoritzaci de = 0 .................................... 39
5.7. Conclusions i sumari .......................................................................... 39

6. Mtodes per a verificar pronstics espacials (B. Ebert) ............................... 41
6.1. Introducci ......................................................................................... 41
6.2. Aproximacions tradicionals de verificaci ........................................ 41
6.3. Noves tcniques de verificaci espacial ............................................ 43
6.4. Mtodes de verificaci de venatge (fuzzy) ........................................ 43
6.4.1. Upscaling ............................................................................. 44
6.4.2. Fractions Skill Score ............................................................ 44
6.4.3. Taula de contingncia multi-esdeveniment ......................... 45
6.4.4. Mtodes de verificaci de venatge segons el model
de decisi ....................................................................................... 46
6.4.5. Com utilitzar diferents mtodes de venatge ....................... 47
6.5. Mtodes de separaci descales ......................................................... 48
6.5.1. Mtode dIntensitat-Escala .................................................. 48
6.6. Mtodes orientats a objectes ............................................................... 50
6.6.1. Aproximaci basada en les caracterstiques (CRA) ............. 50
6.6.2. MODE .................................................................................. 52
6.6.3. Structure-Amplitude-Location (SAL) .................................. 55
6.7. Verificaci de camp ............................................................................ 56
6.7.1. ndex DAS ............................................................................ 56
6.8. Conclusions ......................................................................................... 57

7. Verificaci dalertes (M. Gber) ..................................................................... 58
7.1. Introducci .......................................................................................... 58
7.2. La problemtica de les observacions .................................................. 59
Apunts del Tutorial de Verificaci, Helsinki, 4 6 de juny de 2009 - 4 -
8. Software per a la verificaci ........................................................................... 60
8.1. El programa R ..................................................................................... 60
8.2. El programari MET ............................................................................. 60
8.3. Spatial Verification Intercomparison Project .................................... 60

9. Bibliografia ....................................................................................................... 61
9.1. General ................................................................................................ 61
9.2. Estimaci dintervals dincertesa ........................................................ 61
9.3. Verificaci espacial ............................................................................. 62
9.4. Verificaci dalertes ............................................................................ 62
Apunts del Tutorial de Verificaci, Helsinki, 4 6 de juny de 2009 - 5 -
1. Conceptes bsics de verificaci
(per Barbara Brown, NCAR, USA)

1.1. La verificaci

Verificar: establir la veritat, precisi o realitat de quelcom. Sinnim de confirmar.

La verificaci s el procs de comparar pronstics amb observacions rellevants, s un
aspecte de la mesura de la bondat del pronstic. La verificaci mesura la qualitat dels
pronstics (no pas el seu valor).

Per a molts propsits, un terme ms adequat s avaluaci.

1.2. Per qu es verifica?

Tradicionalment, els propsits de la verificaci sn:
- Administratius
o Monitorar el funcionament dels pronstics.
o Tria dun model o configuraci del model (millora el model ?)
- Cientfics
o Identificar els punts febles del model.
o Millora del pronstic.
- Econmics
o Millora de la presa de decisions.
o Proporcionar ajuda als models de decisi o als sistemes de suport en
la presa de decisions.

Per exemple: per qu cal verificar els pronstics hidrometeorolgics?
- Per ajudar els pronosticadors operatius a entendre els biaixos del model i
seleccionar els models per a utilitzar-los en diferents condicions. Es poden
detectar localitzacions o rgims en els quals el model funciona millor o pitjor.
- Per ajudar els usuaris a interpretar els pronstics, com ara: qu significa
realment un pronstic de 0C ?
- Identificar les diferncies, punts forts i punts febles dels pronstics.

1.3. Identificaci dels propsits de la verificaci

1. Quines qestions volem respondre?
Per exemple:
o En quins llocs el model funciona millor?
o Hi ha rgims sota els quals els pronstics siguin millors o pitjors?
o La probabilitat del pronstic est ben calibrada ? (s fiable ?)
o Els pronstics capturen correctament la variabilitat natural del temps ?

2. Quins atributs del pronstic shan de mesurar ?
Apunts del Tutorial de Verificaci, Helsinki, 4 6 de juny de 2009 - 6 -
3. Tria dels grfics, estadstics i mesures de la verificaci:
o Han de coincidir el tipus de pronstic amb latribut dinters.
o Ha de mesurar la magnitud dinters (per la qual volem respondre la
qesti mencionada ms amunt).

4. Cal tenir en compte que la bondat del pronstic depn tant de la qualitat del
mateix com de linters de lusuari (Figura 1.1).


Figura 1.1. Bon pronstic o mal pronstic? (F = pronstic, O = observaci). Si sc
un usuari al crrec de la gesti de recursos hdrics, ser un mal pronstic. Si sn un
pilot davi que realitza un recorregut doest a est, no s tan mal pronstic.


1.4. La bondat del pronstic

La qualitat del pronstic s noms un aspecte de la bondat del pronstic. El valor dun
pronstic est relacionat amb la seva qualitat a travs de relacions complexes i no-
lineals.

Fins i tot, en alguns casos, les millores en la qualitat dels pronstics (dacord amb certes
mesures) pot resultar en una degradaci en el valor del pronstic per a alguns usuaris.

En tot cas, cal escollir diferents mesures i estadstics, i no quedar-se amb una sola
aproximaci.


O
Apunts del Tutorial de Verificaci, Helsinki, 4 6 de juny de 2009 - 7 -
1.5. Guia bsica per al desenvolupament destudis de verificaci

a) Cal considerar els usuaris dels pronstics i de la informaci de la
verificaci.

Quins aspectes de la qualitat del pronstic sn dinters per a lusuari ? Sempre
seran mltiples aspectes, mai un de sol.

b) Desenvolupar les preguntes de verificaci per avaluar aquests aspectes o
atributs.

c) Identificar les observacions que representen lesdeveniment que es
pronostica, incloent-hi:
o Lelement: temperatura, precipitaci, etc.
o Resoluci temporal
o Resoluci espacial i representaci
o Llindars, categories, etc.

d) Identificar mltiples atributs de la verificaci que puguin proporcionar
respostes a les qestions dinters.

e) Seleccionar mesures i grfics que mesurin i representin adequadament els
atributs dinters.

f) Identificar un estndard de comparaci que proporcioni un nivell de
referncia dencert (com ara la persistncia, la climatologia o un model
antic).

1.6. Tipus dobservacions i pronstics

- Continus: Temperatura, quantitat de precipitaci, altura geopotencial a 500
hPa, ...
- Categrics:
o Dicotmics: Ocurrncia del fenomen vs. No ocurrncia del fenomen
(pluja/no pluja, vent fort/no vent fort, glaada nocturna/no glaada
nocturna...)
o Multi-categrics: Categories de cobertura nuvolosa (segons nmero
doctes), tipus de precipitaci, etc...
o Poden resultar de la classificaci de variables contnues en categories
(com ara categories de temperatures: 0-10, 11-20, 21-30, ...).
- Probabilstics:
o Lobservaci pot ser dicotmica, multi-categrica o contnua.
o El pronstic pot ser un simple valor de probabilitat (per
esdeveniments dicotmics), mltiples probabilitats (distribuci de
probabilitat discreta per a mltiples categories) i distribuci contnua.
- Ensemble
o Mltiples iteracions dun pronstic continu o categric, que pot ser
transformat en una distribuci de probabilitat. Les observacions
poden ser contnues, dicotmiques o multi-categriques.

Apunts del Tutorial de Verificaci, Helsinki, 4 6 de juny de 2009 - 8 -
1.7. Relaci entre el pronstic i la observaci

Aquesta pot ser la part ms difcil del procs de verificaci.

Shan de tenir en compte molts factors:
- Identificar les observacions que representen lesdeveniment pronosticat. Per
exemple, la precipitaci acumulada sobre una hora a un punt.
- Per als pronstics en forma de malla hi ha diferents opcions per aquesta
relaci:
o Punt a malla: relacionar la observaci al punt de malla ms proper.
o Malla a punt: Interpolar, o prendre el valor mxim dentre els punts
vens, etc...

Evidentment, laproximaci que es prengui a lhora destablir aquesta relaci pot tenir
impacte en els resultats de la verificaci (Figura 1.2).Figura 1.2. A lesquerra, relaci punt a malla; a la dreta, relaci malla a punt, fent una interpolaci al
punt observat de manera que cada punt ve atorga un pes igual al valor mitj del pronstic.

Finalment, no saconsella utilitzar lanlisi del model com a observaci en la
verificaci, a causa de la manca dindependncia entre camp observat i camp
pronosticat.

1.8. Bases estadstiques per a la verificaci

Les distribucions conjuntes, marginal i condicional sn tils per a entendre les bases
estadstiques de la verificaci dels pronstics. Aquestes distribucions es poden
relacionar a mesures utilitzades en la verificaci

a) Probabilitat bsica o marginal: Probabilitat que la variable aleatria X tingui
valor x:
) Pr( x X p
x
= = [1.1]

b) Probabilitat conjunta: Probabilitat que dos esdeveniments, x i y, tinguin lloc
conjuntament:
) , Pr(
,
y Y x X p
y x
= = = [1.2]

c) Probabilitat condicional: Probabilitat que un esdeveniment x tingui lloc, donat
que lesdeveniment y s cert (o t lloc):
) | Pr(
,
y Y x X p
y x
= = = [1.3]


10
0
20
20
20
Obs=10
Fcst=0


10
0
20
20
20
Obs=10
Fcst=15
Apunts del Tutorial de Verificaci, Helsinki, 4 6 de juny de 2009 - 9 -
La verificaci es pot representar com el procs davaluaci de la distribuci conjunta de
pronstics i observacions: p(f,x). Tota la informaci relacionada amb el pronstic, les
observacions i la seva relaci s representada per aquesta distribuci.

A ms, la distribuci conjunta pot ser factoritzada en dos parells de distribucions
condicional i marginal:

a) Descomposici probabilitat fracci base:
rate base likelihood x X p x X f F p x f p ) ( ) | ( ) , ( = = = = =
[1.4]

b) Descomposici calibraci refinament:
refinement n calibratio f F p f F x X p x f p ) ( ) | ( ) , ( = = = = = [1.5]

1.9. Representaci grfica de les distribucions

a) Distribucions conjuntes: nvol de punts (scatter plots), grfics de densitat
(density plots), histogrames 3D, grfics de contorns, ...

b) Distribucions marginals:
- Stem-and-leaf plots
- Histogrames
- Box-plots (Figura 1.3a)
o Del percentil 25 al percentil 75, amb la mediana representada.
- Distribucions cumulatives
- Plots quantil-quantil
- Funcions de densitat

c) Distribucions condicionals (Fig 1.3b):
- Plots de quantils condicionals
- Box-plots condicionals
- Plots stem-and-leafa)
b)
Figura 1.3. a) Box-plot i histograma per la probabilitat marginal de la temperatura observada a Oslo. b)
Box-plots condicionals (esquerra) i plots de quantils condicionals (dreta) per a la temperatura a
Escandinvia, juntament amb la distribuci marginal de temperatura pronosticada.


Apunts del Tutorial de Verificaci, Helsinki, 4 6 de juny de 2009 - 10 -
1.10. Comparaci i inferncia

Un skill score s una mesura de funcionament relatiu. Serveix per respondre a qestions
com: Quant sn dacurats els meus pronstics de temperatura respecte la climatologia ?
Com sn de ms precisos respecte els pronstics del model ?

Proporcionen una comparaci a un estndard. Genricament, es defineixen aix:
ref perf
ref
M M
M M

[1.6]
on M s la mesura de verificaci per als pronstics, M
ref
s la mesura de referncia i
M
perf
s la mesura per al pronstic perfecte.

Normalment estan orientats positivament (com ms gran, millor) i cal tenir en compte
que la tria de lestndard s determinant pel valor de lSkill Score.

La incertesa en les puntuacions (scores) i les mesures shauria destimar sempre que
fos possible. Aquesta incertesa pot provenir de la variabilitat de la mostra, errors
dobservaci, diferncies en la representativitat, etc.

No s estrany que es derivin conclusions errnies relacionades amb les millores en els
sistemes de pronstic i els models.

Hi ha diversos mtodes per a calcular els intervals de confiana i fer testos dhiptesis:
- Paramtrics (depenents dun model estadstic)
- No paramtrics (derivats de procediments de re-mostreig, tamb anomenat
bootstrapping).

1.11. Atributs de la verificaci

Els atributs de la verificaci mesuren diferents aspectes de la qualitat del pronstic:
- Representen el rang de caracterstiques que shaurien de considerar.
- Moltes poden estar relacionades a les distribucions conjunta, condicional i
marginal de pronstics i observacions.
- Alguns exemples sn:
o Biaix (BIAS): Distribucions marginals.
o Correlaci: Associaci conjunta (distribuci conjunta).
o Precisi: Diferncies (distribuci conjunta).
o Calibraci: Mesura el biaix condicional (distribuci condicional).
o Discriminaci: Grau amb el qual els pronstics discriminen entre
diferents observacions (distribuci condicional).

Les caracterstiques desitjables de les mesures de verificaci sn les segents:
- Validesa estadstica, slida, basada en la teoria de lestadstica.
- Adequaci (pronstics probabilstics):
o La millor puntuaci sassoleix quan el pronstic s consistent amb els
millors judicis del pronosticador.
o Penalitzar el hedging (compensaci de mals resultats)
o Exemple: Brier Score

Apunts del Tutorial de Verificaci, Helsinki, 4 6 de juny de 2009 - 11 -
- Equitativitat
o Els pronstics aleatoris i constants haurien de rebre la mateixa puntuaci.
o Exemples: Gilbert skill score, Gerrity score ...

Per tal de ser verificats, els pronstics shan de formular de manera que siguin
verificables. Tot pronstic hauria de ser verificat: Si quelcom s digne de ser
pronosticat, s digne de ser verificat.

Lagregaci pot ajudar a incrementar la mida de la mostra i la fortalesa estadstica, per
tamb pot amagar importants aspectes del funcionament del model. Llavors, tamb s
important estratificar els resultats en subgrups homogenis i significatius.

Les observacions sn, generalment, ms vertaderes que lanlisi dun model (o almenys,
sn ms independents). Lincertesa observacional hauria de ser tinguda en compte
sempre que fos possible.

1.12. Les qestions de la verificaci

- Qui vol conixer-ho ?

- Qu interessa a lusuari ?

- Quins tipus de parmetres estem avaluant ? Quines caracterstiques tenen ?

- Quins llindars sn importants (si nhi ha) ?

- Quina resoluci del pronstic s rellevant (especfica per a un lloc, valor mitj en
una rea...)

- Quines sn les caracterstiques de les observacions (qualitat, incertesa, ...)

- Quins sn els mtodes i mesures adequats ? Quins mtodes es necessiten ? (biaix,
freqncia de lesdeveniment, tamany de la mostra)

- Com es necessita/vol presentar els resultats ? (estratificaci, agregaci)

- Per qu necessitem verificar ?

Apunts del Tutorial de Verificaci, Helsinki, 4 6 de juny de 2009 - 12 -
2. Verificaci de predictands continus
(per Barbara Casati, OURANOS, Canad)

2.1. Mtodes dexploraci

2.1.1. Distribuci conjunta: Scatter-plot

Grfic dels valors observats vs. valors previstos.

Perfecci: Pronstic = observaci; punts a la diagonal.

Informaci: Sobre biaix, outliers, magnitud de lerror, associaci lineal,
comportaments peculiars als extrems, prdues i falses alarmes (connexi
amb la taula de contingncia, veure Figura 2.2).

2.1.2. Distribuci marginal: Quantile-quantile plots:

Grfic del quantil de la observaci vs. el quantil del pronstic.

Perfecci: pronstic = observaci; punts sobre la diagonal.

A la figura 2.1 es mostren un grfic de punts i un grfic de quantils pel mateix
conjunt de dades de temperatura pronosticada i observada a Cracvia.

a) b)
Figura 2.1. Grfics de punts (a) i quantil-quantil (b) per a la temperatura observada i
pronosticada a Cracvia. Saprecia clarament la subestimaci quasi sistemtica de la
temperatura.

2.1.3. Distribuci marginal: Box-plot, histogrames ...

Per a dibuixar el box-plot, la caixa representa el rang entre el percentil 25 i el 75, i al
mig shi representa la mediana (percentil 50). Els braos sallarguen des del primer
al darrer element de la mostra (veure Figura 2.3).

Apunts del Tutorial de Verificaci, Helsinki, 4 6 de juny de 2009 - 13 -
a) b)
Figura 2.2. a) Taula de contingncia sobre el grfic de punts per a la temperatura superior a 18C i
b) taula de contingncia sobre grfic de punts per a lavaluaci del comportament de la temperatura
als extrems.Figura 2.3. Box plot per a les distribucions
marginals de temperatura observada i pronosticada
a Barcelona. Saprecia la subestimaci de la
variable.

2.1.4. Distribuci marginal: Estadstics ms utilitzats

a) Localitzaci:

Mitjana:

=
=
n
i
i
x
n
X
1
1
[2.1]
Mediana
= q
0.5


b) Dispersi:

Desviaci estndard
( )

=
=
n
i
i
X x
n
1
2 1
[2.2]

Rang inter-quartil (IQR)
IQR = q
0.75
q
0.25
[2.3]

2.1.5. Probabilitat condicional: Histograma i box-plot condicionals

Un exemple de com es construeixen es pot trobar a la Figura 2.4.

Apunts del Tutorial de Verificaci, Helsinki, 4 6 de juny de 2009 - 14 -
a) b) c)
Figura 2.4. a) Nvol de punts per a les temperatura previstes i observades a Escandinvia entre 2003-2007; b) box-
plot i histogrames condicionals per al rang de tempertures previstes entre [-1,1], representat entre les lnies vermelles
al grfic de punts. c) Box plot condicional corresponent als punts de a), juntament amb histograma de la distribuci
marginal de les temperatures pronosticades.


2.2. Mesures contnues

2.2.1. Biaix lineal, error mitj (mean error, ME)

Definici:
( ) X Y x y
n
ME
n
i
i i
= =

=1
1
[2.4]
s la mitjana dels errors, igual a la diferncia entre les mitjanes (y = pronstic, x =
observaci).

Atribut = mesura el biaix.

Informaci: Indica la direcci mitjana de lerror; el biaix positiu s sobreestimaci
(over-forecast), el biaix negatiu s subestimaci (under-forecast). No indica la
magnitud de lerror (errors positius i negatius es cancellen).

Si es practica una correcci del biaix, les prdues (o falses alarmes) poden millorar en
detriment de les falses alarmes (o prdues).

Regles de bona prctica: La mostra utilitzada per avaluar la correcci del biaix ha de ser
consistent amb la mostra corregida (per exemple: hivern separat de lestiu); per a la
verificaci adequada, sha dadoptar la validaci creuada per als pronstics amb biaix
corregit.

2.2.2. Error absolut mitj (Mean Absolute Error, MAE)

Definici:

=
=
n
i
i i
x y
n
MAE
1
1
[2.5]
s la mitjana de la magnitud dels errors. Es tracta duna mesura lineal, ja que cada error
t el mateix pes.

Atributs: Mesura la precisi.

Apunts del Tutorial de Verificaci, Helsinki, 4 6 de juny de 2009 - 15 -
No indica la direcci de lerror, noms la magnitud. Si el ME s similar al MAE, es pot
realitzar la correcci del biaix amb seguretat; si MAE >> ME, s perills realitzar la
correcci del biaix perqu el MAE encara podria augmentar ms.

2.2.3. Error mitj quadrtic (Mean Squared Error, MSE)

Definici:
( )

=
=
n
i
i i
x y
n
MSE
1
2
1
[2.6]
Mitjana dels quadrats dels errors; mesura la magnitud de lerror ponderada segons els
quadrats dels errors.

No indica la direcci de lerror. Com que segueix una regla quadrtica, imposa pesos
grans en els errors grans, per tant s bo si es volen penalitzar els errors ms grans, i s
sensible als valors elevats i als outliers (cas de la precipitaci) aix com ho s a la
variana gran (models dalta resoluci). En canvi, dna millor puntuaci en pronstics
conservatius (com els climatolgics).

2.2.4. Arrel quadrada de lerror quadrtic mitj (RMSE)

Definici:
s larrel quadrada de lMSE.

Mesura la magnitud de lerror mantenint la unitat de la variable. Igual que lMSE, s
sensible als valors elevats. Sempre es donar el cas que RMSE MAE. Com ms
RMSE sassembli a MAE, menys variana cont la mostra.

2.2.5. Correlaci lineal

Definici:
( )( )
( ) ( )
X Y
n
i
n
i
i i
n
i
i i
XY
s s
X Y
x x
n
y y
n
x x y y
n
r
) , cov(
1 1
1
1 1
2 2
1
=


=

= =
=
[2.7]

Atributs:
Mesura lassociaci lineal entre pronstic i observaci. Oscilla entre [-1,1] i no s
sensible al biaix.

El coeficient de correlaci sol no proporciona informaci sobre el pendent de la lnia de
regressi: noms indica si es troba inclinada positivament o negativament. Pel pendent
es necessiten les variances de lobservaci i el pronstic:
XY
y
x
r
s
s
b = [2.8]

No s robust (dna millor resultat si les dades estan distribudes normalment) ni
resistent (s sensible als valors grans i outliers).

Apunts del Tutorial de Verificaci, Helsinki, 4 6 de juny de 2009 - 16 -
2.2.6. MSE i correcci del biaix

Si corregeixo el pronstic pel biaix, obtindr un valor ms petit de MSE:

( ) ) var( 2
2 2 2
2
X Y ME r s s s s X Y MSE
XY X Y X Y
+ = + + = [2.9]

Si corregeixo el biaix utilitzant la climatologia (diferent de la climatologia de la mostra),
obtindr un MSE ms gran que lobtingut grcies a la correcci pel biaix.


2.2.7. MAE skill score

Definici:
ref ref perf
ref
MAE
MAE
MAE
MAE MAE
MAE MAE
SS =

= 1 [2.10]
Mesura lencert dun pronstic respecte a lencert dun pronstic de referncia. Els
valors positius indiquen habilitat, els negatius, no habilitat.

Com a pronstics de referncia se sol utilitzar:
- Persistncia, adequada quan la correlaci temporal s superior a 0.5
- Climatologia de la mostra, informaci noms a posteriori
- Climatologia real: informaci a priori

2.2.8. MSE skill score

Definici:
ref ref perf
ref
MSE
MSE
MSE
MSE MSE
MSE MSE
SS =

= 1 [2.11]

Necessita mostres grans, ja que s sensible a la mida de la mostra (per lestabilitat) i a la
climatologia de la mostra (pels extrems).

Si es mesura lskill score de lMSE respecte la climatologia (per exemple, la de la
mostra), es parla de la reducci de variana (RV):


( ) ( )
( )
( )
2
2
2
var
2
0
2
bias
2
cli
cli bias
MSE = Y Y X X = (Y X)= MSE ME
MSE = Y c X = MSE cME+c
ME c MSE MSEApunts del Tutorial de Verificaci, Helsinki, 4 6 de juny de 2009 - 17 -Regles de bones prctiques:
- Utilitzar sempre la mateixa climatologia per a la comparaci de diferents
models.
- Quan savalua la Reducci de Variana (RV), la climatologia de la mostra dna
sempre pitjor skill que la climatologia de llarg abast: sempre cal preguntar quina
climatologia sha utilitzat per avaluar lskill.
- Si la climatologia es calcula posant juntes totes les dades de diferents estacions i
moments del dia, lskill score ser millor que si sutilitza una climatologia
diferent per a cada estaci i mes de lany. Mentre en el primer cas el model pren
crdit de pronosticar correctament les tendncies estacionals i les climatologies a
localitzacions especfiques, en el segon cas els efectes especfics de la topografia
i les tendncies a llarg termini sn eliminades i la capacitat de discriminaci del
pronstic s avaluada millor. En cada cas, cal escollir la climatologia adequada.
- Si sutilitza el pronstic de la persistncia, cal utilitzar el mateix moment del dia
per evitar efectes del cicle dirn.

2.2.9. Correlaci danomalia (Anomaly Correlation, AC)

Es calcula la correlaci de les anomalies del pronstic i la observaci per avaluar la
qualitat del pronstic sense tenir en compte el pronstic correcte que fa la climatologia
(modulada per la topografia).

La correlaci de les anomalies centrades i no centrades per a les variables
meteorolgiques definides sobre un domini espacial tenen les segents definicions:on c
m
s la climatologia al punt de malla m, i la barra superior indica la mitjana sobre el
camp.
2 2
2
and 1
2 2 Y
cli X XY XY
X X X
s MSE Y X
Y = X ; MSE = s RV = = r r
s s s
| | | |

| |
\ \
linear correlation bias
reliability: regression line slope coeff b=(s
X
/s
Y
)r
XY
( ) ( )
( ) ( )
( )( )
( ) ( )
( ) ( )
( ) ( )
2 2
2 2 2 2
m m m
m m m
m m
m map
cent
m m
m map m map
m m m m m m
m map m map
unc
m m m m m m
m map m map m map m map
y' = y c
x' = x c
y' y' x' x'
AC =
y' y' x' x'
y c x c y' x'
AC = =
y c x c y' x'
Apunts del Tutorial de Verificaci, Helsinki, 4 6 de juny de 2009 - 18 -
2.2.10. Scores continus de classificaci/ordre (rank)

Els scores continus sensibles a grans valors o no robustos sovint sn avaluats utilitzant
lordre dels valors de la variable, en comptes dels seus valors reals (veure Taula 2.1).

La transformaci valor-rank implica:
- disminuci defectes deguts a valors elevats
- transformaci duna distribuci marginal a una distribuci uniforme
- eliminar el biaix

La correlaci dordres (rank correlation) s lndex estadstic daquest tipus ms
utilitzat.


Taula 2.1. Correspondncia entre una srie de registres de temperatura i el nmero corresponent al seu
valor (rank).

2.2.11. Error Lineal en lEspai de la Probabilitat (Linear Error in Probability
Space, LEPS).

Definici:
( ) ( )

=
=
n
i
i X i X
x F y F
n
LEPS
1
1
[2.12]
De fet, el LEPS s el MAE avaluat utilitzant la freqncia acumulada de lobservaci
(Figura 2.5). Els errors a la cua de la distribuci estan menys penalitzats que els errors al
centre. Tant el MAE com el LEPS sn minimitzats amb la correcci de la mediana.


Figura 2.5. Probabilitat acumulada, funci a partir
de la qual sextreuen les parelles de valors per a
determinar lndex LEPS.

3 6 7 1 4 5 2 8 rank
22.3 24.6 25.5 19.8 23.1 24.2 21.7 27.4 Temp
o
C
q
Apunts del Tutorial de Verificaci, Helsinki, 4 6 de juny de 2009 - 19 -
3. Verificaci de predictands categrics
(per Anna Ghelli, ECMWF, UK)

3.1. Conceptes bsics dels predictands categrics.

Algunes caracterstiques de la verificaci daquests tipus de predictands sn les
segents:
- Noms tindr lloc un dun conjunt de possibles esdeveniments.
- Els pronstics categrics no contenen expressi dincertesa.
- Hi ha una tpica correspondncia un-a-un entre els valors pronosticats i
observats.
- Lopci ms simple possible s un cas 2x2 o la verificaci dun pronstic
categric s/no: 2 possibles pronstics (si/no) i dues possibles realitzacions
(esdeveniment observat/esdeveniment no observat).

3.2. Taules de contingncia bidimensionals i ndexs derivables

La Figura 3.1 mostra una taula de contingncia i la nomenclatura corresponent a cada
cella. La disposici habitual de la taula correspon a situar les observacions en columnes
i els pronstics en files, amb els casos positius en primer lloc.


Figura 3.1. Taula de
contingncia amb la
disposici habitual, i
correspondncia amb
els ndexs de cada
cella.Apunts del Tutorial de Verificaci, Helsinki, 4 6 de juny de 2009 - 20 -
A partir de les taules de contingncia es poden derivar diversos ndexs i mesures:

Probabilitat marginal: Suma de la fila o columna dividida pel nombre total
delements de la mostra.

Probabilitat conjunta: Representa la intersecci de dos esdeveniments. Per
exemple, la probabilitat conjunta dobservaci afirmativa i pronstic
afirmatiu.

Frequency Bias Index (Bias):
c a
b a
B FBI
+
+
= = [3.1]

o FBI>1 sobreestimaci
o FBI<1 subestimaci

Rang: de 0 a
Puntuaci perfecta = 1

Proportion Correct:
n
d a
PC
+
= [3.2]

o s un ndex simple i intutiu.
o Els pronstics afirmatius i negatius sn ponderats de la mateixa
manera.
o Es pot maximitzar pronosticant sempre lesdeveniment ms probable.

Rang: de 0 a 1
Puntuaci perfecta = 1

Hit rate, Probability of Detection, Prefigurance
c a
a
POD H
+
= = [3.3]

o s sensible als esdeveniments perduts (miss) i als encerts (hits).
o Noms es pot millorar sobreestimant.

Rang: de 0 a 1
Puntuaci perfecta = 1

o T un ndex complementari: el Miss Rate
c a
c
H MS
+
= =1 [3.4]

Apunts del Tutorial de Verificaci, Helsinki, 4 6 de juny de 2009 - 21 -
False Alarm Ratio
b a
b
FAR
+
= [3.5]

o Funci noms de les falses alarmes i els encerts
o Es pot millorar subestimant.

Rang: de 0 a 1
Puntuaci perfecta = 0

Post agreement
b a
a
PAG
+
= [3.6]

o Complementa el FAR:
PAG = 1 FAR [3.7]
o No gaire utilitzat
o Sensible a les falses alarmes i als encerts

Rang: de 0 a 1
Puntuaci perfecta = 1

False Alarm Rate, Probability of False Detection
d b
b
POFD F
+
= = [3.8]

o Sensible a les falses alarmes i als negatius correctes.
o Es pot millorar subestimant.
o Generalment sutilitza conjuntament amb H (POD) per produir
lndex ROC en pronstics probabilstics.

Rang: de 0 a 1
Puntuaci perfecta = 0

Threat Score, Critical Success Index
c b a
a
CSI TS
+ +
= = [3.9]

o T en compte: encerts, prdues i falses alarmes
o No considera els pronstics negatius correctes (d)
o Sensible a la freqncia climtica de lesdeveniment observat: si
lesdeveniment s rar, el valor de TS s petit.

Rang: de 0 a 1
Puntuaci perfecta = 1
Nivell dhabilitat (skill) nulla = 0Apunts del Tutorial de Verificaci, Helsinki, 4 6 de juny de 2009 - 22 -
Equitable Threat Score, Gilbert Skill Score
r
r
a c b a
a a
GSS ETS
+ +

= = [3.10]
on a
r
sn els encerts deguts al pronstic aleatori (random)
n
c a b a
a
r
) )( ( + +
= [3.11]

o s el Threat Score que inclou els encerts deguts al pronstic aleatori.
o De fet, corregeix el TS (CSI) extraient els esdeveniments que
sencerten per casualitat. Com ms rar sigui lesdeveniment, ms
difcil ser encertar-lo casualment, i lETS baixar menys respecte el
TS.

Rang: de -1/3 a 1
Puntuaci perfecta = 1
Nivell dhabilitat (skill) nulla = 0

Hanssen & Kuippers Skill Score, True Skill Statistic, Pierces Skill
Score
) )( ( d b c a
bc ad
F H TSS KSS
+ +

= = = [3.12]

o Combinaci popular de H i F
o Mesura lhabilitat de separar els casos afirmatius (H) dels negatius
(F)
o Per als esdeveniments extrems d s molt gran F s petit i KSS
(TSS) proper a H (POD).
o Relacionat a lndex ROC (Relative Operating Characteristic)

Rang: de -1 a 1
Puntuaci perfecta = 1
Nivell dhabilitat nulla = 0

Heidke Skill Score
) )( ( ) )( (
) ( 2
d b b a d c c a
bc ad
HSS
+ + + + +

= [3.13]

o Mesura la millora respecte els pronstics correctes aconseguits per
casualitat: proportion correct by chance:
2
) )( ( ) )( (
n
d c d b c a b a
PCC
+ + + + +
= [3.14]
o Normalment sutilitza per puntuar esdeveniments multi-categrics

Rang: de a 1
Puntuaci perfecta = 1
Nivell dhabilitat (skill) nulla = 0


Apunts del Tutorial de Verificaci, Helsinki, 4 6 de juny de 2009 - 23 -
Odds Ratio
bc
ad
OR = [3.15]

o Mesura la probabilitat del pronstic dencertar (H) comparada a la
probabilitat de donar una falsa alarma (F)
(

=
F
F
H
H
OR
1
1
[3.16]
o Independent dels biaixos

Rang: de 0 a
Puntuaci perfecta =
Nivell dhabilitat (skill) nulla = 1

Odds Ratio Skill Score
1
1
+

=
+

=
OR
OR
bc ad
bc ad
ORSS [3.17]

o Tpicament produeix valors absoluts dhabilitat (skill) molt elevats, a
causa de la seva definici.
o No gaire utilitzat en meteorologia.

Rang: de -1 a 1
Puntuaci perfecta = 1

3.3. Taules de contingncia multi-categriques

Les taules bidimensionals es poden estendre a diverses categories, com ara:
- Tipus de precipitaci: pluja / neu / pluja gelant
- Avs de vent: temporal fort / temporal / no temporal
- Cobertura nuvolosa: 1-3 octes / 4-7 octes / >7 octes

Noms la proporci correcta (PC) pot ser generalitzada directament. Els altres ndexs de
verificaci necessiten que la taula de contingncia es converteixi en una srie de taules
2x2, tal com es mostra a la Figura 3.2.


Figura 3.2. Taula de contingncia per esdeveniments multi-categrics i correspondncia amb una srie de taules de
contingncia bidimensionals.
Apunts del Tutorial de Verificaci, Helsinki, 4 6 de juny de 2009 - 24 -
Les versions generalitzades dels ndexs HSS i KSS, que mesuren la millora respecte el
pronstic aleatori, sn les segents:

=
i
i i
i
i i
i
i i
o p f p
o p f p o f p
HSS
) ( ) ( 1
) ( ) ( ) , (
[3.18]
( )

=
i
i
i
i i
i
i i
f p
o p f p o f p
KSS
2
) ( 1
) ( ) ( ) , (
[3.19]
on:
p(f
i
,o
i
) s la probabilitat conjunta de categoria observada i categoria pronosticada;
s a dir, els elements de la diagonal en la taula de contingncia.
p(f
i
)p(o
i
) s la suma del producte de les probabilitats marginals dobservaci
afirmativa i pronstic afirmatiu.

Per a ms informaci, hi ha un mdul dentrenament disponible a la web:
http://tinyurl.com/verif_training
Apunts del Tutorial de Verificaci, Helsinki, 4 6 de juny de 2009 - 25 -
4. Verificaci dels pronstics per conjunts i probabilstics
(per Laurence J. Wilson, Environment Canada)


4.1. El pronstic probabilstic

El pronstic probabilstic saplica a un esdeveniment especfic, completament definit
(per exemple: probabilitat de precipitaci durant 6 hores).

Cal tenir clar qu significa un pronstic probabilstic. Per exemple, una probabilitat de
precipitaci (POP) de 0.95 per Helsinki avui entre 6 UTC i les 18 UTC significa que, en
qualsevol punt de lrea de Helsinki, hi ha un 95% de possibilitats que hi plogui en
algun moment entre les 6 UTC i les 18 UTC davui.

En un pronstic probabilstic es poden mesurar, mitjanant diferents ndexs, 6
caracterstiques: precisi (accuracy), habilitat (skill), resoluci (resolution), agudesa
(sharpness), discriminaci (discrimination) i fiabilitat (reliability).


4.2. ndexs per a la verificaci de pronstics probabilstics

4.2.1. El Brier Score

s lerror quadrtic mitj dun pronstic probabilstic:
( )

=
=
N
i
i i
o p
N
BS
1
2
1
[4.1]
on p
i
, o
i
prenen valors binaris: 0 per absncia dobservaci/pronstic, 1 per ocurrncia
dobservaci/pronstic. Noms pot donar una puntuaci perfecta si el pronstic s
categric. Els errors grans pesen ms que els petits.

Mesura la precisi del pronstic, resumida en un sol valor sobre tota la base de dades.
El Brier Score es pot descomposar en 3 termes que ens donaran diversa informaci:

[4.2]
fiabilitat resoluci incertesa
fiabilitat: Si per totes les ocasions en qu la probabilitat del pronstic s p
k
, la
freqncia de lesdeveniment observat s
k
= p
k
, llavors el pronstic s fiable.
s similar al biaix per a una variable contnua.

resoluci: Habilitat del pronstic per distingir situacions amb diferents
freqncies docurrncia.

incertesa: La variabilitat de les observacions; es maximitza quan la freqncia
climtica (base rate) s igual a 0.5. No depn de la qualitat del pronstic; cal
utilitzar el Brier Skill Score per superar aquest problema.

43 42 1
4 4 4 3 4 4 4 2 1 4 4 4 3 4 4 4 2 1
) 1 ( ) (
1
) (
1

2
1
2
1
o o o o n
N
o p n
N
BS
K
k
k k k
K
k
k k
+ =

= =
Apunts del Tutorial de Verificaci, Helsinki, 4 6 de juny de 2009 - 26 -
Precisament, la presncia del terme dincertesa implica que els BS no shan de
comparar entre diferents mostres de dades.

4.2.2. Brier Skill Score

Mesura la proporci de millora en la precisi sobre la precisi dun pronstic estndard
o igual a la climatologia o la persistncia:
ref
ref
BS
BS BS
= BSS [4.3]

Si sutilitza la climatologia de la mostra com a pronstic bsic:
Unc
Rel Res
= BSS [4.4]

Cal anar en compte a lhora dutilitzar el BSS:
- En rees o conjunts massa grans pot englobar rgims climtics diferents, i sha
de tenir en compte que el valor de BSS depn de la climatologia.
- En conjunts massa petits, el valor de BSS pot oscillar bruscament al llarg duna
evoluci temporal: necessita una base de dades prou gran.


4.3. Diagrames de fiabilitat

Tamb anomenat diagrama datributs, es tracta dun mtode grfic per avaluar la
fiabilitat, resoluci i agudesa dun pronstic probabilstic. Es necessita una base de
dades prou gran, ja que caldr partir la mostra en subconjunts en funci de la
probabilitat del pronstic.

4.3.1. Com construir un diagrama de fiabilitat.

Un exemple daquest grfic es mostra a la Figura 4.1.

a) Decidir el nombre de categories (caselles) i la seva distribuci:
- Discretitzar les probabilitats del pronstic, en funci de la mida de la mostra.
- Ha de ser una fracci entera, per exemple, de la mida de lensemble.
- No totes han de tenir la mateixa amplada: en cada categoria la mostra hauria de
ser prou gran com per assolir una estimaci estable de la freqncia observada.

b) Categoritzar les dades.

c) Calcular la freqncia condicional observada en cada categoria k
freqncia relativa observada (k) = ocurrncies observades (k) / nm. de pronstics (k)

d) Representar la freqncia observada vs. la probabilitat del pronstic.

e) Representar la climatologia de la mostra (lnia de no-resoluci: base rate):
climatologia de la mostra = observacions / nombre de pronstics

Apunts del Tutorial de Verificaci, Helsinki, 4 6 de juny de 2009 - 27 -
f) Representar la lnia de no-skill a mig cam entre les lnies de la climatologia i la
fiabilitat perfecta (diagonal).

g) Representar lhistograma de freqncies per mostrar lagudesa (o representar el
nombre desdeveniments en cada punt del grfic de fiabilitat).


Figura 4.1. Exemple dun diagrama de fiabilitat.

- Fiabilitat: proximitat a la diagonal.

- Resoluci: Distncia respecte la lnia horitzontal (climatologia).

- Lnia de no-skill: On la fiabilitat i la resoluci sn iguals: BSS = 0
skill
climatology
Forecast probability
Observed
frequency
0
0
1
1
#
fcsts
Pfcst
Apunts del Tutorial de Verificaci, Helsinki, 4 6 de juny de 2009 - 28 -
4.3.2. Interpretaci dels grfics de fiabilitat.

A la Figura 4.2 es mostren alguns exemples de diagrames de fiabilitat i la seva
interpretaci.


Figura 4.2. Diversos exemples de diagrames de fiabilitat. De dalt a baix i desquerra a dreta: 1) subestimaci
de lesdeveniment, 2) sobreestimaci, 3) resoluci molt baixa, 4) prcticament sense habilitat, 5) conseqncia
dutilitzar un conjunt de dades petit, 6) signatura tpica dun pronstic dalta resoluci i no fiable, 7) pronstic
determinstic perfecte, 8) pronstic dun esdeveniment estrany (valor climatolgic baix), 9) pronstic
determinstic poc fiable.


4.4. Discriminaci i Caracterstica Operativa Relativa (ROC).

En el diagrama de fiabilitat, les dades es reparteixen dacord a la probabilitat del
pronstic. Suposem que ara les partim dacord a la observaci: sobtenen dues
categories: s/no.


Apunts del Tutorial de Verificaci, Helsinki, 4 6 de juny de 2009 - 29 -
4.4.1. Avaluaci de la capacitat de discriminaci.

La discriminaci s lhabilitat del pronstic per distingir clarament les situacions que
porten a locurrncia del fenomen daquelles que porten a la no ocurrncia del mateix
(veure Figura 4.3). Aquesta qualitat depn de:

- Separaci de les mitjanes de les distribucions condicionals.
- Variana de les distribucions condicionals.


Figura 4.3. Representaci de la distribuci condicional dels pronstics probabilstics en funci de
locurrncia / no ocurrncia del fenomen. El cas a) representa una bona discriminaci, amb mitjanes
separades i variana gran; el cas b) representa una pobra discriminaci, amb mitjanes poc separades i
variana gran; i el cas c) representa una bona discriminaci, amb mitjanes igual de separades que b) per
amb una variana molt ms reduda.

Una forma davaluar la discriminaci dels pronstics s mitjanant els diagrames de
Sample Likelihood (Figura 4.4, inferior) o els diagrames de caixes o box-plot (Figura
4.4, superior).

Figura 4.4. Diferents diagrames per
avaluar la discriminaci dels pronstics
probabilstics: a la part superior, box-plot
per a les distribucions marginals del
pronstic del fenmen pels fenmen
observat / no observat; a la part inferior,
histograma corresponent a les distribucions
condicionals per fenomen observat / no
observat.

4.4.2. Construcci de la corba ROC (Relative Operating Characteristic)

a) A partir del conjunt de dades original, determinar les caselles (normalment, almenys
seran 5). Cal que hi hagi prou ocurrncies de lesdeveniment per a determinar la
distribuci condicional donada locurrncia (aix pot ser complicat per a fenmens
rars).

No
Yes
0.0 0.2 0.4 0.6 0.8 1.0
0
.
0
0
.
1
0
.
2
0
.
3
0
.
4
0
.
5
Forecast
R
e
l
a
t
i
v
e

F
r
e
q
u
e
n
c
y
msc
No
Yes
forecast
freq
observed
non-events
observed
events
forecast
freq
observed
non-events
observed
events
forecast
freq
observed
non-events
observed
events
(a) (b) (c)
Good discrimination Poor discrimination Good discrimination
Apunts del Tutorial de Verificaci, Helsinki, 4 6 de juny de 2009 - 30 -
b) Per a un llindar determinat de probabilitat, es construeix la taula de contingncia i es
determinen:
HR = H = hit rate: nombre de pronstics correctes / total docurrncies del
fenomen
FA = F = false alarm rate : nombre de falses alarmes / total de docurrncies de
no-fenomen

c) Representar HR vs FA per a donar la corba ROC emprica.

d) Utilitzar un model binormal per a obtenir lrea sota la corba ROC, recomanable si
hi ha suficients dades (ms de 100 casos, aproximadament). Per a mostres petites, el
mtode recomanat s el descrit per Simon Mason.

A la Figura 4.5 es mostra un exemple de la corba ROC. Per a interpretar-la cal fixar-se
en els punts segents:

- Mesura quantitativa: rea sota la corba = ROCA
- s positiu si la corba ROC es troba per sobre de la lnia diagonal (lnia de no
discriminaci), que marca una ROCA = 0.5.
- Lrea perfecta s ROCA = 1.0.
- La corba ROC no s sensible al biaix: Per tenir una bona puntuaci noms s
necessari que les dues distribucions condicionals es trobin separades.


Figura 4.5. Corbes ROC per a la
probabilitat de precipitaci a
Tampere (Finlndia) als horitzons
de pronstic de 24 i 48 hores.


Per a esdeveniments poc freqents, quan les categories es determinen a partir de caselles
fixes (com ara decils), els punts sacumulen a la cantonada inferior esquerra (veure
Figura 4.6). Llavors s convenient subdividir la casella de menor probabilitat, si s
possible.

Cal recordar que la corba ROC no s sensible al biaix (ni, per tant, a una calibraci).
Apunts del Tutorial de Verificaci, Helsinki, 4 6 de juny de 2009 - 31 -

Figura 4.6. Corba ROC per a un cas
desdeveniment rar. Els punts sacumulen a
la cantonada inferior esquerra del grfic.

Sobre les corbes ROC cal remarcar:
- Sn sensibles a la climatologia de la mostra: cal anar en compte a lhora de fer
mitjanes sobre rees o temps.
- Sutilitza per avaluar el valor dels pronstics.
- Pot comparar directament el funcionament dels pronstics probabilstics i
determinstics.

4.5. Verificaci de pronstics per conjunts (ensemble).

Les principals caracterstiques que cal tenir en compte a lhora de verificar aquest tipus
de pronstics sn les segents:

- Cal una dimensi extra: hi ha molts valors pronosticats i noms una observaci:
Aix suggereix la necessitat duna matriu de dades: les columnes pels membres
de lensemble i lobservaci i les fileres per a cada esdeveniment.
- Els pronstics directes de lensemble sn una collecci de pronstics
determinstics.
- La utilitzaci dels ensembles per generar pronstics probabilstics requereix
interpretaci; per exemple, processar la matriu de dades procedent de la sortida
directa dels membres de lensemble.

4.5.1. Interpretaci de la Funci de Distribuci de Probabilitat (PDF) dels
ensembles.

Es pot representar en forma discreta, com a histograma, i tamb passar-ho a funci de
distribuci de probabilitat acumulada (CDF). Un cop obtinguda la corba emprica, es
pot intentar ajustar una funci als punts de la CDF emprica (veure Figura 4.7).

Apunts del Tutorial de Verificaci, Helsinki, 4 6 de juny de 2009 - 32 -


Figura 4.7. Funci de distribuci de
probabilitat acumulada emprica i ajustada a
diferents funcions.

4.5.2. Rank Probability Score (RPS) i Continuous RPS (CRPS)

Mesura la diferncia quadrtica entre lobservaci i el pronstic en lespai de la
probabilitat quan hi ha diferents categories de probabilitat (veure Figura 4.8). s flexible
i pot acomodar observacions incertes.

a) b)
Figura 4.8. a) Funci densitat de probabilitat acumulada dels pronstics (barres) i la observaci
(lnia esgla), i b) diferncies entre ambdues funcions, el valor quadrtic de les quals sutilitza
per al clcul de lRPS.

Per a calcular el valor de RPS se segueixen els passos segents:

a) Per a cada parell pronstic-observaci:
1. Sassigna lobservaci a la seva categoria k
obs
. La funci densitat de
probabilitat acumulada CDF
obs
ser o b 0 o b 1.
2. A partir del pronstic probabilstic categric P=[p
1
,p
2
,...,p
k
] calcular la funci
densitat de probabilitat acumulada per a cada categoria k.
3. Calcular el RPS amb la frmula:
( )

=
K
k
k obs k fcst
CDF CDF
K
RPS
1
2
, ,
1
1
[4.5]
b) Fer la mitjana de lRPS sobre tots els parells pronstic-observaci.
Apunts del Tutorial de Verificaci, Helsinki, 4 6 de juny de 2009 - 33 -
La seva extensi al domini continu porta a la definici del Continuous Rank-Probability
Score (CRPS):
[ ]


= dx x P x P x P CRPS
a a
2
) ( ) ( ) , ( [4.6]

4.5.3. Rank Histogram, Diagrama de Talagrand

Lhistograma de categories (Rank Histogram) s utilitzat per a diagnosticar si la
dispersi mitjana dun ensemble representa adequadament la variabilitat (incertesa) de
les observacions.

Es construeix comptant el nombre de vegades que lobservaci cau en una determinada
categoria de lensemble un cop les sortides del mateix han estat ordenades de forma
creixent.

En un ensemble amb dispersi perfecta, cada membre representa un escenari amb
probabilitat igual, de manera que la probabilitat que la observaci caigui entre qualsevol
parella de membres s igual.

Segons la forma del diagrama, es pot interpretar:
- pla: la dispersi de lensemble representa correctament la incertesa del pronstic
- forma dU: la dispersi de lensemble s massa petita, moltes observacions
cauen fora dels extrems.
- forma de cpula: la dispersi de lensemble s massa gran; massa observacions
cauen prop del centre de lensemble.
- asimtric: lensemble presenta un biaix

Un histograma pla no necessriament indica un pronstic bo, noms mesura si la
distribuci de probabilitat observada es ben representada per lensemble.

El clcul es fa identificant el rang de lobservaci comparat als pronstics de lensemble
ordenats.


Apunts del Tutorial de Verificaci, Helsinki, 4 6 de juny de 2009 - 34 -
5. Intervals de confiana i tests dhiptesis
(per Ian Jolliffe, Universitat dExeter, UK)

5.1. Tipus dinferncia

Quan es calcula qualsevol ndex de verificaci, sha dassumir que aix es fa sobre una
mostra dalguna (hipottica) poblaci, de manera que cal fer alguna inferncia sobre la
mesura calculada.

Es poden enumerar alguns tipus dinferncia:
- Estimaci puntual: Per exemple, donant un sol nmero per estimar el parmetre,
sense indicar la incertesa que hi porta associada.
- Estimaci dinterval: Es pot associar un error estndard a una estimaci puntual,
per s millor anar un pas ms enll i construir un interval de confiana,
especialment si la distribuci de la mesura no s propera a una Gaussiana.
- Test dhiptesis: Quan es comparen estimacions dun cert parmetre per a
diferents mostres, el test dhiptesis pot ser una bona manera per respondre a la
pregunta de si pot haver sorgit algun canvi per casualitat.

Tamb es poden enumerar diverses aproximacions a la inferncia:
- Paramtrica clssica (freqentista)
- Bayesiana
- No-paramtrica
- Teoria de decisions
- etc.

5.2. Estimaci dintervals

Donat que hi ha diferents noms pels intervals atenent a les diferents aproximacions
existents per a calcular-los, una nomenclatura encertada seria anomenar-los, de manera
general, intervals dincertesa (uncertainty intervals).

5.2.1. Interval de confiana

Donat el valor dun estadstic duna mostra, cal trobar un interval amb un nivell de
confiana especificat (95%, 99%) dincloure el valor de lestadstic corresponent a la
poblaci (parmetre).

- Linterval s aleatori, el valor de la poblaci s fixe.
- El nivell de confiana s la probabilitat que els intervals incloguin el parmetre
(en mostres suficientment grans), i no la probabilitat que el parmetre sigui en
linterval (veure Figura 5.1).


Figura 5.1. El nivell de confiana s la
probabilitat que els intervals incloguin el
parmetre, no la probabilitat que el parmetre sigui
dins linterval. A la figura, en vermell, un interval
que no inclou el parmetre.
Apunts del Tutorial de Verificaci, Helsinki, 4 6 de juny de 2009 - 35 -
5.2.2. Intervals de confiana pels encerts (hit rate)

Anomenem p la proporci docurrncies de lesdeveniment dinters que van ser
pronosticades (hit rate), i la probabilitat dun pronstic correcte donat que
lesdeveniment hagi ocorregut. Es pot determinar un interval de confiana per .

Es tracta de la situaci estndard de trobar un interval de confiana per la probabilitat
dxit en una distribuci binomial, i hi ha diverses maneres dabordar-ho.

Una primera aproximaci (crua) es basa en el fet que la distribuci de p es pot
aproximar per una distribuci Gaussiana amb mitjana i variana p(1-p)/n, on n s el
nombre de proves. Linterval t els extrems a
n
p p
z p
) 1 (
2 /


[5.1]
on z
/2
= 1.96 per un interval de confiana del 95%.

Una aproximaci lleugerament millor es basa en el fet que la distribuci de p
saproxima millor per una distribuci Gaussiana amb mitjana i variana (1-)/n.
Llavors, els extrems vnen donats per les arrels duna equaci quadrtica, que sn:
n z
n z n p p z n z p
/ 1
4 / / ) 1 ( 2 /
2
2 /
2 2
2 / 2 /
2
2 /


+
+ +
[5.2]

Per a n petites es pot trobar un interval basat en la mateixa distribuci binomial en
comptes de laproximaci Gaussiana. Aquests intervals de vegades sanomenen
exactes, encara que la seva cobertura de probabilitat generalment no s exactament
lespecificada a causa del carcter discret de la distribuci. Daquesta aproximaci no
sen donen detalls, per hi ha taules disponibles per a trobar aquests intervals.

Hi ha ocasions en qu els intervals de confiana poden estendres ms enll dels valors
possibles, sobretot quan el valor del parmetre estimat es troba proper a algun dels
valors lmits; per exemple, un interval de (0.90 1.03) per a un hit-rate (valor mxim =
1). Llavors caldr utilitzar un altre mtode per a calcular linterval dincertesa.

5.2.3. Interval de Bayes (o interval creble)

En laproximaci Bayesiana a la inferncia, una distribuci a priori del parmetre
dinters (aqu ) es combina amb la funci de probabilitat per les dades per tal de donar
una distribuci posterior per (Epstein, 1985).

Els intervals Bayesians sn diferents dels intervals de confiana: sassumeix que s
aleatria, no fixada, i utilitzen percentils de la seva distribuci de probabilitat posterior.

El tipus obvi per a la distribuci a priori per s una distribuci Beta. Aquestes
distribucions sn:
- Definides en el rang [0,1], com ;
- Raonablement flexibles en la seva forma;
- Conjugables: Una Beta a priori implica una Beta a posteriori.

Apunts del Tutorial de Verificaci, Helsinki, 4 6 de juny de 2009 - 36 -
La funci distribuci de probabilitat (PDF) per a una distribuci Beta amb parmetres
i s
1 1
) 1 (
) ( ) (
) (


+
[5.3]
La funci de probabilitat s, simplement, la funci de probabilitat binomial per x xits
en n proves
) (
) 1 (
)! ( !
!
x n x
x n x
n

[5.4]

Multiplicant [5.3] per [5.4] porta a una distribuci Beta posterior amb parmetres
+ x
+ n - x

Finalment, per a trobar linterval de Bayes de, per exemple, el 90%, cal trobar els valors
de la distribuci posterior que tallin el 5% de probabilitat a cada extrem.

A la Figura 5.2 es mostra un exemple de clcul dels intervals Bayesians, amb les
distribucions a priori i posteriors de la funci Beta.

OBS
SI NO
SI 13 7
PRON
NO 8 16


Figura 5.2. A lesquerra, taula de contingncia per a un determinat pronstic categric; al mig, dues
funcions de distribuci Beta a priori:
1
(1,1) lnia contnua i
2
(10,5) lnia discontnua ; a la dreta,
les respectives funcions de distribuci Beta a posteriori '
1
i '
2
.


5.2.4. Interval per re-mostreig (bootstrap interval)

Si agafem com exemple la taula de contingncia mostrada a la Figura 5.2, observem 13
encerts (1s) i 8 errades (0s):
- Prenem B mostres aleatries de mida 21, amb repetici, daquests 21 valors, i
calculem p (proporci dencerts o hit-rate) per a cada mostra.
- Ordenem els B valors de p. Per a un interval de confiana (1-2), cal trobar el
valor B ms petit i el B ms gran dels valors ordenats. Els anomenem,
respectivament, l i u.
- Hi ha diversos intervals de confiana de complexitat variable. La manera ms
senzilla dentendre-ho i implementar-ho s el mtode del percentil, que utilitza
linterval (l,u).

Hi ha diversos mtodes de bootstrapping, com ara el basic bootstrap, parametric
bootstrap, bootstrap-t intervals, BC

, ABC, ... Es pot trobar ms informaci al respecte


a Efron i Tibshirani (1993) i Gilleland (2008).


Apunts del Tutorial de Verificaci, Helsinki, 4 6 de juny de 2009 - 37 -
5.2.5. Intervals de confiana per a diferncies

Suposem que tenim dos pronstics i volem comparar els seus encerts (hit-rate) trobant
un interval de confiana per a la diferncia entre els dos parmetres subjacents
1
-
2
.
Un interval aproximat del 95% tindr els extrems en els valors segents
n
p p
n
p p
p p
) 1 ( ) 1 (
96 . 1 ) (
2 2 1 1
2 1

+

[5.5]
si se suposa independncia entre p
1
i p
2
. Si tenen correlaci positiva, linterval ser ms
estret.

Cal remarcar que, quan es comparen parmetres, s ms adequat buscar un interval
de confiana per la diferncia que no pas comparar entre ells els intervals de
confiana individuals. Buscar la superposici dels intervals sovint porta a conclusions
equivocades, ja que la probabilitat que els dos parmetres es trobin, simultniament, als
extrems dambds intervals de confiana s realment baixa.

5.2.6. Intervals de confiana pel coeficient de correlaci de Pearson

Tenim r, el valor estimat a partir de la mostra. Nosaltres volem un interval de confiana
per , la magnitud corresponent a la poblaci.

Hi ha diverses aproximacions:
- Interval amb extrems
n r z r / ) 1 (
2
2 /


[5.6]
- Basat en la transformaci z de Fisher, la distribuci de
|

\
|

+
r
r
1
1
ln
2
1
[5.7]
s aproximadament normalment distribuda amb mitjana i variances expressades
segons:
3
1
,
1
1
ln
2
1
2

=
|
|

\
|

+
=
n

[5.8]
- Aproximaci Bayesiana
- Aproximaci per bootstrapping

En tot cas, sempre que hi hagi dubtes sobre quina distribuci cal assumir, s preferible
utilitzar el bootstrapping.

5.3. Intervals de predicci

Un interval de predicci (o interval de probabilitat) s un interval amb una
probabilitat donada de contenir el valor de la variable aleatria en comptes de
contenir un parmetre.

La variable aleatria s aleatria i els extrems de linterval sn punts fixos en la seva
distribuci; en canvi, per a un interval de confiana linterval s aleatori.

Els intervals de predicci, aix com els intervals de confiana, sn tils a lhora de
quantificar la incertesa quan sestimen parmetres.
Apunts del Tutorial de Verificaci, Helsinki, 4 6 de juny de 2009 - 38 -
5.3.1. Intervals de predicci per a coeficients de correlaci.

Necessitem la distribuci de r, normalment calculada sota la hiptesi nulla, la ms
bvia de la qual s la que fixa = 0. Utilitzant laproximaci ms primitiva, r t una
distribuci Gaussiana amb mitjana zero, variana 1/n i un interval de predicci del 95%
per r, donat = 0, t els extrems a
n / 1 96 . 1 0 [5.9]

Per illustrar-ho amb un exemple, imaginem una collecci de 44 parelles pronstic-
observaci amb r = 0.767.
- Interval de predicci: donat = 0, tenim una confiana del 95% que r cau en
linterval (-0.295, 0.295)
- Interval de confiana: donat r = 0.767, tenim una confiana del 95% que
linterval (0.61,0.87) cont .

5.4. Test dhiptesis

Linters en la incertesa associada a una mesura de verificaci sovint s de la forma:
- El valor observat s compatible amb el que shauria pogut observar si el sistema
de pronstic no tingus habilitat (skill) ?
- Donats dos valors duna mesura per dos sistemes de pronstic diferents (o el
mateix sistema a diferents moments), seria possible que la diferncia entre els
valors hagus aparegut per casualitat si no hi hagus diferncia en lhabilitat
subjacent dels dos sistemes (o moments)?

Aquestes qestions es poden respondre amb un test formal de la hiptesi nulla de no
habilitat (no skill) pel primer cas, o igual habilitat (equal skill) pel segon cas.

Un test dhiptesis sovint s equivalent a un interval de confiana i/o a un interval
de predicci.

Per exemple, reprenem el cas del pronstic que presentava una correlaci r = 0.767, n =
44; definim com a hiptesi nulla (H
0
) que = 0:
- Amb laproximaci ms primitiva, es pot assumir que, sota H
0
, r t una
distribuci Gaussiana amb mitjana zero i variana 1/n.
- Llavors, es pot rebutjar H
0
al nivell de significncia del 5% si, i noms si, r s
superior a (o inferior a)
( ) n n / 1 96 . 1 / 1 96 . 1
en altres paraules, si i noms si r es troba fora de linterval de predicci del 95%
(-0.295, 0.295).
- Clarament, doncs, H
0
s rebutjada al nivell del 5% o, fins i tot, a nivells molt
ms estrictes.

En aquest sentit, cal remarcar que s tpic dels cientfics de latmosfera (per difcilment
de cientfics daltres camps) referir-se al nivell de significncia del 95% a lhora de
rebutjar H
0
, en comptes de mencionar el 5%. Evidentment, s desitjable utilitzar el
criteri ms general.

Apunts del Tutorial de Verificaci, Helsinki, 4 6 de juny de 2009 - 39 -
Tornant a lexemple, tamb es poden utilitzar els intervals de confiana per fer el test de
H
0
. Amb els intervals de confiana del 95%, es pot rebutjar H
0
al nivell de significncia
del 5% si i noms si linterval de confiana no inclou el zero.

5.5. Teoria de la decisi i p-values

Els tests dhiptesis es poden tractar com a un procs de decisi clarament delimitat:
decidir un nivell de significncia (5%, 1%) i derivar una regi crtica (un subconjunt de
les possibles dades) per les quals alguna hiptesi nulla (H
0
) pugui ser rebutjada.

Per a una aproximaci total a la teoria de decisi, tamb es necessitar una funci de
prdues i probabilitats a priori.

Alternativament, es pot donar un valor p (p-value). Aquesta ser la probabilitat que les
dades, o quelcom menys compatible amb H
0
, pogus haver aparegut per casualitat si H
0

fos certa. No s la probabilitat que H
0
sigui certa.

5.6. Tests de permutaci i aleatoritzaci de = 0

Si no es pot fer cap suposici sobre la distribuci de r, podem utilitzar una aproximaci
per permutaci:
- Etiquetem les dades pronosticades i observades amb (f
i
,o
i
), i = 1, ..., n.
- Fixem els pronstics (f
i
) i considerem totes les possibles permutacions de les o
i
.
- Calculem la correlaci entre les f
i
i les o
i
permutades en cada cas.
- Sota H
0
, totes les permutacions sn equiprobables, i el valor p (p-value) per a un
test de permutaci s la proporci de totes les correlacions calculades ms grans
o iguals (en valor absolut per a un test de dos extrems) al valor observat.

El nombre de permutacions pot ser massa gran per avaluar-les totes. Utilitzant un
subconjunt aleatori delles sobt un test daleatoritzaci, encara que els termes del test
de permutaci i daleatoritzaci sovint sn utilitzats com a sinnims.

5.7. Conclusions i sumari

A lhora davaluar la incertesa en la verificaci de pronstics cal tenir en compte:

o Quan es calcula una mesura de verificaci, sempre hi ha incertesa associada al
valor de la mesura.

o La inferncia estadstica pot ajudar a quantificar aquesta incertesa.

o De vegades podem voler provar una hiptesi especfica, com ara els pronstics
sn millors que la casualitat?, o b el nou sistema de pronstics dna millors
pronstics que lantic?.

o Ms sovint, un interval de confiana, o algun altre tipus dinterval, s el cam
ms til de quantificar la incertesa.

o Existeixen diferents tipus dintervals dincertesa: intervals de confiana,
intervals Bayesians, intervals per bootstrap, intervals de predicci.
Apunts del Tutorial de Verificaci, Helsinki, 4 6 de juny de 2009 - 40 -
o Per a una base de dades donada, hi ha diferents maneres de calcular aquests
intervals.

o La tria entre intervals depn de les suposicions que es puguin fer sobre la
distribuci de les dades. El bootstrap (i altres mtodes no paramtrics)
tpicament fan menys suposicions que els necessaris per calcular altres intervals.

o Per algunes mesures estndard de verificaci, hi ha frmules i/o software per
quantificar la incertesa, per en molts casos aix no succeeix. Malgrat tot, no s
excusa per ignorar la incertesa.
Apunts del Tutorial de Verificaci, Helsinki, 4 6 de juny de 2009 - 41 -
6. Mtodes per a verificar pronstics espacials
(per Beth Ebert, Bureau of Meteorology, Australia)

6.1. Introducci

Els pronstics espacials estan fets a moltes escales. La verificaci visual (eyeball, a
ull), s a dir, comparar visualment els mapes dels pronstics amb els de les
observacions, t lavantatge de proporcionar-nos molta informaci (una imatge val ms
que mil paraules), per t linconvenient de ser una tasca intensiva i no quantitativa, i
difcilment servir per convncer altres persones de les conclusions extretes.

A lhora de relacionar pronstics i observacions, cal tenir en compte que laproximaci
escollida (punt a malla, o malla a punt) pot influenciar els resultats de la verificaci
(veure Figura 1.2).

Per fer verificaci espacial, cal adoptar laproximaci malla a malla (Figura 6.1):
- Les malles observada i pronosticada se superposen.
- Es relaciona cada pronstic i observaci.


Figura 6.1. Relaci de pronstic i
observaci mitjanant laproximaci malla
a malla.6.2. Aproximacions tradicionals de verificaci.

Es basen en el clcul de mesures sobre els parells pronstic-observaci:
- Valors continus (quantitat de precipitaci, temperatura, diverses variables dels
models numrics, etc.).
o ME, MSE, RMSE, correlaci
o Correlaci anmala, S1
Apunts del Tutorial de Verificaci, Helsinki, 4 6 de juny de 2009 - 42 -
- Valors categrics (ocurrncia de precipitaci).
o Estadstics derivats de taules de contingncia (POD, FAR, Heidke skill
score, ETS, Hanssen-Kuipers statistic...)

Els problemes poden aparixer quan es comparen sortides de models dalta resoluci
amb models de baixa resoluci i observacions (Figura 6.2). Malgrat que els pronstics
dalta resoluci normalment semblen ms realistes, i de fet proporcionen informaci
ms til en termes dintensitats i, fins i tot, de localitzaci desdeveniments de temps
significatiu, rarament verifiquen millor contra les observacions que els pronstics de
baixa resoluci quan sutilitzen ndexs tradicionals.


Figura 6.2. Comparaci dels pronstics dun model dalta resoluci (esquerra) i un model de baixa resoluci (centre)
amb les observacions. Probablement, un predictor operatiu indicaria que el pronstic de ms alta resoluci s millor,
tot i que els ndexs estadstics puntuen millor pel pronstic de baixa resoluci.

Per tal que els mtodes tradicionals de verificaci espacial proporcionin ndexs que
indiquin un bon pronstic es requereix una coincidncia exacta entre pronstic i
observaci a cada punt de la malla.

De fet, sovint apareix un problema de doble penalitzaci (Figura 6.3): per una banda, el
fenomen pronosticat on no ha ocorregut i, per laltra, el fenomen no pronosticat on ha
ocorregut.


Figura 6.3. Exemple de la doble penalitzaci que,
tradicionalment, pateixen els pronstics dalta
resoluci quan sn verificats amb mtodes
tradicionals de verificaci espacial.


Apunts del Tutorial de Verificaci, Helsinki, 4 6 de juny de 2009 - 43 -
A ms, els ndexs tradicionals no proporcionen informaci sobre la font o naturalesa
dels errors. Es perd informaci sobre qestions com ara:
- Qu va anar malament ? Qu va anar b ?
- Semblava realista el pronstic ?
- Com es pot millorar el pronstic ?
- Com es pot utilitzar per prendre decisions ?

Davant la impossibilitat de la coincidncia exacta entre els pronstics dalta resoluci i
les observacions, no t sentit reclamar aquesta coincidncia per a obtenir una bona
puntuaci.

6.3. Noves tcniques de verificaci espacial.

Les intencions daquestes noves tcniques sn:
- Tenir en compte lestructura espacial del camp.
- Proporcionar informaci de lerror en termes fsics.
- Donar compte de les incerteses en la localitzaci espacial i temporal.

Aquests mtodes es poden classificar segons laproximaci que es prengui:
a) Mtodes de verificaci de venatge (neighborhood) o fuzzy
- Dna crdit a pronstics propers.
b) Mtodes de descomposici per escales.
- Mesura lerror dependent de lescala.
c) Mtodes orientats a objectes
- Avalua els atributs de les caracterstiques identificables.
d) Verificaci de camp
- Avalua els errors de fase.

En aquest sentit cal destacar la feina feta en el marc del Projecte dIntercomparaci de
Verificaci Espacial (Spatial Verification Intercomparison Project), iniciat el febrer de
2007. Es pot trobar ms informaci al respecte a la web:
http://www.ral.ucar.edu/projects/icp/index.html.

6.4. Mtodes de verificaci de venatge (fuzzy)

Les principals caracterstiques daquests mtodes sn:
- No requereixen una coincidncia exacta entre pronstics i observacions, de
manera que pot tenir en compte tant les escales imprevisibles com la incertesa en
les observacions.
- Mira el venatge (una finestra) espacial / temporal al voltant del punt dinters
(Figura 6.4).
- Lavaluaci es fa mitjanant mtodes / puntuacions (scores) categrics, continus
i probabilstics.


Figura 6.4. Els mtodes de venatge tenen
en compte lentorn espcio-temporal del
punt dinters per al clcul de diversos
ndexs estadstics.

Apunts del Tutorial de Verificaci, Helsinki, 4 6 de juny de 2009 - 44 -
El tractament de les dades pronosticades dins de la finestra es pot dur a terme
mitjanant:
- Valor mitj (upscaling)
- Ocurrncia de lesdeveniment en qualsevol lloc de la finestra.
- Freqncia dels esdeveniments dins de la finestra (aproximaci probabilstica).
- Distribuci dels valors dins de la finestra.

A ms, tamb pot mirar en un venatge de les observacions.

6.4.1. Upscaling: el mtode ms antic de verificaci en venatge.

Es tracta de calcular la mitjana dels pronstics i les observacions sobre resolucions de
malla successivament ms grans i, a continuaci, verificar utilitzant les mesures
habituals: ME, RMSE, coeficient de correlaci, etc. per a valors continus, o b POD,
FAR, FBI, TS, ETS, etc., per a valors categrics.

Permet conixer levoluci dun determinat ndex o puntuaci en funci de la mida del
venatge (Figura 6.5).


Figura 6.5. Lupscaling permet conixer la
dependncia del valor dun ndex a la mida del
venatge.

6.4.2. Fractions Skill Score
(Roberts and Lean, MWR, 2008)

Aquest estadstic ens permet determinar:
- Com varia lhabilitat (skill) del pronstic amb la mida del venatge.
- La mida ms petita del venatge que pot ser utilitzada per donar pronstics
suficientment precisos.
- Conixer si els models numrics dalta resoluci proporcionen pronstics ms
precisos en escales dinters (per exemple, conques hidrolgiques).

De fet, compara les fraccions del pronstic amb les fraccions observades (veure Figura
6.6) duna manera probabilstica sobre venatges de diferent mida:

= =
=
+

=
N
i
N
i
obs fcst
N
i
obs fcst
P P
P P
1 1
2 2
1
2
N
1
N
1
) (
N
1
1 FSS [6.1]
on P
fcst
i P
obs
representen les proporcions dobservaci i pronstic de lesdeveniment
dins de cada finestra, mentre que el sumatori es realitza sobre totes les N possibles
finestres dins del domini.


Apunts del Tutorial de Verificaci, Helsinki, 4 6 de juny de 2009 - 45 -

Figura 6.6. En el clcul de lFSS, es
determina la fracci que representen
els esdeveniments observats i previstos
en el s de la finestra. En aquest cas,
FSS = 1 (pronstic perfecte) perqu
ambdues fraccions sn iguals.

En lexemple de la Figura 6.6, els dos camps no tenen cap superposici
desdeveniments, de manera que puntuarien molt baix utilitzant els mtodes de
verificaci tradicionals. Per lFSS el comptabilitzar com un pronstic perfecte perqu
les fraccions sn iguals.

Si calculem lFSS per a diferents tamanys de les finestres, es pot obtenir un grfic
similar al de la Figura 6.7. All saprecia com, per a escales espacials prou grans, lFSS
tendeix assimptticament a un valor que depn de lFBI (tendeix a 1 si FBI = 1). De
totes maneres, cal tenir en compte que si sagafen finestres de venatge molt grans, el
suavitzat dels camps pot ser excessiu, i sestar avaluant lencert a escales poc tils.


Figura 6.7. Representaci
esquemtica de lFSS en funci
de lescala espacial. Lndex
tendeix assimptticament a un
valor que depn de lFBI. El
pronstic ser til quan FSS >
0.5 + f
o
/2, on f
o
s la freqncia
de lesdeveniment observat sobre
el domini.


6.4.3. Taula de contingncia espacial multi-esdeveniment
Spatial multi-event contingency table (Atger, Proc. Nonlin. Geophys., 2001)

Els predictors experimentats interpreten la sortida dun pronstic determinstic dalta
resoluci duna manera probabilstica. Mentalment, els predictors calibren el pronstic
determinstic dacord amb la seva proximitat al lloc / temps / magnitud dinters:
- Molt a prop alta probabilitat
- No molt a prop baixa probabilitat

Aquest mtode quantifica aquesta manera que tenen els predictors davaluar els
pronstics dalta resoluci.

Apunts del Tutorial de Verificaci, Helsinki, 4 6 de juny de 2009 - 46 -
Sutilitza la corba ROC en la verificaci, que permet mesurar en quin grau el pronstic
pot separar els esdeveniments dels no-esdeveniments, basant-se en algun llindar de
decisi. Aquest llindar de decisi varia segons:
- Magnitud (per exemple, de 1 mm/h a 20 mm/h)
- Distncia des del punt dinters (per exemple, en 10 km, ..., en 100 km)
- Temps (per exemple: en 1 hora, ... , en 12 hores)
- Qualsevol cosa que pugui ser important per a interpretar el pronstic.

A la Figura 6.8, cada punt representa la mesura corresponent a un sol llindar. Tots els
llindars de decisi que hi apareixen estan basats en variacions en el llindar de la
intensitat de precipitaci i la distncia espacial des del punt dinters.


Figura 6.8. Representaci de la ROC per a
diferents llindars de decisi.

6.4.4. Mtodes de verificaci de venatge segons el model de decisi

Cada mtode de verificaci de venatge t diferents models per decidir qu fa til un
pronstic. A la taula 6.1 nenumerem uns quants.


Taula 6.1. Models per decidir si un pronstic s til en funci del mtode de verificaci (NO-NF:
neighborhood obs neighborhood fcst; SO-NF = single obs - neighborhood fcst).
Apunts del Tutorial de Verificaci, Helsinki, 4 6 de juny de 2009 - 47 -
6.4.5. Com utilitzar diferents mtodes de venatge

La qualitat del pronstic depn de lescala i la intensitat de lesdeveniment. Llavors,
laproximaci multi-escalar es pot estendre a una aproximaci multi-intensitat.

En funci de la pregunta de verificaci que vulguem respondre, utilitzarem un o altre
mtode.

Per exemple, en la Figura 6.9 es mostra el camp pronosticat i observat dun
esdeveniment de pluja sobre els USA. Volem saber:
1. Com millora el pronstic mitj amb laugment descala ?
2. A quines escales la distribuci de pluja pronosticada sassembla a
lobservada?
3. Quant mhe dallunyar per trobar almenys un valor pronosticat similar al
valor observat ?


Figura 6.9.a. Camps observat (esquerra) i pronosticat (dreta) de precipitaci per un determinat
esdeveniment sobre els USA.

La primera pregunta es pot respondre amb el mtode dupscaling, representant lRMSE
del pronstic en funci de lescala espacial (Figura 6.9.b). La segona qesti es pot
contestar mitjanant el clcul de lFSS per a diferents finestres espacials i diferents
llindars dintensitat, i representant el seu valor en un grfic com el de la Figura 6.9.c
(valors amb skill en negreta).

Finalment, una manera de respondre la tercera pregunta seria representar lndex KSS
per a diferents escales espacials i llindars dintensitat (Figura 6.9.d). Donat que KSS =
POD POFD, els valors positius indicaran certa habilitat i, per tant, quant cal
desplaar-se per trobar almenys un valor pronosticat similar a lobservat.Apunts del Tutorial de Verificaci, Helsinki, 4 6 de juny de 2009 - 48 -
b)
c) d)
Figura 6.9 (cont.). b) Representaci de lRMSE del pronstic en funci de lescala espacial; c) FSS en funci de
lescala espacial i el llindar dintensitat (en negreta els valors que indiquen habilitat) i d) KSS en funci de
lescala espacial i el llindar dintensitat.

6.5. Mtodes de separaci descales.

6.5.1. Mtode dIntensitat-Escala (Intensity-scale)
Casati et al., Met. Apps., 2004

Avalua lhabilitat del pronstic en funci de la intensitat i lescala espacial de lerror.

En primer lloc, fixa un llindar dintensitat u, a partir del qual obt imatges binries
(veure Figures 6.10 i 6.11). La imatge binria de lerror (Figura 6.11.c) contindr valors
entre -1 i +1:
u X u Y u
I I E
> >
=
'
[6.2]

a) b)
Figura 6.10. Exemple duna comparaci visual entre el camp de precipitaci observada (a) i prevista (b) per al
29/05/1999.

a) b) c)
Figura 6.11. Imatges binries, per al cas presentat a la Figura 6.10, de lobservaci (a), el pronstic (b) i
lerror del pronstic (c), per al llindar d1 mm. Les zones acolorides a (a) i (b) representen el valor +1, i les
zones blanques el valor 0. En la imatge (c), el vermell representa +1 (falsa alarma) i el blau -1 (prdua),
mentre que el color blanc representa el pronstic correcte.
Apunts del Tutorial de Verificaci, Helsinki, 4 6 de juny de 2009 - 49 -
El segent pas consisteix en fer una descomposici de lerror segons les escales
mitjanant wavelet. Daquesta manera, si finalment se sumen totes les contribucions de
les diferents escales (Figura 6.12) es recupera la imatge original de diferncia binria
(Figura 6.11.c):

=
=
L
l
l u u
E E
1
,
[6.3]
Igualment, si se sumen els errors quadrtics binaris a cada escala sobt lerror quadrtic
mitj per la imatge binria original:

=
=
L
l
l u u
MSE MSE
1
,
[6.4]


Figura 6.12. Descomposici de lerror binari (Figura 6.11.c) en diverses escales mitjanant wavelet.

Finalment, es pot calcular lMSE Skill Score, donat que sovint s ms senzill avaluar el
funcionament dun pronstic en termes dhabilitat o skill (valors com ms grans millor)
que en termes derror (valors com ms baixos millor).

L
MSE
MSE MSE
MSE MSE
SS
l u
random l u best l u
random l u l u
l u
/ ) 1 ( 2
1
,
, , , ,
, , ,
,

=

= [6.5]

Aquest Skill Score compara el funcionament del pronstic a cada intensitat u i escala l
amb el funcionament dun pronstic aleatori : la climatologia de la mostra (base rate).

Per tenir una idea rpida del funcionament del pronstic segons lescala i el llindar
dintensitat, es poden representar els valors de lSkill Score en un diagrama com el de la
Figura 6.13.

Apunts del Tutorial de Verificaci, Helsinki, 4 6 de juny de 2009 - 50 -

Figura 6.13. Diagrama amb els valors de
lMSE Skill Score en funci de la intensitat i
lescala espacial (desprs de la separaci per
wavelet). Els valors superiors a 0 indiquen
certa habilitat del model per sobre del
pronstic aleatori.

Aquest mtode de verificaci ens permet respondre a qestions com ara:
- Quines escales espacials estan ben representades i quines tenen error?
- Com depn lhabilitat del model en la intensitat de precipitaci?

Els mtodes de verificaci de venatge (fuzzy) proporcionen informaci de lescala
de lerror filtrant les escales dalta resoluci. En canvi, els mtodes de
descomposici per escala allen les diferents escales dinters.

6.6. Mtodes orientats a objectes

6.6.1. Aproximaci basada en les caracterstiques (CRA)
Ebert & McBride, J. Hydrol., 2000

Les principals caracterstiques daquest mtode sn les segents:
- Defineix entitats utilitzant un determinat llindar (Contiguous Rain Areas: CRA).
- Trasllada horitzontalment el pronstic fins que sassoleix un criteri de relaci de
patrons, que pot ser:
o Error quadrtic mnim entre pronstic i observacions
o Mxima correlaci
o Mxima superposici
- El desplaament s el vector diferncia entre les localitzacions original i final del
pronstic.

Aplicant aquest mtode, es pot descompondre lerror quadrtic mitj en diverses
components:
MSE
total
= MSE
desplaament
+ MSE
volum
+ MSE
patr
[6.6]

Lerror de desplaament s la diferncia entre lerror quadrtic mitj abans i
desprs de la translaci:
MSE
desplaament
= MSE
total
MSE
desplaat
[6.7]

Lerror de volum s el biaix en la intensitat mitjana:
( )
2
X F MSE
volum
= [6.8]
on els valors mitjans pronosticats (F) i observats (O) corresponen a la situaci
desprs del trasllat.

Lerror de patr, calculat com a residual, t en compte les diferncies en
lestructura fina:
MSE
patr
= MSE
desplaat
MSE
volum
[6.9]
Apunts del Tutorial de Verificaci, Helsinki, 4 6 de juny de 2009 - 51 -

Aquesta aproximaci permet respondre a qestions com ara:
- Quin s lerror en la localitzaci del pronstic ?
- Com s lrea de pluja pronosticada en comparaci amb lobservada?
- Quina diferncia hi ha entre els valors mitjans? I entre els valors mxims ?
- De quina manera els errors en volum, desplaament i patr contribueixen a
lerror total ?

A la Figura 6.14 es mostra un exemple de laplicaci daquest mtode, on es pot
apreciar que, malgrat la subestimaci de les intensitats ms elevades, lerror del volum
no contribueix a lerror total, ja que la intensitat mitjana de precipitaci pronosticada i
observada s prcticament la mateixa. A partir de la descomposici de lerror es
dedueix, doncs, que les principals diferncies entre observaci i pronstic sn degudes a
lestructura fina dels camps.Figura 6.14. Exemple daplicaci del mtode CRA a un pronstic de precipitaci del model WRF
corresponent al dia 01/06/2005 sobre els USA.

Cal tenir en compte que, depenent del llindar dintensitat que escollim, el mtode
CRA ens pot donar diferents vectors de translaci per a la precipitaci
pronosticada (Figura 6.15).

Apunts del Tutorial de Verificaci, Helsinki, 4 6 de juny de 2009 - 52 -

a)
b)
Figura 6.15. Comparaci entre camps de precipitaci pronosticat pel model WRF (a) i observat (b)
pel dia 01/06/2005 sobre una rea dels USA. Es pot observar com el vector desplaament del
pronstic obtingut amb el mtode CRA s sensible al llindar dintensitat que es fixi.


6.6.2. MODE: Method for Object-based Diagnostic Evaluation
Davis et al., MWR, 2006

s un mtode que t en compte dos parmetres:
1. Radi de convoluci
2. Llindar

El primer pas consisteix en ajuntar diferents objectes en el camp de pluja (observat i
pronosticat) i relacionar-los (Figura 6.16). Es comparen diversos atributs:
- Localitzaci del centroide
- Distribuci de la intensitat
- rea
- Orientaci
- etc.

Quan els objectes no es poden relacionar entre ells, seran tractats com falsa alarma,
esdeveniments perduts, etc.

La metodologia del MODE es pot resumir en el quadre 6.1. El primer procs consisteix
en la identificaci dobjectes, als quals saplica un procs de convoluci i mscara
mitjanant llindar dintensitat.

Desprs de mesurar diversos atributs daquests objectes, saplica una aproximaci de
comparaci lgica entre els objectes propers (Fuzzy Logic Approach), mitjanant la
comparaci dels atributs dels objectes pronosticats i observats, lagrupament (si s
convenient) de diversos objectes per formar-ne un de sol, el clcul de valors dinters i
la identificaci de parelles coincidents dobjectes observat-pronosticat (Figura 6.17).

Un cop shan identificat les diferents parelles, es comparen els seus components
observat i pronosticat i els resultats daquestes comparacions sn acumulats per tots els
casos.


Apunts del Tutorial de Verificaci, Helsinki, 4 6 de juny de 2009 - 53 -

Quadre 6.1. Metodologia del MODE.Figura 6.16. Procs didentificaci dobjectes aplicat pel MODE: (a) Camp original, (b) Camp desprs
daplicar la convoluci, (c) Mscara aplicada al camp a partir del llindar dintensitat escollit, (d) Camp
filtrat desprs daplicar la convoluci i la mscara al camp original.

Aquest mtode permet donar resposta a qestions com:

a) Lerror en la localitzaci del pronstic.

b) Comparaci entre les rees de pluja observada i pronosticada: valors mitjans,
valors mxims, forma.

c) Conixer la qualitat general del pronstic mesurada per la mediana dels valors
de mxim inters (MMI) de lobjecte.

En aquest ltim punt, per conixer la sensibilitat de la qualitat del pronstic al llindar de
precipitaci i al radi de convoluci, es pot representar un diagrama com el de la Figura
6.18.Apunts del Tutorial de Verificaci, Helsinki, 4 6 de juny de 2009 - 54 -


Figura 6.17. Identificaci de parelles dobjectes coincidents en els camps pronosticat (esquerra) i
observat (dreta), i valor dinters per a cada parella.
Figura 6.18. Diagrama de valors de lMMI
en funci del llindar dintensitat i el radi de
convoluci.
Apunts del Tutorial de Verificaci, Helsinki, 4 6 de juny de 2009 - 55 -
6.6.3. Structure-Amplitude-Location (SAL)
Wernli et al. Mon. Wea. Rev., 2008

Aquest mtode no intenta trobar rees anlogues de precipitaci entre els camps
observat i pronosticat. En canvi, per a un domini i un llindar de precipitaci donats
calcula:

a) Error damplitud: A

[ ] ) ( ) ( 5 . 0
) ( ) (
obs fcst
obs fcst
R D R D
R D R D
A
+

= [6.10]

on D(R
fcst
), D(R
obs
) s el valor mitj en lrea destudi (p. ex., la conca dun riu).

El valor de A queda fitat en el rang [-2,+2]

b) Error de localitzaci: L

max
) ( ) (
dist
R r R r
L
obs fcst

= [6.11]

on r(R
fcst
), r(R
obs
) s el centre de masses del camp de precipitaci en lrea

El valor de L queda fitat en el rang [0,1]

c) Error destructura: S
[ ] ) ( ) ( 5 . 0
) ( ) (
* *
* *
obs fcst
obs fcst
R V R V
R V R V
S
+

= [6.12]
on V(R*) s el volum mitj ponderat de tots els objectes de precipitaci escalats en
lrea considerada:
R* = R/R
max
[6.13]

El valor de S queda fitat en el rang [-2, +2].

La puntuaci perfecta s S = A = L = 0.

Aquest mtode ens permet saber si:
- La precipitaci mitjana sobre el domini sha pronosticat correctament A
- La localitzaci mitjana de la distribuci de precipitaci en el domini sha
pronosticat correctament L
- El pronstic ha capturat lestructura tpica del camp de precipitaci (objectes
grans i amples o objectes petits i amb pics) S

En la Figura 6.19 es presenta un exemple daplicaci daquest mtode de verificaci per
a un pronstic del WRF sobre una rea dUSA. El quadre vermell indica el domini que
sha tingut en compte per fer la verificaci, i els quadres negres emmarquen els objectes
identificats. Els resultats mostren com la quantitat mitjana de precipitaci reproduda pel
model t un acord acceptable amb la precipitaci observada (A = 0.21) i la localitzaci
Apunts del Tutorial de Verificaci, Helsinki, 4 6 de juny de 2009 - 56 -
de les rees de precipitaci s, en general, prou bona (L=0.06). Pel que fa a lestructura,
tal com es pot veure a la imatge, el camp pronosticat s ms abrupte que el camp
observat, i daqu surt que la component S saparti del valor nul.


Figura 6.19. Camps observat (a) i pronosticat pel WRF (b) per a un cas destudi sobre una rea dels
USA. Els quadres vermells indiquen el domini sobre el qual saplica el mtode SAL i els quadres negres
marquen els objectes identificats. Els resultats del mtode sn: A=0.21, L=0.06, S=0.46. La puntuaci
perfecta s 0 en tots els ndexs.

6.7. Verificaci de camp

6.7.1. ndex de Desplaament i Amplitud (Displacement and Amplitude Score
DAS)
Keil & Craig, WAF, 2009

Combina les mesures de distncia i amplitud relacionant
pronstic observaci
observaci pronstic

Els passos que se segueixen sn els segents:

Saplica una relaci dimatge piramidal (flux ptic) per a trobar el camp
vectorial de desplaament DIS

A continuaci, es determinen els errors dintensitat pel camp deformat AMP

Finalment, es calcula lndex de desplaament i amplitud:
0 max
I
AMP
D
DIS
DAS + = [6.14]

Aquest mtode serveix per explicar:
Com sha de distorsionar el pronstic per tal de fer-lo coincidir amb les
observacions.
Lerror damplitud que roman en el pronstic desprs de distorsionar-lo.
La qualitat general del pronstic mesurada pels errors de distorsi i amplitud
conjuntament.

Apunts del Tutorial de Verificaci, Helsinki, 4 6 de juny de 2009 - 57 -
A la Figura 6.20 es mostra un exemple de laplicaci del DAS al mateix cas de
pronstic de precipitaci als USA que sha mostrat anteriorment per altres mtodes.


Figura 6.20. Aplicaci del mtode DAS per a un cas de precipitaci sobre els USA del 01/06/2005. A dalt i a
lesquerra, camp de precipitaci observat, i a la dreta, camp pronosticat pel model WRF. A baix, a lesquerra,
camp vectorial del desplaament necessari per deformar el camp pronosticat i fer-lo coincidir amb les
observacions, i a la dreta, valors de lndex DAS.

6.8. Conclusions

El mtode escollit per a la verificaci espacial depn de la qesti o qestions sobre
verificaci que vulguem conixer.

Hi ha moltes aproximacions a la verificaci espacial:
Venatge (fuzzy) dna crdit a pronstics propers.
Descomposici escalar per conixer lerror depenent de lescala.
Orientat a objectes atributs de les caracterstiques dels objectes.
Verificaci de camp errors de fase i amplitud.

Apunts del Tutorial de Verificaci, Helsinki, 4 6 de juny de 2009 - 58 -
7. Verificaci dalertes
(per Martin Gber, DWD, Alemanya)

7.1. Introducci

A lhora de donar alertes sha dassumir el comproms entre probabilitat de detecci i
falses alarmes. Fixant un llindar elevat, la probabilitat de falses alarmes disminueix per
augmenta la possibilitat de prdues (Figura 7.1).

Figura 7.1. El comproms
entre falses alarmes i prdues
a lhora de fixar un llindar per
emetre lavs. Cal plantejar-se
si val la pena rebaixar el
llindar de lavs, assumint ms
falses alarmes, si aix implica
una reducci de prdues.

Daquesta manera, la fixaci dun llindar per emetre avisos s un problema de
minimitzaci de costos que depn de lusuari, que haur de tenir en compte que,
habitualment, el cost duna falsa alarma s menor que el cost dun esdeveniment no
pronosticat.

Pel que fa a la verificaci, donat que hi ha diversos usuaris dalertes, tamb hi ha
mltiples maneres de verificar-les. En tot cas, cada parmetre de la verificaci que
sesculli ha de ser orientat a lusuari: no nexisteix cap que serveixi per tothom.

Tamb es detecta un dficit en el tractament de la verificaci dalertes en els principals
llibres sobre verificaci. De totes maneres, hi ha un gran nombre destadstics categrics
que es poden utilitzar, tot i que amb cura addicional. El que resulta clar s que
comparada amb la verificaci dels models, la verificaci dalertes s sorprenentment
diversa, ja que s portada a terme per diversos usuaris.

Un document amb informaci important sobre el tema s el de Gordon i Shaykewich
(2000): WMO/TD No. 1023 Guidelines on performance assessment of public weather
services, disponible a http://www.wmo.int/pages/prog/amp/pwsp/pdf/TD-1023.pdf

Es poden detectar algunes tendncies en lemissi i verificaci dalertes:
En els darrers anys, semeten alertes per rees o regions ms petites.
Com ms gran s lescala de lavs, amb ms antelaci sanuncia.
Com ms gran s lescala, ms es verifiquen els avisos.Apunts del Tutorial de Verificaci, Helsinki, 4 6 de juny de 2009 - 59 -
7.2. La problemtica de les observacions

En una primera aproximaci, les observacions estarien clarament definides. De totes
maneres, en la prctica, es produeix un sub-mostreig de les observacions (s a dir, hi ha
una alta probabilitat de perdre observacions de meteorologia extrema), i aix requereix
una aproximaci suau a lhora de verificar les alertes, ja que fcilment es podria
produir una sobreestimaci de les falses alarmes.

Per a verificar alertes, normalment sutilitzen observacions de la xarxa sinptica, tot i
que cada vegada ms sestn ls dels detectors de llamps, radar i xarxes
meteorolgiques secundries.

Per altra banda, la qualitat de les dades s especialment important per a la verificaci
dalertes. Es recomana una aproximaci multivariada (per exemple, no assignar
precipitaci severa si al lloc corresponent no es detecta cap signatura de radar o
satllit), i tamb utilitzar una funci de prdua per a la verificaci esbiaixada, ja que
perdre lobservaci dun esdeveniment no s tan dolent com registrar locurrncia dun
fenomen que doni lloc a la prdua duna alerta que shauria dhaver ems.

La principal diferncia entre la verificaci dalertes i la verificaci habitual dels
pronstics numrics es troba en la manera destablir la coincidncia entre pronstic i
observaci. En aquest punt hi ha mltiples aproximacions. En el domini temporal pot
ser el primer moment que lobservaci supera el llindar establert en lalerta, o linstant
en qu es registra un esdeveniment extrem, mentre en el domini espacial lesdeveniment
considerat pot ser el pitjor en lrea, o b fer-lo depenent de la zona on sha ems lavs,
o determinar-lo manualment.
Apunts del Tutorial de Verificaci, Helsinki, 4 6 de juny de 2009 - 60 -
8. Software per a la verificaci

8.1. El programa R

El programari es pot descarregar gratutament des de www.r-project.org, nhi ha
versions per LINUX i Windows.

Recentment sha creat una llibreria especfica per a la verificaci meteorolgica:
verification. Cont diverses funcions que faciliten el clcul dndexs com el LEPS,
CRPS, BS, eines per aplicar el mtode de separaci descales o facilitats per representar
grfics com el de versemblana o calcular lrea sota la corba ROC.

8.2. El programari MET (Model Evaluation Tools)

Actualment hi ha disponible la versi 2.0, que es pot descarregar lliurement des de la
web http://www.dtcenter.org/met/users/.

Inicialment desenvolupat per verificar els pronstics del model WRF, admet els
pronstics daltres models i permet aplicar des dels mtodes de verificaci clssics fins
als mtodes de verificaci espacial ms avanats, com el MODE.

8.3. Spatial Verification Intercomparison Project

Tal com el seu nom indica, es tracta dun projecte internacional dintercomparaci de
diferents mtodes de verificaci espacial.

La web del projecte s: http://www.ral.ucar.edu/projects/icp/index.html, i encara hi ha
temps dapuntar-shi, per aportar i/o aplicar nous mtodes de verificaci, proporcionar
conjunts de dades de casos destudi, etc. Des de la pgina tamb es poden descarregar
diversos documents i software.Apunts del Tutorial de Verificaci, Helsinki, 4 6 de juny de 2009 - 61 -
9. Bibliografia

9.1. General

Jolliffe and Stephenson (2003): Forecast Verification: a practitioners guide, Wiley &
Sons, 240 pp.

JWGFVR (2009): Recommendation on verification of precipitation forecasts.
WMO/TD report, no.1485 WWRP 2009-1

Nurmi, P. (2003): Recommendations on the verification of local weather forecasts.
ECMWF Techical Memorandum, no. 430

Stanski, Burrows, Wilson (1989) Survey of Common Verification Methods in
Meteorology

Wilks (2005): Statistical Methods in Atmospheric Science, Academic press, 467 pp.

Forecast verification: Training Module:
http://www.eumetcal.org.uk/eumetcal/verification/www/english/courses/msgcrs/index.h
tm

Forecast Verification - Issues, Methods and FAQ
http://www.bom.gov.au/bmrc/wefor/staff/eee/verif/verif_web_page.html

9.2. Estimaci dintervals dincertesa

Efron B and Tibshirani RJ (1993). An Introduction to the Bootstrap. New York:
Chapman & Hall.

Epstein ES (1985). Statistical Inference and Prediction in Climatology: A Bayesian
Approach. Meteorological Monograph. American Meteorological Society.

Garthwaite PH, Jolliffe IT & Jones B (2002). Statistical Inference, 2nd edition. Oxford
University Press.

Gilleland, E. (2008): Confidence Intervals for Forecast Verification. RAL, NCAR,
Boulder, Colorado (USA), 68 pp.
Disponible a: http://www.rap.ucar.edu/staff/ericg/Gilleland2008.pdf

Jolliffe IT (2004) P stands for Weather, 59,77-79.

Jolliffe IT (2007). Uncertainty and inference for verification measures. Wea.
Forecasting, 22, 637-650.

Tuyl F, Gerlach R & Mengersen K (2008). A comparison of Bayes-Laplace, Jeffreys,
and other priors: the case of zero events. Amer. Statist., 62, 40-44.


Apunts del Tutorial de Verificaci, Helsinki, 4 6 de juny de 2009 - 62 -
9.3. Verificaci espacial

Atger, F., (2001). Verification of intense precipitation forecasts from single models and
ensemble prediction systems. Nonlin. Proc. Geophys., 8, 401-417.
Disponible a: http://www.copernicus.org/EGU/npg/8/401.htm

Casati, B., Ross, G. and D. B. Stephenson (2004). A new intensity-scale approach for
the verification of spatial precipitation forecasts. Meteorological Applications, 11 , pp
141-154

Davis, C., B. Brown, and R. Bullock, (2006). Object-Based Verification of Precipitation
Forecasts. Part I: Methodology and Application to Mesoscale Rain Areas. Mon. Wea.
Rev., 134, 17721784.

Ebert, E. E., and J. L. McBride, (2000). Verification of precipitation in weather systems:
determination of systematic errors. J. Hydrology, 239, 179-202.

Keil, Craig (2009). Sobre Displacement and Amplitude Score (DAS). Enviat (?) a
Weather and Forecasting.

Roberts, N.M., and H.W. Lean, (2008). Scale-Selective Verification of Rainfall
Accumulations from High-Resolution Forecasts of Convective Events. Mon. Wea. Rev.,
136, 7897.

Wernli, H., M. Paulat, M. Hagen, and C. Frei, (2008). SALA Novel Quality Measure
for the Verification of Quantitative Precipitation Forecasts. Mon. Wea. Rev., 136,
44704487.

9.4. Verificaci dalertes

Gordon, Shaykewich, (2000). Guidlines on performance assessment of public weather
services. WMO/TD No. 1023.
Disponible a: http://www.wmo.int/pages/prog/amp/pwsp/pdf/TD-1023.pdf