Anda di halaman 1dari 48

Estadística moderna en estudios

relacionados con el cambio


climático
Propuestas de una estadística moderna en estudios
relacionados con el cambio climático

En los últimos años la estadística se enfrenta a la necesidad de desarrollar nuevos


métodos para extraer la información rápida y eficazmente de grandes bases de
datos, pero también que nos permitan aprender de datos problemáticos y escasos.
En esta conferencia se presentarán varios problemas reales, relacionados con indicadores para el estudio del cambio
climático, que en la mayoría de los casos han motivado el desarrollo de nuevos procedimientos estadísticos. Muchos
de los trabajos tienen su origen en el análisis de los datos registrados en la Antártida por el equipo del proyecto
Limnopolar, uno de los lugares donde las condiciones de trabajo son más extremas por el aislamiento, la dificultad de
acceso y la meteorología. Los problemas estadísticos que trataremos incluyen el concepto de tendencia para datos
funcionales en el estudio de series de temperaturas en la región de la Península Antártica, aprovechando datos
“defectuosos” y escasos. Cluster de series temporales para agrupar países con intereses comunes frente a los
compromisos del Protocolo de Kyoto. Selección de variables en análisis cluster para identificar diferencias en las
pautas de consumo eléctrico de los hogares. Detección de cambios de variabilidad en series de temperaturas para
predecir indirectamente el momento en que se congela/descongela un lago antártico, y así estimar el número de días
con actividad biológica. Estimación robusta de parámetros relacionados con la presencia de especies como
bioindicadores. Análisis de la varianza para seleccionar indicadores de impacto en áreas protegidas de la Antártida .
1. Cluster de series temporales para agrupar países con intereses
comunes frente a los compromisos del Protocolo de Kyoto

2. Selección de variables en análisis cluster para identificar


diferencias en las pautas de consumo eléctrico de los
hogares

3. Concepto de tendencia para datos funcionales en el estudio de


series de temperaturas en la región de la Península
Antártica, aprovechando datos “defectuosos” y escasos

4. Detección de cambios de variabilidad en series temporales para


predecir indirectamente el momento en que se
congela/descongela un lago antártico, y estimar el número
de días con actividad biológica

5. Estimación robusta de parámetros relacionados con la presencia


de especies como bioindicadores

6. Análisis de la varianza para seleccionar indicadores de impacto


en áreas protegidas de la Antártida
Problemas estadísticos

Análisis
Series multivariant
temporales e

Cluster de series temporales para agrupar


países con intereses comunes frente a los
compromisos del Protocolo de Kyoto
Problemas estadísticos

Análisis
Series multivariant
temporales e

Selección de variables en análisis cluster


para identificar diferencias en las pautas de
consumo eléctrico de los hogares

Datos
funcionales
Problemas estadísticos

Análisis
Series multivariant
temporales e

Concepto de tendencia para datos funcionales


en el estudio de series de temperaturas en la
región de la Península Antártica, aprovechando
datos “defectuosos” y escasos

Datos
funcionales
Problemas estadísticos

Análisis
Series multivariant
temporales e

Detección de cambios de variabilidad en series


temporales para predecir indirectamente el
momento en que se congela/descongela un
lago antártico, y estimar el número de días con
actividad biológica

Datos
funcionales
Robuste
z
Problemas estadísticos

Análisis
Series multivariant
temporales e

Estimación robusta de parámetros


relacionados con la presencia de
especies como bioindicadores

Datos
funcionales
Robuste
z
Problemas estadísticos

Análisis
Series multivariant
temporales e

Análisis de la varianza para


seleccionar indicadores de impacto
en áreas protegidas de la Antártida
Análisis
de la
varianza Datos
funcionales
Robuste
z
Problemas estadísticos

Análisis
Series multivariant
temporales e

Análisis
de la
varianza Datos
funcionales
Robuste
z
Planteamiento del problema

Observamos los datos históricos de emisiones de CO2 y


queremos clasificar en grupos o “CLUSTERS” a los países

Emisiones de CO2 en 24 países industrializados


Planteamiento del problema

El objetivo de las técnicas estadísticas de ANÁLISIS


CLUSTER o de CONGLOMERADOS es identificar grupos
de individuos con características comunes a partir de la
observación de varias variables en cada uno de ellos

Esta técnica no debe ser confundida con el análisis


discriminante y los métodos de asignación, que parten
de un conocimiento previo de los grupos (seguimiento
de pacientes sometidos que reciben tratamiento o
placebo)
Planteamiento del problema

Un CLUSTER es un grupo de individuos que, cuando la


dimensión lo permite, el ojo humano identifica como
homogéneos entre sí y separados de los individuos de
los otros clusters
Planteamiento del problema

Métodos para encontrar clusters

Cluster jerárquico. Se parte de tantos clusters como


datos tiene la muestra y en cada paso se van juntando
dos clusters siguiendo algún criterio especificado,
hasta obtener un único cluster con todos los datos

Criterios de optimización. Producen una partición de


los objetos en un número especificado de grupos
siguiendo un criterio de optimización. El más conocido
es k-MEDIAS

En general, se busca HOMOGENEIDAD dentro de los grupos y


HETEROGENEIDAD entre grupos
Planteamiento del problema

Observamos series temporales y queremos clasificarlas


en grupos o “CLUSTERS”

¿Podemos utilizar las técnicas habituales del análisis


multivariante para encontrar los clusters?
Planteamiento del problema

• Procedimientos cluster tradicionales ignoran la


estructura de autocorrelación de la serie y no
proporcionan buenos resultados
• Necesidad de desarrollar nuevos procedimientos
cluster para series temporales
• Algunos trabajos previos se basan en los modelos
que generan las observaciones, o en el último dato
observado
• El problema se complica mucho más con SERIES
TEMPORALES MULTIVARIANTES, cuando observamos
más de una variable para cada individuo a lo largo
del tiempo
Planteamiento del problema

Observamos SERIES TEMPORALES MULTIVARIANTES y


queremos clasificarlas en grupos o “CLUSTERS”

ˆ X
ˆ X
ˆ
(1) (1) (1)

X1,T+h 2,T+h p,T+h

   
X X X
(1) (1) (1)

ˆ X
ˆ X
ˆ
1,T 2,T p ,T ( n) ( n) ( n)
(1)
 X1,T+h 2,T+h p,T+h
X1,1
   

X 1,T X 2,T  X p,T
(n) (n) (n)
Proyectamos
en el futuro
X1,1  (n)
(n)
(n)
X2,1   Xp,1 
Planteamiento del problema

En muchas situaciones en la vida real, estamos


interesados en las PREDICCIONES en un momento
específico del futuro

Modelo Presente
Futuro

Los resultados, en general, serán diferentes


Planteamiento del problema

En muchas situaciones en la vida real, estamos


interesados en las PREDICCIONES en un momento
específico del futuro

70

60

50
percent of income

40
Dam construction
30
agriculture
forestry
off-farm
20

10

0
Fuente: Manuel Ruiz, UAM
1973 1976 1979 1982 1985 1988 1991 1994 1997 2000 2003 2006

Daxi Village, China


Planteamiento del problema

¿Por qué clusters de predicciones?

Se reduce la dimensionalidad del problema

Se incluye información tanto del presente como


del pasado de las series

En muchos problemas, el interés real se centra en


el comportamiento futuro ó en si las series
convergen o no a un cierto nivel
― Desarrollo sostenible
― Emisiones de CO2 (Protocolo de Kyoto)
― Convergencia económica
Planteamiento del problema

Además, nuestro método se basa en clasificar las


series por las distancias entre las DENSIDADES DE LAS
PREDICCIONES, no sólo en la predicciones puntuales.

Esto permite distinguir entre situaciones donde las


predicciones puntuales son similares, pero las
densidades completas proporcionan más información.
Metodología para clasificar series temporales

PASO 1. Calcular las densidades de predicción

PASO 2. Calcular la matriz de discrepancias entre las


series (usando las densidades de predicción)

PASO 3. Aplicar análisis cluster tradicional


Metodología para clasificar series temporales

PASO 1. Calcular las densidades de predicción

A. Si no asumimos ninguna distribución para los datos


necesitamos usar métodos de remuestreo (“sieve
bootstrap”) para calcular la densidad de predicción

B. Con el bootstrap extraemos B valores de la


distribución de la predicción en el momento específico
del futuro que nos interesa

C. Estimamos la densidad de la predicción aplicando


métodos no paramétricos a los B valores bootstrap

Se puede desarrollar una versión más sencilla de implementar


asumiendo normalidad o basando la agrupación en predicciones
puntuales
Metodología para clasificar series temporales

Esquema del procedimiento BOOTSTRAP


Metodología para clasificar series temporales

PASO 2. Calcular la matriz de discrepancias (D)


A. Para cada par de series calculamos la distancia L2
entre las funciones de densidad de las predicciones

B. Estimamos cada distancia con , que se calcula a


partir de los estimadores no paramétricos de las
densidades de predicción usando la muestra de
predicciones bootstrap
C. Hemos probado que es estimador consistente de Dij

D. Hemos hecho unas simulaciones para comparar Dij y


Metodología para clasificar series temporales

PASO 3. Aplicar análisis cluster tradicional

A. La matriz de discrepancias obtenida se utiliza como


input de un procedimiento cluster

B. Los métodos jerárquicos se pueden ejecutar


conociendo sólo la MATRIZ de DISCREPANCIAS, los
que se basan en criterios de optimización no nos
sirven
Metodología para clasificar series temporales

Criterios para unir grupos en métodos jerárquicos

1. Enlace sencillo (single linkage): unir por la distancia


al individuo más cercano del grupo

2. Enlace promedio (average linkage): unir por la media


de las distancias a todos los individuos del grupo

3. Enlace completo (complete linkage): unir por la


distancia al individuo más alejado del grupo

4. ...
Metodología para clasificar series temporales

Dendograma

Los clusters están representados mediante trazos


horizontales y las etapas de la fusión mediante trazos
verticales

{1,2},3,{4,5}

¿Cuántos cluster hay?


Tests formales, intuición (conocimiento del problema)
El caso de las emisiones de CO2

Protocolo de Kyoto
Impone límites en las emisiones de CO2 y otros cinco
gases, “responsables” del calentamiento global.

Negociado en Kyoto en 1997, entra en vigor en 2005 con


la ratificación de Rusia (cuando es aceptado por los
países responsables del 55% de las emisiones a nivel
mundial).

El objetivo es reducir al menos un 5% (respecto de los


niveles de 1990) antes de 2012, pero con objetivos
distintos según regiones (UE 8%, Japón 6%)

Aplicamos la técnica de CLUSTER PARA SERIES


TEMPORALES para crear grupos de países con intereses
comunes que puedan compartir experiencias o políticas
para alcanzar las reducciones comprometidas
Consumo eléctrico en 88 hogares argentinos

Se miden 96 variables: consumo de electricidad en


intervalos de 15 minutos en un día – Datos funcionales

Cuesta–Albertos y Fraiman (2006) encuentran dos clusters


con un método k-medias para datos funcionales

El primer cluster tiene 33 hogares, y el segundo 55


Objetivo
Buscamos el subconjunto de variables más
pequeño posible que explique las agrupaciones de
los datos que hemos encontrado, o un porcentaje alto
de ellas.
Es habitual que el número de variables, que
no debemos confundir con la cantidad de
información, sea demasiado elevado.

Aplicación
Análisis exploratorio de datos. Ayuda a interpretar
los cluster que se forman

Reducir la dimensión. Para nuevos conjuntos de datos


Selección de variables

Trataremos de eliminar variables


— “RUIDOSAS”, que son las no informativas
y/o
— REDUNDANTES, que no aportan información
que no este contenida en otras variables
El método cluster es
bueno
1. Encontrar los grupos con
un método cluster El método cluster genera
una partición del espacio

2. Seleccionar las variables

“AFTER-CLUSTER”
Método de selección de variables

Proponemos un método:- consistente estadísticamente


- no paramétrico
- fácil de usar
K-medias
SELECCIÓN DE VARIABLES “AFTER” CLUSTER

Probamos a clasificar sólo con las variables de todos los


subconjuntos posibles y elegimos el ÓPTIMO: más
pequeño y que más explique

Cuando se elimina la información de las variables


“ruidosas”. Esperamos que NO CAMBIEN los clusters
(los datos se quedan en la misma partición)

La CLAVE está en tener en cuenta que la partición se


define en el espacio de variables original, así que
para reasignar los datos a los cluster no puedo eliminar
variables aunque sean ruidosas

EN LUGAR DE ELIMINAR VARIABLES DEBEMOS


“DESACTIVARLAS”
Desactivar variables ruidosas

Que una variable sea ruidosa significa que


su DISTRIBUCIÓN DE PROBABILIDAD
es la misma en todos los clusters

Esto nos sugiere “cancelar” el efecto de


una variable sustituyendo todos los valores
que toma por la MEDIA
Resultados con datos simulados

El método para seleccionar variables funciona muy bien


para eliminar variables ruidosas, pero es incapaz de
detectar variables con información redundante.
Ejemplo con datos simulados

Data source: Tadesse, Sha and Vannucci (2005)


Eliminar variables redundantes

La extensión más natural es cambiar MEDIAS por


MEDIAS CONDICIONALES

El mejor predictor de
Xi basado en las
variables del
subconjunto

En la practica, calculamos la media condicional con


una regresión no paramétrica que hace uso de la
información local, de un número de VECINOS MÁS
CERCANOS que tenemos que fijar

También probamos que este método de


selección de variables es consistente
Ejemplo con datos simulados

Método basado en la
Data source: Tadesse, Sha and Vannucci (2005)
media condicional
El método basado en la MEDIA CONDICIONAL sirve
para eliminar las variables “RUIDOSAS” y las
REDUNDANTES, pero requiere

- Un tamaño muestral grande para calcular la


esperanza condicionada
- Mucho esfuerzo computacional
- Elegir el número adecuado de vecinos más
cercanos, que es un problema sin resolver

El método basado en la MEDIA MARGINAL es más


simple.
Consumo de electricidad – Datos funcionales

96 variables: consumo eléctrico


en intervalos de 15 minutos en
un día

Un número demasiado elevado


para calcular todas las posibles
combinaciones
Data source: Cuesta–Albertos and Fraiman (2006)

Diseñamos un algoritmo de busqueda forward-


backward para encontrar las “ventanas de tiempo”
más relevantes para el procedimiento de cluster.
Consumo de electricidad – Datos funcionales

Resultados con 100 permutaciones

Para calcular la media Usar el algoritmo de la media


condicionada,
consideramos 5, 10 and
condicionada, en lugar del de la
33 vecinos más cercanos media que es más rápido, significa
reduccir del número de intervalos
que caracterizan a los dos tipos de
consumidores
Consumo de electricidad – Datos funcionales

Resultados con 100 permutaciones

La elección del número de vecinos más cercanos (NN)


afecta al resultado (es un problema importante que resolver)

Los resultados con 5-NN son bastante satisfactorios


Consumo de electricidad – Datos funcionales

• Madrugada (3:00 a 4:00)


Los intervalos no sombreados • Mañana (7:00 a 9:00)
corresponden a las variables
seleccionadas • Tarde (15:00 a 19:00)
• Noche (21:00 a 24:00)
Consumo de electricidad – Datos funcionales

Madrugada
(3:00 a 4:00)
Noche
(21:00 a 24:00)

Tarde
Data source: Cuesta–Albertos and Fraiman (2006)
(15:00 a 19:00)
Mañana
(7:00 a 9:00)
Consumo de electricidad – Datos funcionales

La información redundante, especialmente de tarde y


noche, queda resumida con el algoritmo de la media
condicional con 5-NN
Cuando aceptamos algunos errores de clasificación, se
reduce la eficiencia y deja de ser importante el
comportamiento en la madrugada
Consumo de electricidad – Datos funcionales

Se obtienen resultados similares para 10-NN y 33-NN

Anda mungkin juga menyukai