Resumen
En los ltimos aos, la Minera de Datos ha experimentado un auge como soporte para la gestin de la informacin y
el conocimiento como alternativa a la modelacin matemtica. Esta permite explorar y analizar las Bases de Datos
disponibles para ayudar a la toma de decisiones. La Minera de Datos se apoya en la aplicacin de mtodos
matemticos de anlisis, y especficamente del uso de redes neuronales artificiales, que son de gran utilidad para
llevar a cabo el anlisis inteligente de grandes volmenes de informacin digital. Tambin la Climatologa ha
utilizado durante aos las tcnicas y herramientas estadsticas de manera sistemtica, ellas brindan la posibilidad de
explorar bases de datos existentes mediante mtodos estadsticos. Estos mtodos permitirn realizar descripciones y
predicciones con menor incertidumbre por ello el objetivo que perseguimos a partir de la informacin obtenida del
Departamento de Climatologa del Instituto de Meteorologa, referida a variables climticas en las diferentes
provincias de Cuba en el ao 2011 es describir el comportamiento climtico a partir de los datos observados con el
fin de buscar relaciones y agrupamientos entre ellos. Para lograrlo utilizaremos la tcnica de Minera de Datos,
Mapas auto-organizados (SOM por sus siglas en ingls) y se confeccion un paquete en R para facilitar el anlisis.
Se logr una descripcin del comportamiento climtico de Cuba en el ao 2011, el cual se caracteriz por presentar
dos estaciones bien definidas en periodos concretos y se obtuvo una descripcin ms detallada de cada uno de estos
perodos.
Palabras clave: Minera de Datos, Mapas auto-organizados, K-Medias.
113
1. Introduccin
El volumen de datos que se acumula continuamente, y la necesidad de encontrar mtodos que permitan descubrir
conocimientos (dentro de esas enormes masas de datos), han convertido a la Minera de Datos en una disciplina de
importancia estratgica para la planeacin y la toma de decisiones (Aluja, 2001 y Hans, 2006).
La Minera de Datos se apoya en la aplicacin de mtodos matemticos de anlisis, y especficamente del uso de
redes neuronales artificiales, que son de gran utilidad para llevar a cabo el anlisis inteligente de grandes volmenes
de informacin digital (Hastie, 2009).En la Minera de Datos se coleccionan los datos y se espera que de ellos
emerjan hiptesis. De ah que la Minera de Datos debe presentar un enfoque exploratorio y no confirmador.
SOM (Self-OrganizingMaps) (Kohonen, 2001) es un eficiente algoritmo neuronal (no supervisado) que permite
proyeccin de datos que habitan en un espacio multidimensional, a una retcula bidimensional denominada mapa,
preservando cualitativamente la organizacin (topologa) del conjunto original.
Desde que SOM fue introducido por T. Kohonen en el ao 1982 se han desarrollado diversas aplicaciones en la
Minera de Datos que han dado solucin a una gran variedad de problemas.
Entre las aplicaciones, la Climatologa ha utilizado durante aos las tcnicas y herramientas estadsticas de manera
sistemtica (Olaya and Adeyemo, 2012), ellas brindan la posibilidad de explorar bases de datos existentes mediante
mtodos estadsticos. Estos mtodos permiten realizar descripciones y predicciones climatolgicas.
Por lo anterior , a partir de la informacin obtenida del Departamento de Climatologa del Instituto de Meteorologa,
referida a variables climticas en las diferentes provincias de Cuba en el ao 2011 , el objetivo principal de este
trabajo es describir el comportamiento climtico a partir de los datos observados con el fin de buscar descripciones
y agrupamientos entre ellos.
En la seccin 2 se aborda el problema del tratamiento de SOM dentro de las tcnicas de Minera de Datos. En la
seccin 3 se describen los datos y la metodologa de trabajo seguida y en la seccin 4 se presentan los resultados y la
discusin sobre el comportamiento del clima en Cuba durante el ao 2011.
2 . Materiales y mtodos
2.1 SOM
Los mapas auto-organizados son un tipo de red neuronal con aprendizaje no supervisado (Gurney, 1997)que
describen una correspondencia entre un espacio de entrada y uno de salida (Fig. 1).De manera usual la
dimensionalidad del espacio de entrada es mucho mayor que la del espacio de salida. SOM mapea el espacio de
entrada de las muestras en un espacio de menor dimensin en el cual la medida de similaridad entre las muestras se
calcula considerando la relacin de cercana de los vecinos.
114
Joya-Caparros et al.
Fig. 2. Topologas usadas en la capa de salida de SOM. (a) Unidimensional. (b) Circular. (c) Rectangular. (d)
Hexagonal.
Las topologas de salida ms utilizadas son la Rectangular y la Hexagonal (Fig. 2). Estas pueden utilizarse para
obtener una representacin de pequea dimensionalidad de los datos con el propsito de visualizarlas. De ah que a
menudo la dimensionalidad del espacio de salida sea 2 o 3.
La capa de entrada est formada por neuronas, donde es la dimensin del espacio de entrada. La topologa y la
cantidad de neuronas en la capa de salida queda a eleccin. Cada neurona de entrada est conectada con todas las
neuronas de la capa de salida y no existen conexiones entre neuronas de una misma capa, por lo que cada neurona de
salida tiene asociado un vector de pesos de dimensin que la representa.Entre las neuronas de la capa de salida se
define un criterio de vecindad. A continuacin se hace una descripcin del algoritmo de entrenamiento (Gurney,
1997):
1. Inicializar los pesos de forma aleatoria
2. Hacer una seleccin aleatoria de cada vector en el conjunto de entrenamiento y se aplica el siguiente
procedimiento para cada seleccin :
2.1. Buscar la neurona ganadora, que es aquella neurona de salida cuyo vector de pesos cumpla que
= min
, o sea, que es el ms cercano al vector seleccionado
2.2. Actualizar los pesos de la neurona y las que estn en la vecindad segn un criterio de vecindad en
la topologa escogida (las reas sombreadas en la Fig. 2 definen vecindades de la neurona del centro).
La asignacin de los nuevos pesos sigue la siguiente regla
( ),
=
0,
115
significativos pueden existir en el conjunto y realizar agrupamientos sin la necesidad de conocer a priori la cantidad
de clster (Hans, 2006) en los que se agrupar.
2.2 Software R
El R es un lenguaje y un entorno de programacin, creado en 1993 por Ross Ihaka y Robert Gentleman del
Departamento de Estadstica de la Universidad de Auckland (R Development Core Team, 2013), cuya caracterstica
principal es que forma un entorno de anlisis estadstico para la manipulacin y el clculo de datos, as como la
creacin de grficos. R puede considerarse como otra implementacin del lenguaje de programacin S-PLUS, con la
particularidad de que es un software GNU, General PublicLicense (conjunto de programas desarrollados por la Free
Software Foundation), es decir de uso libre.
El entorno incluye un intrprete del lenguaje R y numerosos complementos (paquetes) para aplicaciones estadsticas
concretas. El lenguaje R es orientado a objetos, interpretado a alto nivel y tiene una sintaxis dirigida al manejo de
datos estadsticos. Desde la pgina oficial de R(www.r-project.org) es posible descargar el archivo de instalacin que
permite una fcil, prctica y muy rpida puesta en marcha del software, y funciona en una amplia variedad de
plataformas (Elosua, 2011) (Arriaza, 2008)(LutgardeyBuydens,2007).
Se desarroll un paquete con el software necesario para el anlisis de este tipo de datos climatolgicos usando
SOM facilitando la interpretacin de los resultados. Existen otras herramientas que desempean tareas similares en
entornos de desarrollo como MATLAB (Gilat, 2011) el componente MeteoLab (Meterological Machine
LearningToolbox) (Gutirrez, Cano, Cofio, y Sordo, 2004), pero tiene el inconveniente de que no es libre. Tambin
existen sistemas estadsticos y de minera de datos para el anlisis de informacin, como Weka (Witten, Frank, y
Hall, 2011), S-Plus(Longhow, 2001), en los cuales es posible realizar los mismos tipos de anlisis, pero por las
facilidades que ofrece R y la comunidad cientfica a su alrededor se escogi este para el desarrollo de la herramienta.
2.3 Datos climatolgicos
El Departamento de Climatologa del Instituto de Meteorologa de Cuba, estaba interesado en conocer si exista
algn patrn de informacin del ao 2011 en el pas, referida a las variables climticas siguientes:
TMed: Temperatura media (Temperatura ambiente del aire).
TMin: Temperatura mnima (Temperatura ms baja alcanzada en un intervalo de tiempo dado).
TMax: Temperatura mxima (Temperatura ms alta alcanzada en un intervalo de tiempo dado).
TMaxAbs: Temperatura mxima absoluta mensual (Temperatura ms alta de las temperaturas mximas
mensuales observadas en un mes dado durante un nmero de aos determinados).
TMinAbs: Temperatura mnima absoluta mensual (Temperatura ms baja de las temperaturas mnimas
mensuales observadas en un mes dado durante un nmero de aos determinados).
AmpTem: Amplitud de Temperatura (Diferencia entre las temperaturas mximas y mnimas medias en un
intervalo de tiempo dado).
HRMed: Humedad relativa media (Relacin entre la fraccin molar del vapor de agua en el aire y la
fraccin molar correspondiente si el aire estuviese saturado con respecto al agua a una presin y una
temperatura dadas).
Nubosidad: Nubosidad (Fraccin del cielo cubierta por nubes de un gnero, una especie, una variedad o una
capa dadas o por una combinacin particular de nubes).
RR: Precipitaciones (Cantidad de das con lluvia).
RRMax: Precipitaciones mxima (Es la mxima lluvia que se registra en un da).
RRTotal: Precipitaciones Total (La suma de todas las veces que ha llovido en el mes).
2.3.1 Metodologa de trabajo
Se realiz un estudio del comportamiento del clima en Cuba durante el ao 2011, tomando como referencia variables
meteorolgicas de diferentes tipos como temperaturas, precipitaciones, humedad relativa y nubosidad.
El conjunto de datos, formado por 180 observaciones de las variables climatolgicas en las 15 provincias de Cuba
durante todos los meses del ao 2011, obtenidas mediante el promedio de los valores recogidos en todas las
estaciones experimentales del pas. Este conjunto se utiliza como datos de entrenamiento para construir una red
116
Joya-Caparros et al.
neuronal SOM. Uno de los principales usos de la redes SOM es representar datos de dimensin n en dimensin 2,
por tal razn la capa de neuronas de salida de la red es una malla de 6 filas y 19 columnas que conforman un total de
114 neuronas de salida. Cada neurona de salida se caracteriza por tener un vector centroide que representa al grupo
de las observaciones que salgan por esta. Como no es de inters tener 114 grupos distintos se aplic el algoritmo KMedias(Johnson & Wichern, 2002)para agrupar las neuronas de salida de la red SOM y as facilitar la interpretacin
de los datos en trminos de las estaciones del ao y las zonas del pas.
Como parte de la presente investigacin y con el objetivo de experimentar con diferentes variantes en la topologa de
la malla de salida y los agrupamientos posibles se confeccion un paquete de software soportado en R que incluye
diferentes funcionalidades que permiten obtener y graficar la red automticamente.
3.- Resultados y discusin
Debido a la forma alargada del pas y la presencia usual de dos estaciones (verano e invierno) y dos perodos de
transicin (verano-invierno e invierno-verano) se decidi crear particiones de 3, 4, 5 y 6 grupos. Los grficos de las
neuronas de la capa de salida de SOM agrupadas en las particiones pueden observarse en las Figs. 3, 4, 5 y 6 en el
mismo orden en el que fueron mencionadas. Como puede observarse cada particin arroja resultados similares y se
distingue cierto patrn en cuanto a las caractersticas de los grupos presentes en cada poca del ao.
117
118
Joya-Caparros et al.
119
En marzo an contina la presencia de invierno pero menos lluvioso, excepto Granma y Las Tunas que ya se ven
condiciones propias de verano con escasas precipitaciones (Fig. 7).
En abril y mayo en todo el pas hay condiciones de verano poco lluvioso excepto Santiago de Cuba que presenta de
forma inusual temperaturas ms bajas que el resto del pas.
Los meses de junio a octubre son tpicos de verano lluvioso en todo el pas con altas temperaturas y humedad
relativa, destacndose como excepcin Santiago de Cuba en los meses de julio y septiembre teniendo un verano muy
seco, es decir con pocas precipitaciones.
Al finalizar el ao (noviembre y diciembre) el pas tena condiciones de invierno o sea de bajas temperaturas y
precipitaciones excepto en la provincia de Granma que an tena altas temperaturas como verano poco lluvioso, en
diciembre sus temperaturas descendieron tpico del invierno
120
Joya-Caparros et al.
121
El verano se caracteriz por tener altas temperaturas y dos grupos, uno de pocas precipitaciones (rojo, grupo 4) y otro
de muchas precipitaciones (azul fuerte, grupo 2) y el invierno se caracteriz por bajas temperaturas y tambin dos
grupos, uno con precipitaciones (azul claro, grupo1) y otro con pocas precipitaciones (anaranjado, grupo3). En ese
ao se destacaron algunas provincias con situaciones anmalas en el oriente del pas como fueron Guantnamo en
enero, tuvo una situacin en el clima con presencia de verano, altas temperaturas y lluvias, Granma que se mantuvo
todo el ao poco lluvioso y Santiago de Cuba estuvo tambin seco en mayo, julio y septiembre.
Recomendaciones
Con el objetivo de facilitar y agilizar el anlisis de este tipo de datos se recomienda terminar y difundir el paquete de
R en construccin, que brinda funcionalidades para este trabajo.
Ampliar el anlisis en un mayor perodo de tiempo para sacar conclusiones del fenmeno desde un punto de vista
ms global. Con ayuda del paquete, realizar este anlisis con aos anteriores y futuros para realizar comparaciones en
el clima del pas.
Agradecimientos
A la AECID (Agencia Espaola de Cooperacin Internacional para el Desarrollo), Proyecto A2/038418/11 por el
apoyo para la realizacin de este trabajo. Y al proyecto del INSMET Prediccin estacional de las anomalas de
precipitacin y temperaturas mximas y mnimas medias por conjuntos (Ensemble) para Cuba por facilitar los datos.
Referencias
Aluja , T. 2001. La mineria de datos entre la Estadistica y la Inteligencia Artificial. Questiio.vol 25,3,p 479-498
Arriaza A. J., Fernndez, F, Lpez, M A, Muoz, M, Prez, S, y Snchez, A. 2008.Estadstica bsica con R y Rcommander. 1 ed. Cdiz: Servicio de Publicaciones de la Universidad de Cdiz. ISBN: 978-84-9828-1866.Data Mining for Climate Change and Impacts 978-0-7695-3503-6 2008 U.S. Government Work Not
Protected by U.S. Copyright DOI 10.1109/ICDM.Workshops.
Elosua, P. 2011. Introduccin al entorno R, Ed. Universidad del Pas Vasco.
Gilat, A. 2011. MATLAB an Introduction with Applications. Wiley.
Gurney, Kevin. 1997. AnIntroduction to Neural Networks.CRC Press.
Gutirrez, J. M., Cano, R., Cofio, A. S., & Sordo, C. 2004. Redes Probabilsticas y Neuronales en las Ciencias
Atmosfricas. Monografas del Instituto Nacional de Meteorologa. Ministerio de Medio Ambiente, Espaa.
Han, J. y Kamber, M. 2006.Data Mining: Concepts and Techniques, Captulo 8: Cluster Analysis, pginas 1-13.
Hastie, T., Tibshirani, R. and Friedman, J. 2009. The Elements Statistical Learning, Dataminig, Inference and
prediction. Springer. Four Edition.
Kohonen, T. 2001. Self-Organizing Maps, 3ra Edicin, Springer-Verlag.
Longhow, L. 2001. S+ An Introduction to S-Plus for Windows. CANdiensten.
Olaya, F. y Adeyemo, A.B. 2012. Application of Data Mining Techniques in Weather Prediction and Climate
Change Studies I.J. Information Engineering and Electronic Business, 2012, 1, 51-59 Published Online
February 2012 in MECS (http://www.mecs-press.org/) DOI: 10.5815/ijieeb.2012.01.07.
PREGIBON, D. 1997. Data mining. Statistical Computing and Grafics, vol 7, n 8.
R DEVELOPMENT CORE TEAM. 2008 R: A language and environment for statistical computing, R
Foundation for Statistical Computing, Viena (Austria). Recurso en lnea: <http://www.Rproject.org> [consulta: 10
de julio de 2013].
Vivaracho-Pascual, C. V. y Moro-Sanchoi, Q. I. 2001.Informe tcnico: Redes Neuronales Artificiales, Captulo 2: El
Perceptron Multicapa y los Mapas Auto-organizados, paginas 12-24.
Wehrens, R. y Buydens. 2007.Self- and Super-organizing Maps in R: The kohonen Package L.M.C. Journal of
Statistical Software October 2007, Volume 21, Issue 5.
Witten, I. H., Frank, E., y Hall, M. A. 2011. Data Mining: Practical Machine Learning Tools and Techniques. Third
Edition. Morgan Kaufman.
122
Joya-Caparros et al.
123