Anda di halaman 1dari 14

Tecnura

ISSN: 0123-921X
tecnura@udistrital.edu.co
Universidad Distrital Francisco José de Caldas
Colombia

RODRÍGUEZ RODRíGUEZ, JORGE ENRIQUE


Software para clasificación/predicción de datos
Tecnura, vol. 11, núm. 21, 2007, pp. 41-53
Universidad Distrital Francisco José de Caldas
Bogotá, Colombia

Disponible en: http://www.redalyc.org/articulo.oa?id=257021008004

Cómo citar el artículo


Número completo
Sistema de Información Científica
Más información del artículo Red de Revistas Científicas de América Latina, el Caribe, España y Portugal
Página de la revista en redalyc.org Proyecto académico sin fines de lucro, desarrollado bajo la iniciativa de acceso abierto
Software para clasificación/predicción
de datos

Software for Data Classification/Prediction

JORGE E NRIQUE RODRÍGUEZ RODRíGUEZ


Magíster en Ingeniería de Sistemas. Especialista en Ingeniería de Software. Especialista
en Diseño y Construcción de Soluciones Telemáticas. Ingeniero de Sistemas. Docente
investigador de la Universidad Distrital Francisco José de Caldas. Director del Grupo
de Investigación en Inteligencia Artificial de la misma universidad.
Correo electrónico: jrodri@udistrital.edu.co

Clasificación del artículo: investigación

Fecha de recepción: 8 de febrero de 2007 Fecha de aceptación: 19 de julio de 2007

Palabras clave: minería de datos, clasificación, predicción, red neuronal, algoritmo de retropropagación.

Key words: data mining, data classification, prediction, neural networks, backpropagation algorithm .

RESUMEN ÁBSTRACT

En este artÍCulo se muestra el proceso de desarrollo This paper reflects the development and application
y aplicación de un software para la clasificación de of software for the Classification of Data (called
datos (llamado DClass), que hace parte del proyecto DClass); it makes part ofthe research project "De-
de investigación: Desarrollo de Herramientas para velopment ofTools for Data Mining - UDMiner". It
M~ería de Datos (UDMiner). Se inicia con una intro- starts with an introduction, then comes the design
ducción. Luego, se especifica sobre la fase diseño de phase which includes: selection of the technique,
la herramienta; ésta incluye: selección de la técnica, design of the model of classification, and construc-
diseño del modelo de clasificación y construcción del tion ofthe software. Later on different problems are
software. Posteriormente, se abordan diferentes pro- undertaken in order to make the corresponding tests.
blemas, a fin de hacer las pruebas correspondientes. Finally the conclusions obtained from this partial
Por último, se plantean las conclusiones obtenidas advancement of the research are shown.
de este avance parcial de investigación.

***
· .
con-ciencias
1. Introducción pleada en la clasificación/predicción y el modelo de
minería de datos planteado, y pruebas y análisis
La minería de datos es la exploración y análisis,
de resultados. Con el desarrollo del software no se
de forma automática o semiautomática, de grandes
pretende competir con herramientas de propósito
volúmenes de datos para el descubrimiento de pa-
comercial (por ejemplo, DBMiner, o Microsoft
trones y reglas significativas [1]. En nuestro medio,
OLE DB para Minería de Datos), sino ofrecer un
específicamente, en Colombia no se ha explorado
prototipo de software para ser utilizado en la aca-
o aplicado en profundidad. Esto trae como conse-
demia y un conocimiento apropiado. Sin embargo,
cuencia la realización de una amplia documenta-
se puede tomar como base para que determinadas
ción (consulta de textos, "papers", aplicaciones,
empresas continúen desarrollando esta herramienta
etc.) sobre la apropiación de tales elementos en las
y finalmente se pueda llevar a cabo un producto de
diferentes organizaciones en las que se emplea la
software final que usen en actividades que crean
minería de datos. Por lo tanto, este avance parcial
conveniente para mejorar su competitividad.
de investigación requirió de revisión bibliográfica
para especificar un estado del arte, puesto que no se
puede negar que exista mucha bibliografía -tanto 2. Referentes teóricos
primaria como secundaria y terciaria- para poder
determinar cuáles son las aplicaciones potenciales 2.1. Clasificación/predicción
en nuestro medio. Las bases de datos contienen mucha información
Ahora bien, es un hecho que diversas organizacio- oculta que puede ser usada para tomar decisiones in-
nes colombianas no han adoptado tecnologías de la teligentes. La clasificación/predicción es una forma
información y las comunicaciones que, por ejemplo, de análisis de datos que puede ser usada para extraer
les permita determinar los productos alimenticios modelos que describan las más importantes clases
que un cliente con cierto perfil social compraría, de datos o para predecir el comportamiento futuro de
así como la predicción automática de tendencias los mismos. Diversos métodos de clasificación/pre-
y comportamientos, análisis de las ventas de una dicción han sido propuestos por los investigadores
compañía farmacéutica para reforzar las acciones en aprendizaje computacional, sistemas expertos,
de marketing en los hospitales y médicos de mayor estadística y neurobiología. La mayoría de los
impacto, prescripción de dietas alimenticias, iden- algoritmos están residentes en memoria y asumen
tificación de mejores clientes para el lanzamiento una pequeña cantidad de datos. Recientemente las
de una nueva tarjeta de crédito; entre otras aplica- investigaciones en minería de datos han aportado
ciones en la que la minería de datos juega un papel nuevos conceptos, a fin de lograr escalabilidad en
fundamental. los métodos de clasificación/predicción; de este
modo se ha logrado manejar gran cantidad de datos
Por consiguiente, con el desarrollo de este software residentes en disco. Estas técnicas consideran el
s~ está dando un aporte significativo a la empresa procesamiento distribuido y paralelo.
nacional, para así solucionar diferentes problemas
de clasificación/predicción que éstas puedan presen- 2.1.1. ¿Qué es clasificación/predicción?
tar. De igual forma, se impulsó la investigación en
La clasificación de datos es un proceso de dos
esta naciente área del conocimiento y se está dando
pasos: en el primer paso se construye un modelo
un aporte al diseño y al desarrollo de este tipo de
que describa el conjunto preliminar de clases. El
herramientas [2].
modelo es construido mediante el análisis de los
El presente artículo se encuentra estructurado en registros ejemplos. Cada registro pertenece a una
referentes teóricos; diseño del software, iniciando clase específica conocida, debido a esto, la clasi-
con la justificación de la selección de la técnica em- ficación se enmarca dentro de lo que se conoce

42 Tecnura l año 11 I No. 21 Isegundo semestre de 2007


. .
COn-CienCiaS

como aprendizaje supervisado. En contraste, en el programas de usuario final; 27,9%, en programas


aprendizaje no supervisado (también relacionado de uso administrativo; el 15,5%, en manejadores de
con clustering), la clase a la que pertenece cada bases de datos; 10,9%, en herramientas de progra-
registro es desconocida, y el número de clases por mación; el faltante 14,8% se refiere a programas de
aprender tampoco puede ser conocido. General- uso administrativo, de producción, de procesos, de
mente, el modelo aprendido es representado en la minería de datos, bodega de datos y otros (tabla 1).
forma de reglas de clasificación, árboles de decisión
El 7 de enero de 2003, la BBRITE - una división
o fórmulas matemáticas [3].
de Infórmese Ltda.- publicó un artículo sobre la
En el segundo paso, el modelo es usado para generar implementación de la segunda fase del proyecto
la clasificación de datos desconocidos. Luego, se SARC de la Superintendencia Bancaria de Colom-
estima la precisión del modelo o clasificador. La bia. Ese proyecto fue implementado por LLoyds
precisión de un modelo en un conjunto dado de datos TSB Bank, que desarrolló los modelos de minería
es el porcentaje de ejemplos del conjunto de entre- de datos requeridos para atender los requerimientos,
namiento que fueron correctamente clasificados. Si tanto para la banca personal como para la banca
la precisión del modelo es considerada aceptable, corporativa.
el modelo puede ser usado para clasificar futuros
La empresa UNII BASE Ltda. es una empresa pro-
conjuntos de datos para los cuales la etiqueta de la
fesional de alto nivel en el área de la informática;
clase es desconocida.
fue escogida como representante exclusivo para Co-
2. 1.2. ¿ Qué diferencia existe entre clasificación lombia por la firma Business Objects, que, a su vez,
y predicción? es líder mundial en herramientas integradas para el
soporte en la toma de decisiones para el mercado
La minería de datos puede ser vista desde dos pun-
corporativo, con su herramienta Business Objects.
tos de vista: predictivo y descriptivo. Los modelos
Ésta "Provee un conjunto completo de herramientas
predictivos pretenden estimar valores futuros o
DSS incluyendo consultas, reportes, procesamiento
desconocidos de variables de interés, que se deno-
analítico de información, minería de datos y mó-
minan variables objetivo o independientes, usando
dulos de administración para los ambientes cliente/
otras variables o campos de las bases de datos,
servidor e Internet". En Colombia se implanta en
llamadas variables independientes o predictivas
empresas como Suratep, Conavi, y Éxito.
[4]. Algunas de las tareas que producen modelos
predictivos son la clasificación y la regresión; por La minería de datos se utiliza en diversas industrias
consiguiente, la clasificación es una forma de pre- y en diferentes funciones de negocios:
decir. Los modelos predicitvos tienen el objetivo
específico de permitir predecir valores desconoci- En empresas de telecomunicaciones, tarjetas de
dos de variables de interés, a partir de valores de crédito y compañías de seguros utilizan minería
otras variables [5]. de datos para la detección de fraudes, optimi-
zación de campañas de marketing, descripción
2.2. La Minería de Datos en Colombia y segmentación de clientes, y predicción de
fidelidad de clientes.
Según la Dirección de Metodología y Producción
• En la industria del comercio se utiliza la mine-
Estadística en un informe de Medición de las Tec-
ría de datos para diseñar y evaluar campañas
nologías de la Información y las Comunicaciones
de marketing; definir ofertas más apropiadas
(Departamento Administrativo Nacional de Estadís-
o recomendaciones de productos a clientes,
tica) realizada en junio de 2001 en las instituciones
y predecir riesgo en asignación de créditos a
del Estado y publicada en julio de 2002, el tipo de
clientes.
software existente en las instituciones es: 30,9%, en

Software para clasificación/predicción de datos


JORGE ENRIQUE RODRíGUEZ RODRíGUEZ 43
· .
con-CienCias
Tabla 1. Tecnologías de la información y las comunicaciones 200 l

Cuadro 1.4.1.10
2001
Tipo de software que existía en la instución
Usuario Uso Producción Procesos Herramientas Manejador Mineria Bodega Otros
final administrativo de de bases de de datos de
programación datos datos
Nacional 2,335 2,038 626 328 821 1,173 42 71 122
CVE 1,36 1,95 6,08 8,89 4,96 3,86 23,34 19,39 15,48
Fuente: Encuesta de Tecnologías de la Información y las Comunicaciones, 200 l.
Nota 1: Las estimaciones con CVE entre 15.0 y 25.0 se deben manejar con precaución.
Nota 2: Las estimaciones con cve mayores a 25.0 no se presentan.
CVE: Coeficiente de variación estimada (%)

En la medicina se utiliza la minería de datos para artificiales son una abstracción computacional del
predecir la efectividad de procedimientos qui- modelo neuronal humano [7].
rúrgicos, exámenes médicos y medicamentos.
Las ventajas de las redes neuronales incluyen su
En bancos e instituciones financieras, se utiliza
alta tolerancia al ruido, como también su habilidad
para mejorar el rendimiento económico.
para clasificar patrones sobre los cuales ellas no
3. Selección de la técnica para la han sido entrenadas. Adicionalmente, diferentes
clasificación/predicción de datos algoritmos se han desarrollado recientemente para
(redes neuronales artificiales) la extracción de reglas provenientes de redes neu-
ronales entrenadas. En gran medida, estos factores
Con el avance en las tecnologías de bases de datos, las contribuyen a la utilización de redes neuronales
compañías iniciaron un gran almacenamiento de sus para clasificación en minería de datos.
datos históricos. En la década pasada se incrementó el
uso de redes neuronales para minar datos a partir de A continuación se presenta una justificación de por qué
grandes volúmenes de información. La minería se seleccionó esta técnica: por una parte, las grandes
de datos basada en redes neuronales artificiales cantidades de datos con que cuentan las empresas
tiene múltiples dominios de aplicación, incluyen: obligan a buscar métodos para analizar la informa-
finanzas, comercio electrónico, medicina, análisis ción que tienen almacenada; de este modo surge la
de mercadeo, manejo de inventarios, etc. [6]. Minería de Datos como un medio para estudiar de
una forma más profunda y eficiente los datos re-
El campo de las redes neuronales fue originalmente colectados. Por otra parte, para la minería de datos
manejado por sicólogos y neurobiólogos que se de- se tienen técnicas como las redes neuronales que
dicaron a desarrollar ya evaluar el comportamiento son eficientes para los objetivos buscados, pero de
de las neuronas. Una red neuronal es un conjunto de compleja comprensión en su funcionamiento .
neuronas de entrada/salida conectadas entre sí, en la
cual cada conexión tiene un peso asociado. Durante La claridad de este modelo y su poder de predicción
la fase de aprendizaje la red aprende ajustando es- tienen una relación estrecha, que se comporta de
tos pesos, de tal manera que está en capacidad de manera inversa, como se muestra en la gráfica l .
predecir la clase a la que pertenecen los ejemplos. Se observa que entre más sencilla sea la forma del
El aprendizaje por redes neuronales también es re- modelo, más fácil será su comprensión, pero tendrá
ferido como aprendizaje conexionista debido alas menor capacidad para encontrar diferencias sutiles
conexiones entre las unidades. Las redes neuronales o demasiado variadas. Las que mejor rendimiento

44 Tecnura l año 11 I No.21 Isegundo semestre de 2007


. .
COn-CienCiaS

tienen, en cuanto exactitud de resultados, son las Las redes neuronales son un modelo que difi-
redes neuronales que tienen la posibilidad de adap- culta la comprensión.
tarse a valores indefinidos o incluso ausentes, pero La relación entre pesos y variables es com-
es casi imposible inspeccionarlas, puesto que es plicada.
como si se tratará de inspeccionar el cerebro de una
No permite una comprensión intuitiva de los
persona para saber que está pensando. Solamente
resultados.
las predicciones realizadas pueden ser inspeccio-
nadas y visualizadas. Además, presenta otra desventaja importante que es el
tiempo de entrenamiento, y esto se debe a que el error
Las redes neuronales son útiles en la minería de
decrece como una potencia del tamaño del entrena-
datos, debido a su capacidad para modelar datos
miento. Por último, cabe mencionar que, a menudo,
complejos y multidimensionales. La disponibilidad
se requiere un significativo procesamiento previo
de datos ha crecido tanto, como la dimensión de
de los datos para adaptarlos a las entradas de la
los problemas por solucionar, 10 que ha limitado
red neuronal.
muchas técnicas tradicionales, tales como, el aná-
lisis manual de los datos y algunos métodos esta- Es importante acotar que la minería de datos es un
dísticos; mientras que las redes neuronales ofrecen proceso que, gracias al apoyo recibido de diferentes
cualidades como: búsqueda automática de todas las tecnologías que han evolucionado actualmente,
correlaciones posibles entre los hechos clave, un funciona de manera eficiente y confiable. Esta efi-
modelado automático de problemas complejos sin ciencia, característica de la minería de datos, es
el conocimiento "a priori" del nivel de la compleji- variable dependiendo de la técnica que se utilice en
dad, capacidad de extraer los resultados clave más el modelamiento del sistema, así se establece que
rápidamente que otras técnicas. Las redes neurona- las redes neuronales son las que obtienen mejores
les son altamente tolerantes al ruido, al igual que se resultados; sin embargo, su dificultad de implemen-
destaca su habilidad a la hora de clasificar patrones tación es mayor. A continuación, se selecciona una
sobre los cuales ellas no han sido entrenadas. Es topología de red y su tipo de aprendizaje junto con
necesario destacar que recientemente algunos la regla de aprendizaje:
algoritmos han sido diseñados para extraer reglas
a partir de una red neuronal entrenada. Aspectos
como éstos contribuyen de manera significativa a
Poder Redes neuronales
la utilización de redes neuronales para clasificación
predictivo
de datos.
Evaluación por puntuación
Otra ventaja del uso de redes neuronales es la
parsimonia de la técnica, ya que mediante una red
neuronal se puede abordar tanto un problema de Reglas de decisión

clasificación como un problema de regresión, mien-


tras que desde la perspectiva estadística clásica se
Árbo!es de
han necesitando dos modelos tan diferentes como deci sión
el análisis discriminante y las series temporales. legibilidad creciente

Aunque las redes neuronales son hábiles para en-


contrar los modelos ocultos en los datos, no revelan
Gráfica 1. Comparación de diferentes algoritmos de mi-
directamente sus resultados. El principal problema nería de datos [8]
de las redes neuronales es que su funcionamiento es
difícil de entender, esto se debe a factores como:

Software para clasificación/predicción de datos


JORGE ENRIQUE RODRíGUEZ RODRíGUEZ 45
· .
con-ciencias
Topología (feedforward): la topología de la red valor mínimo de error (local o global) mediante
neuronal seleccionada para clasificar y para pre- la aplicación de pasos descendentes y es uno de
decir datos, es una F eedforward. En este tipo de los más populares; se realiza en dos etapas: al
redes, todas las señales neuronales se propagan inicio se le da a la red un conjunto de entradas
hacia adelante a través de las capas de la red. No y salidas; como ejemplo, una trama de entrada
existen conexiones hacia atrás y normalmente estimula la primera capa de unidades de la
tampoco autorrecurrentes, ni laterales, excepto red y se va propagando hacia las unidades de
en algunos modelos (las redes feedforward las capas superiores, hasta generar una salida.
no utilizan conexiones laterales, excepto en Esta salida se compara con la salida deseada y
los modelos de red propuestos por Kohonen se calcula una unidad de error para cada salida.
denominados Learning Vector Quantizer y La señal de error se propaga hacia las unida-
Topology Preserving Map), en las que existen des en las capas inferiores que contribuyeron
unas conexiones implícitas muy particulares directamente con la salida, las cuales reciben
entre las neuronas de la capa de salida. un fragmento de la señal, proporcional a la
Tipo de aprendizaje (supervisado): las activida- contribución de cada unidad a la salida. Con
des de clasificación/predicción son ejemplo de esta nueva información se actualizarán todos los
minería de datos dirigida: un objetivo particular valores de las conexiones en cada nodo, hasta
es utilizar los datos disponibles para construir que la red pueda analizar correctamente todas
un modelo que escriba una determinada varia- las tramas de entrenamiento, así cada uno de
ble de interés en función del resto de la informa- los nodos se especializa en reconocer una ca-
ción disponible. Los algoritmos supervisados racterística especifica de la entrada y emite una
(el aprendizaje supervisado se caracteriza, salida activa sólo si ésta se encuentra presente
porque el proceso de aprendizaje se realiza en la trama de entrada. Gracias a esto la red
mediante un entrenamiento controlado por un puede reconocer diferencias sutiles en tramas
agente externo que determina la respuesta que incompletas o con ruido y ofrecer como salida
debería generar la red a partir de una entrada la mejor aproximación a la salida correcta. Una
determinada) predicen el valor de un atributo de las principales razones que conllevaron a la
(etiqueta) de un conjunto de datos, conocidos selección de backpropagation es su gran capa-
otros atributos (atributos descriptivos). A partir cidad de auto adaptar los pesos de las neuronas
de datos cuya etiqueta se conoce, se induce de las capas ocultas para aprender la relación
una relación entre dicha etiqueta y otra serie que existe entre un conjunto de patrones dados
de atributos. Esas relaciones sirven para rea- como ejemplo y sus salidas correspondientes.
lizar la predicción en datos cuya etiqueta es En el diagrama 1 se resume el algoritmo back-
desconocida. Esta forma de trabajar se conoce propagation; para mayor detalle de éste, se
como aprendizaje supervisado y se desarrolla recomienda ver [9]. En cuanto a la función de
en dos fases: entrenamiento (construcción de activación, el modelo backpropagation requiere
un modelo usando un subconjunto de datos con el uso de neuronas cuya función de activación
etiqueta conocida) y prueba (prueba del modelo sea continua y, por lo tanto, diferenciable. Por lo
sobre el resto de los datos). anterior, la función de activación seleccionada
es la sigmoidal.
Regla de aprendizaje (backpropagation, también
conocidas como retropropagación): las redes Aunque la regla backpropagation es la más
con aprendizaje supervisado con una arquitec- común en los algoritmos de aprendizaje dentro
tura de varios niveles utilizan algoritmos de de las redes neuronales, se han propuesto otros,
aprendizaje tales como el de backpropagation. incluyendo algoritmos más especializados para
El algoritmo backpropagation encuentra un algunas tareas. Por ejemplo, métodos de redes

46 Tecnura l año 11 I No. 21 Isegundo semestre de 2007


. .
COn-CienCiaS

neuronales recurrentes, y algoritmos, como una cuatro heurísticas: heurística 1, disminuir gra-
correlación en cascada que altera la estructura dualmente la tasa luego de que se haya sobre
y los pesos de la red [10]. pasado el 50% de las épocas; heurística 2, si
luego de un 10% de épocas (en cualquier ins-
4. Especificaciones del software tante del entrenamiento) el error se incrementa,
El modelo utilizado para la clasificación/predicción entonces la tasa de aprendizaje se varia, a fin de
está basado en redes neuronales artificiales, en el bajar el error; heurística 3, cada conexión tiene
cual se tiene en cuenta: tipo de aprendizaje (supervi- su propia tasa, definida aleatoriamente [12] , y
sado), topología de la red (feedforward) , algoritmo heurística 4, se decrementa la tasa durante todo
de entrenamiento (backpropagation) y función de el proceso de entrenamiento en porciones da-
activación (sigmoide). En la capa de entrada se das por la tasa inicial dividida entre el número
tiene n neuronas, tanto el número de neuronas de de épocas. El minero tiene la responsabilidad de
entrada como el número de neuronas de salida serán seleccionar ninguna o una de estas heurísticas,
determinados por el usuario del software que desee de acuerdo con el problema abordado. Otro
aplicar minería; este número depende del problema parámetro que agiliza el proceso de aprendizaje,
en cuestión; n indica el número de entradas. Estas es el momentum (preferiblemente O.l :::;mo-
neuronas indican el número de atributos o variables mentum:::;0.25), este se asume como constante
predictoras, en la capa oculta (pueden ser más de durante todo el proceso de aprendizaje.
una capa oculta) se tienen por defecto (n + m)/2 Del número total de patrones se puede selec-
neuronas: el número de neuronas de la capa oculta cionar aleatoriamente un porcentaje para la
se determina a partir de la experimentación que prueba, a través de la validación cruzada. El
varía dependiendo del problema en cuestión. Por proceso de entrenamiento culmina una vez se
defecto, este número está dado por el número de haya alcanzado el error establecido o el número
neuronas de entrada más el número de neuronas de épocas. El resultado que se genera, producto
de salida, dividido entre 2. En la capa de salida del entrenamiento, es una matriz de confusión
m neuronas cada una de las neuronas de la capa (para el caso de salidas nominales), en la que se
de salida tomará el valor de Oó 1, cuando se trate de plasma la calidad del aprendizaje, dado por el
clasificación, indicando la pertenencia o no perte- éxito y el error de la clasificación. Cuando las
nencia a determinada clase. Por consiguiente, sólo salidas son continuas, se obtiene una diferencia
una neurona de la capa de salida asumirá el valor entre las salidas deseadas y las obtenidas por
de l . También en esta última capa de salida, cada el modelo para cada patrón. Del mismo modo,
neurona representa una clase. Estos valores son para la prueba se genera la matriz de confu-
tomados por defecto del archivo preprocesado, sión o la diferencia entre la salida deseada y
los cuales pueden ser modificados por el minero, la obtenida. Además, se muestra la gráfica del
según lo considere. Por otro lado, se suministra una error de cada época durante la fase de entre-
heurística para determinar el número de neuronas namiento; esto a fin de que el minero pueda
en las capas ocultas, a partir de d = miw ' en la cual determinar puntos críticos durante las fases de
m es el número de patrones de entrenamiento, o es entrenamiento.
el número de salidas de la red, y w es número total
de pesos de la red [11]. 5. Análisis de pruebas y resultados
Para validar los resultados obtenidos por el software
En cuanto a los parámetros del modelo neuro-
se presentaron diferentes conjuntos de datos (fuente
nal, se tiene la tasa de aprendizaje (está dada en
de datos: http://www.ics.uci.edu/- mlearnlMLRepo-
el intervalo: 0.0 < a < 1.0) que permite variar la
sitory.html), para cada uno de éstos se realizaron
velocidad de aprendizaje; para tal fin se ofrecen
diez corridas, a fin de construir una matriz de

Software para clasificación/predicción de datos


JORGE ENRIOUE RODRíGUEZ RODRíGUEZ 47
· .
con-CienCias
confusión promedio para medir la efectividad del en uno (chess) la clasificación es definitivamente
entrenamiento y de la clasificación como tal. En la deficiente, esto se debe a la incompletitud de los
tabla 2, se muestra una síntesis de los resultados ob- datos. Con WEKA se obtuvo una clasificación del
tenidos por DClass (la efectividad de clasificación más del 70%, en cuatro de los diez ejemplos.
mostrada por DClass, corresponde al promedio de
diez corridas) frente a los obtenidos por WEKA. En Con lo anterior, se corrobora el cumplimiento
ésta se observa que la efectividad de clasificación del objetivo de este prototipo de software, el cual
de DClass, en general es buena; en los ejemplos consiste en desarrollar una herramienta para la
mostrados se obtuvo una clasificación correcta por clasificación/predicción de datos.
encima del 70% (ocho de los diez ejemplos), sólo

Seleccionar pesos aleatoriamente wki (1 <=k<=i, 1<=i<=N)

Seleccionar un vector de entrada Xi (1 <=i<=N)

Calcular el valores) de la capa de la salida propagando el vector


de la entrada a través de la red (feedforward)

Calcular el vector de diferencia entre el valor (s) de salida y el


valor (s) empírico dado en el conjunto de datos

Recalcular los valores de todos los vectores de pesos wk


aplicando la regla de aprendizaje backpropagation

¿Se han procesado


Fin todos los vectores
Si No
de entrada?

Diagrama 1. Algoritmo de retropropagacion

48 I I
Tecnura l año 11 No. 2 1 segundo semestre de 2007
. .
con-ciencias
Por otro lado, para cada ejemplo se probó con dife- Otro aspecto por analizar es la inclusión de di-
rentes estructuras de redes neuronales, variando el ferentes heurísticas para determinar la tasa de
número de neuronas en la capa oculta, el número de aprendizaje (a) durante el entrenamiento de la
capas ocultas, la tasa de aprendizaje, el momentum, red; para tal fin se utilizó el conjunto de datos
el valor inicial de los pesos (aleatoriamente), hasta SOYBEAN. En la gráfica 2, se muestra el error
identificar la estructura de red que generaba menor obtenido en cada una de las épocas, utilizando
error. Agregar más de una capa oculta puede llevar una tasa de aprendizaje constante de 0,3. También
a una mejora del desempeño de la red, aunque no es se observa que se logra una estabilidad luego de
significativo frente al incremento de la complejidad aproximadamente el 85% de las épocas; con esta
y al tiempo empleado en la clasificación. Incremen- configuración en las épocas iniciales el error de-
tar el número de neuronas en la capa oculta mejora crece relativamente más rápido, que con las demás
el desempeño de la red hasta cierto grado, luego configuraciones de la tasa.
disminuye su desempeño.

Tabla 2. Efectividad de entrenamiento y prueba (clasificación) de DClass y WEKA

DClass WEKA
Ejemplo
Entrenamiento Test Entrenamiento Test
Soybean 98,22% 82,15% 97,39% 79,38%
Agaricus 99,68% 99,69% 98,98% *
Chess 98,42% 3,98% * *
House 95,68% 84,11% ? ?
Nourse 100% 80,62% 85% 85 , 16%
ADN 99,96% 75 ,82% 73,35% 69,84%
Shuttle 99,76% 80,41% ? ?
Tic-Tac 100% 78,53% 100% 92,91 %
Bolsa 97,42% 83 ,73% 86% 78%
Connect 4 79,64% 57,74% ? ?

0,4 "r--------------------""""'"\
0,35

0,3
0,25
!s1:: 0,2
w
0,15
0,1
0,05
0 "~~~~~~~~~~~~~~~7m~~~~

8 15 22 29 36 43 50 57 64 71 78 85 92 99
Epoca

Gráfica 2. Error de entrenamiento con una tasa de aprendizaje constante

Software para clasificación/predicción de datos


JORGE ENRIQUE RODRíGUEZ RODRíGUEZ 49
· .
con-ciencias
En la gráfica 3 se plasma el comportamiento del obteniendo un comportamiento del error similar
error, empleando una heurística que disminuye al aquí mostrado.
la tasa de aprendizaje luego de superar el 50%
de las épocas. Con esta heurística se obtiene una El del error mostrado en las gráficas 4 y 5 es simi-
notable disminución del error durante las primeras lar al que se muestra en la gráfica 4, en cuanto al
épocas, una estabilidad en el entrenamiento más decrecimiento y la estabilidad del error.
rápido que con las otras heurísticas y un menor
El comportamiento del error durante el entrenamien-
error, lo que permite obtener una mejor clasifica-
to con las heurísticas 1 y 4 (gráfica 6) es en términos
ción; siendo esta heurística la más adecuada - esta
generales igual; sin embargo se obtiene una mejor
heurística también se probó con otros ejemplos,
clasificación con la heurística 1 (ver tabla 3).

0,5 r------------------------------------------~
0,45 - -----------------------------------------------------------------------------------------------------
0,4 - ----------------------------------------------------
0,35 r------------------,- - - - - - - - - - - - - - - - -
0,3 -- ---------------------------------------------------------------------------------------------------------
~ 0,25 --- --------------------------------------------------------------------------------
w

::~!. ~~:~~;~-~--
O -hm~~ITm~mm~mm~mm~~~mfu~~~~

8 15 22 29 36 43 50 57 64 71 78 85 92 99
Epoca

Gráfica 3. Error de entrenamiento con una tasa de aprendizaje disminuida


luego del 50% de las épocas del entrenamiento (heurística 1)

0,4 -.----------------------------------.
0,35 -------------------.--------------.----.----.-.--------..-----------------------------------. --------..-------
0,3 - - --.--------..--- --------------------------- ---- ---------

0,25
6...
w
... 0,2
0,15
0,1
0,05
O
8 15 22 29 36 43 50 57 64 71 78 85 92 99
Epoca

Gráfica 4. Error de entrenamiento con una tasa de aprendizaje disminuida,


cuando el error sufre un incremento luego de decrecer durante
un periodo de épocas (heurística 2)

50 Tecnura l año 11 I No_ 21 Isegundo semestre de 2007


con-CienCias

0,45 -
0,4
0 ,35
0,3
....
o 0,25
e
w 0,2
0,15

0 , 05 ~-----------~~~~~~~~~r-vr~------­

O *=~~~~~~~~~~~~~~~~~
8 15 22 29 36 43 50 57 64 71 78 85 92 99
Epoca

Gráfica 5. Error de entrenamiento con una tasa de aprendizaje diferente


para cada conexión (heurística 3)

0,45
0,4
0,35
0,3 -
...o 0,25 +1---------------------------------------1
t:
w 0,2
0,1 5
0,1 - ------ ---- ------------------------------------------------------------

0, O~ -l,, ,"""TT'TIT1T11TrTTr"1TrrTT1T1TTTTTT~=:;:::::::;;,;;:;:;;;;:;,:;:;~~
8 15 22 29 36 43 50 57 64 71 78 85 92 99
Epoca

Gráfica 6. Error de entrenamiento con una tasa de aprendizaje disminuida a


partir de la primera época (heurística 4)

Tabla 3. Efectividad del entrenamiento con las diferentes tasas de aprendizaje

Tasa de aprendizaje
Efectividad del entrenamiento
(Heurística)
Tasa constante 77,74%
Heurística l 82,15%
Heurística 2 80,08%
Heurística 3 79,96%
Heurística 4 80,14%

Software para clasificación/predicción de datos


JORGE ENRIQUE RODRíGUEZ RODRíGUEZ 51
· .
con-CienCias
En la tabla 4 se muestran algunas especificaciones de los factores que determinan la exclusión
de los conjuntos de datos relacionados. social.
Tabla 4. Información de los conjuntos de datos En cuanto a la técnica seleccionada (redes neu-
ronales artificiales), se destaca, entre otras, la
Ejem plo Instancias Atributos Clases parsimonia de ésta, puesto que mediante una red
Soybean 683 35 19 neuronal se puede abordar tanto un problema de
Agaricus 8.124 22 2 clasificación como un problema de predicción,
Chess 28.056 7 18
mientras que desde la perspectiva estadística
clásica se han necesitado dos modelos tan
House 22.784 17 Numérica
diferentes como el análisis di scriminante (en
Nourse 12.960 9 5 cuanto a clasificación se refiere) y las series de
ADN 3.186 18 1 3 tiempo (para el caso de predicción). Lo anterior
Shuttle 58.000 16 7 se corrobora en las pruebas, en las que se ob-
Tic-Tac 958 10 2 serva que el algoritmo backpropagation es una
buena elección, cuando de clasificar/predecir
Bolsa 1.262 12 2
datos se trata.
Connect 4 67.557 43 3
Como aporte, se destaca el desarrollo de una
herramienta para minería de datos, pues, según
estadísticas del DANE, sólo el 1% del software
6. Conclusiones utilizado o desarrollado en Colombia es de
La realización de software para minería de minería de datos; por consiguiente, se concluye
datos, orientado hacia la clasificación/predic- que con el desarrollo de esta herramienta, se está
ción, se terminó con éxito, obteniendo una he- aumentando el porcentaje en mención, diferentes
rramienta que cumple con las especificaciones universidades y empresas colombianas en los úl-
de desarrollo inicialmente planteadas: diseño e timos tres años, han hecho desarrollos en el área
implementación de una técnica (clasificación/ de minería de datos; las estadísticas presentadas
predicción) para Minería de Datos, y la selec- por el DANE no incluyen estos desarrollos, lo
ción de un método de aprendizaje computacio- que implica, que el 1% planteado por el DANE
nal, visto como un método aplicado a minería se haya incrementado.
de datos , el cual se puede enmarcar dentro de
aprendizaje computacional). 7. Trabajos futuros
Toda herramienta de minería de datos sirve Entrenar el modelo neuronal utilizando Simulated
como apoyo para la toma de decisiones de las Annealing, a fin de establecer criterios de rendi-
organizaciones, tal es caso de la aplicación en miento y efectividad con backpropagation. Para
el programa integral de formación laboral, para el aplicar Simulated Annealing, el valor de la tasa
que se aplicó ; en éste el software se utilizó para de aprendizaje se va disminuyendo gradualmente
la determinación del riesgo de exclusión social. con el tiempo. Si se cae en un error mínimo local,
De esta forma, se apoyaron a las directivas del rápidamente, una corrección considerable, podrá
programa integral, para tomar decisiones acerca sacarnos de éste [13] .

52 Tecnura l año 11 I No. 21 Isegundo semestre de 2007


·
con-CienCias
Referencias bibliográfícas

[1] Ben-y, M . (J 997) Data Mining Techniques. USA: John [8] Pmsi. (2002) Data Mining. Disponible en: http://www.
Wiley & Sons, pp. 5-16. pmsi.fr/home-sp.htrn
[2] Rodríg uez, J. (2005) Herramienta software para [9] Hilera, J. y Martínez, Y. (1995) Redes Neuronales
minería de datos. Universidad Nacional de Colombia, Artificiales "Fundamentos, Modelos y Aplicaciones ".
p. 124. España: Addi son-Wesley Iberoamericana, pp. 101-
[3] Han, J. and Kamber, M. (200 1) Data Mining. Concepts 154.
and Techniques. USA: Morgan Kaufrnann Publishers, [10] Mitchell, T. (J997) Machine Learning. USA: McGraw
pp. 279-330. Hill, pp. 81-126.
[4] Hernández, J. , Ramírez, J. , Y Ferri , C. (2004) Intro- [ll] Peña, L. , y Gutiérrez, J. (2005) Rede s neuron ales
ducción a la minería de datos. España: Pearson, pp. artificiales para diagnóstico de neuropatías periféri-
3-1 8. cas focales. Memorias del Congreso Internacional de
[5] Hand, D., Mannila, H . and Srnyth, P. (2001). Principies Inteligencia Computacional, Colombia, pp. 16-24.
ofData Mining . USA: The MIT Press, pp. 327-363. [12] Haykin, S. (1999) Neural Networks "A comprehensive
[6] Bozdogan, H. (2004) Statistical Data Mining and foundation ". USA: Prentice Hall, pp. 156-252.
Knowledge Discovely. USA: Chaprnan & HalVCRC, [13] Nilsson, N. (J 996) Introduction to Machine Lea r-
pp. 401-411. ning. USA, pp. 39-68. Disponible en: http ://www.
[7] Kantardzic, M. (2003) Data Mining "Concepts, Mo - cS.stanford.edu
de/s, Methods, and AIgorithms ". USA: IEEE Press
Editorial Board, pp. 195-220.

Software para clasificación/predicción de datos


JORGE E NRIQUE RODR íG UEZ R ODRíGU EZ 53

Anda mungkin juga menyukai