Busqueda de Patrones en Cubos de Datos

Instituto Politcnico Nacional Centro de Investigacin en Computacin ______________________________________________________________________________________________________________
Bsqueda de Patrones de Comportamiento en Cubos de Datos

M.en C. Gilberto Lorenzo Martnez Luna, Centro de Investigacin en Computacin (CIC) Instituto Politcnico Nacional (IPN) lluna@pollux.cic.ipn.mx Resumen.
En este trabajo se presenta una forma de realizar el descubrimiento de conocimiento o Minera de Datos a partir de una base de datos, la tcnica utilizada es la generalizacin y sumarizacin de datos en cubos de datos. Se utiliza una herramienta construida en el CIC que permite definir y utilizar los cubos, elegir las regiones de inters de estudio y definir los patrones de comportamiento o situaciones anmalas a localizar en estas regiones. Nuestra herramientas permite programar los procesos de extraccin y anlisis de datos en horarios nocturnos para aprovechar los recursos computacionales. En la presentacin de los resultados de las bsquedas, se busca que esta sea sencilla de revisar e interpretar para descubrir las tendencias o relaciones entre los datos, y as generar conocimiento validado. En este artculo se describe este desarrollo como una implantacin a la tecnologa de anlisis automtico.
Dr. Adolfo Guzmn Arenas Centro de Investigacin en Computacin (CIC) Instituto Politcnico Nacional (IPN) aguzman@pollux.cic.ipn.mx
1. Introduccin
Una definicin de Minera de Datos es el descubrimiento eficiente de informacin valiosa, no-obvia de una gran coleccin de datos [1], cuyo objetivo es ayudar a buscar situaciones interesantes con los criterios correctos, complementar una labor que hasta ahora se ha considerado intelectual y de alto nivel, privativa de los gerentes, planificadores y administradores. Adems, de realizar la bsqueda fuera de horas pico, usando tiempos de mquina excedentes [4]. En general, el proceso de minera se puede ver en la figura 1. La utilidad de la Minera de Datos ya no se pone a discusin [1][5], por lo cual est tecnologa esta siendo aplicada por muchas herramientas de software. Las tcnicas de aplicacin varan de acuerdo a la herramienta, algunas la instrumentan haciendo uso de redes neuronales (SPSS Neural Connection ), otras con generacin de reglas (Data Logic) o Arboles de Decisin [XpertRule Profiler ]. En [6] puede verse una clasificacin de las herramientas para desarrollar minera, de acuerdo a su tcnica de aplicacin. En el Laboratorio de Sistemas de Informacin del CICIPN, se desarrolla una herramienta que forma parte del proyecto ANASIN1, con la cual la Minera de Datos se realiza utilizando la tcnica que construye cubos de ndimensiones, conocida como generalizacin y sumarizacin en cubos de datos [5], tcnica implantanda en una base de datos relacional. La generalizacin de los
1
datos se puede desarrollar en los niveles que se considere necesario usar y as realizar anlisis a diferentes niveles de conceptos. En los cubos formados, la herramienta permite definir regiones de inters en las cuales se buscan patrones de comportamiento [3], al trmino de la ejecucin de las bsquedas los resultados se muestran en reportes de tipo texto y grficas.
Figura 1
ANASIN se trabaja en el Laboratorio de Sistemas de Informacin y Bases de Datos del C.I.C., donde la actualizacin es apoyada por el CICIPN, SOFTWARE PRO INTERNATIONAL e I.D.A.S.A. Los mdulos que componen el proyecto son: Bitcoras, Tabla Maestra, Generador de Formatos, Instalador Automtico de Sistemas, Recolector de Datos, Interrogador, Reporteador, Graficador, Despliegue Geogrfico, Minera de Datos, Clasificador de Entidades y Arbol Semntico de Conceptos.
En esta parte de la ejecucin del proceso de minera se pueden distinguir dos tipos de programas, los que extraen la regin de inters de la base de minera, llamados extractores; y los programas que realizan la bsqueda de patrones, que se les llama mineros [4]. Tanto la actividad de extraccin como la de bsqueda de patrones generalmente pueden consumir demasiado tiempo por la gran cantidad de datos para formar las regiones y los numerosos calculos a realizar, por lo que estas actividades se delegan a programas que las realizan en forma
______________________________________________________________________________________________________ Laboratorio de Sistemas de Informacin y Bases de Datos-CIC-IPN
1 de 10
autnoma y nocturna y as lograr aprovechar los recursos computacionales. El presente documento esta organizado cmo sigue. En la seccin 2 se describe en detalle el proceso de minera de datos como lo desarrolla la herramienta construida; en la seccin 3 se describe algunos problemas por resolver y hacer ms completa la herramienta; en la seccin 4 se indican algunas lneas de investigacin que se estan trabajando; en la seccin 5, algunas conclusiones, al avance de nuestro trabajo; para terminar con caractersticas del software .
2. Descripcin del Proceso de Minera

La herramienta desarrollada, se llama Mdulo Minera de Datos ANASIN y tiene el modelo de trabajo Cliente/Servidor, donde, se distinguen 4 actividaes principales: Definicin del cubo y configuracin de los niveles de bsqueda. Realizar solicitudes de minera, en una estacin de trabajo o cliente El proceso prncipal de minera; generacin de la regin y bsqueda de un patrn determinado, en el Servidor La visualizacin de resultados de la bsqueda en el Cliente. Para realizar la minera con el mdulo, se siguen los pasos: Definir el cubo de datos o espacio de bsqueda de mineros Generalizacin o definicin de los niveles de bsqueda en cada una de las dimensiones del cubo Generar los datos y cargar el cubo de datos Definir los horarios de trabajo de los procesos de minera Generar las preguntas (definir regin y patrn a buscar) Solicitar ejecucin del proceso de extraccin y anlisis. Ejecucin de la extraccin de la regin solicitada y la bsqueda del patrn Revisar e Interpretar los resultados Una descripcin de los pasos que debe realizar un usuario se amplia a continuacin. Figura 2
Figura 3 Ejemplo. Generalmente se manejan una gran cantidad de variables en una base de datos, pero solo pueden interesar tres variables cuya interseccin es el valor de inters a analizar, esto da como resultado un cubo de datos con tres dimensiones, ms una dimensin que puede contener los valores en los que se realizar la bsqueda del patrn. Un usuario puede elegir la relacin venta(producto, cliente, tiempo), definir como primer eje al producto, como segundo eje al cliente y como tercer eje al tiempo. La interseccin es la venta de un producto para un cliente en un momento definido en el tiempo.
2.2 Generalizacin o niveles en las dimensiones del cubo

El usuario define los niveles de anlisis en cada una de sus dimensiones. Ejemplo. En la tabla 1 se pueden apreciar varios niveles de generalizacin o niveles de anlisis, con respecto a variables con datos geogrficos, datos de tiempo, entre otras
Nivel de Anlisis 1 Geogrfico Continente Producto Clase Servicio a Autmovil Tipo Tiempo Ao
2.1 Definicin de cubo de datos.

Un usuario selecciona las variables de sus bases de datos de sus sistemas operacionales, en las que desea buscar patrones o comportamientos de inters. Segn el nmero de variables seleccionadas es la dimensin del cubo formado, a cada variable se le denomina una dimensin o un eje del cubo (ver figura 2 y Figura 3).
2 de 10
Instituto Politcnico Nacional Centro de Investigacin en Computacin ______________________________________________________________________________________________________________ 2 3 4 5 Pas Estado Municipio Ciudad. Subclase Identificador Frecuencia Mes Quincena Semana Da
1992 900 1993 910 AO 1990 1991 1992 1993 07 670 620 650 650
850 850 08 789 690 690 690
710 720 09 770 760 775 790
680 660 10 770 760 775 790
570 580 11 800 820 810 850
610 610 12 890 890 890 890
Tabla 1. La hacer esta definicin, internamente la herramienta utiliz la funcin de agregacin sumar, la cual se combina con el lenguaje de especificacin de regiones (ver punto 2.5.1), permitiendo realizar anlisis a los diferentes niveles de abstraccin definidos en cada uno de los ejes. Ejemplo. Los anlisis pueden ser a nivel de ciudad, o sumarizar los datos de ciudad para hacer el anlisis a nivel municipio, o sumarizar los datos nuevamente para hacer el anlisis a nivel estado, y as consecutivamente.
Tabla 2. Cliente 02 en Chihuahua AO 1991 1992 1993 1994 AO 1991 1992 1993 1994 01 880 890 880 890 07 620 620 710 750 02 0 820 810 820 08 790 640 660 660 03 710 700 720 09 720 640 650 650 04 640 620 710 730 10 720 650 650 650 05 510 550 540 560 11 780 770 780 800 06 610 610 600 620 12 850 800 810 850
2.3 Generar los datos y cargar el cubo de datos

Las especificaciones que se describen en las variables de inters y el nivel de concepto de cada una de ellas se usan para construir el cubo de datos. Ests especificaciones ayudan a definir los procesos de extraccin a partir de las bases originales y contenedoras de los datos de las variables (bases de usuario). Estas tareas de extraccin pueden ser sencillas o complejas dependiendo de la organizacin de la base fuente de datos. Si la esta base puede ser accesada con instrucciones de manipulacin de datos como SQL o 4GL (sistemas manejadores de bases de datos como INFORMIX, ORACLE, entre otros), la extraccin se podra reducir a usar este tipo de instrucciones para extrer los datos, pero si esta es una base donde no se puede accesar con un lenguaje de manipulacin, es necesario desarrollar programas con un lenguaje que permita accesar y extraer los datos (archivos de RM-COBOL, archivos de BASIC, entre otros) La complejidad de generar los datos para la base de minera (ver seccin 3) generalmente se incrementa, dado que en las bases de los sistemas generadores o capturadores de datos, la organizacin no esta estructurada para realizar operaciones de minera. Estas bases se definen para llevar a cabo operaciones relacionadas a la dinmica diaria o peridica de consultas, reportes y otras actividades y no para realizar anlisis histricos, bsqueda de patrones de comportamiento, clasificacin de objetos, pronsticos, entre otros anlisis de datos en grandes volumenes. Ejemplo. Una base con una estructura que dificulte la extraccin para formar el cubo, es la que almacena las ventas mensuales de gasolina con clave GA01 y se representa en las tablas 2, ,3 y 4. AO 01 1990 890 1991 890 02 0 850 03 700 04 650 660 05 540 550 06 650 600
Tabla 3. Cliente 03 en Chihuahua AO 1992 1993 1994 1995 AO 1992 1993 1994 1995 01 810 810 810 810 07 670 620 620 620 02 0 840 840 840 08 790 690 690 690 03 660 660 660 09 770 700 700 700 04 610 610 610 610 10 770 700 700 700 05 500 540 540 540 11 800 750 750 750 06 610 600 600 600 12 890 760 760 760
Tabla 4. Cliente 01 en Sonora Para poder utilizar los datos en los procesos de bsqueda de patrones se requiere estructurar como se muestra en las tablas 5, 6, 7 y 8
Llave1 AC01 AC01 GA01 GA02
Descripcin Aceite nmero 1 Aceite nmero 2 Gasolina nmero 1 Gaslina nmero 2
Tabla 5. Dimensin 1 Producto, con 2 niveles, clase e identificador . Llave2 Descripcin
3 de 10
MXSO 01 MXSO 02 MXCH 02 MXCH 03
Cliente de Mxico, estado de Sonora, identificador 01 Cliente de Mxico, estado de Sonora, identificador 02 Cliente de Mxico, estado de Chihuahua, identificador 02 Cliente de Mxico, estado de Chihuahua, identificador 03
2.4 Definir los horarios de trabajo de los procesos de minera

Dependiendo de la carga de trabajo de los servidores donde se almacena la base de datos de minera, se procede a programar el inicio y fin de las ejecuciones a las solicitudes de bsqueda de patrones o comportamientos interesantes. Esta programacin para aprovechar los recursos de cmputo se recomienda sea definida en horarios nocturnos, cuando los servidores generalmente estan libres de procesamientos de datos. Ejemplo. iniciar los procesos a las 22:00 y terminarlos a las 08:00. Si se desea esta programacin de inicio o fin de minera ms autnoma, se pueden desarrollar agentes de software (programas) [1] que detecten la no actividad en la computadora y si ellos consideran conveniente iniciar la tarea de extraccin y anlisis de datos.
Tabla 6. Dimensin 2, Cliente, con 3 niveles; pas, estado e identificador. Llave3 199001 199002 199003 199004 199005 ... ... 199511 199512 Descripcin Enero de 1990 Febrero de 1990 Marzo de 1990 Abril de 1990 Mayo de 1990 ... ... Noviembre de 1995 Diciembre de 1995
2.5 Generar las preguntas (definir regin y patrn a buscar)

Generalmente el cubo de minera donde se realizaran las bsquedas, almacena una gran cantidad de datos histricos, pero al usuario solo le interesa analizar en una regin ms pequea, regin donde buscar su patrn de comportamiento de inters. La definicin de la pregunta se divide en dos partes a describir: La regin que se desea a analizar El patron a buscar en la regin.
Tabla 7. Dimensin 3, Tiempo con 2 niveles; ao y mes. Llave1 AC01 AC01 AC01 AC01 Llave2 MXSO01 MXSO01 MXSO01 MXSO01 Llave3 199001 199002 199003 199004 Valor 810 0 610
Tabla 8. Dimensin 4, venta, dimensin donde buscar el patrn de comportamiento interesante. Este cambio de estructura en los datos, se refleja en los datos que forman parte de la carga inicial (gran volumen de datos) a la base de minera, actividad que abarca analizar, disear, construir e implantar los algortimos de extraccin o generacin de datos. En nuestro caso, la carga inicial es la extraccin y generacin de archivos de tipo ASCII los cuales se cargan a la base de datos de minera. Otra actividad posterior y necesaria para el proceso de minera, es la definicin de cargas de actualizacin (menor volumen de datos que la carga inicial) a la base de minera. La actualizacin se debe realizar en perodos que se consideren conveniente para mantener vigentes los resultados de la minera. Est actividad tambin contiene la complejidad que se describe en la carga inicial, adems de que se debe de considerar el no cargar datos duplicados. Cumplidos los procesos de crear la base de minera y cargarla de datos se procede a los siguientes pasos.
2.5.1 Regin a Analizar Para definir una regin en el Minera de Datos-ANASIN, la herramienta proporciona un lenguaje de especificacin de tramos o intervalos de bsqueda en cada uno de los ejes, los operadores usados en lenguaje se pueden observar en la tabla 9. Sm Significado bolo . Buscar dentro de un intervalo de claves, donde el smbolo se coloca en la clave inicial y final | Ejemplo AC01.AC10; en el eje de producto buscar en los que se tienen las siguientes claves, AC01, AC02, AC03,...,AC09 y AC10 AC01|AC02|AC03| AC06, en el eje de producto, solo buscar en los productos AC01, AC02, AC03 y AC06
Buscar en claves especficas, donde cada una de las claves a buscar esta separada por el smbolo | Buscar en todos las MX*; en eje de cliente, claves que esten buscar en los clientes
4 de 10
definidos para esa dimensin o eje. Tambin puede funcionar como un comodn , que indica que se desea la bsqueda de todos los elementos de un nivel inferior
cuyas claves inicien con MX o sea MXSO01.MXSO99 y MXCH01 ... MXCH99 (en los que existan).
Tabla 9. Operadores del Lenguaje de Especificacin. Un ejemplo con los operadores para definir una regin es: producto = AC* cliente = MXSO01|MXSO02|MXCH03|MXCH06 tiempo = 199501.199512 La regin son todos los productos cuya clave inicie con AC; los clientes cuya clave es MXSO01, MXSO02, MXCH03 y MXCH06; y en el ao de 1995, desde el mes 01 al mes 12. Si el nivel del producto va de AC01 a AC99, Esto define un cubo de posiblemente 99 * 4 * 12 < 4800 registros a analizar.
Figura 5 Minera de Datos-ANASIN, cuenta con un catlogo de patrones de comportamiento bien identificados a travs de n momentos o puntos del tiempo (los puntos pueden ser dias, semanas, meses, aos u otra unidad de tiempo), catlogo que ayuda al usuario a buscar un conocimiento oculto en sus datos. Entre los comportamientos se hallan: Crecimientos Crecimientos con valles Crecimientos con crestas Decrecimientos Decrecimientos con valles Decrecimientos con crestas Crecimientos escalonados Decrecimientos escalonados Zig Zag Constantes
2.5.2 Patron de comportamiento o situacin interesante El usuario define un patrn de comportamiento (ver figura 4) a buscar en la regin que el defina (ver figura 5)
Cada uno de los patrones anteriores tiene su expresin matemtica que lo define. Ejemplos: a) Crecimiento en 4 puntos: (mesa)<(mesb) y (mesb)<(mesc) y (mesc)<(mesd) Figura 4 b) Crecimiento con cresta en 5 puntos: (mesa)<(mesb) y (mesb)<(mesc) y (mesc)<(mesd) y (mesd)>(mese) y (mesc)<(mese)
5 de 10
c) Decrecimiento en 4 puntos: (mesa)>(mesb) y (mesb)>(mesc) y (mesc)>(mesd) d) Crecimiento con cresta en 5 puntos: (mesa)<(mesb) y (mesb)<(mesc) y (mesc)<(mesd) y (mesd)>(mese) y (mesc)<(mese) e) Crecimiento escalonado en 4 puntos: (mesa)=(mesb) y (mesb)<(mesc) y (mesc)=(mesd) f) Crecimiento escalonado en 6 puntos: (mesa)=(mesb) y (mesb)<(mesc) y (mesc)=(mesd) y (mesd)<(mese) y (mese)=(mesf) Estos patrones en la herramienta (figuras 6 y 7) se presentan en grficas que ayudan a visualizar los patrones de comportamiento a buscar.
Figura 7. Con los dos componentes de las preguntas descritos anteriormente, se pueden realizar las siguientes bsquedas: Con que clientes la venta de gasolina tiene un crecimiento continuo en 4 meses? En que clientes se ha mantenido una venta o un consumo en 3 meses ? Cules son los clientes en los que se ha mantenido un porcentaje de variacin mnima de 1 %, sin importar cuantas unidades de tiempo se ha sostenido la variacin ? Preguntas que se pueden armar con un lenguaje de consulta (SQL o 4GL), pero su construccin puede resultar dficil,
2.6 Solicitud de proceso de extraccin y nalisis

La solicitud de la ejecucin a responder la pregunta, se registra en una base de datos que contiene todos los procesos de extraccin y anlisis o bsqueda de patrones.
2.7 Ejecucin de Anlisis

La ejecucin de los procesos de extraccin de datos y bsqueda de patrones (anlisis) se realizaran de acuerdo a los horarios programados, donde el programa extractor y minero utilizaran los recursos del servidor donde se almacena la base de minera.
Figura 6.
2.8 Resultados del Anlisis

El xito en los procesos de Minera de Datos o de anlisis automtico en un gran cmulo de datos, se deber a la interpretacin correcta de los resultados. Para lo cual ayuda mucho la forma en que se presenten al usuario los resultados. Est debe ser sencilla y entendible para una fcil interpretacin (ver figura 8). El mdulo de Minera de Datos ANASIN, presenta tanto reportes como grficas de los resultados de la extraccin y bsqueda de patrones. Los resultados son los siguientes:
6 de 10
Figura 8 Reporte que muestra el resultado o la indicacin del tiempo y lugar donde se cumpli el patrn buscado La extraccin que contiene los lugares donde se cumplio el criterio que define la regin y en los cuales se busco el patrn (con xito o sin xito) Grficas para visualizar los lugares donde se busco el patrn Grficas para visualizar donde tuvo xito la bsqueda del patrn, es decir, donde se encontr el patrn definido en la pregunta. Ejemplo de esto son las grficas 9, 10, 11 y 12.
Fgura 10. Regin de xito para el patrn de bsqueda Constante en 4 puntos
Fgura 11. Regin de xito para el patrn de bsqueda Crecimiento en 4 puntos
Fgura 9. Regin de xito para el patrn de bsqueda Constante en 4 puntos
Fgura 12. Regin de xito para el patrn de bsqueda Crecimiento escalonado en 4 puntos
7 de 10
3. Un Desafo en la Minera con Cubos de Datos

Para poder aplicar la tcnica de cubos de datos, es necesario realizar una transformacin a los datos del usuario para dejarlos listos como se requiere (figuras 2 y 3), la trasformacin es originada como ya se dijo en el punto 2, por las fuentes de datos (sistemas operacionales) que no estan diseadas para realizar minera, por lo cual es necesario su preparacin. Un caso en extremo puede plantearse en la siguiente forma, la estructura ptima de un sistema escolar podra ser la que se presenta en la tabla 10, que almacena datos histricos de totales por alumno inscritos en una institucin con varios planteles. No 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 Campo Matrcula separador clave de plantel separador clave de carrera separador plan de estudios separador Ingreso Separador causa ingreso Separador causa egreso separador crditos acumulados separador porcentaje acrditados separador crditos obligatorios Separador Porcentaje obligatorios Separador crditos optativos Separador Porcentaje optativos Separador Aprobados en ordinario Separador Reprobados en ordinario Separador Aprobados en extraordinario Tipo char(8) char(1) char(3) char(1) char(2) char(1) char(2) char(1) entero(3) char(1) entero(3) char(1) entero(3,) char(1) entero(4) char(1) entero(4) char(1) entero(4) char(1) entero(4) char(1) decimal(3, 0) char(1) decimal(4, 0) char(1) decimal(2, 0) char(1) decimal(2, 0) char(1) decimal(2, 0) Inici o 0 8 9 12 13 15 16 18 19 21 22 24 25 27 28 31 32 36 37 40 41 45 46 49 50 54 55 57 58 60 61 Fin 7 8 11 12 14 15 17 18 20 21 23 24 26 27 30 31 35 36 39 40 44 45 48 49 53 54 56 57 59 60 62
32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47
Separador reprobados en extraordinario separador promedio separador inicio de carrera Separador Fin de carrera Separador Sexo Separador Auxiliar Separador Fecha de nacimiento Separador Nacionalidad
char(1) decimal(2, 0) char(1) decimal(4, 0) char(1) decimal(3, 0) char(1) decimal(3, 0) char(1) char(1) char(1) char(1) char(1) char(6) char(1) char(1)
63 64 66 67 71 73 75 76 79 80 81 82 83 84 90 91
63 65 66 70 71 74 75 78 79 80 81 82 83 89 90 91
Tabla 10. Datos de Alumnos Algunos patrones de inters a buscar a travs de las generaciones podrin ser: La matrcula Por cada una de las causas de ingreso Por cada una de las causas de egreso Porcentaje de crditos aprobados en forma normal Porcentaje de crditos aprobados por extraordinario Porcentaje de crditos reprobados Promedio de calificaciones Edad Los cuales se estudiarian con respecto: Plantel Carrera Sexo Causas de ingreso Causas de egreso Generacin
La dimensin de nuestros cubos hasta aqu es de 6, pero como se mantiene un histrico por alumnos, es decir la matrcula se convierte en un eje ms, la dimensin de nuestros cubos ser finalmente de 7. Si tuviesemos en total 13 valores diferentes que definen 13 posibles patrones a buscar, cada uno de nuestros registros de los alumnos sera necesario duplicarlo 13 veces (promedio, porcentaje aprobado, porcentaje reprobado, causa de ingreso, causa de egreso, entre otros). Las preguntas posibles a contestar seran: En que alumnos por tipo de ingreso crece su promedio ?
8 de 10
En que alumnos por tipo de ingreso decrece su promedio ? En que alumnos por tipo de ingreso se incrementa su porcentaje de aprobadas ? En que alumnos por tipo de ingreso se incrementa su porcentaje de reprobadas ? En que alumnos por tipo de ingreso se incrementa su porcentaje de aprobadas obligatorias ? En que alumnos por tipo de ingreso se incrementa su porcentaje de reprobadas obligatorias? Cada registro con una estructura similar salvo por el valor de una variable que define el tipo de patrn que almacena el registro. Es decir, si tuviesemos en total 8,000 registros, es necesario ahora tener 104,000 registros en la tabla interseccin. Aunque solo tuviesemos 10 planteles, 5 carreras, 2 sexos, 10 generaciones y 100 causas de egreso y ingreso En forma similar tenemos, si la estructura de almacenamiento de ventas de gasolina por cliente contiene por registro la venta de un ao en doce items, es necesario cada registro duplicarlo 12 veces y registrarlo 12 veces en la tabla que permite almacenar los comportamientos. De aqui, si tenemos 10,000 clientes, 4 productos y almacenados 10 aos, nuestra informacin en la tabla de interseccin de los cubos, registraria al menos 10,000 * 4 * 10 *12 = 4,800,000 registros. Aqu no se se toman en cuenta los registros que pueden facilitar el tiempo de respuesta y que son los precalculados que agilizan el tiempo de respuesta pero incrementan la cantidad de registros [7]. Como se observa de alguna forma nuestros datos se duplican y por lo tanto existe la necesidad de manejar lo que se conoce como un cubo virtual, el cual se generara cada vez que se procesa una pregunta. Con solo la ventaja de no duplicar la informacin y no almacenar dicho cubo en disco; y las desventajas de buscar ptimizar los tiempos necesarios para su clculo, que dependerera de la regin de inters a analizar y el algoritmo que definiese el rea de almacenamiento temporal. Esto es un problema que se mantiene vigente y necesario de resolver [5]. Aunado a este desafio existen otros como el de generar en forma autmatica los algoritmos de los procesos de extraccin y carga de datos a la base de datos que se usa para la minera (ver seccin 2.3).
Uso de Agentes para la Minera Distribuida Uso de Agentes para la Minera en Texto Generacin de nuevos agentes (mineros que buscan variables con comportamientos similares, ya sea que crezcan, decrezcan o comportamientos contrarios) [4]
5. Conclusiones
Algo que complica el llevar a cabo el desarrollo de herramientas con tecnologa nueva, es que implica varios tipos de conocimiento, entre los cuales tenemos: Algoritmos matemticos Organizacin de las bases de datos Algoritmos de recuperacin Diseo de interfaces de usuario Interoperabilidad entre diferentes Sistemas operativos Una de las principales aportaciones de nuestro desarrollo, es el modelo de trabajo que permite aprovechar los recursos de cmputo y permite an ms buscar este aprovechamiento, adems como ya se menciono en los trabajos futuros, permite buscar aplicar otras tecnologas cmo son la de agentes de software.
6. Caractersticas del Software

Modelo de trabajo. Cliente/servidor Software en Servidor UNIX SCO INFORMIX (Online y 4GL) SAMBA Programas en C Programas en Shell Scripts de UNIX SCO Software en Cliente Windows NT o Windows 95 Ejecutable en DELPHI INFORMIX
7. Grupo de desarrollo de versin 2.12

Integrantes del Laboratorio de Sistemas de Informacin en 1998: Lilia Gonzlez Rodriguez (Analista / Programador, Documentador) Alfonso Garcia Gonzlez (Analista / Programador, Documentador) Absalom Zamorano Castellanos (Analista / Programador) Karina Ortiz Nicolas (Analista / Programador) Rodolfo Rodrguez bando (Analista / Programador)
2
4. Trabajos Futuros.
Esta herramienta se utiliza como apoyo en varios proyectos que se estan planeado en conjuncin con otros Laboratorios del C.I.C, entre los cuales destacan: Uso de Agentes [2] para la Minera de Datos en Sistemas Distribuidos y Cooperativos [8]
(2). La versin 1.0 fu desarrolloda por las empresas Software-Pro International e IDASA, con apoyo del CONACYT para la Gerencia de Informtica y Telecomunicaciones de la C.F.E. dirigida por el Ing. Enzo Molino e Ing. Ramn Sobern Kuri en 1994
9 de 10
Bertha Patricia Ramrez Arzate (Beta Tester) Ixcheel Martnez Castillo (Beta Tester) M. en C. Gilberto Lorenzo Martnez Luna (Lder de Proyecto) Asesores Dr. Adolfo Guzmn Arenas M. en C. Guillermo Rafael Domnguez de Len
Referencias
[1] Bigus Josep P. Data Mining With Neural Networks , McGraw-ill 1996. [2] Davidsson P., Autonomous Agents and the Concept of Concepts Departament of Computer Science, Lund University, Sweden 1996. [3] Guzmn Arenas A, Estado del Arte y de la Prctica en Minera de Datos, Anlisis y Critica, Conferencia Magistral, Cuba, Marzo de 1996 [4] Guzmn Arenas A, Uso y Diseo de Mineros de Datos, Soluciones Avanzadas, Junio de 1996 [5] Ming-Syan Chen, Jiawei Han, and Philip S. Yu, Fellow, Data Mining: a view from database perspective , IEEE, Dic. 1996 [6] http: // www. kdnuggets. com / siftware. htm [7] Harinayan v., Rajamaran a., Ullman j, Implementing Data Cubes Efficiently, Stanford University [8] P. Papazoglou Mike, K. Sellis Timos, International Journal of Intelligent & Cooperative Information Systems , IJICIS, Volume 1, Number 1, Queensland University of Technology Brisbane, Australia, University of maryland, College Park, USA, March 1992.
10 de 10

Busqueda de Patrones en Cubos de Datos

Diunggah oleh

Informasi Dokumen

Hak Cipta

Format Tersedia

Bagikan dokumen Ini

Bagikan atau Tanam Dokumen

Opsi Berbagi

Apakah menurut Anda dokumen ini bermanfaat?

Apakah konten ini tidak pantas?

Hak Cipta:

Format Tersedia

Busqueda de Patrones en Cubos de Datos

Diunggah oleh

Hak Cipta:

Format Tersedia

Instituto Politcnico Nacional Centro de Investigacin en Computacin ______________________________________________________________________________________________________________

Bsqueda de Patrones de Comportamiento en Cubos de Datos

______________________________________________________________________________________________________ Laboratorio de Sistemas de Informacin y Bases de Datos-CIC-IPN

Instituto Politcnico Nacional Centro de Investigacin en Computacin ______________________________________________________________________________________________________________

2. Descripcin del Proceso de Minera

2.2 Generalizacin o niveles en las dimensiones del cubo

2.1 Definicin de cubo de datos.

______________________________________________________________________________________________________ Laboratorio de Sistemas de Informacin y Bases de Datos-CIC-IPN

850 850 08 789 690 690 690

710 720 09 770 760 775 790

680 660 10 770 760 775 790

570 580 11 800 820 810 850

610 610 12 890 890 890 890

2.3 Generar los datos y cargar el cubo de datos

Llave1 AC01 AC01 GA01 GA02

Descripcin Aceite nmero 1 Aceite nmero 2 Gasolina nmero 1 Gaslina nmero 2

Tabla 5. Dimensin 1 Producto, con 2 niveles, clase e identificador . Llave2 Descripcin

______________________________________________________________________________________________________ Laboratorio de Sistemas de Informacin y Bases de Datos-CIC-IPN

Instituto Politcnico Nacional Centro de Investigacin en Computacin ______________________________________________________________________________________________________________

MXSO 01 MXSO 02 MXCH 02 MXCH 03

2.4 Definir los horarios de trabajo de los procesos de minera

2.5 Generar las preguntas (definir regin y patrn a buscar)

______________________________________________________________________________________________________ Laboratorio de Sistemas de Informacin y Bases de Datos-CIC-IPN

Instituto Politcnico Nacional Centro de Investigacin en Computacin ______________________________________________________________________________________________________________

______________________________________________________________________________________________________ Laboratorio de Sistemas de Informacin y Bases de Datos-CIC-IPN

Instituto Politcnico Nacional Centro de Investigacin en Computacin ______________________________________________________________________________________________________________

2.6 Solicitud de proceso de extraccin y nalisis

2.7 Ejecucin de Anlisis

2.8 Resultados del Anlisis

Instituto Politcnico Nacional Centro de Investigacin en Computacin ______________________________________________________________________________________________________________

Fgura 10. Regin de xito para el patrn de bsqueda Constante en 4 puntos

Fgura 11. Regin de xito para el patrn de bsqueda Crecimiento en 4 puntos

Fgura 9. Regin de xito para el patrn de bsqueda Constante en 4 puntos

Instituto Politcnico Nacional Centro de Investigacin en Computacin ______________________________________________________________________________________________________________

3. Un Desafo en la Minera con Cubos de Datos

______________________________________________________________________________________________________ Laboratorio de Sistemas de Informacin y Bases de Datos-CIC-IPN

Instituto Politcnico Nacional Centro de Investigacin en Computacin ______________________________________________________________________________________________________________

6. Caractersticas del Software

7. Grupo de desarrollo de versin 2.12

______________________________________________________________________________________________________ Laboratorio de Sistemas de Informacin y Bases de Datos-CIC-IPN

Instituto Politcnico Nacional Centro de Investigacin en Computacin ______________________________________________________________________________________________________________

______________________________________________________________________________________________________ Laboratorio de Sistemas de Informacin y Bases de Datos-CIC-IPN

Anda mungkin juga menyukai