Escuela Acadmico Profesional de Ciencias Contables y
Financieras
CURSO: Sistemas de Informacin II
TEMA: Minera de Datos. Data Mining
HECHO POR: Ziga Vigil Janira Luciana Gutirrez Gutirrez Jos Manuel
CICLO: VIII
DOCENTE: Cesar Altamirano
2014
MINERA DE DATOS DATA MINING
INTRODUCCIN
En los ltimos aos, ha existido un gran crecimiento en nuestras capacidades de generar y colectar datos, debido bsicamente al gran poder de procesamiento de las mquinas como a su bajo costo de almacenamiento. Sin embargo, dentro de estas enormes masas de datos existe una gran cantidad de informacin oculta, de gran importancia estratgica, a la que no se puede acceder por las tcnicas clsicas de recuperacin de la informacin. El descubrimiento de esta informacin oculta es posible gracias a la Minera de Datos (DataMining), que entre otras sofisticadas tcnicas aplica la inteligencia artificial para encontrar patrones y relaciones dentro de los datos permitiendo la creacin de modelos, es decir, representaciones abstractas de la realidad, pero es el descubrimiento del conocimiento (KDD, por sus siglas en ingls) que se encarga de la preparacin de los datos y la interpretacin de los resultados obtenidos, los cuales dan un significado a estos patrones encontrados.
Aunque desde un punto de vista acadmico el trmino data Mining es una etapa dentro de un proceso mayor llamado extraccin de conocimiento en bases de datos, (mencionado en el captulo anterior) en el entorno comercial, as como en este trabajo, ambos trminos se usan de manera indistinta. Lo que en verdad hace el data Mining es reunir las ventajas de varias reas como la Estadstica, la Inteligencia Artificial, la Computacin Grfica, las Bases de Datos y el Procesamiento Masivo, principalmente usando como materia prima las bases de datos.
1. DEFINICIONES
DEFINICION TRADICIONAL: Un proceso no trivial de identificacin vlida, novedosa, potencialmente til y entendible de patrones comprensibles que se encuentran ocultos en los datos
DEFINICION EMPRESARIAL: La integracin de un conjunto de reas que tienen como propsito la identificacin de un conocimiento obtenido a partir de las bases de datos que aporten un sesgo hacia la toma de decisin
2. HISTORIA
La idea de data mining no es nueva. Ya desde los aos sesenta los estadsticos manejaban trminos como data fishing, data mining o data archaeology con la idea de encontrar correlaciones sin una hiptesis previa en bases de datos con ruido. A principios de los aos ochenta, Rakesh Agrawal, Gio Wiederhold, Robert Blum y Gregory Piatetsky-Shapiro, entre otros, empezaron a consolidar los trminos de data mining y KDD.[3] A finales de los aos ochenta slo existan un par de empresas dedicadas a esta tecnologa; en 2002 existen ms de 100 empresas en el mundo que ofrecen alrededor de 300 soluciones. Las listas de discusin sobre este tema las forman investigadores de ms de ochenta pases. Esta tecnologa ha sido un buen punto de encuentro entre personas pertenecientes al mbito acadmico y al de los negocios.
3. CONCEPTO
El data mining es una tecnologa compuesta por etapas que integra varias reas y que no se debe confundir con un gran software. Durante el desarrollo de un proyecto de este tipo se usan diferentes aplicaciones software en cada etapa que pueden ser estadsticas, de visualizacin de datos o de inteligencia artificial, principalmente. Actualmente existen aplicaciones o herramientas comerciales de data mining muy poderosas que contienen un sinfn de utileras que facilitan el desarrollo de un proyecto. Sin embargo, casi siempre acaban complementndose con otra herramienta. La data mining es la etapa de descubrimiento en el proceso de KDD: Paso consistente en el uso de algoritmos concretos que generan una enumeracin de patrones a partir de los datos pre procesados (Fayyad et al., 1996) Aunque se suelen usar indistintamente los trminos KDD y Minera de Datos.
4. FUNDAMENTOS DE DATA MINING
Las tcnicas de Data Mining son el resultado de un largo proceso de investigacin y desarrollo de productos. Esta evolucin comenz cuando los datos de negocios fueron almacenados por primera vez en computadoras, y continu con mejoras en el acceso a los datos, y ms recientemente con tecnologas generadas para permitir a los usuarios navegar a travs de los datos en tiempo real. Data Mining toma este proceso de evolucin ms all del acceso y navegacin retrospectiva de los datos, hacia la entrega de informacin prospectiva y proactiva. Data Mining est lista para su aplicacin en la comunidad de negocios porque est soportado por tres tecnologas que ya estn suficientemente maduras: Recoleccin masiva de datos. Potentes computadoras con multiprocesadores. Algoritmos de Data Mining.
Las bases de datos comerciales estn creciendo a un ritmo sin precedentes. Un reciente estudio del META GROUP sobre los proyectos de Data Warehouse encontr que el 19% de los que contestaron estn por encima del nivel de los 50 Gigabytes, mientras que el 59% espera alcanzarlo en el segundo trimestre de 1997. En algunas industrias, tales como ventas al por menor (retail), estos nmeros pueden ser an mayores. MCI Telecommunications Corp. cuenta con una base de datos de 3 terabytes + 1 terabyte de ndices y overhead corriendo en MVS sobre IBM SP2. La necesidad paralela de motores computacionales mejorados puede ahora alcanzarse de forma ms costo - efectiva con tecnologa de computadoras con multiprocesamiento paralelo. Los algoritmos de Data Mining utilizan tcnicas que han existido por lo menos desde hace 10 aos, pero que slo han sido implementadas recientemente como herramientas maduras, confiables, entendibles que consistentemente son ms performantes que mtodos estadsticos clsicos. En la evolucin desde los datos de negocios a informacin de negocios, cada nuevo paso se basa en el previo. Por ejemplo, el acceso a datos dinmicos es crtico para las aplicaciones de navegacin de datos (drill through applications), y la habilidad para almacenar grandes bases de datos es crtica para Data Mining. Los componentes esenciales de la tecnologa de Data Mining han estado bajo desarrollo por dcadas, en reas de investigacin como estadsticas, inteligencia artificial y aprendizaje de mquinas. Hoy, la madurez de estas tcnicas, junto con los motores de bases de datos relacionales de alta performance, hicieron que estas tecnologas fueran prcticas para los entornos de data warehouse actuales.
5. PRINCIPALES CARACTERISTICAS Y OBJETIVOS
Explorar los datos se encuentran en las profundidades de las bases de datos, como los almacenes de datos, que algunas veces contienen informacin almacenada durante varios aos. En algunos casos, los datos se consolidan en un almacn de datos y en mercados de datos; en otros, se mantienen en servidores de Internet e Intranet. El entorno de la minera de datos suele tener una arquitectura cliente servidor. Las herramientas de la minera de datos ayudan a extraer el mineral de la informacin enterrado en archivos corporativos o en registros pblicos, archivados El minero es, muchas veces un usuario final con poca o ninguna habilidad de programacin, facultado por barrenadoras de datos y otras poderosas herramientas indagatorias para efectuar preguntas adhoc y obtener rpidamente respuestas. Hurgar y sacudir a menudo implica el descubrimiento de resultados valiosos e inesperados. Las herramientas de la minera de datos se combinan fcilmente y pueden analizarse y procesarse rpidamente. Debido a la gran cantidad de datos, algunas veces resulta necesario usar procesamiento en paralelo para la minera de datos. La minera de datos produce cinco tipos de informacin: Asociaciones. Secuencias. Clasificaciones. Agrupamientos. Pronsticos. Los mineros de datos usan varias herramientas y tcnicas. La minera de datos es un proceso que invierte la dinmica del mtodo cientfico en el siguiente sentido: En el mtodo cientfico, primero se formula la hiptesis y luego se disea el experimento para coleccionar los datos que confirmen o refuten la hiptesis. Si esto se hace con la formalidad adecuada (cuidando cules son las variables controladas y cules experimentales), se obtiene un nuevo conocimiento. En la minera de datos, se coleccionan los datos y se espera que de ellos emerjan hiptesis. Se busca que los datos describan o indiquen por qu son como son. Luego entonces, se valida esa hiptesis inspirada por los datos en los datos mismos, ser numricamente significativa, pero experimentalmente invlida. De ah que la minera de datos debe presentar un enfoque exploratorio, y no confirmador. Usar la minera de datos para confirmar las hiptesis formuladas puede ser peligroso, pues se est haciendo una inferencia poco vlida. La minera de datos es una tecnologa compuesta por etapas que integra varias reas y que no se debe confundir con un gran software. Durante el desarrollo de un proyecto de este tipo se usan diferentes aplicaciones software en cada etapa que pueden ser estadsticas, de visualizacin de datos o de inteligencia artificial, principalmente. Actualmente existen aplicaciones o herramientas comerciales de minera de datos muy poderosas que contienen un sinfn de utileras que facilitan el desarrollo de un proyecto. Sin embargo, casi siempre acaban complementndose con otra herramienta.
6. ALCANCE DE DATA MINING
El nombre de Data Mining deriva de las similitudes entre buscar valiosa informacin de negocios en grandes bases de datos - por ej.: encontrar informacin de la venta de un producto entre grandes montos de Gigabytes almacenados y minar una montaa para encontrar una veta de metales valiosos. Ambos procesos requieren examinar una inmensa cantidad de material, o investigar inteligentemente hasta encontrar exactamente donde residen los valores. Dadas bases de datos de suficiente tamao y calidad, la tecnologa de Data Mining puede generar nuevas oportunidades de negocios al proveer estas capacidades: Prediccin automatizada de tendencias y comportamientos. Data Mining automatiza el proceso de encontrar informacin predecible en grandes bases de datos. Preguntas que tradicionalmente requeran un intenso anlisis manual, ahora pueden ser contestadas directa y rpidamente desde los datos. Un tpico ejemplo de problema predecible es el marketing apuntado a objetivos (targeted marketing). Data Mining usa datos en mailing promocionales anteriores para identificar posibles objetivos para maximizar los resultados de la inversin en futuros mailing. Otros problemas predecibles incluyen pronsticos de problemas financieros futuros y otras formas de incumplimiento, e identificar segmentos de poblacin que probablemente respondan similarmente a eventos dados. Descubrimiento automatizado de modelos previamente desconocidos. Las herramientas de Data Mining barren las bases de datos e identifican modelos previamente escondidos en un slo paso. Otros problemas de descubrimiento de modelos incluye detectar transacciones fraudulentas de tarjetas de crditos e identificar datos anormales que pueden representar errores de tipeado en la carga de datos. Las tcnicas de Data Mining pueden redituar los beneficios de automatizacin en las plataformas de hardware y software existentes y puede ser implementada en sistemas nuevos a medida que las plataformas existentes se actualicen y nuevos productos sean desarrollados. Cuando las herramientas de Data Mining son implementadas en sistemas de procesamiento paralelo de alta performance, pueden analizar bases de datos masivas en minutos. Procesamiento ms rpido significa que los usuarios pueden automticamente experimentar con ms modelos para entender datos complejos. Alta velocidad hace que sea prctico para los usuarios analizar inmensas cantidades de datos. Grandes bases de datos, a su vez, producen mejores predicciones.
7. FASES DE UN PROYECTO DE MINERIA DE DATOS Y APLICACIONES DE USO
7.1 FASES DE UN PROYECTO DE MINERIA DE DATOS
Los pasos a seguir para la realizacin de un proyecto de minera de datos son siempre los mismos, independientemente de la tcnica especfica de extraccin de conocimiento usada.
El proceso de minera de datos pasa por las siguientes fases: Filtrado de datos. Seleccin de Variables. Extraccin de Conocimiento. Interpretacin y Evaluacin. 7.1.1 FILTRADO DE DATOS El formato de los datos contenidos en la fuente de datos (base de datos, Data Warehouse...) nunca es el idneo, y la mayora de las veces no es posible ni siquiera utilizar ningn algoritmo de minera sobre los datos en bruto. Mediante el pre procesado, se filtran los datos (de forma que se eliminan valores incorrectos, no vlidos, desconocidos... segn las necesidades y el algoritmo a usar), se obtienen muestras de los mismos (en busca de una mayor velocidad de respuesta del proceso), o se reducen el nmero de valores posibles (mediante redondeo, clustering,...).
7.1.2 SELECCIN DE VARIABLES An despus de haber sido pre procesados, en la mayora de los casos se tiene una cantidad ingente de datos. La seleccin de caractersticas reduce el tamao de los datos eligiendo las variables ms influyentes en el problema, sin apenas sacrificar la calidad del modelo de conocimiento obtenido del proceso de minera. Los mtodos para la seleccin de caractersticas son bsicamente dos: Aquellos basados en la eleccin de los mejores atributos del problema, Y aquellos que buscan variables independientes mediante tests de sensibilidad, algoritmos de distancia o heursticos.
7.1.3 ALGORITMOS DE EXTRACCIN DE CONOCIMIENTO Mediante una tcnica de minera de datos, se obtiene un modelo de conocimiento, que representa patrones de comportamiento observados en los valores de las variables del problema o relaciones de asociacin entre dichas variables. Tambin pueden usarse varias tcnicas a la vez para generar distintos modelos, aunque generalmente cada tcnica obliga a un pre procesado diferente de los datos.
7.1.4 INTERPRETACIN Y EVALUACIN Una vez obtenido el modelo, se debe proceder a su validacin, comprobando que las conclusiones que arroja son vlidas y suficientemente satisfactorias. En el caso de haber obtenido varios modelos mediante el uso de distintas tcnicas, se deben comparar los modelos en busca de aquel que se ajuste mejor al problema. Si ninguno de los modelos alcanza los resultados esperados, debe alterarse alguno de los pasos anteriores para generar nuevos modelos.
7.2 APLICACIONES DE USO Cada ao, en los diferentes congresos, simposios y talleres que se realizan en el mundo se renen investigadores con aplicaciones muy diversas. Sobre todo en los Estados Unidos, el data mining se ha ido incorporando a la vida de empresas, gobiernos, universidades, hospitales y diversas organizaciones que estn interesadas en explorar sus bases de datos.
7.2.1 En el Gobierno: El FBI analizar las bases de datos comerciales para detectar terroristas.
7.2.2 En la Empresa Deteccin de fraudes en las tarjetas de crdito. Descubriendo el porqu de la desercin de clientes de una compaa operadora de telefona mvil. Hbitos de compra en supermercados. Prediciendo el tamao de las audiencias televisivas.
7.2.3 En la Universidad Conociendo si los recin titulados de una universidad llevan a cabo actividades profesionales relacionadas con sus estudios.
7.2.4 En Investigaciones Espaciales
7.2.5 En los Clubes Deportivos CONCLUSIN
Nuestra capacidad para almacenar datos ha crecido en los ltimos aos a velocidades exponenciales. En contrapartida, nuestra capacidad para procesarlos y utilizarlos no ha ido a la par. Por este motivo, el data mining se presenta como una tecnologa de apoyo para explorar, analizar, comprender y aplicar el conocimiento obtenido usando grandes volmenes de datos. Descubrir nuevos caminos que nos ayuden en la identificacin de interesantes estructuras en los datos es una de las tareas fundamentales en el data mining. En el mbito comercial, resulta interesante encontrar patrones ocultos de consumo de los clientes para poder explorar nuevos horizontes. Saber que un vehculo deportivo corre un riesgo de accidente casi igual al de un vehculo normal cuando su dueo tiene un segundo vehculo en casa ayuda a crear nuevas estrategias comerciales para ese grupo de clientes. Asimismo, predecir el comportamiento de un futuro cliente, basndose en los datos histricos de clientes que presentaron el mismo perfil, ayuda a poder retenerlo durante el mayor tiempo posible. Las herramientas comerciales de data mining que existen actualmente en el mercado son variadas y excelentes. Las hay orientadas al estudio del web o al anlisis de documentos o de clientes de supermercado, mientras que otras son de uso ms general. Su correcta eleccin depende de la necesidad de la empresa y de los objetivos a corto y largo plazo que pretenda alcanzar. La decisin de seleccionar una solucin de data mining no es una tarea simple. Es necesario consultar a expertos en el rea con vista a seleccionar la ms adecuada para el problema de la empresa. Como se ha visto a lo largo del este artculo, son muchas las reas, tcnicas, estrategias, tipos de bases de datos y personas que intervienen en un proceso de data mining. Los negocios requieren que las soluciones tengan una integracin transparente en un ambiente operativo. Esto nos lleva a la necesidad de establecer estndares para hacer un ambiente interoperable, eficiente y efectivo. Se exponen algunas iniciativas para estos estndares, incluyendo aspectos en: Modelos: para representar datos estadsticos y de data Mining. Atributos: para representar la limpieza, transformacin y agregacin de atributos usados como entrada en los modelos. Interfaces y API: para facilitar la integracin con otros lenguajes o aplicaciones de software y API. Configuracin: para representar parmetros internos requeridos para construir y usar los modelos. Procesos: para producir, desplegar y usar modelos. Datos remotos y distribuidos: para analizar y explorar datos remotos y distribuidos.
En resumen, el data Mining se presenta como una tecnologa emergente, con varias ventajas: por un lado, resulta un buen punto de encuentro entre los investigadores y las personas de negocios; por otro, ahorra grandes cantidades de dinero a una empresa y abre nuevas oportunidades de negocios. Adems, no hay duda de que trabajar con esta tecnologa implica cuidar un sinnmero de detalles debido a que el producto final involucra toma de decisiones.