Anda di halaman 1dari 41

ISW-911 Minera de Datos

Carlos Lobo Valerio Alexander Jimnez Palacios

Evolucin de los Sistemas de Informacin


Definicin de un Sistema de Informacin. Objetivos: Automatizar procesos operativos. Proporcionar informacin para la toma de decisiones. Lograr ventajas competitivas a travs de su uso.

Evolucin de los SI
Sistemas transaccionales: Generalmente es el primer tipo de Sistema que se implanta

en la empresa. Muestran de manera intensa actividades de I/O, clculos, procesos. Recolectan informacin que almacenan en la Base de Datos. Fcil de justificar ante los ejecutivos de la organizacin. (Beneficios palpables y visibles). Son adaptables a paquetes que pueden fcilmente colocarse en el mercado.

Evolucin de los SI
Sistemas de Apoyo a las decisiones: Generalmente son implantados posterior a los sistemas

transaccionales. La informacin que genera es utilizada generalmente por mandos medios o la alta administracin para el proceso de toma de decisiones. Suelen tener poca actividad de I/O pero tienden a ejecutar procesos que podran comprometer el rendimiento Son orientados a usuario final.

Nuevas necesidades
La informacin histrica es til para explicar el pasado,

entender el presente y predecir la informacin futura. En muchas ocasiones convertir la informacin en conocimiento consiste en una anlisis e interpretacin manual. El anlisis manual es impracticable en dominios donde el volumen de datos crece exponencialmente. La enorme abundancia de datos desborda la capacidad humana de comprender. Aumento del volumen y variedad de la informacin

Nuevas necesidades
La mayora de decisiones en las empresas se basan en

experiencias pasadas. El anlisis de informacin manual se hace lento, caro y altamente subjetivo. Los sistemas transaccionales nos da solo informacin resumida. Los sistemas de apoyo a las decisiones no generan reglas que den conocimiento.

Nuevas necesidades
Se pude hacer anlisis de datos con herramientas tradicionales

como lenguaje de consulta SQL junto al procesamiento transaccional en lnea (OLTP Online Transaction Processing) Mediante OLTP podemos obtener informacin resumida (generacin de informes) pero es poco flexible y menos escalable a grandes volmenes de datos. La tecnologa de Base de Datos ha respondido a este reto con un repositorio de fuentes heterogneas de datos integrados y organizados bajo un esquema unificado para facilitar el anlisis y dar soporte a la toma de decisiones. Esta tecnologa incluye operaciones de procesamiento analtico en lnea (OLAP On line Analytical Processing)

Nuevas necesidades
Las herramientas OLAP soportan cierto anlisis descriptivo y

de somatizacin que permiten transformar los datos en otros agregados o de manera sofisticada pero no generan reglas, patrones, pautas, o sea, no generan conocimiento, el cual podra se aplicado a otros datos. Es especialmente importante el conocimiento que puede inferirse a partir de los datos y mas aun la capacidad de poder utilizar este conocimiento.

Nuevas necesidades
Actualmente existen paquetes estadsticos capaces de inferir

patrones a partir de datos. El problema es que generalmente no funcionan bien con Bases de Datos de millones de registros y algunos tipos de datos (atributos nominales, datos textuales, multimedia, etc.) Esta limitaciones han hecho surgir nuevas herramientas y tcnicas para soportar la extraccin del conocimiento. El resultado de la minera de datos son un conjunto de reglas como ecuaciones, arboles de decisin, redes neuronales, y otros, para responder a las necesidades que no podran satisfacerse con la herramientas tradicionales.

Que es la minera de datos?


Los datos pasan de ser un producto (el resultado

histrico de los Sistemas de Informacin a ser materia prima que hay que explotar.
La estadstica es la primera ciencia que considera los

datos como materia prima, sin embargo las nuevas necesidades hacen que varias disciplinas se integren y para denominarse Minera de Datos.

Conceptos
Proceso de extraer conocimiento til y comprensible,

previamente desconocido, desde grandes cantidades de datos almacenados en distintos formatos. Extraccin de informacin o de patrones (no trivial, implcita, previamente desconocida y potencialmente til) de grandes bases de datos. Proceso no elemental de bsqueda de relaciones, dependencias, modelos, asociaciones, tendencias, tipos que se obtienen de grandes juegos de datos. Es el proceso, lo ms automatizado posible, que va de los elementos disponibles en una bodega de datos a la decisin

Conceptos
Son dos los retos de la minera de datos:

Trabajar con grandes volmenes de datos que provienen de

diversas fuentes (ruido, datos ausentes, intratabilidad, volatilidad, ) Utilizar tcnicas adecuadas para analizar los datos y extraer conocimiento novedoso y til.
De manera simple se puede decir que la minera de datos

transforma los datos en conocimiento

Objetivos
Crear un proceso automatizado que toma como punto de

partida los datos y cuya meta es la ayuda a la toma de decisiones. El descubrimiento de reglas que mostrarn nuevas relaciones entre las variables o excepciones de acuerdo a la empresa en que se utilice este proceso. Estimar o predecir algunas variables de salida como secuencias en el tiempo, o bien en la identificacin e interrupcin a tiempo, de una futura mala experiencia de crdito. Analizar los datos para extraer conocimiento.

Que NO es Minera de Datos


Una herramienta o un paquete de software.

Hacer consultas analticas a una base de datos.


Un almacn o bodega de datos (data warehouse).

Orgenes de los datos


Bases de datos relacionales.

Documentos de texto, xml, archivos de Excel.


Imgenes, videos, audio. Internet.

Ejemplos
Crditos bancarios

Canasta de compra
Ventas de un producto Grupos de empleados Otros.

Ejemplo Estudiantes
Gnero Ingreso de los padres

Coeficiente

intelectual Estmulo de los padres Plan de ir la Universidad

Ejemplo Estudiantes
Usando esa informacin Qu impulsa a los estudiantes a ir a

la Universidad? Con OLAP:


Intencin de asistir segn el gnero. Relacionar cuantos desean asistir segn el apoyo de los padres.

Problemas:
Que pasa con los estudiantes masculinos que tienen apoyo de

los padres o las femeninas que no. Es necesario escribir muchas consultas para cubrir todas las posibles combinaciones. Las columnas numricas son ms difciles de analizar.

Ejemplo Estudiantes
Con Minera de Datos:
Es similar al caso inverso de consultar explorar. Primero explora los datos y luego extrae patrones relevantes. Se encarga de explorar los datos por usted.

Solo se indica cuales columnas sern usadas como valores

hipotticos. La minera de datos aplica algoritmos como rboles de decisin, clasificacin, asociacin, entre otros.

Ejemplo Estudiantes
Estudiantes con IQ

mayor a 100 y con apoyo de los padres tienen mayor intencin de asistir a la Universidad. Esto es extraer conocimiento!

Problemas empresariales
Generar recomendaciones.

Detectar anomalas.
Anlisis de lealtad de clientes. Administracin del riesgo. Segmentacin de los clientes. Crear anuncios personalizados. Pronsticos.

Tipos de modelos
La minera de datos tiene como objetivo analizar los

datos para extraer conocimiento, el cual puede ser en forma de relaciones, patrones inferidos por los datos.
Existen muchas formas de representar los modelos y

cada una de ellas determina el tipo de tcnica que puede usarse para inferirlos.

Tipos de modelos
Predictivos: pretenden estimar valores futuros o

desconocidos de variables.
Estimar la demanda de un producto nuevo en funcin del gasto

en publicidad. Tareas: clasificacin y regresin.


Descriptivos: identifican patrones que explican o resumen los

datos.
Identificar grupos de turistas con los mismos gustos. Tareas: agrupamiento y reglas de asociacin.

Tareas de minera de datos


Clasificacin

Agrupacin (segmentacin)
Asociacin. Regresin. Prediccin. Anlisis de secuencias.

Inteligencia de negocios
Es el proceso de analizar los bienes o datos acumulados en la

empresa y extraer una cierta inteligencia o conocimiento de ellos. Bases de datos de clientes, informacin de la cadena de suministro, ventas personales y cualquier actividad de marketing o fuente de informacin relevante para la empresa. Apoya a los tomadores de decisiones con la informacin correcta, en el momento y lugar correcto. Se le conoce tambin por Business Intelligence BI

Componentes de BI
Informacin multidimensional.

Minera de datos.
Agentes automticos. Almacenes de datos.

Proceso de descubrimiento de conocimiento en bases de datos


KDD: Knowledge Discovery in Databases

Proceso no trivial de identificar patrones vlidos, novedosos,

potencialmente tiles y, el ltima instancia, comprensibles a partir de los datos.

La minera de datos y KDD


Un trmino estrechamente relacionado con la minera de

datos es Descubrimiento de conocimiento en Bases de Datos KDD. Muchas veces se utilizan de manera indistinta, sin embargo la minera de datos es un proceso del KDD.

Sistemas Informacin

Preparacin de los datos

Minera de Datos

Patrones

Evaluacin Interpretacin Visualizacin

Conocimiento

KDD

Relacin con otras disciplinas


Computacin paralela Estadstica Aprendizaje automtico Otras

Visualizacin

Sistemas de toma de decisiones

Bases de Datos

Minera de Datos

Recuperacin informacin

Aplicaciones
Financieras: deteccin de fraude con tarjetas de crdito.

Mercadeo y comercio: segmentacin de clientes.


Seguros y salud: clientes potencialmente caros. Educacin: deteccin de desercin. Procesos industriales: prediccin de fallas y accidentes. Medicina: diagnstico de enfermedades. Biologa: anlisis de secuencias de genes. Telecomunicaciones: patrn de llamadas en horas pico. Recursos humanos: seleccin de empleados.

Ventajas
Los modelos son fciles de entender.

Se pueden analizar grandes bases de datos.


Se descubre informacin que no se esperaba. Los modelos son confiables. Los modelos se crean de manera rpida.

Base de Datos Transaccionales


Es una recopilacin de los datos lgicamente relacionados.

Diseada para reunir la informacin necesaria para el

adecuado desempeo de la organizacin. Contiene la informacin que se esta disponible y modificando constantemente. El diseo de Bases de Datos transaccionales incluyen la creacin de esquema en tres diferentes niveles:
Conceptual

Lgico
Fsico.

Base de Datos Transaccionales


Una Base de Datos es construida en 4 Fases:
1. 2. 3. 4.

Especificacin de requerimientos. Diseo conceptual. Diseo lgico. Diseo fsico.

Base de Datos Transaccionales


1. Especificacin de Requerimientos: En resumen lo

que se hace es establecer las necesidades de los usuarios con respecto al Sistema de Bases de Datos. 2. Diseo Conceptual: Permite crear un representacin de la Base de Datos orientada al usuario final. Se realiza principalmente revisando el modelo conceptual para identificar entidades, relaciones, atributos y otros objetos. Hoy dos estrategias principales:
Diseo Top-Down: Analizar de los General a lo especfico.

Todos los requerimientos de usuarios son reunidos como una sola actividad y se van separando de acuerdo a las necesidades individuales. Diseo Buttom-up: Es atender los requerimientos de cada usuario para luego integrarlos en una etapa posterior.

Base de Datos Transaccionales


3. Diseo lgico: permite trasladar la representacin del

modelo conceptual a un modelo de implementacin comn a varias Bases de Datos.


4. Diseo fsico: A partir del modelo lgico, se establecen

los elementos para un diseo que pueda ser implementado en motores de Bases de Datos como Oracle, SqlSever, My Sql y otros.

Modelo lgico
Tiene como objetivo elaborar una implantacin particular del

modelo a partir de la representacin conceptual, comn a varias Bases de Datos. Diferentes modelos lgicos:
Modelo Relacional

Modelo Objeto-Relacional
Modelo Orientado a Objetos Modelo Semiestructurado (XML)

Modelo Entidad Relacin


Modelo de datos: herramienta que se compone de un

mecanismo que describa los datos y tambin de un conjunto de operaciones para manipularlos.
El desarrollo de modelos y metodologas permiten

representar la informacin del mundo real en una forma cada vez mas fiel.

Modelo Entidad Relacin


Entidades: son los objetos o cosas. Se representa con un

rectngulo. Atributos: son caractersticas de los objetos. Se representa con un elipse. Si es identificativo se subraya. Relaciones: son verbos que identifican la relacin entre 2 entidades. Se representa con un triangulo. Entidad dbil: son entidades que depende de otra entidad. Se representa con un doble rectngulo. Cardinalidad: es el nmero de entidades que pueden estar relacionadas con una entidad dada. Se representan con 0, 1, N, M *

Modelo Entidad Relacin (ejemplo)

Modelo Entidad Relacin (ejemplo)

Laboratorio
Diseo de una Base de Datos Transaccional

Modelo Entidad / Relacin

Anda mungkin juga menyukai