Anda di halaman 1dari 24

Data Warehouse and Data ¿Por qué DW y DM?

Mining • Mayor poder de procesamiento y


José A. Royo sofisticación de herramientas
http://www.cps.unizar.es/~jaroyo • Demanda de mejora del acceso a datos
email: joalroyo@unizar.es • Necesidad de información para la toma de
decisiones
Departamento de Informática e Ingeniería de Sistemas • Recopilación de información ⇒ Alto Coste

Sistemas de Información-2003 José Alberto Royo 2

Información en las empresas


• La Información proviene de fuentes internas
(sistemas de producción) y externas (hasta un
20%)
Data Warehouse • Problemas
– Saturación de información
– Difícil de acceder
– No selectiva
• La información se necesita para:
– Competir (comparación con otros productos)
– Personalizar (simular que cada cliente es único)
Sistemas de Información-2003 José Alberto Royo 3 Sistemas de Información-2003 José Alberto Royo 4

1
Data Warehouse Data Warehouse
• Definición: colección de datos orientados al • Orientación al tema
tema, integrados, no volátiles e historiados, – Disponer de toda la información sobre un tema
organizados para el apoyo de un proceso de • No organizar los datos según los procesos
funcionales
ayuda a la decisión – La información común a varios temas no debe
• Se guarda toda la información útil duplicarse
(proveniente de varia fuentes) en un único – Los Data Mart apoyan la orientación al tema
lugar • BD orientada al tema puesta a disposición de los
usuarios en un contexto de decisión descentralizado

Sistemas de Información-2003 José Alberto Royo 5 Sistemas de Información-2003 José Alberto Royo 6

Data Warehouse Data Warehouse


• Datos integrados: • Datos no volátiles:
– Los datos deben formatearse y unificarse para – Consecuencia de la historilización
llegar a un estado coherente
• Ej.: consolidar todas las informaciones respecto a un – = consulta en = periodo ⇒ = resultado
cliente – Sistemas de producción no volátiles
• Datos historiados • Infocentro:
– Los datos no se actualizan nunca – similar al Data Warehouse pero centrado en el
• representan un valor en un momento concreto sistema de producción
– Los datos se referencian temporalmente

Sistemas de Información-2003 José Alberto Royo 7 Sistemas de Información-2003 José Alberto Royo 8

2
Datos
Data Warehouse: Estructura
• Matrices Multidimensionales o hipercubos
• Varia clases de datos – Ej.: periodo impositivo, producto y región
Datos fuertemente agregados – Pivotación: cambio de orientación de los ejes
Nivel de síntesis
Metadatos

Datos agregados

REG5
TR2
Datos detallados TR1

REG4
re
REG1 REG2 REG3 REG4 REG5

est
Nivel de historial

im
P1

Producto Tr

REG2 REG3
Datos detallados historiados Región
P2

• Estructura multidimensional

REG1
TR2

TR1
Sistemas de Información-2003 José Alberto Royo 9 Sistemas de Información-2003 José Alberto Royo 10

P1

P2

Datos: Representaciones
Datos: Representación física
Jerárquicas
• Exploración ascendente (roll-up) • 2 Tablas
– Agrupación de datos – Tabla de dimensiones
– Ej.: Agrupar datos mensuales en trimestrales – Tabla de hechos
• Exploración Descendente (drill-down) • Tipos de esquema
– Esquema de estrella:
– División de datos
• Tabla de hechos con una única tabla para cada
– Ej.: Ventas nacionales ⇒ provinciales dimensión
– Esquema de copos
• Tablas dimensiónales organizadas jerárquicamente

Sistemas de Información-2003 José Alberto Royo 11 Sistemas de Información-2003 José Alberto Royo 12

3
Construcción de un Data
DW: Características
Warehouse
Salvado de datos limpios
• Adquisición: Recopilar información de varias
fuentes y unificarla OLAP
– Extracción DATOS
DSS
– Preparación (formateo y limpieza) Limpieza Reformateo
METADATOS
Bases de Datos
– Carga MINERIA
• Almacenamiento: basado en un SGBD DE DATOS

– El historial influirá en la estructura física Otras entradas de datos


Actualizaciones/Nuevos Datos
• Acceso: distintos grupos de usuarios requerirán
distintas consultas

Sistemas de Información-2003 José Alberto Royo 13 Sistemas de Información-2003 José Alberto Royo 14

OLTP y OLAP DSS: Decision Support Systems


• OLTP (On-Line Transactionnel Processing): • EIS (Executive Information Systems o
entorno donde las respuestas se darán en un
tiempo aceptable y serán consistentes
sistemas de información ejecutiva)
– Transacciones predeterminadas • Ayuda para la toma de decisiones
– Utiliza pocas tablas • Dan datos de nivel superior
• OLAP (On-Line Analytical Processing): entorno
de ayuda a la decisión (análisis de datos)
– Transacciones muy variadas • DW preparado para OLAP y DSS
– Manejan volúmenes grandes de datos (+tiempo)
– Se relacionan datos aparentemente sin relación

Sistemas de Información-2003 José Alberto Royo 15 Sistemas de Información-2003 José Alberto Royo 16

4
Factores de éxito del DW Diferencias entre DW y vistas
• DW son un almacenamiento permanente
• Integra datos de producción con datos externos y – Vistas Construidas cuando es necesario
gestiona historiales
• DW son multidimensionales
• Contiene la información útil – Vistas suelen ser relacionales
• Los datos son coherentes, actualizados y • DW son indexados para optimizar su rendimiento
documentados (calidad) – Vistas son indexadas dependiendo de la BD subyacente
• Ofrece acceso directo a los usuarios • DW dan unas funcionalidades especificas
• Aumenta el número de accesos – Las vistas no
• Da una flexibilidad que apoya el crecimiento • DW poseen grandes cantidades de datos
– De usuarios, herramientas y volumen integrados y temporales
– Vistas son extractos de la BD
Sistemas de Información-2003 José Alberto Royo 17 Sistemas de Información-2003 José Alberto Royo 18

Errores a evitar Implementación: Dificultades


• Cargar datos solamente porque están • Alto coste
disponibles (podrían ser no útiles) • Urgente ayuda para la toma de decisiones
• Crear el esquema de la BD de forma – Data Mart
tradicional • Gran coste de mantenimiento
– Cambio de necesidades
• Crearlo pensando en la tecnología usada – Nuevas fuentes de datos
• Concentrarse en los datos internos – Cambio de la capacidad
• Creer que los problemas acaban una vez – Cambio de tecnología
instalado el Data Warehouse • Control de calidad de los datos
• Heterogeneidad e Integración de datos
Sistemas de Información-2003 José Alberto Royo 19 Sistemas de Información-2003 José Alberto Royo 20

5
Bibliografía
• J.M. Franco. EDS-Institut Prométhéus, “El
Data Warehouse. El Data Mining”,
Eyrolles,1997.
Data Mining

Sistemas de Información-2003 José Alberto Royo 21 Sistemas de Información-2003 José Alberto Royo 22

Data Mining Data Mining: Visión General


• Búsqueda de información relevante • Data Mining y Data Warehouse
(conocimiento) en grandes volúmenes de datos – Búsqueda automática de relaciones
• Descubrir de forma automática las reglas – Extracción de patrones
estadísticas y pautas de un conjunto de datos • Descubrimiento de conocimiento (Fases)
• ¿Diferencia con machine learning? Grandes – Selección de datos
volúmenes de datos grabados en disco – Limpieza de datos
• Objetivo obtener un conjunto de reglas – Transformación/Codificación de datos
– Minería de Datos
– Presentación visualización

Sistemas de Información-2003 José Alberto Royo 23 Sistemas de Información-2003 José Alberto Royo 24

6
Resultados del Data Mining Objetivos del Data Mining
• Descubrir • Predicción
– Reglas de asociación – Ej.: que compraran los clientes bajo determinados
descuentos
– Patrones secuenciales
• Identificación
– Árboles de clasificación – Ej.: secuencia de nucleótidos àpresencia gen
• Presentación de Resultados • Clasificación
– Listas – Ej.: clientes que buscan descuentos, fieles y ocasionales
– Representaciones Gráficas • Optimización
– Tablas resumen – utilización de recursos limitados: tiempo, espacio,
dinero, etc.
Sistemas de Información-2003 José Alberto Royo 25 Sistemas de Información-2003 José Alberto Royo 26

Conocimiento Descubierto Tipos de reglas


• Reglas de asociación • ∀X antecedente ⇒ consecuente
– Ej.: Compra bolso à Compra zapatos – X: lista de una o varias variables con rangos asociados
• Jerarquías de clasificación – Ej.: ∀ transacción T, compra(T,pan) ⇒
– Ej.: Clasificación de los clientes de un banco compra(T,leche)
• Patrones secuenciales • Rango de las variables à población
– Ej.: Cámara digital à Memorias MMC • Soporte: porcentaje de la población que cumple el
• Patrones de series de tiempo antecedente o el consecuente
– Ej.: Aumento de ventas de automóviles antes del verano • Confianza: porcentaje con que el consecuente es
• Categorización y segmentación cierto al serlo el antecedente
– Ej.: niños, jóvenes, adultos y jubilados
Sistemas de Información-2003 José Alberto Royo 27 Sistemas de Información-2003 José Alberto Royo 28

7
Data Mining Automático Clasificación
• Descubrimiento automático de reglas • Comienza con una muestra de datos de
clasificación conocida
• Técnicas de machine learning, adaptadas • Los datos se dividen según uno de sus atributos,
para grandes volúmenes de datos sucesivamente
• Tres tipos de problemas: – Atributos enumerados ⇒ un conjunto por valor
– Atributos con rango numérico ⇒ intervalos
– Clasificación: reglas que dividan en grupos
• Resultado: árbol de clasificación (taxonomía)
– Asociaciones: X à Y
• Hasta usar todos los atributos o clasificar
– Correlaciones entre series correctamente los datos

Sistemas de Información-2003 José Alberto Royo 29 Sistemas de Información-2003 José Alberto Royo 30

Asociaciones Asociaciones negativas


• Se genera un mapa de bits para cada transacción • Ej.: el 60% de los clientes que compran
(un bit para cada artículo a estudiar) patatas fritas no compran agua mineral
• Nos quedamos con los artículos más adquiridos • Si no combinación de elementos à
• Se generan todos los subconjuntos posibles de asociación negativa
artículos y se cuenta el número de transacciones – Tenemos muchísimas reglas sin ningún interés
• Los subconjuntos con un numero alto de • Utilizar conocimiento previo del problema
transacciones generan las reglas • Optimizaciones
– Muestreo

Sistemas de Información-2003 José Alberto Royo 31 Sistemas de Información-2003 José Alberto Royo 32

8
Data Mining Guiado por el
Otras Técnicas
Usuario • Regresión
• El usuario plantea hipótesis – Estadística
– Establecimiento de probabilidades
• El sistema comprueba si se verifica o no
• Redes neuronales
• Las hipótesis se pueden ir refinando – Entrenar la red
• La visualización gráfica de datos ayuda al – Reconocer los patrones según el entrenamiento

usuario a examinar grandes volúmenes de • Algoritmos genéticos


– Algoritmos probabilistas
datos – Población inicial
– Sobreviven los mejores
– Obtenemos datos en cada iteración
Sistemas de Información-2003 José Alberto Royo 33 Sistemas de Información-2003 José Alberto Royo 34

Aplicaciones Bibliografía
• Marketing
– Comportamiento del consumidor basado en patrones de • J.M. Franco. EDS-Institut Prométhéus, “El
compra Data Warehouse. El Data Mining”,
• Finanzas Eyrolles,1997.
– Análisis de rendimiento de operaciones
– Solvencia de clientes • R.A. Elmasri, S.B. Navathe, “Fundamentos
– Valoración de opciones de financiación de Sistemas de Bases de Datos, 3ª ed.”,
• Fabricación Addison-Wesley,2000.
– Optimización de recursos: maquinaria, mano de obra,
materiales
– Optimización del proceso de fabricación
Sistemas de Información-2003 José Alberto Royo 35 Sistemas de Información-2003 José Alberto Royo 36

9
Sist. de Inf. Geográfica (GIS)
• Sistemas que relacionan, almacenan,
Sistemas de Información manipulan y visualizan información
Geográfica referenciada geográficamente
• Sistemas de información que manejan datos
José Alberto Royo espaciales
– Algunos datos son referencias espaciales o
joalroyo@unizar.es coordenadas geográficas
– Poseen operadores para manejar dichos datos
Departamento de Informática e Ingeniería de Sistemas espaciales
Sistemas de Información-2003 José Alberto Royo 38

GIS: Categorías Información espacial


1. Aplicaciones Cartográficas • Multidimensional (x,y,z,t,...)
• Variedad de datos: características del suelo, densidad de
cultivo,calidad del aire • Voluminosidad
• Representación basada en campos • Naturaleza inexacta (no hay representaciones
• Superposición de capas
exactas de la Tierra)
2. Aplicaciones para el modelado digital de
terrenos • Las preguntas combinan topología, geografía y
• Variedad de datos otros atributos, con información aproximada
• Representación basada en campos • Combinan distintos contextos legales y
3. Aplicaciones de Objetos geográficos económicos (varían de un país a otro)
• Objetos físicos: centrales eléctricas, hospitales, etc.
• Representación basada en objetos
Sistemas de Información-2003 José Alberto Royo 39 Sistemas de Información-2003 José Alberto Royo 40

10
Mapas GIS: Operaciones sobre los Datos
• Interpolación
– Obtención de datos de elevación no obtenidos en la
• Estructuración
muestra
– Vectores (+versátil, -fácil de crear)
• Interpretación
• Creados con paneles digitalizadores
– Cierre de polígonos
– Rasters (-versátil, +fácil de crear) – Definición, reducción y mejora de detalles
• Cada celda almacena el tipo de terreno
• Creados mediante scanning • Análisis de proximidad
– Se puede pasar de un formato a otro (con un cierto – Cálculo de zonas de interés
error) • Procesamiento de imágenes en una matriz de
• Reconocimiento de formas en un raster → vectores puntos
• Pixelización de vectores → raster – Integrar características geográficas en distintas capas
– Análisis digital de imágenes
Sistemas de Información-2003 José Alberto Royo 41 Sistemas de Información-2003 José Alberto Royo 42

Otras funcionalidades Preguntas a los GIS


• Extensibilidad
– Continua evolución de los sistemas GIS • ¿Qué hay en cierta posición?
• Control de calidad de los datos
– ¿dónde estoy? • ¿Dónde hay cierto elemento?
– Problema debido a la variedad de tipos de datos • Muestra zonas que cuyos atributos cumplen
• Visualización ciertas condiciones
1. Contorneado
– Isolíneas • Generación de nuevos gráficos
2. Sombreado de montañas – mapas de elevación, densidad de población, etc.
– Método de iluminación empleado para representar relieves
3. Visualizaciones de perspectivas
– Imágenes tridimensionales
Sistemas de Información-2003 José Alberto Royo 43 Sistemas de Información-2003 José Alberto Royo 44

11
Utilidad de los GIS GIS: Trabajo Futuro
• Nuevas arquitecturas:
• Generación de mapas – Distribución de datos
• Selección de lugares – Separación de datos espaciales y no espaciales
• Versionado
• Creación de planes de emergencia – Ej.: ¿Qué pasa si construimos una autopista?
– Ante terremotos u otras catástrofes
• Estándares de Datos
• Simulación de transformaciones – Compartir de datos
medioambientales • Aplicaciones específicas
– Cambio en paisajes ante túneles, obras, – Tipos de datos distintos
urbanizaciones, etc. • Ausencia de semántica en las estructuras de datos
– Vías de sentido único
Sistemas de Información-2003 José Alberto Royo 45 Sistemas de Información-2003 José Alberto Royo 46

Bibliografía
• Keith C. Clarke, “Getting Started with
GIS”, Prentice-Hall, 1997, ISBN 0-13-294-
786-2.
• http://www.usgs.gov/research/gis/title.html

Sistemas de Información-2003 José Alberto Royo 47

12
Data Warehouse and Data ¿Por qué DW y DM?
Mining • Mayor poder de procesamiento y
José A. Royo sofisticación de herramientas
http://www.cps.unizar.es/~jaroyo • Demanda de mejora del acceso a datos
email: joalroyo@unizar.es • Necesidad de información para la toma de
decisiones
Departamento de Informática e Ingeniería de Sistemas • Recopilación de información ⇒ Alto Coste

Sistemas de Información-2003 José Alberto Royo 2

Información en las empresas


• La Información proviene de fuentes internas
(sistemas de producción) y externas (hasta un
20%)
Data Warehouse • Problemas
– Saturación de información
– Difícil de acceder
– No selectiva
• La información se necesita para:
– Competir (comparación con otros productos)
– Personalizar (simular que cada cliente es único)
Sistemas de Información-2003 José Alberto Royo 3 Sistemas de Información-2003 José Alberto Royo 4

1
Data Warehouse Data Warehouse
• Definición: colección de datos orientados al • Orientación al tema
tema, integrados, no volátiles e historiados, – Disponer de toda la información sobre un tema
organizados para el apoyo de un proceso de • No organizar los datos según los procesos
funcionales
ayuda a la decisión – La información común a varios temas no debe
• Se guarda toda la información útil duplicarse
(proveniente de varia fuentes) en un único – Los Data Mart apoyan la orientación al tema
lugar • BD orientada al tema puesta a disposición de los
usuarios en un contexto de decisión descentralizado

Sistemas de Información-2003 José Alberto Royo 5 Sistemas de Información-2003 José Alberto Royo 6

Data Warehouse Data Warehouse


• Datos integrados: • Datos no volátiles:
– Los datos deben formatearse y unificarse para – Consecuencia de la historilización
llegar a un estado coherente
• Ej.: consolidar todas las informaciones respecto a un – = consulta en = periodo ⇒ = resultado
cliente – Sistemas de producción no volátiles
• Datos historiados • Infocentro:
– Los datos no se actualizan nunca – similar al Data Warehouse pero centrado en el
• representan un valor en un momento concreto sistema de producción
– Los datos se referencian temporalmente

Sistemas de Información-2003 José Alberto Royo 7 Sistemas de Información-2003 José Alberto Royo 8

2
Datos
Data Warehouse: Estructura
• Matrices Multidimensionales o hipercubos
• Varia clases de datos – Ej.: periodo impositivo, producto y región
Datos fuertemente agregados – Pivotación: cambio de orientación de los ejes
Nivel de síntesis
Metadatos

Datos agregados

REG5
TR2
Datos detallados TR1

REG4
re
REG1 REG2 REG3 REG4 REG5

est
Nivel de historial

im
P1

Producto Tr

REG2 REG3
Datos detallados historiados Región
P2

• Estructura multidimensional

REG1
TR2

TR1
Sistemas de Información-2003 José Alberto Royo 9 Sistemas de Información-2003 José Alberto Royo 10

P1

P2

Datos: Representaciones
Datos: Representación física
Jerárquicas
• Exploración ascendente (roll-up) • 2 Tablas
– Agrupación de datos – Tabla de dimensiones
– Ej.: Agrupar datos mensuales en trimestrales – Tabla de hechos
• Exploración Descendente (drill-down) • Tipos de esquema
– Esquema de estrella:
– División de datos
• Tabla de hechos con una única tabla para cada
– Ej.: Ventas nacionales ⇒ provinciales dimensión
– Esquema de copos
• Tablas dimensiónales organizadas jerárquicamente

Sistemas de Información-2003 José Alberto Royo 11 Sistemas de Información-2003 José Alberto Royo 12

3
Construcción de un Data
DW: Características
Warehouse
Salvado de datos limpios
• Adquisición: Recopilar información de varias
fuentes y unificarla OLAP
– Extracción DATOS
DSS
– Preparación (formateo y limpieza) Limpieza Reformateo
METADATOS
Bases de Datos
– Carga MINERIA
• Almacenamiento: basado en un SGBD DE DATOS

– El historial influirá en la estructura física Otras entradas de datos


Actualizaciones/Nuevos Datos
• Acceso: distintos grupos de usuarios requerirán
distintas consultas

Sistemas de Información-2003 José Alberto Royo 13 Sistemas de Información-2003 José Alberto Royo 14

OLTP y OLAP DSS: Decision Support Systems


• OLTP (On-Line Transactionnel Processing): • EIS (Executive Information Systems o
entorno donde las respuestas se darán en un
tiempo aceptable y serán consistentes
sistemas de información ejecutiva)
– Transacciones predeterminadas • Ayuda para la toma de decisiones
– Utiliza pocas tablas • Dan datos de nivel superior
• OLAP (On-Line Analytical Processing): entorno
de ayuda a la decisión (análisis de datos)
– Transacciones muy variadas • DW preparado para OLAP y DSS
– Manejan volúmenes grandes de datos (+tiempo)
– Se relacionan datos aparentemente sin relación

Sistemas de Información-2003 José Alberto Royo 15 Sistemas de Información-2003 José Alberto Royo 16

4
Factores de éxito del DW Diferencias entre DW y vistas
• DW son un almacenamiento permanente
• Integra datos de producción con datos externos y – Vistas Construidas cuando es necesario
gestiona historiales
• DW son multidimensionales
• Contiene la información útil – Vistas suelen ser relacionales
• Los datos son coherentes, actualizados y • DW son indexados para optimizar su rendimiento
documentados (calidad) – Vistas son indexadas dependiendo de la BD subyacente
• Ofrece acceso directo a los usuarios • DW dan unas funcionalidades especificas
• Aumenta el número de accesos – Las vistas no
• Da una flexibilidad que apoya el crecimiento • DW poseen grandes cantidades de datos
– De usuarios, herramientas y volumen integrados y temporales
– Vistas son extractos de la BD
Sistemas de Información-2003 José Alberto Royo 17 Sistemas de Información-2003 José Alberto Royo 18

Errores a evitar Implementación: Dificultades


• Cargar datos solamente porque están • Alto coste
disponibles (podrían ser no útiles) • Urgente ayuda para la toma de decisiones
• Crear el esquema de la BD de forma – Data Mart
tradicional • Gran coste de mantenimiento
– Cambio de necesidades
• Crearlo pensando en la tecnología usada – Nuevas fuentes de datos
• Concentrarse en los datos internos – Cambio de la capacidad
• Creer que los problemas acaban una vez – Cambio de tecnología
instalado el Data Warehouse • Control de calidad de los datos
• Heterogeneidad e Integración de datos
Sistemas de Información-2003 José Alberto Royo 19 Sistemas de Información-2003 José Alberto Royo 20

5
Bibliografía
• J.M. Franco. EDS-Institut Prométhéus, “El
Data Warehouse. El Data Mining”,
Eyrolles,1997.
Data Mining

Sistemas de Información-2003 José Alberto Royo 21 Sistemas de Información-2003 José Alberto Royo 22

Data Mining Data Mining: Visión General


• Búsqueda de información relevante • Data Mining y Data Warehouse
(conocimiento) en grandes volúmenes de datos – Búsqueda automática de relaciones
• Descubrir de forma automática las reglas – Extracción de patrones
estadísticas y pautas de un conjunto de datos • Descubrimiento de conocimiento (Fases)
• ¿Diferencia con machine learning? Grandes – Selección de datos
volúmenes de datos grabados en disco – Limpieza de datos
• Objetivo obtener un conjunto de reglas – Transformación/Codificación de datos
– Minería de Datos
– Presentación visualización

Sistemas de Información-2003 José Alberto Royo 23 Sistemas de Información-2003 José Alberto Royo 24

6
Resultados del Data Mining Objetivos del Data Mining
• Descubrir • Predicción
– Reglas de asociación – Ej.: que compraran los clientes bajo determinados
descuentos
– Patrones secuenciales
• Identificación
– Árboles de clasificación – Ej.: secuencia de nucleótidos àpresencia gen
• Presentación de Resultados • Clasificación
– Listas – Ej.: clientes que buscan descuentos, fieles y ocasionales
– Representaciones Gráficas • Optimización
– Tablas resumen – utilización de recursos limitados: tiempo, espacio,
dinero, etc.
Sistemas de Información-2003 José Alberto Royo 25 Sistemas de Información-2003 José Alberto Royo 26

Conocimiento Descubierto Tipos de reglas


• Reglas de asociación • ∀X antecedente ⇒ consecuente
– Ej.: Compra bolso à Compra zapatos – X: lista de una o varias variables con rangos asociados
• Jerarquías de clasificación – Ej.: ∀ transacción T, compra(T,pan) ⇒
– Ej.: Clasificación de los clientes de un banco compra(T,leche)
• Patrones secuenciales • Rango de las variables à población
– Ej.: Cámara digital à Memorias MMC • Soporte: porcentaje de la población que cumple el
• Patrones de series de tiempo antecedente o el consecuente
– Ej.: Aumento de ventas de automóviles antes del verano • Confianza: porcentaje con que el consecuente es
• Categorización y segmentación cierto al serlo el antecedente
– Ej.: niños, jóvenes, adultos y jubilados
Sistemas de Información-2003 José Alberto Royo 27 Sistemas de Información-2003 José Alberto Royo 28

7
Data Mining Automático Clasificación
• Descubrimiento automático de reglas • Comienza con una muestra de datos de
clasificación conocida
• Técnicas de machine learning, adaptadas • Los datos se dividen según uno de sus atributos,
para grandes volúmenes de datos sucesivamente
• Tres tipos de problemas: – Atributos enumerados ⇒ un conjunto por valor
– Atributos con rango numérico ⇒ intervalos
– Clasificación: reglas que dividan en grupos
• Resultado: árbol de clasificación (taxonomía)
– Asociaciones: X à Y
• Hasta usar todos los atributos o clasificar
– Correlaciones entre series correctamente los datos

Sistemas de Información-2003 José Alberto Royo 29 Sistemas de Información-2003 José Alberto Royo 30

Asociaciones Asociaciones negativas


• Se genera un mapa de bits para cada transacción • Ej.: el 60% de los clientes que compran
(un bit para cada artículo a estudiar) patatas fritas no compran agua mineral
• Nos quedamos con los artículos más adquiridos • Si no combinación de elementos à
• Se generan todos los subconjuntos posibles de asociación negativa
artículos y se cuenta el número de transacciones – Tenemos muchísimas reglas sin ningún interés
• Los subconjuntos con un numero alto de • Utilizar conocimiento previo del problema
transacciones generan las reglas • Optimizaciones
– Muestreo

Sistemas de Información-2003 José Alberto Royo 31 Sistemas de Información-2003 José Alberto Royo 32

8
Data Mining Guiado por el
Otras Técnicas
Usuario • Regresión
• El usuario plantea hipótesis – Estadística
– Establecimiento de probabilidades
• El sistema comprueba si se verifica o no
• Redes neuronales
• Las hipótesis se pueden ir refinando – Entrenar la red
• La visualización gráfica de datos ayuda al – Reconocer los patrones según el entrenamiento

usuario a examinar grandes volúmenes de • Algoritmos genéticos


– Algoritmos probabilistas
datos – Población inicial
– Sobreviven los mejores
– Obtenemos datos en cada iteración
Sistemas de Información-2003 José Alberto Royo 33 Sistemas de Información-2003 José Alberto Royo 34

Aplicaciones Bibliografía
• Marketing
– Comportamiento del consumidor basado en patrones de • J.M. Franco. EDS-Institut Prométhéus, “El
compra Data Warehouse. El Data Mining”,
• Finanzas Eyrolles,1997.
– Análisis de rendimiento de operaciones
– Solvencia de clientes • R.A. Elmasri, S.B. Navathe, “Fundamentos
– Valoración de opciones de financiación de Sistemas de Bases de Datos, 3ª ed.”,
• Fabricación Addison-Wesley,2000.
– Optimización de recursos: maquinaria, mano de obra,
materiales
– Optimización del proceso de fabricación
Sistemas de Información-2003 José Alberto Royo 35 Sistemas de Información-2003 José Alberto Royo 36

9
Sist. de Inf. Geográfica (GIS)
• Sistemas que relacionan, almacenan,
Sistemas de Información manipulan y visualizan información
Geográfica referenciada geográficamente
• Sistemas de información que manejan datos
José Alberto Royo espaciales
– Algunos datos son referencias espaciales o
joalroyo@unizar.es coordenadas geográficas
– Poseen operadores para manejar dichos datos
Departamento de Informática e Ingeniería de Sistemas espaciales
Sistemas de Información-2003 José Alberto Royo 38

GIS: Categorías Información espacial


1. Aplicaciones Cartográficas • Multidimensional (x,y,z,t,...)
• Variedad de datos: características del suelo, densidad de
cultivo,calidad del aire • Voluminosidad
• Representación basada en campos • Naturaleza inexacta (no hay representaciones
• Superposición de capas
exactas de la Tierra)
2. Aplicaciones para el modelado digital de
terrenos • Las preguntas combinan topología, geografía y
• Variedad de datos otros atributos, con información aproximada
• Representación basada en campos • Combinan distintos contextos legales y
3. Aplicaciones de Objetos geográficos económicos (varían de un país a otro)
• Objetos físicos: centrales eléctricas, hospitales, etc.
• Representación basada en objetos
Sistemas de Información-2003 José Alberto Royo 39 Sistemas de Información-2003 José Alberto Royo 40

10
Mapas GIS: Operaciones sobre los Datos
• Interpolación
– Obtención de datos de elevación no obtenidos en la
• Estructuración
muestra
– Vectores (+versátil, -fácil de crear)
• Interpretación
• Creados con paneles digitalizadores
– Cierre de polígonos
– Rasters (-versátil, +fácil de crear) – Definición, reducción y mejora de detalles
• Cada celda almacena el tipo de terreno
• Creados mediante scanning • Análisis de proximidad
– Se puede pasar de un formato a otro (con un cierto – Cálculo de zonas de interés
error) • Procesamiento de imágenes en una matriz de
• Reconocimiento de formas en un raster → vectores puntos
• Pixelización de vectores → raster – Integrar características geográficas en distintas capas
– Análisis digital de imágenes
Sistemas de Información-2003 José Alberto Royo 41 Sistemas de Información-2003 José Alberto Royo 42

Otras funcionalidades Preguntas a los GIS


• Extensibilidad
– Continua evolución de los sistemas GIS • ¿Qué hay en cierta posición?
• Control de calidad de los datos
– ¿dónde estoy? • ¿Dónde hay cierto elemento?
– Problema debido a la variedad de tipos de datos • Muestra zonas que cuyos atributos cumplen
• Visualización ciertas condiciones
1. Contorneado
– Isolíneas • Generación de nuevos gráficos
2. Sombreado de montañas – mapas de elevación, densidad de población, etc.
– Método de iluminación empleado para representar relieves
3. Visualizaciones de perspectivas
– Imágenes tridimensionales
Sistemas de Información-2003 José Alberto Royo 43 Sistemas de Información-2003 José Alberto Royo 44

11
Utilidad de los GIS GIS: Trabajo Futuro
• Nuevas arquitecturas:
• Generación de mapas – Distribución de datos
• Selección de lugares – Separación de datos espaciales y no espaciales
• Versionado
• Creación de planes de emergencia – Ej.: ¿Qué pasa si construimos una autopista?
– Ante terremotos u otras catástrofes
• Estándares de Datos
• Simulación de transformaciones – Compartir de datos
medioambientales • Aplicaciones específicas
– Cambio en paisajes ante túneles, obras, – Tipos de datos distintos
urbanizaciones, etc. • Ausencia de semántica en las estructuras de datos
– Vías de sentido único
Sistemas de Información-2003 José Alberto Royo 45 Sistemas de Información-2003 José Alberto Royo 46

Bibliografía
• Keith C. Clarke, “Getting Started with
GIS”, Prentice-Hall, 1997, ISBN 0-13-294-
786-2.
• http://www.usgs.gov/research/gis/title.html

Sistemas de Información-2003 José Alberto Royo 47

12

Anda mungkin juga menyukai