1
Data Warehouse Data Warehouse
• Definición: colección de datos orientados al • Orientación al tema
tema, integrados, no volátiles e historiados, – Disponer de toda la información sobre un tema
organizados para el apoyo de un proceso de • No organizar los datos según los procesos
funcionales
ayuda a la decisión – La información común a varios temas no debe
• Se guarda toda la información útil duplicarse
(proveniente de varia fuentes) en un único – Los Data Mart apoyan la orientación al tema
lugar • BD orientada al tema puesta a disposición de los
usuarios en un contexto de decisión descentralizado
Sistemas de Información-2003 José Alberto Royo 5 Sistemas de Información-2003 José Alberto Royo 6
Sistemas de Información-2003 José Alberto Royo 7 Sistemas de Información-2003 José Alberto Royo 8
2
Datos
Data Warehouse: Estructura
• Matrices Multidimensionales o hipercubos
• Varia clases de datos – Ej.: periodo impositivo, producto y región
Datos fuertemente agregados – Pivotación: cambio de orientación de los ejes
Nivel de síntesis
Metadatos
Datos agregados
REG5
TR2
Datos detallados TR1
REG4
re
REG1 REG2 REG3 REG4 REG5
est
Nivel de historial
im
P1
Producto Tr
REG2 REG3
Datos detallados historiados Región
P2
• Estructura multidimensional
REG1
TR2
TR1
Sistemas de Información-2003 José Alberto Royo 9 Sistemas de Información-2003 José Alberto Royo 10
P1
P2
Datos: Representaciones
Datos: Representación física
Jerárquicas
• Exploración ascendente (roll-up) • 2 Tablas
– Agrupación de datos – Tabla de dimensiones
– Ej.: Agrupar datos mensuales en trimestrales – Tabla de hechos
• Exploración Descendente (drill-down) • Tipos de esquema
– Esquema de estrella:
– División de datos
• Tabla de hechos con una única tabla para cada
– Ej.: Ventas nacionales ⇒ provinciales dimensión
– Esquema de copos
• Tablas dimensiónales organizadas jerárquicamente
Sistemas de Información-2003 José Alberto Royo 11 Sistemas de Información-2003 José Alberto Royo 12
3
Construcción de un Data
DW: Características
Warehouse
Salvado de datos limpios
• Adquisición: Recopilar información de varias
fuentes y unificarla OLAP
– Extracción DATOS
DSS
– Preparación (formateo y limpieza) Limpieza Reformateo
METADATOS
Bases de Datos
– Carga MINERIA
• Almacenamiento: basado en un SGBD DE DATOS
Sistemas de Información-2003 José Alberto Royo 13 Sistemas de Información-2003 José Alberto Royo 14
Sistemas de Información-2003 José Alberto Royo 15 Sistemas de Información-2003 José Alberto Royo 16
4
Factores de éxito del DW Diferencias entre DW y vistas
• DW son un almacenamiento permanente
• Integra datos de producción con datos externos y – Vistas Construidas cuando es necesario
gestiona historiales
• DW son multidimensionales
• Contiene la información útil – Vistas suelen ser relacionales
• Los datos son coherentes, actualizados y • DW son indexados para optimizar su rendimiento
documentados (calidad) – Vistas son indexadas dependiendo de la BD subyacente
• Ofrece acceso directo a los usuarios • DW dan unas funcionalidades especificas
• Aumenta el número de accesos – Las vistas no
• Da una flexibilidad que apoya el crecimiento • DW poseen grandes cantidades de datos
– De usuarios, herramientas y volumen integrados y temporales
– Vistas son extractos de la BD
Sistemas de Información-2003 José Alberto Royo 17 Sistemas de Información-2003 José Alberto Royo 18
5
Bibliografía
• J.M. Franco. EDS-Institut Prométhéus, “El
Data Warehouse. El Data Mining”,
Eyrolles,1997.
Data Mining
Sistemas de Información-2003 José Alberto Royo 21 Sistemas de Información-2003 José Alberto Royo 22
Sistemas de Información-2003 José Alberto Royo 23 Sistemas de Información-2003 José Alberto Royo 24
6
Resultados del Data Mining Objetivos del Data Mining
• Descubrir • Predicción
– Reglas de asociación – Ej.: que compraran los clientes bajo determinados
descuentos
– Patrones secuenciales
• Identificación
– Árboles de clasificación – Ej.: secuencia de nucleótidos àpresencia gen
• Presentación de Resultados • Clasificación
– Listas – Ej.: clientes que buscan descuentos, fieles y ocasionales
– Representaciones Gráficas • Optimización
– Tablas resumen – utilización de recursos limitados: tiempo, espacio,
dinero, etc.
Sistemas de Información-2003 José Alberto Royo 25 Sistemas de Información-2003 José Alberto Royo 26
7
Data Mining Automático Clasificación
• Descubrimiento automático de reglas • Comienza con una muestra de datos de
clasificación conocida
• Técnicas de machine learning, adaptadas • Los datos se dividen según uno de sus atributos,
para grandes volúmenes de datos sucesivamente
• Tres tipos de problemas: – Atributos enumerados ⇒ un conjunto por valor
– Atributos con rango numérico ⇒ intervalos
– Clasificación: reglas que dividan en grupos
• Resultado: árbol de clasificación (taxonomía)
– Asociaciones: X à Y
• Hasta usar todos los atributos o clasificar
– Correlaciones entre series correctamente los datos
Sistemas de Información-2003 José Alberto Royo 29 Sistemas de Información-2003 José Alberto Royo 30
Sistemas de Información-2003 José Alberto Royo 31 Sistemas de Información-2003 José Alberto Royo 32
8
Data Mining Guiado por el
Otras Técnicas
Usuario • Regresión
• El usuario plantea hipótesis – Estadística
– Establecimiento de probabilidades
• El sistema comprueba si se verifica o no
• Redes neuronales
• Las hipótesis se pueden ir refinando – Entrenar la red
• La visualización gráfica de datos ayuda al – Reconocer los patrones según el entrenamiento
Aplicaciones Bibliografía
• Marketing
– Comportamiento del consumidor basado en patrones de • J.M. Franco. EDS-Institut Prométhéus, “El
compra Data Warehouse. El Data Mining”,
• Finanzas Eyrolles,1997.
– Análisis de rendimiento de operaciones
– Solvencia de clientes • R.A. Elmasri, S.B. Navathe, “Fundamentos
– Valoración de opciones de financiación de Sistemas de Bases de Datos, 3ª ed.”,
• Fabricación Addison-Wesley,2000.
– Optimización de recursos: maquinaria, mano de obra,
materiales
– Optimización del proceso de fabricación
Sistemas de Información-2003 José Alberto Royo 35 Sistemas de Información-2003 José Alberto Royo 36
9
Sist. de Inf. Geográfica (GIS)
• Sistemas que relacionan, almacenan,
Sistemas de Información manipulan y visualizan información
Geográfica referenciada geográficamente
• Sistemas de información que manejan datos
José Alberto Royo espaciales
– Algunos datos son referencias espaciales o
joalroyo@unizar.es coordenadas geográficas
– Poseen operadores para manejar dichos datos
Departamento de Informática e Ingeniería de Sistemas espaciales
Sistemas de Información-2003 José Alberto Royo 38
10
Mapas GIS: Operaciones sobre los Datos
• Interpolación
– Obtención de datos de elevación no obtenidos en la
• Estructuración
muestra
– Vectores (+versátil, -fácil de crear)
• Interpretación
• Creados con paneles digitalizadores
– Cierre de polígonos
– Rasters (-versátil, +fácil de crear) – Definición, reducción y mejora de detalles
• Cada celda almacena el tipo de terreno
• Creados mediante scanning • Análisis de proximidad
– Se puede pasar de un formato a otro (con un cierto – Cálculo de zonas de interés
error) • Procesamiento de imágenes en una matriz de
• Reconocimiento de formas en un raster → vectores puntos
• Pixelización de vectores → raster – Integrar características geográficas en distintas capas
– Análisis digital de imágenes
Sistemas de Información-2003 José Alberto Royo 41 Sistemas de Información-2003 José Alberto Royo 42
11
Utilidad de los GIS GIS: Trabajo Futuro
• Nuevas arquitecturas:
• Generación de mapas – Distribución de datos
• Selección de lugares – Separación de datos espaciales y no espaciales
• Versionado
• Creación de planes de emergencia – Ej.: ¿Qué pasa si construimos una autopista?
– Ante terremotos u otras catástrofes
• Estándares de Datos
• Simulación de transformaciones – Compartir de datos
medioambientales • Aplicaciones específicas
– Cambio en paisajes ante túneles, obras, – Tipos de datos distintos
urbanizaciones, etc. • Ausencia de semántica en las estructuras de datos
– Vías de sentido único
Sistemas de Información-2003 José Alberto Royo 45 Sistemas de Información-2003 José Alberto Royo 46
Bibliografía
• Keith C. Clarke, “Getting Started with
GIS”, Prentice-Hall, 1997, ISBN 0-13-294-
786-2.
• http://www.usgs.gov/research/gis/title.html
12
Data Warehouse and Data ¿Por qué DW y DM?
Mining • Mayor poder de procesamiento y
José A. Royo sofisticación de herramientas
http://www.cps.unizar.es/~jaroyo • Demanda de mejora del acceso a datos
email: joalroyo@unizar.es • Necesidad de información para la toma de
decisiones
Departamento de Informática e Ingeniería de Sistemas • Recopilación de información ⇒ Alto Coste
1
Data Warehouse Data Warehouse
• Definición: colección de datos orientados al • Orientación al tema
tema, integrados, no volátiles e historiados, – Disponer de toda la información sobre un tema
organizados para el apoyo de un proceso de • No organizar los datos según los procesos
funcionales
ayuda a la decisión – La información común a varios temas no debe
• Se guarda toda la información útil duplicarse
(proveniente de varia fuentes) en un único – Los Data Mart apoyan la orientación al tema
lugar • BD orientada al tema puesta a disposición de los
usuarios en un contexto de decisión descentralizado
Sistemas de Información-2003 José Alberto Royo 5 Sistemas de Información-2003 José Alberto Royo 6
Sistemas de Información-2003 José Alberto Royo 7 Sistemas de Información-2003 José Alberto Royo 8
2
Datos
Data Warehouse: Estructura
• Matrices Multidimensionales o hipercubos
• Varia clases de datos – Ej.: periodo impositivo, producto y región
Datos fuertemente agregados – Pivotación: cambio de orientación de los ejes
Nivel de síntesis
Metadatos
Datos agregados
REG5
TR2
Datos detallados TR1
REG4
re
REG1 REG2 REG3 REG4 REG5
est
Nivel de historial
im
P1
Producto Tr
REG2 REG3
Datos detallados historiados Región
P2
• Estructura multidimensional
REG1
TR2
TR1
Sistemas de Información-2003 José Alberto Royo 9 Sistemas de Información-2003 José Alberto Royo 10
P1
P2
Datos: Representaciones
Datos: Representación física
Jerárquicas
• Exploración ascendente (roll-up) • 2 Tablas
– Agrupación de datos – Tabla de dimensiones
– Ej.: Agrupar datos mensuales en trimestrales – Tabla de hechos
• Exploración Descendente (drill-down) • Tipos de esquema
– Esquema de estrella:
– División de datos
• Tabla de hechos con una única tabla para cada
– Ej.: Ventas nacionales ⇒ provinciales dimensión
– Esquema de copos
• Tablas dimensiónales organizadas jerárquicamente
Sistemas de Información-2003 José Alberto Royo 11 Sistemas de Información-2003 José Alberto Royo 12
3
Construcción de un Data
DW: Características
Warehouse
Salvado de datos limpios
• Adquisición: Recopilar información de varias
fuentes y unificarla OLAP
– Extracción DATOS
DSS
– Preparación (formateo y limpieza) Limpieza Reformateo
METADATOS
Bases de Datos
– Carga MINERIA
• Almacenamiento: basado en un SGBD DE DATOS
Sistemas de Información-2003 José Alberto Royo 13 Sistemas de Información-2003 José Alberto Royo 14
Sistemas de Información-2003 José Alberto Royo 15 Sistemas de Información-2003 José Alberto Royo 16
4
Factores de éxito del DW Diferencias entre DW y vistas
• DW son un almacenamiento permanente
• Integra datos de producción con datos externos y – Vistas Construidas cuando es necesario
gestiona historiales
• DW son multidimensionales
• Contiene la información útil – Vistas suelen ser relacionales
• Los datos son coherentes, actualizados y • DW son indexados para optimizar su rendimiento
documentados (calidad) – Vistas son indexadas dependiendo de la BD subyacente
• Ofrece acceso directo a los usuarios • DW dan unas funcionalidades especificas
• Aumenta el número de accesos – Las vistas no
• Da una flexibilidad que apoya el crecimiento • DW poseen grandes cantidades de datos
– De usuarios, herramientas y volumen integrados y temporales
– Vistas son extractos de la BD
Sistemas de Información-2003 José Alberto Royo 17 Sistemas de Información-2003 José Alberto Royo 18
5
Bibliografía
• J.M. Franco. EDS-Institut Prométhéus, “El
Data Warehouse. El Data Mining”,
Eyrolles,1997.
Data Mining
Sistemas de Información-2003 José Alberto Royo 21 Sistemas de Información-2003 José Alberto Royo 22
Sistemas de Información-2003 José Alberto Royo 23 Sistemas de Información-2003 José Alberto Royo 24
6
Resultados del Data Mining Objetivos del Data Mining
• Descubrir • Predicción
– Reglas de asociación – Ej.: que compraran los clientes bajo determinados
descuentos
– Patrones secuenciales
• Identificación
– Árboles de clasificación – Ej.: secuencia de nucleótidos àpresencia gen
• Presentación de Resultados • Clasificación
– Listas – Ej.: clientes que buscan descuentos, fieles y ocasionales
– Representaciones Gráficas • Optimización
– Tablas resumen – utilización de recursos limitados: tiempo, espacio,
dinero, etc.
Sistemas de Información-2003 José Alberto Royo 25 Sistemas de Información-2003 José Alberto Royo 26
7
Data Mining Automático Clasificación
• Descubrimiento automático de reglas • Comienza con una muestra de datos de
clasificación conocida
• Técnicas de machine learning, adaptadas • Los datos se dividen según uno de sus atributos,
para grandes volúmenes de datos sucesivamente
• Tres tipos de problemas: – Atributos enumerados ⇒ un conjunto por valor
– Atributos con rango numérico ⇒ intervalos
– Clasificación: reglas que dividan en grupos
• Resultado: árbol de clasificación (taxonomía)
– Asociaciones: X à Y
• Hasta usar todos los atributos o clasificar
– Correlaciones entre series correctamente los datos
Sistemas de Información-2003 José Alberto Royo 29 Sistemas de Información-2003 José Alberto Royo 30
Sistemas de Información-2003 José Alberto Royo 31 Sistemas de Información-2003 José Alberto Royo 32
8
Data Mining Guiado por el
Otras Técnicas
Usuario • Regresión
• El usuario plantea hipótesis – Estadística
– Establecimiento de probabilidades
• El sistema comprueba si se verifica o no
• Redes neuronales
• Las hipótesis se pueden ir refinando – Entrenar la red
• La visualización gráfica de datos ayuda al – Reconocer los patrones según el entrenamiento
Aplicaciones Bibliografía
• Marketing
– Comportamiento del consumidor basado en patrones de • J.M. Franco. EDS-Institut Prométhéus, “El
compra Data Warehouse. El Data Mining”,
• Finanzas Eyrolles,1997.
– Análisis de rendimiento de operaciones
– Solvencia de clientes • R.A. Elmasri, S.B. Navathe, “Fundamentos
– Valoración de opciones de financiación de Sistemas de Bases de Datos, 3ª ed.”,
• Fabricación Addison-Wesley,2000.
– Optimización de recursos: maquinaria, mano de obra,
materiales
– Optimización del proceso de fabricación
Sistemas de Información-2003 José Alberto Royo 35 Sistemas de Información-2003 José Alberto Royo 36
9
Sist. de Inf. Geográfica (GIS)
• Sistemas que relacionan, almacenan,
Sistemas de Información manipulan y visualizan información
Geográfica referenciada geográficamente
• Sistemas de información que manejan datos
José Alberto Royo espaciales
– Algunos datos son referencias espaciales o
joalroyo@unizar.es coordenadas geográficas
– Poseen operadores para manejar dichos datos
Departamento de Informática e Ingeniería de Sistemas espaciales
Sistemas de Información-2003 José Alberto Royo 38
10
Mapas GIS: Operaciones sobre los Datos
• Interpolación
– Obtención de datos de elevación no obtenidos en la
• Estructuración
muestra
– Vectores (+versátil, -fácil de crear)
• Interpretación
• Creados con paneles digitalizadores
– Cierre de polígonos
– Rasters (-versátil, +fácil de crear) – Definición, reducción y mejora de detalles
• Cada celda almacena el tipo de terreno
• Creados mediante scanning • Análisis de proximidad
– Se puede pasar de un formato a otro (con un cierto – Cálculo de zonas de interés
error) • Procesamiento de imágenes en una matriz de
• Reconocimiento de formas en un raster → vectores puntos
• Pixelización de vectores → raster – Integrar características geográficas en distintas capas
– Análisis digital de imágenes
Sistemas de Información-2003 José Alberto Royo 41 Sistemas de Información-2003 José Alberto Royo 42
11
Utilidad de los GIS GIS: Trabajo Futuro
• Nuevas arquitecturas:
• Generación de mapas – Distribución de datos
• Selección de lugares – Separación de datos espaciales y no espaciales
• Versionado
• Creación de planes de emergencia – Ej.: ¿Qué pasa si construimos una autopista?
– Ante terremotos u otras catástrofes
• Estándares de Datos
• Simulación de transformaciones – Compartir de datos
medioambientales • Aplicaciones específicas
– Cambio en paisajes ante túneles, obras, – Tipos de datos distintos
urbanizaciones, etc. • Ausencia de semántica en las estructuras de datos
– Vías de sentido único
Sistemas de Información-2003 José Alberto Royo 45 Sistemas de Información-2003 José Alberto Royo 46
Bibliografía
• Keith C. Clarke, “Getting Started with
GIS”, Prentice-Hall, 1997, ISBN 0-13-294-
786-2.
• http://www.usgs.gov/research/gis/title.html
12