Anda di halaman 1dari 19

2.

1 ALMACN DE DATOS (DATA WAREHOUSE) Un Almacn de Datos (o Data Warehouse) es una gran coleccin datos que recoge informacin de mltiples sistemas fuentes operacionales dispersos, y cuya actividad se centra en la Toma Decisiones -es decir, en el anlisis de la informacin- en vez de en captura. de u de su

Una vez reunidos los datos de los sistemas fuentes se guardan durante mucho tiempo, lo que permite el acceso a datos histricos; as los almacenes de datos proporcionan al usuario una interfaz consolidada nica para los datos, lo que hace ms fcil escribir las consultas para la toma de decisiones.

Diferencias entre Base de Datos y Almacn de Datos


BASE DE DATOS OPERACIONAL ALMACN DE DATOS

DATOS OPERACIONALES ORIENTADO A APLICACIN ACTUAL DETALLADA CAMBIA CONTINUAMENTE

DATOS DEL INFORMACIN

NEGOCIO

PARA

ORIENTADO AL SUJETO ACTUAL + HISTRICO DETALLADA + RESUMIDA ESTABLE

Data Warehousing es el proceso que facilita la creacin y explotacin de un Almacn de Datos. Los Sistemas de Data Warehousing incluyen funcionalidades como: Integracin de bases de datos heterogneas (relacionales, documentales, geogrficas, archivos, etc.) Ejecucin de consultas complejas no predefinidas visualizando el resultado en forma grfica y en diferentes niveles de agrupamiento y totalizacin de datos. Agrupamiento y desagrupamiento de datos en forma interactiva. Anlisis del problema en trminos de dimensiones. Control de calidad de datos.

CARACTERSTICAS DEL ALMACN DE DATOS Organizado en torno a temas. La informacin se clasifica en base a los aspectos que son de inters para la empresa. Integrado. Es el aspecto ms importante. La integracin de datos consiste en convenciones de nombres, codificaciones consistentes, medida uniforme de variables, etc. Dependiente del tiempo. Esta dependencia aparece de tres formas: La informacin representa los datos sobre un horizonte largo de tiempo. Cada estructura clave contiene (implcita o explcitamente) un elemento de tiempo (da, semana, mes, etc.).

2.1.2ARQUITECTURA DATA WAREHOUSE La estructura bsica de la arquitectura Data Warehouse incluye: Datos operacionales. Origen de datos para almacenamiento fsico del Almacn de Datos. el componente de

Extraccin de datos. Seleccin sistemtica de datos operacionales usados para formar parte del Almacn de Datos. Transformacin de datos. Procesos para sumarizar y realizar cambios en los datos operacionales. Carga de datos. Insercin de datos en el Almacn. Almacn. Almacenamiento fsico de datos de al arquitectura Data Warehouse. Herramienta de acceso. Herramientas que proveen acceso a los datos.

Los bloques funcionales que se corresponden con un sistema de informacin completo que utiliza un DW se muestran grficamente en la Figura

Estr ct ra l!"ica del Almacn de Datos La estructura lgica de un Almacn de Datos est compuesta por los siguientes niveles: Metadatos. Describen la estructura de los datos contenidos en el almac n. Estn en una dimensin distinta al resto de niveles. Datos detallados actuales. Obtenidos directamente del procesado de los datos. Forman el nivel ms bajo de detalle. Ocupan mucho espacio. Se almacenan en disco, para facilitar el acceso. Datos detallados histricos. Igual que los anteriores, pero con datos correspondientes al pasado. Se suelen almacenar en un medio externo, ya que su acceso es poco frecuente. Datos ligeramente resumidos. Primer nivel de agregacin de los datos detallados actuales. Corresponden a consultas habituales. Se almacenan en disco. Datos muy resumidos. Son el nivel ms alto de agregacin. Corresponden a consultas que se realizan muy a menudo y que se deben obtener muy rpidamente. Suelen estar separados del Almacn de datos, formando Supermercados de Datos (Data Marts).

Estr ct ra f#sica del Almacn de Datos

La estructura fsica puede presentar cualquiera de las siguientes configuraciones: Arquitectura centralizada. Todo el Almacn de datos se encuentra en un nico servidor. Arquitectura distribuida. Los datos del Almacn se reparten entre varios servidores. Asignando cada servidor a uno o varios temas lgicos. Arquitectura distribuida por niveles. Refleja la estructura lgica del Almacn, asignando los servidores en funcin del nivel de agregacin de los datos que contienen. Un servidor est dedicado para los datos de detalle, otro para los resumidos y otro para los muy resumidos. Cuando los datos muy resumidos se duplican en varios servidores para agilizar el acceso se habla de Supermercados de datos (Data Marts).

2.2 MINERA DE DATOS (DATA MINING)

La minera de datos (en ingls, data mining) se define como la extraccin no trivial de informacin implcita, previamente desconocida y potencialmente til, a partir de datos. En la actual sociedad de la informacin, donde cada da a da se multiplica la cantidad de datos almacenados casi de forma exponencial, la minera de datos es una herramienta fundamental para analizarlos y explotarlos de forma eficaz para los objetivos de cualquier organizacin. La minera de datos se define tambin como el anlisis y descubrimiento de conocimiento a partir de datos. La minera de datos hace uso de todas las tcnicas que puedan aportar informacin til, desde un sencillo anlisis grfico, pasando por mtodos estadsticos ms o menos complejos, complementados con mtodos y algoritmos del campo de la inteligencia artificial y el aprendizaje automtico que resuelven problemas tpicos de agrupamiento automtico, clasificacin, prediccin de valores, deteccin de patrones, asociacin de atributos, etc. Es, por tanto, un campo multidisciplinar que cubre numerosas reas y se aborda desde mltiples puntos de vista, como la estadstica, la informtica (clculo automtico) o la ingeniera.

2.2.1 ANTECEDENTES

La minera de datos, entendida como la bsqueda de patrones dentro de grandes bases de datos utilizando para ello mtodos estadsticos y de aprendizaje basado en computadora, est empezando a extenderse en nuestro pas. Empresas en el sector de telecomunicaciones, financiero y de autoservicio estn en el proceso de adquirir alguna solucin tecnolgica en este campo, por lo que surge una demanda por recursos humanos con conocimientos en minera de datos. Adems, al enfrentar un ambiente ms competitivo las empresas requieren de tecnologas que les permitan pronosticar, dentro de un marco probabilstica, el comportamiento de sus clientes y prospectos a fin de desarrollar estrategias de atraccin o retencin.

La idea de data mining no es nueva. Ya desde los aos sesenta los estadsticos manejaban trminos como data fishing, data mining o data archaeology con la idea de encontrar correlaciones sin una hiptesis previa en bases de datos con ruido. A principios de los aos ochenta, Rakesh Agrawal, Gio Wiederhold, Robert Blum y Gregory Piatetsky-Shapiro, entre otros, empezaron a consolidar los trminos de data mining y KDD.[3] A finales de los aos ochenta slo existan un par de empresas dedicadas a esta tecnologa; en 2002 existen ms de 100 empresas en el mundo que ofrecen alrededor de 300 soluciones. El data mining es una tecnologa compuesta por etapas que integra varias reas y que no se debe confundir con un gran software. Durante el desarrollo de un proyecto de este tipo se usan diferentes aplicaciones softwar en cada etapa que pueden ser estadsticas, de visualizacin de datos o de inteligencia artificial, principalmente. Actualmente existen aplicaciones o herramientas comerciales de data mining muy poderosas que contienen un sinfn de utileras que facilitan el desarrollo de un proyecto. Sin embargo, casi siempre acaban complementndose con otra herramienta.

Los $ ndamentos del Data Minin"

Las tcnicas de Data Mining son el resultado de un largo proceso de investigacin y desarrollo de productos. Esta evolucin comenz cuando los datos de negocios fueron almacenados por primera vez en computadoras, y continu con mejoras en el acceso a los datos, y ms recientemente con tecnologas generadas para permitir a los usuarios navegar a travs de los datos en tiempo real. Data Mining toma este proceso de evolucin ms all del acceso y navegacin retrospectiva de los datos, hacia la entrega de informacin prospectiva y proactiva. Data Mining est listo para su aplicacin en la comunidad de negocios porque est soportado por tres tecnologas que ya estn suficientemente maduras: Recoleccin masiva de datos. Potentes computadoras con multiprocesadores. Algoritmos de Data Mining.

2.2.2 FASES DE PROYECTOS DE MINERA DE DATOS

Los pasos a seguir para la realizacin de un proyecto de minera de datos son siempre los mismos, independientemente de la tcnica especfica de extraccin de conocimiento usada.

El %roceso de miner#a de datos se com%one de las si" ientes fases&

Seleccin y preprocesado de datos El formato de los datos contenidos en la fuente de datos (base de datos, Data Warehouse...) nunca es el idneo y la mayora de las veces no es posible ni siquiera utilizar ningn algoritmo de minera sobre los datos "en bruto". Mediante el preprocesado se filtran los datos (de forma que se eliminan valores incorrectos, no vlidos, desconocidos... segn las necesidades y el algoritmo que va a usarse), se obtienen muestras de los mismos (en busca de una mayor velocidad de respuesta del proceso), o se reduce el nmero de valores posibles (mediante redondeo, clustering...). Extraccin de conocimiento Mediante una tcnica de minera de datos, se obtiene un modelo de conocimiento, que representa patrones de comportamiento observados en los valores de las variables del problema o relaciones de asociacin entre dichas variables. Tambin pueden usarse varias tcnicas a la vez para generar distintos modelos, aunque generalmente cada tcnica obliga a un preprocesado diferente de los datos.

Inter%retaci!n y e'al aci!n

Una vez obtenido el modelo, se debe proceder a su validacin comprobando que las conclusiones que arroja son vlidas y suficientemente satisfactorias. En el caso de haber obtenido varios modelos mediante el uso de distintas tcnicas, se deben comparar los modelos en busca de aquel que se ajuste mejor al problema. Si ninguno de los modelos alcanza los resultados esperados, debe alterarse alguno de los pasos anteriores para generar nuevos modelos. Si desea obtener una descripcin ms detallada, puede consultar la documentacin de CRISP-DM (CRoss Industry Standard Process for Data Mining), que es un estndar industrial, utilizado por ms de 160 empresas e instituciones de todo el mundo, que surge en respuesta a la falta de estandarizacin y propone un modelo de proceso general para proyectos de minera de datos:

2.2.3 FILTRADO DE DATOS

El formato de los datos contenidos en la fuente de datos (base de datos, Data Warehouse...) nunca es el idneo y la mayora de las veces no es posible ni siquiera utilizar ningn algoritmo de minera sobre los datos "en bruto". Mediante el preprocesado se filtran los datos (de forma que se eliminan valores incorrectos, no vlidos, desconocidos... segn las necesidades y el algoritmo que va a usarse), se obtienen muestras de los mismos (en busca de una mayor velocidad de respuesta del proceso), o se reduce el nmero de valores posibles (mediante redondeo, clustering...).

2.2.4 SELECCI N DE !ARIA"LES

An despus de haber sido preprocesados, en la mayora de los casos se tiene una cantidad ingente de datos. La seleccin de caractersticas reduce el tamao de los datos eligiendo las variables ms influyentes en el problema, sin apenas sacrificar la calidad del modelo de conocimiento obtenido del proceso de minera. Los mtodos para la seleccin de caractersticas son bsicamente dos: Aquellos basados en la eleccin de los mejores atributos del problema y aquellos que buscan variables independientes mediante tests de sensibilidad, algoritmos de distancia o heursticos.
2.2.# E$TRACCI N DE CONOCIMIENTO

Mediante una tcnica de minera de datos, se obtiene un modelo de conocimiento, que representa patrones de comportamiento observados en los valores de las variables del problema o relaciones de asociacin entre dichas variables. Tambin pueden usarse varias tcnicas a la vez para generar distintos modelos, aunque generalmente cada tcnica obliga a un preprocesado diferente de los datos.

2.2.% INTERPRETACI N Y E!ALUACI N

Una vez obtenido el modelo, se debe proceder a su validacin comprobando que las conclusiones que arroja son vlidas y suficientemente satisfactorias. En el caso de haber obtenido varios modelos mediante el uso de distintas tcnicas, se deben comparar los modelos en busca de aquel que se ajuste mejor al problema. Si ninguno de los modelos alcanza los resultados esperados, debe alterarse alguno de los pasos anteriores para generar nuevos modelos. Si desea obtener una descripcin ms detallada, puede consultar la documentacin de CRISP-DM (CRoss Industry Standard Process for Data Mining), que es un estndar industrial, utilizado por ms de 160 empresas e instituciones de todo el mundo, que surge en respuesta a la falta de estandarizacin y propone un modelo de proceso general para proyectos de minera de datos: Neutral respecto a industria y herramientas Aplicable en cualquier sector de negocio

2.3 MINERA WE"

La minera web (o minera de uso de la web) es una aplicacin especial de la minera de datos que consiste en extraer informacin y conocimiento til especficamente de la actividad de un sitio web: anlisis de trfico (visitas y visitantes), contenidos ms accedidos, procedencia, tipo de usuarios, navegadores y sistemas operativos, reglas de asociacin entre pginas (tasa de conversin), etc. El anlisis de esta informacin, a partir del trfico de un sitio web registrado de una manera adecuada, es fundamental, por una parte, para entender el comportamiento y los hbitos de los clientes/usuarios del sitio y, por otra, porque ayudan a mejorar su diseo. El problema es que obtener una informacin fiable y precisa sobre el comportamiento real de los usuarios de un sitio web es una labor complicada por varios motivos: las particularidades de Internet (cachs intermedias, direcciones IP dinmicas, deslocalizacin geogrfica, etc.), la heterogeneidad de las visitas (usuarios con diferentes expectativas, robots, navegadores, buscadores, etc.) o la complejidad de la informacin recibida (concepto de sesin, visitantes detrs de servidores proxy, nombres de mquinas y dominios, protocolos, etc.).

Anda mungkin juga menyukai