Unidad N 1: Introduccin a la Inteligencia de Negocios
Clase N02: Data Warehouse-OLA-OL! Qu es un Data Warehouse? De"inido de #uchas "or#as$ no #u% rigurosa#ente: Una &ase de datos 'ara a'o%ar decisiones (D)-D*+ ,ue es #antenida se'arada#ente de la *D transaccional de la e#'resa- rocesa#iento de in"or#acin de so'orte #ediante una 'lata"or#a slida$ de datos histricos % consolidados listos 'ara ser anali.ados- Un Data Warehouse es una Coleccin de datos orientada al su/eto$ integrada$ 0ariante en el tie#'o % no 0ol1til$ 'ara el a'o%o en los 'rocesos de to#a de decisiones de la e#'resa- Data Warehousing: el 'roceso 'ara construir DW- DW: Orientada al sujeto Organi.ada en torno a los datos 'rinci'ales ,ue #ane/a una organi.acin: clientes$ 'roductos$ 0entas- 2l #odela#iento se en"oca en el an1lisis % to#a de decisiones &asadas en estos datos 'articulares % no en el 'rocesa#iento diario de las transacciones- ro0ee una 0ista si#'le % concisa a cerca de los datos de inter3s$ siendo ca'a. de 0erlos desde distintos 'untos de 0ista o di#ensiones- A la 0e. se "iltra todo dato ,ue no a'orta a la to#a de decisiones- DW: Integrada o !ni"icada# Construida 'or la uni"icacin de 0arias "uentes de datos heterog3neas entre s4 *D relacionales$ archi0os 'lanos$ registros en l4nea$ re'ortes$ etc- )e a'lican t3cnicas de Li#'ie.a e Integracin de Datos Asegurar consistencia en no#&res de categor4a$ estructuras de codi"icacin$ #edidas$ entre las distintas "uentes de datos 2/: *D con 5 categor4as de )e6o- 2/: recio del hotel- DW: $ariante en el tie%&o ' no (ol)til 2l hori.onte de tie#'o en Data Warehouse es signi"icati0a#ente #a%or ,ue una &ase de datos transaccionales D* o'eracional: 0alores actuales$ 1 se#ana o 1 #es DW in"or#acin histrica: 7 o #1s a8os 94sica#ente se'arada del a#&iente transaccional 2n el DW no ocurren u'dates o'eracionales (e/: no ha% a/ustes diarios de los #ontos en CC+ No re,uiere #ecanis#os de 'roceso % control de concurrencia- Las 'rinci'ales "unciones son: Carga inicial % acceso de los datos O*+,-O*-, )I)!2:A) OLA-OL! O*+, Online +nal'tical ,rocessing#: Los siste#as O*+, son &ases de datos orientadas al 'rocesa#iento anal4tico- 2ste an1lisis suele i#'licar$ general#ente$ la lectura de grandes cantidades de datos 'ara llegar a e6traer alg;n ti'o de in"or#acin ;til: tendencias de 0entas$ 'atrones de co#'orta#iento de los consu#idores$ ela&oracin de in"or#es co#'le/os< etc- 2l acceso a los datos suele ser de slo lectura- La accin #1s co#;n es la consulta$ con #u% 'ocas inserciones$ actuali.aciones o eli#inaciones- Los datos se estructuran seg;n las 1reas de negocio$ % los "or#atos de los datos est1n integrados de #anera uni"or#e en toda la organi.acin- 2l historial de datos es a largo 'la.o$ nor#al#ente de dos a cinco a8os- Las &ases de datos OLA se suelen ali#entar de in"or#acin 'rocedente de los siste#as o'eracionales e6istentes$ #ediante un 'roceso de e6traccin$ trans"or#acin % carga (2!L+- rinci'al tarea de los DW: An1lisis de Datos % !o#a de Decisiones- htt's:==>>>-%outu&e-co#=>atch?0@NA%W/BC&aA O*-, Online -ransaccion ,rocessing#: Los siste#as O*-, son &ases de datos orientadas al 'rocesa#iento de transacciones- Una transaccin genera un 'roceso at#ico (,ue de&e ser 0alidado con un co##it$ o in0alidado con un roll&acD+$ % ,ue 'uede in0olucrar o'eraciones de insercin$ #odi"icacin % &orrado de datos- 2l 'roceso transaccional es t4'ico de las &ases de datos o'eracionales- 2l acceso a los datos est1 o'ti#i.ado 'ara tareas "recuentes de lectura % escritura- (or e/e#'lo$ la enor#e cantidad de transacciones ,ue tienen ,ue so'ortar las *D de &ancos o hi'er#ercados diaria#ente+- Los datos se estructuran seg;n el ni0el a'licacin ('rogra#a de gestin a #edida$ 2E o CE: i#'lantado$ siste#a de in"or#acin de'arta#ental---+- Los "or#atos de los datos no son necesaria#ente uni"or#es en los di"erentes de'arta#entos (es co#;n la "alta de co#'ati&ilidad % la e6istencia de islas de datos+- 2l historial de datos suele li#itarse a los datos actuales o recientes- rinci'al tarea de la #a%or4a de los D*:)- 2n"ocados a tareas del d4a a d4a: co#'ra$ in0entario$ control de cuentas corrientes$ #anu"actura$ conta&ilidad$ entre otros- Data Warehouse (s D./0 O&eracionales Di%ensi1n O*+, O*-, !suarios Analistas de In"or#acin=2strategia 2#'leado$ ersonal de !I 2unci1n )o'orte a la to#a de decisiones O'eraciones del d4a a d4a Dise3o de la .ase de Datos Orientada al )u/eto Orientada a las A'licaciones 4ndole de los datos Fistrica$ resu#ida$ #ultidi#ensional e integrada$ consolidada Actual$ hasta la "echa$ detallada$ relacional 'lana$ aislada !so Dedicada Ee'etiti0a +cceso di0ersas consultas lectura$ escritura !nidad de -ra5ajo Consultas co#'le/as corta$ transacciones si#'les Q registros accesados #illones cientos Q de usuarios cientos #iles -a%a3o de la .ase de Datos 100 G*-!* 100 :*-G* /trica Eendi#iento de Consultas Eendi#iento de transacciones Data Warehouse (s D./0 O&eracionales Distintos atri&utos (OLA 0s OL!+ Orientado al usuario % al siste#a: (cliente 0s #ercado+ Contenido de los datos: actuales$ detallados 0s histricos % consolidados Dise8o de la *D: 2E H a'licacin 0s )tar sche#a H su/eto OLTP OLAP users clerk, IT professional knowledge worker function day to day operations decision support DB design application-oriented subject-oriented data current, up-to-date detailed, flat relational isolated historical, summarized, multidimensional integrated, consolidated usage repetitive ad-hoc access read/write index/hash on prim. key lots of scans unit of work short, simple transaction complex query # records accessed tens millions #users thousands hundreds DB size 100MB-GB 100GB-TB metric transaction throughput query throughput, response
Data Warehouse (s D./0 O&eracionales ,or 6u tienen 6ue estar se&arados? +lto dese%&e3o en a%5os siste%as: DBMS ajustados para OLTP: inde6ado de datos$ control de concurrencias$ #3todos de acceso- DW ajustado para OLAP: consultas co#'le/as$ 0istas #ultidi#ensionales$ consolidacin de datos- 2unciones Di"erentes ' Datos di"erentes: Datos Faltantes: or lo general la to#a de decisiones re,uiere datos histricos ,ue los siste#as transaccionales no al#acenan- Consolidacin de datos: Los !D ta#&i3n re,uieren datos consolidados de 0arias "uentes- Calidad de los Datos: ara agregar las distintas "uentes$ estas de&en tener categor4as % "or#atos conciliados entre s4- El %odelo de Datos /ultidi%ensional Los DW est1n &asados en un #odelo de datos #ultidi#ensional$ ,ue consiste en 0isuali.ar la data en "or#a de un cu&o de datos- Un cu&o de datos$ 'or e/e#'lo de 0entas$ 'uede ser #odelado % 0isto desde di"erentes di#ensiones: -a5las de Di%ensiones: roducto ('rodIid$ #arca$ categor4a+ o tie#'o (d4a$ se#ana$ #es$ ,uarter$ a8o+- -a5las de 7echos: ,ue contienen #edidas co#o Dlares 0endidos$ #argen de la 0enta$ unidades$ % lla0es 'ara relacionarlas con las di#ensiones- 8u5o 8u5o de Datos N-Di%ensional all time item location supplier time,item time,location time,supplier item,location item,supplier location,supplier time,item,location time,item,supplier time,location,supplier item,location,supplier time, item, location, supplier /odelos 8once&tuales: Di%ensiones ' /edidas 0tar 0che%a: Una ta&la de hecho en el #edio conectada a un con/unto de ta&las de di#ensin- 0no9"la:e 0che%a: :odi"icacin al es,ue#a estrella en donde algunas di#ensiones /er1r,uicas son nor#ali.adas en 0arias ta&las de di#ensin$ "or#ando algo si#ilar a un co'o de nie0e- 2act 8onstellations: !a&las de hecho #;lti'les ,ue co#'arten ta&las de di#ensin- Eje%&lo de 0tar 0che%a time_key day day_of_the_week month quarter year time location_key street city province_or_street country location Sales Fact Table time_key item_key branch_key location_key units_sold dollars_sold avg_sales Measures item_key item_name brand type supplier_type item branch_key branch_name branch_type branch Eje%&lo de 0no9"la:e 0che%a time_key day day_of_the_week month quarter year time location_key street city_key location Sales Fact Table time_key item_key branch_key location_key units_sold dollars_sold avg_sales Measures item_key item_name brand type supplier_key item branch_key branch_name branch_type branch supplier_key supplier_type supplier city_key city province_or_street country city Eje%&lo de 2act 8onstellation time_key day day_of_the_week month quarter year time location_key street city province_or_street country location Sales Fact Table time_key item_key branch_key location_key units_sold dollars_sold avg_sales Measures item_key item_name brand type supplier_type item branch_key branch_name branch_type branch Shipping Fact Table time_key item_key shipper_key from_location to_location dollars_cost units_shipped shipper_key shipper_name location_key shipper_type shipper P r o d u c t o Mes Medida: Ventas en K$ Jugo Bebidas leche Crema Detergente Sopa 1 2 3 4 7 6 5 W S N 15 10 12 20 50 10 Dimensiones: Productos, Regiones, Meses Sumarizacin jerrquica Industria Pas Ao Categora Regin Trimestre Producto Ciudad Mes Semana Local Da An1lisis :ultidi#ensional de los datos Un e/e#'lo de cu&o de datos Total annual sales of TV in U.S.A. Date C o u n t r y sum sum TV VCR PC 1Qtr 2Qtr 3Qtr 4Qtr U.S.A Canada Mexico sum O&eraciones t;&icas en O*+, 0inteti<ar =oll u&#-drill-u&#: )u#ar datos su&iendo en una di#ensin /er1r,uica- 2/e#'lo: )e 0en las 0entas 'or #es % re,uiero las 0entas 'or tri#estre- ,ro"undi<ar Drill-do9n#-roll-do9n#: lo contrario a lo anterior- 2/e#'lo: Cuando se 0en los datos del segundo tri#estre e interesa el desglose de a&ril$ #a%o % /unio- 0eg%entar> 2iltrar? =otar-,i(otear Drill-an'9here#: rotar un cu&o$ ca#&iar las di#ensiones a 0isuali.ar- 2/e#'lo: Cuando en lugar de 'asar de un desglose 'or tri#estres a uno #ensual$ interesa un desglose 'or "a#ilia de 'roducto$ o 'or nacionalidad$ es decir$ 'or una caracter4stica de una /erar,u4a distinta a la ,ue se est1 0iendo actual#ente- -res ar6uitecturas O*+, =elational O*+, =O*+,#: Uso de &ases relacionales 'ara la construccin de cu&o- O'ti#i.ado en la "or#a de al#acenar 'ero lento 'ara ca#&ios a los an1lisis- /ultidi%ensional O*+, /O*+,#: La estructura de al#acena#iento es un arreglo n-di#ensional de los datos- :ucha redundancia en los datos 'ero ra'ide. en c1lculo de agregaciones % "iltros- 7'5rid O*+, 7O*+,#: :e.cla de los dos anteriores- Los #e/or de a#&os #undos- Data Warehouse Extract Transform Load Refresh OLAP Engine Analysis Query Reports Data mining Monitor & Integrator Metadata Data Sources Front-End Tools Serve Data Marts Operational DBs other sources Data Storage OLAP Server 2structura !4'ica de un DW Descu5riendo conoci%iento con O*+, 0 20 40 60 1997 1,9 1,9 1,7 1,5 2002 14,88 14,09 13,04 11,27 2012 54,56 38,34 35,67 23,45 Banks Trade Insuranc e Telecom municati Fuente: Palo Alto Management Group (nmeros en mil milliones de US-$) Total 14,4 113,4 ro%ecciones del :ercado Data Warehouse Data%art Un Data%art es una &ase de datos de'arta#ental$ es'eciali.ada en el al#acena#iento de los datos de un 1rea de negocio es'ec4"ica- )e caracteri.a 'or dis'oner la estructura 1&ti%a de datos 'ara anali.ar la in"or#acin al detalle desde todas las 'ers'ecti0as ,ue a"ecten a los 'rocesos de dicho de'arta#ento- Un Data#art 'uede ser ali#entado desde los datos de un data>arehouse$ o integrar 'or si #is#o un co#'endio de distintas "uentes de in"or#acin-