Anda di halaman 1dari 204

REPBLICA DEL ECUADOR

UNIVERSIDAD CATLICA DE CUENCA


COMUNIDAD EDUCATIVA AL SERVICIO DEL PUEBLO
SEDE CAAR

FACULTAD DE INGENIERA DE SISTEMAS

TEMA:
IMPLEMENTACIN DE UN DATA MART PARA LA TOMA DE
DECISIONES EN EL REA DE COMERCIALIZACIN DE LA EMPRESA
EMAPAT DEL CANTN EL TAMBO

TRABAJO DE INVESTIGACIN PREVIO A LA OBTENCIN DEL TTULO
DE
INGENIERO DE SISTEMAS

DIRECTOR: Ing. Luis Fernando Pinos Castillo
AUTOR: Carlos Armando Montalvo Molina
CAAR - ECUADOR
2014

I

DEDICATORIA
Yo, Carlos Armando Montalvo Molina,
estudiante de la Facultad de Ingeniera en
Sistemas de la Universidad Catlica de Cuenca,
Sede Caar dedico este trabajo a: mis padres
Alcides Montalvo Y Alva Molina, porque
creyeron en mi dndome un ejemplo digno de
superacin y gracias a ustedes hoy estoy
alcanzando mi meta.

A mis hermanos, gracias por haber fomentado en
m el deseo de superacin.

A mi esposa que me brindo todo su apoyo y
paciencia, a mi adorada hija que es la fuerza que
me ayudan a seguir adelante.

A todos mis amigos que estuvieron a mi lado
durante estos cinco aos apoyndome en las
buenas y en las malas.






II

AGRADECIMIENTO
Agradezco a Dios por la paciencia y sabidura
que me ha dado durante estos aos de estudio.

Agradezco a la Universidad Catlica de Cuenca,
Sede Caar en especial a todos los catedrticos
de la Facultad de Sistemas que fueron docentes y
amigos durante el tiempo que duro mi carrera.

En especial al ingeniero Luis Fernando Pinos
Director de esta investigacin quien me brindo
sus conocimientos, apoyo, y colaboracin en todo
momento y sobre todo cuando ms lo necesite.









III

CERTIFICACIN

Ing. Luis Fernando Pinos Castillo.
DIRECTOR DEL TRABAJO


CERTIFICA:
Que he revisado el presente trabajo investigativo con el tema: IMPLEMENTACIN DE
UN DATA MART PARA LA TOMA DE DECISIONES EN EL REA DE
COMERCIALIZACIN DE LA EMPRESA EMAPAT DEL CANTN EL TAMBO,
mismo que est de acuerdo a lo establecido por la Facultad de Ingeniera de Sistemas de la
Universidad Catlica de Cuenca, Sede Caar, por consiguiente autorizo su presentacin
ante el tribunal respectivo.

Caar,del 2014


_________________________________________________
Ing. Luis Fernando Pinos Castillo
DIRECTOR DEL DISEO DE INVESTIGACIN


IV

AUDITORA

IMPLEMENTACIN DE UN DATA MART PARA LA TOMA DE DECISIONES EN
EL REA DE COMERCIALIZACIN DE LA EMPRESA EMAPAT DEL CANTN EL
TAMBO, es autora del suscrito estudiante como requisito previo, para la obtencin del
Ttulo de Ingeniero en Sistemas.

Trabajo de investigacin que se sustenta en fuentes bibliogrficas de distintos autores,
investigacin de campo y el aporte personal sobre IMPLEMENTACIN DE UN DATA
MART PARA LA TOMA DE DECISIONES EN EL REA DE COMERCIALIZACIN
DE LA EMPRESA EMAPAT DEL CANTN EL TAMBO

Caar, .Junio del 2014


_________________________________________________
CARLOS ARMANDO MONTALVO MOLINA
AUTOR DEL TRABAJO INVESTIGATIVO


V

APROBACIN DEL TRIBUNAL

El tribunal designado por el Honorable Consejo Directivo de la Universidad Catlica de
Cuenca, Sede Caar, Faculta de Ingeniera de Sistemas, instalado para receptar la
sustentacin del trabajo investigativo con el tema IMPLEMENTACIN DE UN DATA
MART PARA LA TOMA DE DECISIONES EN EL REA DE COMERCIALIZACIN
DE LA EMPRESA EMAPAT DEL CANTN EL TAMBO transcurrido el tiempo
reglamentario procede a consignar la calificacin de ..( /100)


Caar a de del 2014


____________________________ ____________________________
PRESIDENTE DIRECTOR




____________________________ ____________________________
DELEGADO DEL HONORABLE SECRETARIO
CONSEJO DIRECTIVO


VI

INDICE

DEDICATORIA ....................................................................................................................... I
AGRADECIMIENTO ............................................................................................................ II
CERTIFICACIN ............................................................................................................... III
AUDITORA .......................................................................................................................... IV
APROBACIN DEL TRIBUNAL ....................................................................................... V
INDICE ................................................................................................................................... VI
INTRODUCCIN ................................................................................................................. IX
EL PROBLEMA DE LA INVESTIGACIN. .................................................................... XI
MARCO REFERENCIAL TERICO Y CONCEPTUAL. .............................................. XI
MARCO METODOLGICO .............................................................................................. XI
IMPLEMENTACIN DE LA PROPUESTA .................................................................... XI
CAPITULO I ........................................................................................................................... 1
1.1 PLANTEAMIENTO DEL PROBLEMA .............................................................................. 1
1.2 FORMULACION DEL PROBLEMA .................................................................................. 2
1.3 OBJETIVOS ............................................................................................................................ 2
1.3.1 OBJETIVO GENERAL. ................................................................................................. 2
1.3.2 OBJETIVO ESPECFICOS. ........................................................................................... 2
1.4 JUSTIFICACIN DE LA INVESTIGACIN .................................................................... 2
1.5 LIMITACIN Y DELIMITACIN ..................................................................................... 3
CAPITULO II .......................................................................................................................... 5
MARCO REFERENCIAL, TERICO Y CONCEPTUAL ................................................ 5
2.1 ANTECEDENTES DE LA INVESTIGACIN .................................................................. 5
2.2 MARCO TERICO. ............................................................................................................. 7
2.2.1 FUNDAMENTACIN TERICA O BASES TERICAS. ........................................ 7
2.2.1.1 BUSINESS INTELLIGENCE ...................................................................................... 7
2.2.1.2 ARQUITECTURA DE UNA SOLUCIN DE BUSINESS INTELLIGENCE ....... 8
2.2.2.1 SISTEMAS DE SOPORTE A LA DECISIN (DSS) ................................................ 8
2.2.2.2 SISTEMAS DE INFORMACIN EJECUTIVA (EIS) ............................................. 9
2.2.3.1 DATAWAREHOUSE ................................................................................................... 9
2.2.3.2 CARACTERISTICAS DE UN DATAWAREHOUSE ............................................ 10
2.2.4.1 DATAMART ............................................................................................................... 10
2.2.4.2 DATA WAREHOUSE VS. DATA MART ................................................................ 11

VII

2.2.5.1 MODELO MULTIDIMENCIONAL ........................................................................ 12
2.2.5.2 ESQUEMA ESTRELLA. .......................................................................................... 12
2.2.5.3 ESQUEMA COPO DE NIEVE ................................................................................. 13
2.2.6.1 BASES DE DATOS MULTIDIMENSIONALES .................................................... 13
2.2.6.1.1 OLTP ......................................................................................................................... 14
2.2.6.2 OLAP ............................................................................................................................ 14
2.2.6.2 DIFERENCIAS ENTRE OLTP y OLAP ................................................................. 15
2.2.7.1 EVALUACIN DE HERRAMIENTAS DE BI ....................................................... 16
2.2.7.2 PENTAHO .................................................................................................................. 16
2.2.7.2.1 CARACTERSTICAS GENERALES: .................................................................. 16
2.2.7.3 JASPERSOFT ............................................................................................................ 17
2.2.7.3.1 CARACTERSTICAS GENERALES: .................................................................. 17
2.2.7.4 SPAGOBI ..................................................................................................................... 18
2.2.7.4.1 CARACTERSTICAS GENERALES: .................................................................. 18
2.2.7.5 OPENI .......................................................................................................................... 19
2.2.7.5.1 CARACTERSTICAS GENERALES: .................................................................. 19
2.2.7.6 PALO ............................................................................................................................ 20
2.2.7.6.1 CARACTERSTICAS GENERALES: .................................................................. 20
2.2.8.1 COMPARACIN DE FUNCIONALIDADES ......................................................... 21
2.2.9 FUNDAMENTACIN LEGAL. ................................................................................... 25
2.3. DEFINICIN DE TRMINOS BSICOS (Marco conceptual) ..................................... 25
CAPITULO III ...................................................................................................................... 28
MARCO METODOLGICO .............................................................................................. 28
3.1 METODOLOGA ................................................................................................................. 28
3.2 NIVEL DE INVESTIGACIN ............................................................................................ 28
3.3 TIPO DE INVESTIGACIN ............................................................................................... 29
3.4 MTODOS DE INVESTIGACIN .................................................................................... 29
3.5 POBLACIN Y MUESTRA ................................................................................................ 30
3.6 TIPOS DE MUESTREO ...................................................................................................... 30
3.7 TCNICAS E INSTRUMENTOS PARA RECOLECCIN DE LA INFORMACIN 30
3.7.1 ENTREVISTA ................................................................................................................ 30
3.8 PRESENTACIN, ANLISIS E INTERPRETACIN DE RESULTADOS ................ 30
3.8.2 ENTREVISTAS REALIZADA AL GERENTE Y ENCARGADA DEL REA
ADMINISTRATIVA ............................................................................................................... 32
3.8.3 CONCLUSIONES .......................................................................................................... 36
3.8.4 RECOMENDACIONES ................................................................................................ 36

VIII

3.9 ANLISIS DE VALIDEZ Y CONFIABILIDAD ............................................................... 37
CAPITULO IV ....................................................................................................................... 38
4.1 TTULO DE LA PROPUESTA ........................................................................................... 38
4.2PRESENTACIN .................................................................................................................. 38
4.3 OBJETIVO ............................................................................................................................ 38
4.4 JUSTIFICACIN ................................................................................................................. 39
4.5 FUNDAMENTACIN TERICA ...................................................................................... 41
4.6 DESCRIPCIN DE LA PROPUESTA ............................................................................... 41
4.7 FACTIBILIDAD DE LA PROPUESTA ............................................................................. 42
4.7.1 RECURSOS MATERIALES ........................................................................................ 42
4.7.2 RECURSOS FINANCIEROS ....................................................................................... 42
4.7.3 TALENTO HUMANO ................................................................................................... 42
4.7.4 LEGAL ............................................................................................................................ 43
4.8 DESARROLLO DE LA PROPUESTA ............................................................................... 43
4.8.1 DISEO DE LA ARQUITECTURA ............................................................................ 43
4.8.2 DESCRIPCIN DE LA ARQUITECTURA ............................................................... 44
4.8.3 ANLISIS DE LA FUENTES DE DATOS ................................................................. 45
4.8.4 MODELADO MULTIDIMENSIONAL ...................................................................... 48
4.8.5 DISEO DE LA BASE DE DATOS QUE SOPORTA A LOS CUBOS .................. 49
4.8.6 PENTAHO ...................................................................................................................... 50
4.8.6.1 PENTAHO DATA INTEGRATION ......................................................................... 51
4.8.6.2 CREACIN DE CUBOS CON MONDRIAN .......................................................... 51
4.8.6.3 PENTAHO REPORTING .......................................................................................... 52
4.8 EVALUACIN DE LA PROPUESTA ......................................................................... 53
CONCLUSIONES ................................................................................................................. 53
RECOMENDACIONES ....................................................................................................... 54
BIBLIOGRAFIA ................................................................................................................... 55
ANEXOS ................................................................................................................................ 57
ANEXO 1 ................................................................................................................................ 60
ANEXO 2 ................................................................................................................................ 96
ANEXO 3 ................................................................................................................................ 99


IX


NDICE DE CUADROS
Cuadro N1: Diferencias entre un Data Warehouse y un Data Mart ........................... 11
Cuadro N2: Diferencias entre OLAP Y OLTP .............................................................. 15
Cuadro N3: Comparacin de herramientas de BI Open Source .................................. 23
Cuadro N4: Usabilidad, aspectos y comparacin final de las herramienta BI ........... 24
Cuadro N5: Plan de recoleccin de informacin. .......................................................... 31


NDICE DE GRFICOS
Grfico N1: Arquitectura de la solucin ..................................................................................... 44
Grfico N2: Diagrama Entidad Relacin de la base de datos Emapat .................................. 47
Grfico N3: Modelo Relacional de la Base de Datos EMAPAT ................................................ 48
Grfico N 4: Modelo multidimensional en base a tablas relacionales para el cubo Emapat .. 49









X

INTRODUCCIN

La complejidad con la que hoy en da se manejan las instituciones en el Ecuador, exigen
nuevos y ms altos estndares tecnolgicos. As mismo, los mltiples objetivos y
responsabilidades a los que se tienen que integrar, necesitan cada vez ms de una mejor
implementacin de las tecnologas de Inteligencia de Negocios, para optimizar la
aplicacin del conocimiento cientfico a la solucin de los problemas existentes.

En la Empresa Municipal de agua potable EMAPAT del Cantn el tambo se hace evidente
la necesidad de implementar un soporte para la consulta y el anlisis, de los datos para la
toma de decisiones segn los distintos tipos de necesidades que se requieran, en este
aspecto la implementacin de un Data Mart est estrictamente relacionado con la
explotacin de la informacin adaptndose a los requerimientos del usuario final,
obteniendo informacin que dar a conocer cules son los reportes y peticiones de
informacin ms comunes y solicitados dependiendo de las necesidades planteadas en cada
rea involucrada dentro de un ambiente organizacional.

EL presente trabajo investigativo pretende implementar una herramienta informtica (Data
Mart) para automatizar el proceso de informacin para el rea de comercializacin de la
empresa EMAPAT del Cantn El Tambo, la cual posibilitar la generacin de reportes que
permitirn contestar preguntas relacionadas con los principales indicadores de rendimiento.
El tema comprende el estudio de cuatro captulos cuyo contenido se describe brevemente a
continuacin

XI

EL PROBLEMA DE LA INVESTIGACIN.
El captulo 1, hace referencia al planteamiento del problema, los objetivos de la
investigacin la justificacin y las limitaciones. Donde se indicar el por qu se realiza la
investigacin, se plantea el problema de investigacin, limitaciones para el desarrollo de la
investigacin y la delimitacin de la propuesta.

MARCO REFERENCIAL TERICO Y CONCEPTUAL.
El captulo 2, se desarrolla el marco referencial de la investigacin la teora que
conceptualizar fundamentara la prctica y temas de importancia referentes al mbito
investigativo se delimitara hiptesis y variables conceptundolas y operacionando las de
manera objetiva.

MARCO METODOLGICO
El captulo 3, se describir la metodologa, nivel y tipo de investigacin, as tambin se
realizaran un estudio estadstico de la poblacin y la muestra para determinar los
instrumentos de recoleccin de informacin utilizados para la presente investigacin, que
permitan garantizar la confiabilidad y valides de las tcnicas elegidas

IMPLEMENTACIN DE LA PROPUESTA
El captulo 4, se determinara la propuesta de implementacin de un Data Mart para
automatizar el proceso de comercializacin de la empresa EMAPAT del Cantn El Tambo.
Por ltimo se incluir las Conclusiones, Recomendaciones, Bibliografa y Anexos.

1

CAPITULO I

1.1 PLANTEAMIENTO DEL PROBLEMA
En la actualidad el uso de herramientas de inteligencia de negocios es fundamental para mejorar
la gestin de las instituciones, el uso de esta tecnologa se traduce en mejores resultados y
procesos que facilitan el anlisis de los datos que poseen las empresas para convertirlos en
conocimiento e informacin til que apoyen a la toma de decisiones eficaz y oportuna.

La empresa de agua potable y alcantarillado EMAPAT del Cantn El tambo, cuenta desde hace
varios aos con un sistema transaccional confiable que servira de soporte para realizar reportes
basados en un modelo multidimensional que permitiran a la gerencia analizar los datos desde
otra perspectiva

Por este motivo se pretende implementar un DataMart en el rea de comercializacin con el fin
de agilizar los procesos para mejorar la toma de decisiones de la empresa EMAPAT del Cantn
El Tambo.


2

1.2 FORMULACION DEL PROBLEMA
De qu manera La implementacin de un Data Mart mejorara la eficiencia para la toma de
decisiones en el rea de comercializacin de la empresa de agua potable y alcantarillado
EMAPAT del Cantn el Tambo?

1.3 OBJETIVOS
1.3.1 OBJETIVO GENERAL.
Implementacin de un Data Mart para la toma de decisiones en el rea de comercializacin de la
empresa EMAPAT del Cantn El Tambo

1.3.2 OBJETIVO ESPECFICOS.
Conocer los procesos de comercializacin que lleva a cabo la empresa EMAPAT.
Implementar un Data Mart que cumpla con los reportes solicitados para facilitar la toma
de decisiones en el rea de comercializacin de la empresa EMAPAT.
Disear una Base de Datos Dimensional.
Realizar las tablas de hechos y sus dimensiones.
Realizar los reportes en el rea de comercializacin para la toma de decisiones a nivel
gerencial.

1.4 JUSTIFICACIN DE LA INVESTIGACIN
Las tasas que tienen que recaudar las entidades gubernamentales en el Ecuador por la prestacin
de servicios a la ciudadana, son necesarios para mantener el funcionamiento de las instituciones

3

y el financiamiento de las obras de infraestructura as como de la administracin en las
instituciones, de sta labor estn encargados los Gobiernos Autnomos Descentralizados del Pas.
En el Gobierno Autnomo Descentralizado Intercultural Municipal del Cantn El Tambo quien
realiza dichos cobros es la empresa Municipal de Agua Potable y Alcantarillado EMAPAT, y lo
hace por la prestacin de servicios tales como el agua potable y alcantarillado.

La presente investigacin se justifica porque actualmente la empresa necesita saber los montos
recaudados y los tiempos empleados, esto con el fin de identificar los consumos de los medidores
de aguan potable que existen en el Cantn El Tambo, de acuerdo a estas cifras crear los
indicadores a fin de planificar las actividades preventivas como la presencia o aumento de
personal, la adquisicin de material y equipo.

Esta investigacin propondr el desarrollo de un DataMart para la mejorar las decisiones en el
rea de comercializacin, aportando una herramienta de gran utilidad para el nivel estratgico de
la empresa, y desde el punto de vista acadmico es justificable ya que contribuye con nuevos
conocimientos a los alumnos de la Carrera de Ingeniera de Sistemas, fortaleciendo sus
conocimientos y sirviendo de ayuda para trabajos posteriores.

1.5 LIMITACIN Y DELIMITACIN
Limitacin

Corto tiempo para la investigacin.
La falta de Equipos informticos en la empresa.

4

La falta de capacitacin de los empleados
La falta de colaboracin de los empleados.

Delimitacin
La presente investigacin se realiz en el Cantn El Tambo, Provincia del Caar, en la empresa
de agua potable y alcantarillado EMAPAT ubicada en la calle Panamericana Norte.

5

CAPITULO II

MARCO REFERENCIAL, TERICO Y CONCEPTUAL

2.1 ANTECEDENTES DE LA INVESTIGACIN
La tesis realizada en la Escuela Politcnica Nacional por Fernando Santiago Jimnez Camba y
Edgar Rolando Zambrano Noguera, en el ao 2009, cuyo tema es Implementacin de un data
Mart para el rea de capacitacin y consultora del centro de educacin continua CEC , sus
principales conclusiones expresan lo siguiente:

La metodologa utilizada combina la gestin de proyectos propuesta en la metodologa de
Harjinder, Prakash y SAS Institute, cubren aspectos necesarios para alcanzar una solucin
efectiva, mantenible y escalable de forma independiente de la plataforma tecnolgica y de las
herramientas de desarrollo que se utilicen para su implementacin.

Si bien en la actualidad existen diversas herramientas para el desarrollo de Data Marts, tanto
propietario como software libre, es importante considerar aquella que se integre adecuadamente a
la infraestructura existente en la empresa a la que se va a implementar la solucin.La
implementacin del Data Mart permiti integrar los datos transaccionales e histricos con los que
dispone la CEC de forma consolidada, por lo cual la informacin estratgica requerida por la

6

coordinacin se encuentra en plena disponibilidad, dejando a lado el acceso a la base de datos
transaccional para su obtencin.

Otra tesis realizada por Fiorelly Shirley Guilln Rodrguez en la Universidad Privada del Norte
cuyo tema es: desarrollo de un Data Mart para mejorarla toma de decisiones en el rea de
tesorera de la Municipalidad de la Provincia de Cajamarca, Cajamarca Per 2012, sus
principales conclusiones expresan lo siguiente:
Se cumpli con el objetivo principal mejorando significativamente los resultados del
proyecto, as mismo se logr la simulacin del rea de Tesorera.
Con el desarrollo del data Mart los reportes anuales y mensuales para la mejor administracin
de lo recaudado hacia las dems reas de la Municipalidad Provincial de Cajamarca.
Se decidi usar las herramientas de software libre para la base de datos y para los procesos de
extraccin y explotacin por sus bajos costos.
En base a las caractersticas propias de la empresa el uso de la metodologa de Ralph Kimball
resulta una solucin eficaz en tiempo y recursos debido a que abarca la solucin al problema
en corto plazo.
Se disea un modelo dimensional adecuado segn la cantidad y profundidad de datos que
posee el Data Mart.


7

2.2 MARCO TERICO.
2.2.1 FUNDAMENTACIN TERICA O BASES TERICAS.
En este captulo se analiza el problema planteado dentro de un sistema de conocimientos
existentes para poderlo as formularlo tericamente. Se hace uso de los ejes conceptuales que
permitan una propuesta coherente como son:

2.2.1.1 BUSINESS INTELLIGENCE
Podemos definir Business Intelligence (BI) como el conjunto de metodologas, aplicaciones y
tecnologas que permiten reunir, depurar y transformar datos de los sistemas transaccionales e
informacin desestructurada (interna y externa a la compaa) en informacin estructurada, para
su explotacin directa (reporting, anlisis OLTP / OLAP, alertas...) o para su anlisis y
conversin en conocimiento, dando as soporte a la toma de decisiones sobre el negocio.
(Sinnexus, 2013)

Se define tambin como el conjunto de estrategias y tecnologas que nos van a ayudar a convertir
los datos en informacin de calidad, y dicha informacin en conocimiento que nos permitir una
toma de decisiones ms acertada y nos ayude as a mejorar nuestra competitividad. (Ramos,
2011)


8

2.2.1.2 ARQUITECTURA DE UNA SOLUCIN DE BUSINESS INTELLIGENCE
Una solucin de Business Intelligence parte de los sistemas de origen de una organizacin (bases
de datos, ERPs, ficheros de texto...), sobre los que suele ser necesario aplicar una transformacin
estructural para optimizar su proceso analtico.
Para ello se realiza una fase de extraccin, transformacin y carga (ETL) de datos. Esta etapa
suele apoyarse en un almacn intermedio, llamado ODS, que acta como pasarela entre los
sistemas fuente y los sistemas destino (generalmente un datawarehouse), y cuyo principal
objetivo consiste en evitar la saturacin de los servidores funcionales de la organizacin.
La informacin resultante, ya unificada, depurada y consolidada, se almacena en un
datawarehouse corporativo, que puede servir como base para la construccin de distintos
datamarts departamentales. Estos datamarts se caracterizan por poseer la estructura ptima para el
anlisis de los datos de esa rea de la empresa, ya sea mediante bases de datos transaccionales
(OLTP) o mediante bases de datos analticas (OLAP) (Sinnexus, 2013)

2.2.2.1 SISTEMAS DE SOPORTE A LA DECISIN (DSS)
Los sistemas de apoyo a la toma de decisiones DSS, constituyen una clase de alto nivel de
sistemas de informacin computarizada. Los DSS coinciden con los sistemas de informacin
gerencial en que ambos dependen de una base de datos para abastecerse de datos. Sin embargo,
difieren en que el DSS pone nfasis en el apoyo a la toma de decisiones en todas sus fases,
aunque la decisin definitiva es responsabilidad exclusiva del encargado de tomarla.(E.
KENDALL, 2005)


9

2.2.2.2 SISTEMAS DE INFORMACIN EJECUTIVA (EIS)
Cuando los ejecutivos recurren a la computadora, por lo general lo hacen en busca de mtodos
que los auxilien en la toma de decisiones de nivel estratgico. Los sistemas de apoyo a ejecutivos
ESS, ayudan a estos ltimos a organizar sus actividades relacionadas con el entorno externo
mediante herramientas grficas y de comunicaciones, que por lo general se encuentran en salas de
juntas o en oficinas corporativas personales.

A pesar de que los ESS dependen de la informacin producida por los TPS y los MIS, ayudan a
los usuarios a resolver problemas de toma de decisiones no estructuradas, que no tienen una
aplicacin especfica, mediante la creacin de un entorno que contribuye a pensar en problemas
estratgicos de una manera bien informada. Los ESS amplan y apoyan las capacidades de los
ejecutivos al darles la posibilidad de comprender sus entornos. (E. KENDALL, 2005)

2.2.3.1 DATAWAREHOUSE
Data Warehouse es el proceso de extraer datos de diferentes aplicaciones, ya sean internas o
externas, despus depurarlos y estructurarlos para que sean guardados en un almacn de datos.
Este almacn de datos ser utilizado posteriormente para el anlisis BI. Todo este proceso
requiere de una gran infraestructura hardware y software para llevar a cabo la transformacin de
los datos.


10

El Data Warehouse es una gran base de datos corporativa que almacena los datos extrados a
partir de diferentes fuentes, la informacin almacenada se utilizar en las consultas e informes.
La informacin esta almacenada en diferentes periodos de tiempo, adems cabe resaltar que esta
informacin no se modifica como en los sistemas transaccionales, sino que se
incrementa.(Subiela, 2011)

2.2.3.2 CARACTERISTICAS DE UN DATAWAREHOUSE
Integrado: se dice que los datos tienen que estar integrados ya que son los mismos tipos de
datos que se usaran en todos los departamentos de la empresa, estos datos pueden ser de
diferentes fuentes, un archivo de texto, una hoja de clculo o base de datos que tengan datos
que se vinculen entre ellos.
No Voltil: los datos de un Data Warehouse no se eliminan.
Variable en el tiempo: Mientras pasa el tiempo los datos tienen que ser actualizados para
fines de consulta de los usuarios.
Temtico: los datos son organizados por temas para facilitar su uso.

2.2.4.1 DATAMART
Son versiones ms pequeas de Datawarehouse. Estas versiones se crean usando algn criterio
particular, como por ejemplo el lugar geogrfico, un departamento especfico de una empresa o
institucin. Algunas corporaciones reemplazan completamente el concepto de tener un
Datawarehouse central, por varios datamarts ms pequeos que se alimenten directamente de los
sistemas operacionales.(Rivas, Rivera, & Lizama, 2007)

11

La creacin de los Data Marts es una estrategia particularmente apropiada cuando el DW central
crece muy rpido y los distintos departamentos requieren slo una pequea porcin de los datos
contenidos en l. La creacin de los Data Martsrequiere de algo ms que una simple rplica de
datos: se necesitarn tanto la segmentacin como algunos mtodos adicionales de consolidacin.

2.2.4.2 DATA WAREHOUSE VS. DATA MART
Un Data Warehouse, a diferencia de un Data Mart, se ocupa de varios temas y es implementado y
controlado por una unidad central de una organizacin, tales como la tecnologa de la
informacin corporativa (IT) normalmente. A menudo, se le llama un almacn de datos central.
Por lo general, un almacn de datos rene los datos de varios orgenes de datos.

Ninguna de estas definiciones bsicas limita el tamao de un Data Mart o la complejidad de los
datos de apoyo a las decisiones que contiene. Sin embargo, los data marts son ms pequeos y
menos complejos que los Data Warehouse, por lo general son ms fciles de construir y
mantener(Oracle Business Intelligence Standard Edition One Tutorial, 2010).

Cuadro N1: Diferencias entre un Data Warehouse y un Data Mart
CATEGORIA DATA WAREHOUSE DATA MART
ALCANCE CORPORATIVO LNEA DE NEGOCIO
SUJETO MLTIPLE INDIVIDUAL
FUENTES DE DATOS MUCHOS POCOS
TAMAO (TPICO) 100GB-TB + <100 GB
TIEMPO DE IMPLEMENTACIN MESES O AOS MESES

Fuente: Anlisis del investigador.

12

Elaborado por: Armando Montalvo.

2.2.5.1 MODELO MULTIDIMENCIONAL
La tecnologa Datawarehousing debido a su orientacin analtica, impone un procesamiento y
pensamiento distinto, la cual se sustenta por un modelamiento de Bases de Datos propio,
conocido como Modelamiento Multidimensional, el cual busca ofrecer al usuario su visin
respecto de la operacin del negocio, el Modelamiento Dimensional es una tcnica para modelar
bases de datos simples y entendibles al usuario final. La idea fundamental es que el usuario
visualice fcilmente la relacin que existe entre las distintas componentes del modelo. Los datos
en un DW se modelan en data cubes (cubos de datos sera su traduccin literal), estructuras
multidimensionales (hipercubos, en concreto) cuyas operaciones ms comunes son:
Roll up (incremento en el nivel de agregacin de los datos).
Drill down (incremento en el nivel de detalle, opuesto a roll up).
Slice (reduccin de la dimensionalidad de los datos mediante seleccin).
Dice (reduccin de la dimensionalidad de los datos mediante proyeccin).
Pivotaje o rotacin (reorientacin de la visin multidimensional de los datos).

2.2.5.2 ESQUEMA ESTRELLA.
En general, el modelo multidimensional tambin se conoce con el nombre de esquema estrella,
pues su estructura base es similar: una tabla central y un conjunto de tablas que la atienden
radialmente. El esquema estrella deriva su nombre del hecho que su diagrama forma una estrella,

13

con puntos radiales desde el centro. El centro de la estrella consiste de una o ms tablas de hecho,
y las puntas de la estrella son las tablas llamadas dimensiones.

Este modelo entonces, resulta ser asimtrico, pues hay una tabla dominante en el centro con
varias conexiones a las otras tablas. Las tablas dimensiones tienen slo la conexin a la tabla de
hechos y ninguna ms.

2.2.5.3ESQUEMA COPO DE NIEVE
La diferencia del esquema copo de nieve comparado con el esquema estrella, est en la estructura
de las tablas dimensiones: las tablas dimensiones en el esquema copo de nieve estn
normalizadas. Cada tabla dimensin contiene slo el nivel que es clave primaria en la tabla y la
foreign key de su parentesco del nivel ms cercano del diagrama. (Vega, 2013).

2.2.6.1 BASES DE DATOS MULTIDIMENSIONALES
Las bases de datos multidimensionales son una variacin del modelo relacional que utiliza cubos
OLAP para organizar los datos y expresar las relaciones entre ellos. Las principales ventajas de
este tipo de bases de datos son la versatilidad para cruzar informacin y la alta velocidad de
respuesta. Esto las convierte en herramientas bsicas para soluciones de Business Intelligence o
de Big Data, donde el anlisis de los datos resulta crucial.


14

2.2.6.1.1 OLTP
Los sistemas OLTP (on-line transactional processing) son bases de datos relacionales (RDBMS)
orientadas a transacciones. Una transaccin es una secuencia de operaciones llevada a cabo por
una base de datos de manera atmica. Las operaciones pueden ser de cuatro tipos diferentes:
SELECT, INSERT, DELETE y UPDATE. Al tratarse de un proceso atmico, cada transaccin
solo tiene dos posibles finales: commit o rollback Las transacciones son el pilar de prcticamente
cualquier programa de gestin o pgina web del mundo.(Technologies, 2013)

2.2.6.2 OLAP
Los sistemas OLAP (on-line analytical processing) son bases de datos orientadas al
procesamiento analtico. Este anlisis suele implicar, generalmente, la lectura de grandes
cantidades de datos para llegar a extraer algn tipo de informacin til: tendencias de ventas,
patrones de comportamiento de los consumidores, elaboracin de informes complejos etc.

Representando la informacin.-Un cubo OLAP no es ms que un vector de varias dimensiones.
Desde un punto de vista relacional, puede verse como una tabla de hechos (fact table) que tiene
dos tipos de columnas:
Indicadores: tambin denominados mtricas o ratios, son los valores numricos con los que
se opera. Por ejemplo: n de clientes, n de proveedores, importe de las ventas, n de ventas,
importe de las compras, n de compras etc.
Dimensiones: son las caractersticas por las que se pueden filtrar y cruzar los indicadores. Por
ejemplo: tiempo (fijando un determinado da, mes o ao), geografa (fijando un determinado

15

pas, regin o ciudad), proveedor, cliente, modo de pago etc. Las columnas
correspondientes a las dimensiones tienen claves forneas a tablas de dimensin, que
generalmente son tablas de maestros con clave-valor (esquema en estrella) o tablas
organizadas en jerarquas (esquema en copo de nieve) como: ciudad provincia pas.
(Technologies, 2013)
2.2.6.2 DIFERENCIAS ENTRE OLTP y OLAP
Mientras que las aplicaciones OLTP se caracterizan por estar actualizadas constantemente por
varios usuarios a travs de transacciones operacionales sobre datos individuales, las aplicaciones
OLAP son utilizadas por personal de niveles ejecutivos que requieren datos con alto grado de
agregacin y desde distintas perspectivas (dimensiones), como ser: totales de venta por regin,
por producto, por perodo de tiempo..., etc. La siguiente tabla nos muestra la diferencia entre
OLTP y OLAP.
Cuadro N2: Diferencias entre OLAP Y OLTP
OLTPOLAP
Objetivo Control de Procesos Operacionales Toma de Decisiones
Clientes Personal Operacional Gestores de Negocios
Datos Atmicos, Actualizados y Dinmicos Estables
Estructura Normalizada Dimensional
Tiempo Respuesta Segundos De segundos a minutos
Orientacin Orientado a Aplicaciones Orientado a Informacin
Acceso Alto Moderado a Bajo
Actualizacin Continuamente Peridicamente
Aplicacin Estructuras y Procesos Repetitivos No Estructurados y
Procesos Analticos
Fuente: Anlisis del investigador.
Elaborado por: Armando Montalvo.

16

2.2.7.1 EVALUACIN DE HERRAMIENTAS DE BI
Para el desarrollo de esta investigacin se decidi realizar la evaluacin de las diferentes
herramientas de Data Warehouse y Business Intelligence Free Open Source Software existentes
en el mercado.

Los pasos seguidos para la eleccin de la herramienta a utilizar fueron los siguientes:
Investigacin de posibles herramientas a utilizar que cubran los requerimientos del proyecto.
Preseleccin de un subgrupo de las herramientas investigadas sobre las cuales se realiza
comparacin de las caractersticas funcionales generales y caractersticas de arquitectura.
A continuacin se detalla el proceso de seleccin mencionado.

2.2.7.2PENTAHO
La plataforma Open Source Pentaho Business Intelligence est basada en tecnologa Java y con
un ambiente de implementacin tambin basado en Java lo que la hace una herramienta flexible y
adaptable a varios ambientes. La plataforma posee mdulos de reportes, anlisis olap, cuadros de
mando (Dashboards), extraccin de datos (DataMining), integracin de datos (ETL),
administracin y seguridad. Posee una interfaz de usuario bastante amigable.

2.2.7.2.1 CARACTERSTICAS GENERALES:
Versin Evaluada: Pentaho BI Suite Community Edition - 5.0.1 Estable, Junio 19 de 2013

17

Licenciamiento: GPL2, LGPL, MPL (Mozilla Public Licence)
Versin Comercial: Pentaho BI Suite Enterprise Edicin (Mayor cantidad de funcionalidades)
ComponentesPrincipales: ETL, Job Designer, Conectores, Repositorio Visual, Anlisis OLAP,
Metadata, Data Mining, Reporting, Dashboards, BI Platform, Administration Server.

2.2.7.3 JASPERSOFT
Jaspersoft proporciona inteligencia de negocio (BI) de autoservicio econmica y escalable.
Diseada para entornos en la nube, mviles y Big Data, la suite de BI de cdigo abierto de
Jaspersoft soporta decenas de miles de organizaciones y aplicaciones crticas de negocio todos los
das.

Basado en tecnologa Java, est formada por herramientas para generar informes, integracin y
anlisis de datos, dashboards y herramientas para administracin de la solucin. Posee una
interfaz amigable al usuario.

2.2.7.3.1 CARACTERSTICAS GENERALES:
Versin Evaluada: JasperSoft BI Suite Community - 4 Estable, Junio 2010
Licenciamiento: GPLv2
Versin Comercial: JasperSoft BI Suite Express Edition, Professional Edition y
Enterprise Edition (Mayor cantidad de funcionalidades)

18

Componentes Principales: ETL, Job Designer, Conectores, Repositorio Visual, Anlisis OLAP,
Reporting, Dashboards, BI Platform, AdministrationServer.Tecnologa: J2EE, iReport,
Liferay.(Jaspersoft, 2014)

2.2.7.4 SPAGOBI
Es una plataforma ya que cubre y satisface todos los requisitos de BI (Business Intelligence),
tanto en trminos de anlisis y de gestin de datos, administracin y seguridad.

En el mundo analtico ofrece soluciones para la presentacin de informes, anlisis
multidimensional (OLAP), minera de datos (Data Mining), tableros de mando (Dashboard) y
consultas ad-hoc. Aade mdulos originales para la gestin de procesos de colaboracin a travs
de anlisis dossiers y el anlisis de geo-referencia.

Cuenta con herramientas para la extraccin de datos, transformacin y carga (ETL y apoya al
administrador en el mantenimiento de los documentos analticos, la gestin para el control de
versiones y la aprobacin del flujos de trabajo (workflow), (Stratebi, 2011).

2.2.7.4.1 CARACTERSTICAS GENERALES:
Versin Evaluada: SpagoBI Studio 4.2, Abril 2014
Licenciamiento: LGPL (GNU Lesser General Public License)

19

Versin Comercial: No existe, solo se cobra por Soporte a Usuarios, Proyectos y
Mantenimientos.
Componentes Principales: ETL, Reporting y Ad-Hoc Reporting, Anlisis OLAP, BI Platform,
Administration, Charting, Dashboard, Cockpits interactivos, GEO/GIS, Data Mining, Query By
example, Smart Filters, Accesible reporting, Consola de monitoreo en tiempo real, Repositorio
Visual,SDK integrado, Dossier Analtico.(Stratebi, 2011)

2.2.7.5 OPENI
En cualquier suite Business Intelligence, el componente del visor OLAP es fundamental. Las
soluciones comerciales, llammoslas de 'toda la vida': Microsoft, Cognos, Microstrategy,
Business Objects, siempre han invertido y dedicado muchos recursos a que el interfaz de usuario
fuera lo ms potente, atractivo y usable posible.

OpeniProporciona soluciones de BI de extremo a extremo: Dashboards Interactivo Informes
complejos trabajos ETL dimensionales Modelado OLAP Cube Design Modelos predictivos Lo
hacemos todo aprovechando las herramientas de cdigo abierto.(Openi.org, 2014)

2.2.7.5.1 CARACTERSTICAS GENERALES:
Versin Evaluada: OpenI Suite - 2.0 RC2, Julio 2010
Licenciamiento: GPLv2 (GNU General Public License versin 2)

20

Versin Comercial: No
Componentes Principales: Anlisis OLAP, Reporting y Dashboards para servidores ROLAP.

2.2.7.6 PALO
Palo Suite combina todas las aplicaciones bsicas - OLAP Server, Palo Web, Palo ETL Server y
Palo para Excel - en una plataforma de Business Intelligence completa y personalizable. La
plataforma est completamente basada en productos de cdigo abierto que representan una alta
gama de soluciones de Business Intelligence que est disponible completamente libre de cuotas
por licencias (Palo, 2013).

2.2.7.6.1CARACTERSTICAS GENERALES:
Versin Evaluada: Palo Suite, Abril 15 de 2010
Licenciamiento: GPLv2 (GNU General Public License versin 2)
Versin Comercial: Palo Suite Premium Edition (garanta extendida del software y
funcionalidades de soporte).
Componentes Principales: Multidimensional OLAP Server (MOLAP) , Web server, Palo ETL
Server y Palo para integracin con Excel, Palo Modeler, PaloReport Manager


21

2.2.8.1 COMPARACIN DE FUNCIONALIDADES
Tomando en cuenta la cantidad de plataformas Open Source de Business Intelligence que se
encuentran en el mercado es necesario diferenciar cada uno de sus componentes y sus
caractersticas para tomar la opcin que ms se ajusta a los requerimientos de este proyecto. Las
caractersticas de las plataformas que se evaluaron fueron las siguientes:
Herramientas de soporte a ETL
Operaciones y componentes para anlisis OLAP
Herramientas de Reporting
Documentacin brindada
Usabilidad y amigabilidad con el usuario

Para la comparacin y evaluacin de las plataformas se definieron ciertas medidas que permiten
evaluar los distintos productos seleccionados y acercarse a la decisin ms apropiada. Se
evaluaron y compararon cada uno de los componentes por separado tomando el siguiente rango
de evaluacin segn sus funcionalidades:

Nivel A: El componente existe y posee una cantidad de funcionalidades superior a la media.
Nivel B: El componente existe pero posee una cantidad media de funcionalidades.
Nivel C: El componente existe pero posee escasa o pobre cantidad de funcionalidades con
respecto a la media.
Nivel D: El componente no se encuentra como una caracterstica de la plataforma pero puede
ser reemplazado por otro o implementado fcilmente.

22

Nivel E: El componente no se encuentra como una caracterstica en la plataforma y se
desconoce si puede ser reemplazado por otro.

A partir de estos 5 niveles se genera una escala de valores numricos, los cuales van desde
A=5 (mximo) hasta E=1 (mnimo).
Las calificaciones fueron realizadas en base a material encontrado en la web como revisiones de
especialistas, videos explicativos, foros y tutoriales.

En esta seccin comparamos algunas de las herramientas de ETL que existen en el mercado. Se
evalo la capacidad de extraccin de datos desde los distintos tipos de orgenes, su
transformacin, su transporte y la carga de los mismos hacia el DW. Para realizar las
comparaciones se analizaron foros, artculos cientficos y video-tutoriales de las mismas para
diferencias las distintas capacidades en cada una de ellas.

Se evalan las capacidades de anlisis OLAP ofrecidos por cada plataforma. En particular las
mismas deben contar con un motor o servidor de cubos y un componente visual que permita
realizar las operaciones OLAP.


23

Estos componentes en conjunto proveen la capacidad de consultar grandes cantidades de datos en
el DW utilizando estructuras multidimensionales (o Cubos OLAP) y a su vez permiten
interactuar visualmente con esta informacin.

Se comparan las capacidades de las plataformas para la creacin y visualizacin de reportes, la
siguiente tabla muestra cada una de las plataformas y su respectiva evaluacin.


Cuadro N3: Comparacin de herramientas de BI Open Source
Fuente: Anlisis del investigador.
Elaborado por: Armando Montalvo.

En esta seccin evaluamos el uso de los componentes de las plataformas. Lo que se busca es
medir la facilidad o complejidad con que las personas pueden utilizar cada una de las
HERRAMIENTA ETL
Plataforma Herramienta Evaluacin
Pentaho Pentaho Data Integration (Kettle) B
Jasper Soft Jasper ETL (Basado en TOS) A
SpagoBI TOS (Talend Open Studio) A
OpenI N/A D
Palo Palo ETL Server C
OPERACIONES Y COMPONENTES PARA ANLISIS OLAP
Pentaho JPivot/Mondrian B
Jasper Soft JPivot/Mondrian B
SpagoBI JPivot/Mondrian - JPalo/Mondrian -
JPivot/XMLA Server
A
OpenI JPivot/Mondrian - JPivot/XMLA Server A
Palo Palo (MOLAP) B
HERAMIENTAS DE REPORTING
Pentaho Pentaho Report Designer, JasperReport, Birt A
Jasper Soft JasperReport B
SpagoBI JasperReport, BIRT B
OpenI N/A D
Palo Palo Report Manager C

24

herramientas de las plataformas mencionadas. En aspectos generales la clasificacin de estas
plataformas es subjetiva, creada en esta etapa de evaluacin y lo que busca es clasificar una
plataforma segn sus capacidades en general, adems de la calidad y cantidad de herramientas
provistas por sta en comparacin con las dems.

La siguiente tabla muestra los resultados finales de cada uno de los puntos marcados
anteriormente adems del promedio final de cada una de las plataformas.


Cuadro N4: Usabilidad, aspectos y comparacin final de las herramienta BI


























Fuente: Anlisis del investigador.
Elaborado por: Armando Montalvo.

USABILIDAD
Plataforma Usuarios Administradores Desarrolladores Promedio
Pentaho A A B A
Jasper Soft B B B A
SpagoBI B A B A
OpenI A B B D
Palo B B B C
ASPECTOS GENERALES
Plataforma No tcnicos Otros Promedio
Pentaho A A A
Jasper Soft A A A
SpagoBI A A A
OpenI B B B
Palo B B B
CONPARACIN FINAL
Plataforma Evaluacin
Pentaho A
Jasper Soft B
SpagoBI B
OpenI D
Palo C

25

2.2.9 FUNDAMENTACIN LEGAL.
El diseo y la investigacin que involucra el presente trabajo, estn sustentados en las
disposiciones y reglamentacin emitida por el Vicerrectorado de Investigacin de la Universidad
Catlica de Cuenca y sujeto a las disposiciones de la Ley Orgnica de Educacin (LOES) que en
su Art. 8 literal f, al referirse a los Fines de la Educacin Superior establece:
Fomentar y ejecutar programas de investigacin de carcter cientfico, tecnolgico y pedaggico
que coadyuven al mejoramiento y proteccin del ambiente y promuevan el desarrollo sustentable
nacional

El Reglamento de Graduacin y Titulacin de las distintas Facultades de la Universidad Catlica
de Cuenca, sede Caar, dispone como un requisito para la obtencin del ttulo: Haber elaborado,
sustentado y aprobado un trabajo tcnico prctico de graduacin relativo a la carrera.

2.3. DEFINICIN DE TRMINOS BSICOS (Marco conceptual)
Business Intelligence: Se denomina Business Intelligence o inteligencia de negocios al conjunto
de estrategias y herramientas enfocadas a la administracin y creacin de conocimiento mediante
el anlisis de datos existentes en una organizacin o empresa.
DSS (Decision Support Systems): Sistemas de soporte a la toma de decisiones es un sistema de
aplicaciones automatizadas que asiste a la organizacin en la toma de decisiones mediante un
anlisis estratgico de la informacin histrica.
Data Warehouse: en espaol Almacn de datos, es una coleccin de datos orientada a un
dominio, integrada, no voltil y que vara en el tiempo.

26

Dama Mart: es una implementacin de un Data Warehouse con un mbito de datos y funciones
ms pequeo que un Data Warehouse, que sirve a un departamento nico de la organizacin. Una
organizacin generalmente tiene varios Data Marts
Cubo: una coleccin de dimensiones y medidas en un rea temtica particular.
Dimensin: Atributos de los datos a analizar, no son ms que los filtros que podemos aplicar a
nuestros datos, tanto filas como columnas.
Esquema en estrella: Organizacin fsica de los Data Marts que facilita el acceso a los datos y al
anlisis. Se caracteriza por tener una tabla central de hechos rodeada por tablas de dimensiones
que contienen informacin desnormalizada de los hechos.
ETL: Son las siglas en ingls de Extraer, Transformar y Cargar. Es el proceso que permite a las
organizaciones mover datos desde mltiples fuentes, reformatearlos, limpiarlos, y cargarlos en
otra base de datos o data warehouse para analizar, o en otro sistema operacional para apoyar un
proceso de negocio.
Data Mining: en espaol Minera de Datos Conjunto de tcnicas para la induccin de
conocimiento til a partir de masas muy grandes de datos. Tiene un solapamiento importante con
otras disciplinas como la estadstica tradicional, el reconocimiento de patrones, la inteligencia
artificial, etc.
OLAP(Procesamiento Analtico en Lnea): consiste en la realizacin de consultas a estructuras
multidimensionales que contienen datos resumidos. Su objetivo fundamental es lograr altas
velocidades en consultas complejas.
OLTP(Procesamiento Transaccional en Lnea):es un tipo de procesamiento que facilita y
administra aplicaciones transaccionales, usualmente para entrada de datos y recuperacin y
procesamiento de transacciones (gestor transaccional). Base de Datos: Una base de datos o banco

27

de datos es un conjunto de datos que pertenecen al mismo contexto almacenados
sistemticamente para su posterior uso.












28

CAPITULO III
MARCO METODOLGICO
3.1 METODOLOGA
La presente investigacin se basara en un enfoque cualitativo, en virtud de que se parte de las
realidades existentes en la empresa EMAPAT del Cantn El Tambo, se buscara las causas y la
explicacin de los hechos, este enfoque permitir partir del problema y objetivos previamente
definidos, plantear la solucin del problema para el anlisis correcto de la informacin.

3.2 NIVEL DE INVESTIGACIN
El proceso de investigacin es primordial para conocer a profundidad la problemtica por la cual
es necesaria la implementacin de un Data Mart en la empresa EMAPAT del Cantn El Tambo.

Investigacin Exploratoria: La investigacin pasar por el nivel de investigacin exploratoria
porque sondear un problema poco investigado o desconocido en un ambiente determinado,
especialmente para definir el tema de investigacin.

Investigacin Descriptiva: Es descriptiva porque se buscara informar los resultados obtenidos
de la investigacin, tomando encuentra criterios de coherencia interna y pertinencia.



29

3.3 TIPO DE INVESTIGACIN
Por el objeto de estudio.- Es aplicada por que se implementar una herramienta de inteligencia
de negocios para mejorar el desempeo diario de la gerencia de la empresa Emapat del Cantn El
Tambo.

Segn el nivel de medicin.- Es cualitativo por que estar basada en la interpretacin de los
valores, las ideas, las prcticas y desarrollo de los procesos.

Segn la ubicacin temporal.- Es longitudinal debido a que la bibliografa requerida para el
estudio se encuentra en libros, textos, blogs, documentos de apoyo e Internet.

3.4 MTODOS DE INVESTIGACIN
Investigacin Documental: ya que est basado en la obtencin y anlisis de datos provenientes
de materiales digitales u otro tipo de documentos como es la recoleccin de datos en la realidad
donde ocurre el hecho.

Investigacin de Campo: La investigacin tendr la modalidad de campo porque el investigador
acudir al lugar en donde se producen los hechos para obtener informacin relacionada con los
objetivos de la investigacin.

30

3.5 POBLACIN Y MUESTRA
La poblacin que se estudiara en esta investigacin, est compuesta por un determinado o
limitado nmero de personas. Esta poblacin finita consta de 5 empleados, de la empresa
EMAPAT del Cantn El tambo.

3.6 TIPOS DE MUESTREO
Por ser pequea la poblacin a ser investigada no se utilizar ninguna tcnica de muestra.

3.7 TCNICAS E INSTRUMENTOS PARA RECOLECCIN DE LA INFORMACIN
Tiene tambin que ir algo o sino debe eliminarse el titulo
3.7.1 ENTREVISTA
Dirigido al Gerente y al encargado del rea Financiera de la empresa EMAPAT, dado que su
conocimiento servir como gua de la entrevista para recaudar informacin de procesos para el
desarrollo de los reportes y manejo de la informacin de la institucin.

3.8 PRESENTACIN, ANLISIS E INTERPRETACIN DE RESULTADOS
En este captulo se presentan los resultados a las entrevistas realizadas en la visita a la empresa de
agua potable EMAPAT del Cantn El Tambo. Dichas entrevistas fueron realizadas
selectivamente a personas que estn estrechamente relacionadas con el proceso de toma de
decisiones de la empresa, las personas elegidas para la entrevista fueron el Ingeniero Galo Garca
Gerente y la Ingeniera Mara Eugenia De La Torre encargada del rea Financiera de la empresa
EMAPAT.

31


Las entrevistas fueron realizadas con base a un cuestionario previamente desarrollado,
involucrando temas claves para fines prcticos de esta investigacin. Es importante recalcar que
la entrevista es de tipo semiestructurada, por lo que no son preguntas concretas sino que se fueron
adaptando de acuerdo a la situacin de cada entrevistado.

3.8.1 PLAN DE RECOLECCIN DE INFORMACIN
Para concretar el plan de recoleccin de informacin, conviene contestar ciertas preguntas que las
planteamos a continuacin:


Cuadro N5: Plan de recoleccin de informacin.
Fuente: Anlisis del investigador.
Elaborado por: Armando Montalvo.
PREGUNTAS BSICAS EXPLICACIN
Para que? Para alcanzar los objetivos de la investigacin.

De qu persona u objeto? Sujetos: Gerente, encargada del rea
Administrativa.

Sobre qu aspectos? La forma en que se realizan los reportes.
Quin, quienes? Investigador

Cuando? Fecha tentativa: Enero 12 de 2014

Donde? Oficinas: del Gerente de la empresa Emapat.

Cuantas veces? Una vez
Qu tcnica de recoleccin? Entrevista
Con qu? Cuestionario ,gua de la Entrevista
En qu situacin? Durante la jornada de trabajo.


32


3.8.2 ENTREVISTAS REALIZADA AL GERENTE Y ENCARGADA DEL REA
ADMINISTRATIVA

Cuadro #1: Entrevista al Gerente de la empresa Emapat
Entrevista al Gerente de la empresa Emapat.
Nombre: Galo Garca.
Ttulos Obtenidos: Ing. Civil
Experiencia en el Trabajo: Actividades profesionales durante 3 aos en la empresa.
1. cmo describira su papel y sus tareas al interior de la empresa EMAPAT?

Soy el encargado de la Gerencia de la empresa Emapat del Cantn el Tambo, mi funcin al
frente de esta institucin es coordinar las labores que se realizan en la administracin del
sistema de agua y alcantarillado.


2. Cuantos aos trabaja en la empresa?

Me encuentro laborando tres aos en la institucin.

3. Podra darnos a conocer cmo est conformada la estructura orgnica de la empresa
Emapat?

Existe un orgnico funcional que est compuesto por un directorio, la gerencia y los
departamentos Financiero y de Talento Humano.
El Departamento financiero es el responsable de los cobros por los servicios que presta la
institucin, realiza los pagos a los empleados y trabajadores, y por los consumos que realiza la
empresa para el desarrollo de sus actividades.

Departamento de Talento humano que se encarga de controlar y manejar el desempeo del
personal que labora en la empresa.


33

Tambin existen asesores que brindan ayuda tanto a nivel informtico como jurdico. En la
empresa existe una cuadrilla de trabajo y los operadores que se incluyen en la cuadrilla con
diferentes rangos jerrquicos para realizar el mantenimiento de los sistemas como en la
operacin de las plantas de tratamiento, en este nivel existen tambin algunos auxiliares. Para
llegar a ser un total de veinte y seis persona que trabajan en la empresa.

4. Cules creen ustedes que seran las fortalezas y debilidades que mantiene la empresa?

Los puntos ms fuertes considera el ingeniero Garca que es el capital humano, cree en el
esfuerzo que hace la gente con errores y aciertos con un buen nivel de trabajo y la interrelacin
que se tiene entre compaeros. Y en las debilidades comenta que los sistemas informticos no
estn acorde con la realidad actual pero ya se est trabajando para en el futuro prximo mejorar
la infraestructura de estos sistemas.

5. Qu informacin considera usted sera la ms relevante y que debe llegar a su
conocimiento para el desarrollo de su actividad?

Conjuntamente con la Ingeniera Torres estamos trabajando en los ingresos recaudados, nosotros
brindamos el servicio de agua potable y alcantarillado y por lo general el fin de mes tenemos
problemas con el gasto corriente ya que se tiene que pagar las nminas de todos los sueldos de
los empleados de la empresa, por lo tanto la informacin que se solicita a la Ingeniera Torres es
como nos vamos a proyectar para el siguiente ao en funcin de los ingresos o gastos que
tememos durante el periodo fiscal y a ms de ello como hemos cerrado las brechas que existen
en la empresa.
6. Qu tipo de reportes analizan actualmente?

Bsicamente numricos generados en plantillas de Excel.
7. Cree que Los reportes que se realizan con el actual sistema cubren con toda las
necesidades de la gerencia para el anlisis y toma de decisiones?

No, ya que tomo mucho tiempo analizar los datos numricos.

34

8. Cree que es necesario realizar los reportes de manera grfica?

Si, seria de mucha ayuda para la gerencia tener reportes grficos que ayuden a tomar
decisiones correctas en el tiempo correcto.

Anlisis e Interpretacin.- El desempeo de una institucin mucho tiene que ver con que sta
cuente con los aspectos bsicos necesarios para un funcionamiento adecuado. De acuerdo a lo
indicado por el entrevistado y tomando en cuenta las respuestas y sugerencias del Ingeniero Galo
Garca Gerente de la empresa de agua potable EMAPAT, que consideran de mucha importancia la
creacin de una herramienta de inteligencia de negocios que les ayude a realizar los reportes de
manera grfica y numrica, con el fin de agilizar los procesos y disminuir los tiempos usados para
realizar dichos reportes.

Se ha visto la necesidad de mejorar el sistema transaccional de cobros por el servicio, ya que se
requiere sectorizar la informacin en cuanto a los medidores de agua del cantn, porque muchos
medidores tienen la calle como referencia pero no el sector en donde estn ubicados. Este trabajo lo
tiene que realizar las personas que laboran en la empresa conjuntamente con el administrador del
sistema, lo que concuerda con el tema que fue tratado en la entrevista y que enfoca la necesidad de
realizar reportes por sectores.
Fuente: Empleado de la empresa Emapat del Cantn el Tambo
Elaborado por: Armando Montalvo.

Cuadro#2: Entrevista a la encargada del rea Administrativa
Entrevista al encargado del rea Administrativa de la empresa Emapat.
Nombre: Mara Eugenia De La Torre.
Ttulos Obtenidos: Ing. Empresarial
Experiencia en el Trabajo: Actividades profesionales durante seis aos en la empresa.

1. Podra darnos a conocer cuntos aos trabaja en la empresa Emapat?

Me encuentra laborando seis aos en la empresa

35


2. cmo describira su papel y sus tareas al interior de la empresa EMAPAT?

Se encarga de la parte financiera y contable, todo lo que se refiere a la recaudacin de ingresos
y la erogacin de los gastos de la empresa.

3. Qu tipo de informacin recibe Usted para analizarla?

Principalmente los ingresos para analizar la recaudacin mensual con el fin ver si se estn
cumpliendo los objetivos previstos durante el ao. Y los egresos para revisar el flujo de gastos
de acuerdo a los ingresos recaudados.
4. Cules son los principales reportes que el gerente le solicita?

Tiene que ver con la recuperacin de los ingresos y acuerdo a la planificacin que hacemos al
inicio del mes con el fin de ver si se est cumpliendo la meta, por ejemplo si se ha planificado
recaudar un ochenta o noventa por ciento de lo planeado. Aqu es donde surge el problema de
que los reportes se lo hace de forma manual por lo tanto se tarda en verificar como est la
recaudacin.
5. Qu tipo de reportes se realiza?

Los reportes que generalmente hacemos son:
Medidores con mayor consumo.
Verificar picos en los medidores para detectar fugas.
Media de consumos por ao.
Media de consumos por mes.

6. Cmo piensa usted que deberan ser los reportes que se entregan a la gerencia: numrica,
grfica o de las dos formas?

Las dos formas seran de gran ayuda para poder realizar los reportes.

36


Anlisis e Interpretacin.- de acuerdo con el crecimiento poblacional del Cantn El Tambo y por
ende el aumento de usuarios de consumo de agua, est clara la necesidad de dar un servicio de
calidad a la poblacin. Esto hace necesario modificar la forma en que se analiza la informacin,
utilizando herramientas tecnolgicas que ayuden a este fin.
La propuesta de implementar una herramienta de inteligencia de negocios brindara a la empresa el
apoyo necesario para que el servicio que se da a la ciudadana sea eficiente.
Fuente: Empleado de la empresa Emapat del Cantn el Tambo
Elaborado por: Armando Montalvo.

3.8.3 CONCLUSIONES
Una vez realizado el anlisis e interpretacin de los resultados se comprob que la empresa
EMAPAT carece de un sistema para realizar reportes a nivel gerencial y financiero que le ayude
a tomar decisiones de manera eficiente.

3.8.4 RECOMENDACIONES
Despus de haber realizado la observacin directa y analizado las respuestas a las interrogantes
de la entrevista, dirigidas al Gerente y encargada del rea financiera, se recomienda lo siguiente:
Crear un reporte para analizar los medidores con consumos altos durante un mes.
Crear un reporte del historial de un medidor por un rango de tiempo.
Crear un reporte para el anlisis de consumo de agua por categoras durante un rango de
tiempo.
Crear un reporte para analizar los valores recaudados por meses.

37

Implementar una herramienta de inteligencia de negocios que facilite la manera de realizar los
reportes en este caso en particular un Data Mart, el cual ayudara en la toma de decisiones de
la empresa EMAPAT Del Cantn el Tambo.

3.9 ANLISIS DE VALIDEZ Y CONFIABILIDAD
La validez y confiabilidad de la presente investigacin han sido determinadas por el director de
tesis y por el Honorable Consejo Directivo de la Universidad Catlica de Cuenca, Sede Caar.











38


CAPITULO IV

4.1 TTULO DE LA PROPUESTA
Implementacin de un Data Mart para la toma de decisiones en el rea de comercializacin de la
empresa Emapat Del Cantn El Tambo

4.2PRESENTACIN
El presente proyecto de investigacin tiene como objetivo mejorar la forma en que generan los
reportes para la toman las decisiones en el rea de comercializacin de la empresa EMAPAT,
Del Cantn El Tambo, en este momento la empresa se encuentra rezagada en cuanto a las nuevas
tecnologas de inteligencia de negocios que existen en el mercado en especial las Open source.
Por lo que se propone mejorarlo mediante la implementacin de un Data Mart que gener los
reportes de forma numrica y grfica.

4.3 OBJETIVO
Implementar un Data Mart para la toma de decisiones en el rea de comercializacin de la
empresa Emapat Del Cantn El Tambo, para mejorar la forma en que se vienen realizando los
reportes en la empresa. En funcin de los requerimientos obtenidos como resultado de las
entrevistas que se realizaron a los empleados de la empresa EMAPAT Del Cantn El Tambo.


39

El objetivo es disponer de toda la informacin referente al anlisis del consumo de los medidores
de agua con el fin de guardar esta informacin en un almacn de datos temporal, a partir del cual
poder extraer de la siguiente manera:

A nivel de reporting y consultas ad-hoc: se montara un sistema de informes para dar
soporte a todas las necesidades de informacin que se cubren en la actualidad con el sistema
transaccional Emapat y con desarrollos personalizados de reportes utilizando Pentaho
Biserver, Pentaho Report Designer y Zaiku Reporting.

Navegacin dimensional por los datos utilizando herramientas OLAP, con el objetivo de
descubrir tendencias, descubrir consumos altos, consumos por categora de medidor, etc.

4.4 JUSTIFICACIN
Las metas que se ha propuesto alcanzar la empresa EMAPAT, han sido limitadas debido a la
falta de una herramienta de reportes que ayude a tomar decisiones administrativas en el rea de
comercializacin de la empresa.

Es necesario entonces recurrir a formas de tomar decisiones, utilizando un procedimiento
tecnolgico, que garantice la validez y fiabilidad, por lo que, la aplicacin de la propuesta que se
ha planteado, como medio para contribuir a la solucin de la problemtica existente en la
presente investigacin se justifica, en virtud que:


40

La implementacin de un Data Mart contribuir a que la institucin tenga una herramienta de
inteligencia de negocios que les ayude a mejorar la forma en que generan los reportes para la
toman las decisiones en el rea de comercializacin de dicha institucin.

Mejorar los procesos de toma de decisiones; es fundamental al considerar este beneficio, puesto
que las autoridades de la empresa podrn obviamente obtener un mayor nivel en cunto a tomar
decisiones importantes, al tener reportes con informacin actualizada, clara y precisa cuyos
reportes adems ofrezcan un alto nivel estadstico y de interaccin con el usuario final.

Adems, en nuestra propuesta est fundamentada en el uso de herramientas de Software Libre
nos sustentamos en el Decreto Ejecutivo No. 1014 emitido por el Presidente de la repblica del
Ecuador Rafael Correa Delgado, donde establece como poltica pblica para las Entidades de la
Administracin Pblica Central la utilizacin de Software Libre en sus sistemas y equipamientos
informticos; ya que la aplicacin de nuestro tema lo realizaremos en una Institucin Pblica.

Se entiende por Software Libre, a los programas de computacin que se pueden utilizar y
distribuir sin restriccin alguna y puedan ser mejoradas. Estos programas de computacin tienen
las siguientes libertades:
a) Utilizacin del programa con cualquier propsito de uso comn.
b) Distribucin de copias sin restriccin alguna.


41

4.5 FUNDAMENTACIN TERICA
4.6 DESCRIPCIN DE LA PROPUESTA
Se pretende implementar un Data Mart como herramienta de inteligencia de negocios para
mejorar la eficiencia en la toma de decisiones y, consecuentemente, optimizar aspectos
fundamentales como la reduccin de tiempo y equipos.

El presente objetivo contesta las tres preguntas bsicas, Qu? Cmo? y Para qu?
Qu se va a realizar?
Implementar un Data Mart para la toma de decisiones en el rea de comercializacin de la
empresa EMAPAT Del Cantn El Tambo

Cmo se va a realizar?
El presente proyecto aborda el diseo y la puesta en funcionamiento de un Data Mart que sirva
como herramienta de desarrollo de reportes numricos y grficos, mediante el uso Software
Libre, con este fin se ha optado por utilizar Pentaho BI suite, que tiene un conjunto de programas
libres para generar inteligencia empresarial. Incluye herramientas integradas para realizar ETL,
generar informes, realizar reportes, etc.

Para qu?
Para mejorar la toma de decisiones en la gerencia de la empresa y as brindar un mejor servicio a
los ciudadanos del Cantn el Tambo y sus comunidades.


42

4.7 FACTIBILIDAD DE LA PROPUESTA
Para la implementacin del presente proyecto se necesitara contar con recursos que permitan su
correcto funcionamiento, los cuales se detallaran a continuacin.

4.7.1 RECURSOS MATERIALES
Los recursos materiales necesarios para la implementacin, se encuentran disponibles en la
empresa EMAPAT Del Cantn El Tambo, por lo que no es necesaria ninguna adquisicin.

4.7.2 RECURSOS FINANCIEROS
En lo que se refiere a los recursos financieros para la implementacin del proyecto, no ser
necesario la inversin econmica, ya que se est utilizando una herramienta Open Source y los
recursos de hardware lo dispone la empresa.

4.7.3 TALENTO HUMANO
Investigador: Carlos Armando Montalvo Molina.
Director: Ingeniero Luis Fernando Pinos.
Gerente de la empresa EMAPAT: Ingeniero Galo Garca.
Empleados de la empresa EMAPAT.


43

4.7.4 LEGAL
El presente trabajo de investigacin respetar y se basar en el reglamento de Graduacin y
Titulacin de la Facultad de Ingeniera de Sistemas de la Universidad Catlica de Cuenca, Sede
Caar y al Reglamento General de Estudiantes de la Universidad Catlica de Cuenca.

4.8 DESARROLLO DE LA PROPUESTA
En el desarrollo de la propuesta se describe el diseo de la solucin planteada para satisfacer el
objetivo del proyecto que corresponde a la implementacin de un Data Mart utilizando Pentaho
BI Suite (ira una coma) como la tecnologa que se ha selecciono en el estudio que se realiz de
las herramientas Open Source del captulo dos. El diseo de la propuesta se divide en las
siguientes partes.

Diseo de la arquitectura del Data Mart
descripcin de la arquitectura del Data Mart.
Anlisis de los datos fuentes.
Presenta la descripcin de la herramienta.

4.8.1DISEO DE LA ARQUITECTURA
Para tener una visin general del sistema y tomando en cuenta que la plataforma elegida para la
implementacin de la solucin es Pentaho se explica a continuacin la arquitectura tpica
utilizada en los sistemas de DW, detallando cada una de los sub-sistemas que conforman el
sistema realizado y que se encuentra esquematizado en el diagrama (ver figura 1).

44

Se Diferencian seis grandes sub-sistemas en los cuales el sistema est estructurado:
Fuentes de datos Extraccin Transformacin y Carga (ETL)
On-Line Analytical Processing (OLAP)
Presentacin
Seguridad
Administracin


Grfico N1: Arquitectura de la solucin
Fuente: Armando Montalvo.

4.8.2 DESCRIPCIN DE LA ARQUITECTURA
En esta etapa se preparan los datos tomndolo de la fuente (base de datos Emapat), (bien
EMAPAT TODO CON MAYUSCULAS O COMO ESTA ALLI VER EN TODA LA TESIS
)para la posterior utilizacin a travs de los siguientes subprocesos: limpiar los datos eliminando
duplicados y datos errneos, transformar los datos en consistentes para el anlisis, integracin de
los datos en las definiciones del Data Mart y, finalmente, actualizar los datos de forma peridica

45

en el Data Mart. Los datos obtenidos de las fuentes se mantienen en una base de datos temporal,
que es usada por todos los procesos para llevar a cabo las tareas ETL

En este proyecto solo se utilizaron como fuentes de datos la bases de datos relacional Emapat,
con la que cuenta la empresa, que utiliza un motor de base de datos PostgreSQL, sin embargo,
tambin se podra obtener informacin desde otro tipo de fuentes como por ejemplo base de datos
no Sql como MongoDB, planillas de clculo, archivos planos de texto, entre otros.

OLAP es el ncleo del sistema que corresponde al repositorio central de informacin donde
residen los datos actualmente utilizados. En nuestro caso, los datos se almacenan en estructuras
multidimensionales que contienen el metadato de la informacin almacenada. En esta rea se
incluye, tambin, el motor de cubos multidimensional, que se encarga de ejecutar las consultas
realizadas por las aplicaciones externas.

La Presentacin es el rea correspondiente a la interaccin con el usuario, cuya finalidad es
mostrar los datos almacenados de forma til y transparente a travs de las distintas herramientas.
Este sub-sistema se comunica directamente con el servidor de cubos a travs de consultas, las
cuales retornan la informacin requerida donde sta es transformada y presentada para la
visualizacin final. Los reportes requeridos en el proyecto se encuentran en esta rea.

4.8.3ANLISIS DE LA FUENTES DE DATOS
La base de datos que se utiliz para alimentar el Data Mart corresponde al Sistema de agua de
EMAPAT Del cantn El Tambo. Este sistema tiene la informacin general de todos los

46

medidores existentes y funciona como registro en donde consta el nmero de afiliados. Los datos
son ingresados al sistema por funcionarios de la institucin.
Los reportes generados se obtienen de la informacin del Sistema transaccional. Este sistema es
la principal fuente de informacin para Anlisis y el diseo de la solucin que se utilizaron a lo
largo del proyecto. Puntualmente, es el proveedor de los datos a partir del cual se generaron los
reportes mencionados posteriormente. Es por ello que se realiz un anlisis exhaustivo de la base
de datos para reconocer cuales son las entidades relevantes para la solucin del problema.

A partir del anlisis de las tablas de la base de datos de origen correspondiente al Sistema
EMAPAT, se identificaron 35 entidades. Luego de analizar los requerimientos y obtener
informacin de cules sern las entidades necesarias para los reportes solicitados se lograron
identificar las tablas que formaran parte de la solucin. Estas son las tablas o entidades que se
usaron para los reportes:
Clientes.
Medidores.
Sectores.
Rutas.
Lecturas.
Cobros.
Detalle_factura.
Factura.
Categora.

47

Tiempo.
La figura 3 presenta el modelo entidad-relacin sobre la parte relevante de la base de datos
correspondiente al Sistema transaccional EMAPAT.

Clientes tiene Medidores
Clase_Cliente
Sector tiene
Ruta tiene
Categoria tiene
Lectura
t
i
e
n
e
Cobros Facura
t
i
e
n
e
1
tiene
cli_codigo
cla_codigo
med_codigo
Lec_codigo
Sec_codigo
Rut_codigo
cat_codigo
Fac_codigo
Cob_codigo
N 1
N
t
i
e
n
e
1
N
1
N 1
N
1
N
1
1
N N

Grfico N2:Diagrama Entidad Relacin de la base de datos Emapat
Fuente: Armando Montalvo.


A continuacin se presenta el modelo relacional de las tablas involucradas como fuentes de datos
de nuestra solucin (Figura 4).



48



























Grfico N3: Modelo Relacional de la Base de Datos EMAPAT
Fuente: Armando Montalvo

4.8.4MODELADO MULTIDIMENSIONAL
En esta seccin se describe cada uno de los elementos multidimensionales que forman parte de la
solucin. Para el modelado de la solucin al problema planteado fueron analizadas la siguiente
tabla de hecho y susdimensiones:
Fact_Consumo_Medidores
dim_Clientes
dim_Categoria
dim_Sector

49

dim_Ruta
dim_Factura
dim_tiempo

4.8.5DISEO DE LA BASE DE DATOS QUE SOPORTA A LOS CUBOS
A continuacin se representa el diagrama de la estructura relacional usada para la creacin del
modelo multidimensional para la creacin de los reportes.
ste diagrama se deriva de las dimensiones y del esquema multidimensional. Se decidi utilizar
un esquema estrella para el diseo en lugar de un esquema copo de nieve, ganando as
simplicidad en el diseo y velocidad de acceso por tener las distintas jerarquas desnormalizadas.
Como se demuestra en la figura 4.


Grfico N 4: Modelo multidimensional en base a tablas relacionales para el cubo Emapat
Fuente: Armando Montalvo.

50

Se destaca que se lograron disear un cubo capaz de soportar los requerimientos proporcionados
por la empresa Emapat, as como tambin las tablas que representan el cubo. Para esto se
abordaron tambin los problemas de calidad de datos y se buscaron soluciones en el diseo de
tablas temporales para la posterior carga del Data Mart.


4.8.6PENTAHO
La plataforma propuesta por este fabricante cubre los requisitos generales formulados para este
nivel de seleccin. Es una plataforma completa de cdigo abierto (BI Open Source), que dispone
de una versin comunitaria gratuita; por tanto, se reducen los costes relacionados con la
adquisicin de la plataforma.

Asimismo, su nivel funcional se ve favorecido por las aportaciones de la comunidad, donde los
problemas se comparten y las aportaciones se verifican. La versin Community Edition (CE), la
ms utilizada por las organizaciones, es la seleccionada en nuestro caso.

Suite Pentaho:Pentaho es una Suite de BI Open Source basada en Java. En su suite Pentaho
integra diferentes proyectos open source y los hace funcionar de forma integrada en su
plataforma siguiendo el flujo de trabajo. Los proyectos open source que ha integrado en su suite
permite que se cubran las siguientes reas: anlisis de informacin, reportes, cuadros de mando,
flujos de trabajo y minera de datos. En la siguiente figura se representa la arquitectura de la Suite
Pentaho.(Subiela, 2011).

51

4.8.6.1 PENTAHO DATA INTEGRATION
La suite de inteligencia de negocios Pentaho, entre las distintas soluciones que ofrece cuenta con
la herramienta de Integracin de data (Pentaho Data Integration) mejor conocida como Kettle
cuyo nombre es un acrnimo recursivo de Kettle Extraction Transformation Transportation &
Loading Environment. Dicha herramienta permite realizar operaciones de ETL (Extraction,
Transformation and Load), sobre diversas fuentes de datos y con mltiples opciones para ello.

PDI est formado por un conjunto de herramientas, cada una con un propsito especfico.
Spoon: es la herramienta grfica que nos permite el diseo de las transformaciones y trabajos.
Incluye opciones para pre visualizar y testear los elementos desarrollados. Es la principal
herramienta de trabajo de PDI y con la que construiremos y validaremos nuestros procesos
ETL.
Pan: es la herramienta que nos permite la ejecucin de las transformaciones diseadas en
spoon (bien desde un fichero o desde el repositorio). Nos permite desde la lnea de comandos
preparar la ejecucin mediante scripts.
Kitchen: similar a Pan, pero para ejecutar los trabajos o jobs. (Espinosa, 2010).

4.8.6.2 CREACIN DE CUBOS CON MONDRIAN
En la plataforma Open Source de PENTAHO se incluye la herramienta OLAP Mondrian, que
permite crear cubos de informacin para anlisis multidimensional.

52

Dichos cubos se componen de archivos XML y en ellos se definen las Dimensiones y las
conexiones de los datos. Los archivos XML por lo general son complejos de realizar
manualmente por lo que es comn utilizar herramientas grficas para realizar la edicin de estos.
Como ejemplo de estas herramientas Open Source Pentaho tenemos a Cube Designer para la
Creacin de cubos y el Workbench para la edicin de los mismos. Estas herramientas las
podemos descargar directamente desde el sitio de www.sourceforge.com
En la arquitectura de Mondrian se ejecuta sobre un servidor web y nos permite la comunicacin
entre aplicaciones OLAP con bases de datos. El ncleo del servidor Mondrian es similar a JDBC
pero exclusivo para OLAP. Proporciona la conexin a la base de datos y ejecuta las sentencias
SQL (Gravitar, 2013).

4.8.6.3 PENTAHO REPORTING
Basada en el proyecto JfreeReport, permite generar informes de forma gil y de gran capacidad.
Soporta la distribucin de los resultados del anlisis en mltiples formatos, todos los informes
incluyen la opcin de imprimir o exportar a formato PDF, XLS, HTML y texto. Los reportes
Pentaho se pueden programar e incluso que sean generados peridicamente. En la siguiente
figura se pueden visualizar diferentes tipos de informes soportados por Pentaho Reporting.
(Subiela, 2011)



53

4.8 EVALUACIN DE LA PROPUESTA
No est de cambiar no es una evaluacin
Se realiz un estudio acerca del arte de la construccin de Data Warehouse en especial con herramientas
de Software Libre. Por otro lado se instal correctamente la herramienta recomendada de Extraccin
Transformacin y carga (Kettle) y se dise el cubo mediante la herramienta Modrian Workbench que
permite obtener la posterior creacin de reportes definidos en la investigacin.

Se implement el Data Mart solicitado y se program la actualizacin peridica del mismo de forma
automatizada, se crearon los reportes con las herramientas de reportes de la suite de Pentaho, que
fueron el tema central de esta investigacin.

Se destaca como resultado la experiencia adquirida en el manejo de tecnologas de inteligencia de
negocios durante el periodo de investigacin.
CONCLUSIONES
Despus de estudiar detenidamente sobre la importancia del uso de herramientas de inteligencia
de negocios para el desarrollo de las empresas y en especial de la suite de Pentaho se puede
afirmar que:
Ha sido posible instalar y comprobar el funcionamiento de la suite de Pentaho y todas sus
herramientas utilizadas en este proyecto. En este sentido, cabe destacar que se solicit a la
empresa una copia de la base de datos con el fin de realizar las respectivas pruebas.
Consecuentemente, los reportes creados son elementos fundamentales de la inteligencia de
negocios que permite la visualizacin concreta y funcional de los resultados de una organizacin.

54


Se debe destacar una experiencia muy positiva con la suite de Pentaho, en el cual se pudo realizar
anlisis, publicar distintos trabajos, tanto reportes como cubos, de forma muy sencilla. Tal y
como se esperaba, se afirmar que se convertir en el futuro en una herramienta muy utilizada por
los usuarios a travs de su servidor web.

Vale la pena tomar en cuenta que las aplicaciones del nivel de presentacin en cuanto a los
diseos grficos carecen en algunos casos de cierta simplicidad. No obstante, es posible mejorar
estas deficiencias, a travs de herramientas de diseo que se incorporan a la plataforma como es
el caso de Zaiku Reporting.

En conclusin, la suite de Pentaho se muestra como una excelente solucin para proyectos de
Data Warehouse y Data Marts. Por contra, debemos tener en cuenta que los procesos ETL son
complicados y requieren largos tiempos de desarrollo y pruebas.
RECOMENDACIONES
Los datos que contiene el Data Mart permiten el diseo de otra serie de reportes para la toma
de decisiones gerenciales por lo que se recomienda mejorarlo en el futuro.
Se recomienda el uso de herramientas de Software libre para empresas medianas y pequeas
como es el caso de la empresa Emapat Del Cantn El Tambo, que no tiene los recursos
suficientes para comprar un software propietario.
Se recomienda capacitar al personal que va a utilizar esta herramienta.

55

Se recomienda actualizar los equipos de Hardware que posee la empresa.
BIBLIOGRAFIA
Oracle Business Intelligence Standard Edition One Tutorial.(5 de 5 de 2010). Recuperado el 24 de 12 de
2013, de http://docs.oracle.com/html/E10312_01/dm_design.htm
Sinnexus. (20 de Noviembre de 2013). Recuperado el 12 de Noviembre de 2013, de Business Intelligence
: http://www.sinnexus.com/business_intelligence/sistemas_soporte_decisiones.aspx
E. KENDALL, K. y. (2005). Anlisis y diseo de sistemas. Mxico: PEARSON EDUCACIN.
Espinosa, R. (10 de 5 de 2010). El Rincon del BI. Recuperado el 7 de 1 de 2014, de
http://churriwifi.wordpress.com/2010/05/10/16-3-construccion-procesos-etl-utilizando-kettle-
pentaho-data-integration/
Gravitar. (20 de Noviembre de 2013). Gravitar Informacion sin Limitas. Recuperado el 12 de Noviembre
de 2013, de Introduccin a Pentaho: http://www.gravitar.biz/index.php/bi/introduccion-
pentaho-parte-1/
Jaspersoft. (2014). Jaspersoft. Recuperado el 16 de 11 de 2013, de
http://community.jaspersoft.com/wiki/community-wiki
Muoz, C. (20 de 12 de 2012). Pentaho BI. Recuperado el 7 de 1 de 2014, de
http://prezi.com/etav7muyv00l/pentaho-bi/
Palo. (2013). Palo open source business intelligence.Recuperado el 14 de 11 de 2013, de
http://www.palo.net/
Ramos, S. (2011). Microsoft Business Intelligence: vea el cubo medio lleno. SolidQ, 9.

56

Rivas, I. T., Rivera, M. R., & Lizama, E. R. (2007). Una metodologa para sectorizar pacientes en el
consumo de medicamentos aplicando datamart y datamining en un hospital. Industrial Data, 3.
Stratebi. (2011). Stratebi open business intelligence. Recuperado el 12 de 10 de 2013, de
http://www.stratebi.com/spagobi
Subiela, S. D. (2011). Sistemas de Informacin BI:. Universitat Oberta de Catalunya, 14.
Technologies, C. (25 de 6 de 2013). Bases de datos multidimensionales: OLAP vs OLTP. Recuperado el 6
de 1 de 2014, de http://blog.classora.com/2013/06/25/bases-de-datos-multidimensionales-olap-
vs-oltp/
Vega, K. C. (13 de 4 de 2013). Base de Datos Estratgica. Recuperado el 6 de 1 de 2014, de
http://kcarbajalv.blogspot.com/2013/04/modelo-multidimensional.html










57




ANEXOS










58




59


REPBLICA DEL ECUADOR
UNIVERSIDAD CATLICA DE CUENCA
COMUNIDAD EDUCATIVA AL SERVICIO DEL PUEBLO
SEDE CAAR



FACULTAD DE INGENIERIA DE SISTEMAS

DISEO DEL TRABAJO ESPECFICO DE INVESTIGACIN
PREVIO A LA OBTENCIN DEL TTULO DE
INGENIERO DE SISTEMAS


2013 -2014

60

ANEXO 1
I. DATOS INFORMATIVOS:

TEMA:Implementacin de un Data Mart para la toma de decisiones en el rea de
comercializacin de la empresa EMAPAT del Cantn El Tambo

1. INVESTIGADOR: Carlos Armando Montalvo Molina.

2. DIRECTOR: Ing. Luis Fernando Pinos Castillo

3. FECHA: 12 de Enero del 2014












61

II. INTRODUCCIN:
La complejidad con la que hoy en da se manejan las instituciones en el Ecuador, exigen nuevos
y ms altos estndares tecnolgicos. As mismo, los mltiples objetivos y responsabilidades a los
que se tienen que integrar, necesitan cada vez ms de una mejor implementacin de las
tecnologas de Inteligencia de Negocios, para optimizar la aplicacin de conocimiento cientfico
a la solucin de los problemas existentes.

En la Empresa Municipal de agua potable EMAPAT del Cantn el tambo se hace evidente la
necesidad de implementar un soporte para la consulta y el anlisis, de los datos para la toma de
decisiones segn los distintos tipos de necesidades que se requieran, en este aspecto la
implementacin de un Data Mart est estrictamente relacionado con la explotacin de la
informacin adaptndose a los requerimientos del usuario final, obteniendo informacin que dar
a conocer cules son los reportes y peticiones de informacin ms comunes y solicitados
dependiendo de las necesidades planteadas en cada rea involucrada dentro de un ambiente
organizacional.

EL presente trabajo investigativo pretende implementar una herramienta informtica (Data Mart)
para automatizar el proceso de informacin para el rea de comercializacin de la empresa
EMAPAT del Cantn El Tambo, la cual posibilitar la generacin de reportes que permitirn
contestar preguntas relacionadas con los principales indicadores de rendimiento.


62

El tema comprende el estudio de cuatro captulos cuyo contenido se describe brevemente a
continuacin.
El captulo 1, hace referencia al planteamiento del problema, los objetivos de la investigacin la
justificacin y las limitaciones.

El captulo 2, se desarrolla el marco referencial de la investigacin la teora que conceptualizar
fundamentara la prctica y temas de importancia referentes al mbito investigativo se delimitara
hiptesis y variables conceptundolas y operacionandolas de manera objetiva.

El captulo 3, se describir la metodologa, nivel y tipo de investigacin, as tambin se realizaran
un estudio estadstico de la poblacin y la muestra para determinar los instrumentos de
recoleccin de informacin utilizados para la presente investigacin, que permitan garantizar la
confiabilidad y valides de las tcnicas elegidas

El captulo 4, se determinara la propuesta de implementacin de un Data Mart para automatizar
el proceso de comercializacin de la empresa EMAPAT del Cantn El Tambo.





63

IV. PLANTEAMIENTO DEL PROBLEMA
La empresa Municipal de Agua Potable del Cantn El Tambo, EMAPAT evidencia una
deficiente e inadecuada forma de realizar los reportes en el rea de comercializacin,debido a la
falta de una herramienta de inteligencia de negocios que ayude a optimizar estas actividades.

V. FORMULACIN DEL PROBLEMA
De qu manera La implementacin de un Data Mart mejorara la eficiencia para la toma de
decisiones en el rea de comercializacin de la empresa de agua potable y alcantarillado
EMAPAT del Cantn el Tambo?

VI. OBJETIVOS (GENERAL Y ESPECFICOS)
OBJETIVO GENERAL
Implementacin de un Data Mart para la toma de decisiones en el rea de comercializacin de la
empresa EMAPAT del Cantn El Tambo


OBJETIVOS ESPECIFICOS
Conocer los procesos de comercializacin que lleva a cabo la empresa EMAPAT.
Implementar un Data Mart que cumpla con los reportes solicitados para facilitar la toma de
decisiones en el rea de comercializacin de la empresa EMAPAT.
Disear una Base de Datos Dimensional.
Realizar las tablas de hechos y sus dimensiones.

64

Realizar los reportes en el rea de comercializacin para la toma de decisiones a nivel
gerencial.

VII. JUSTIFICACIN DE LA INVESTIGACIN
Las tasas que tienen que recaudar las entidades gubernamentales en el Ecuador por la prestacin
de servicios a la ciudadana, son necesarios para mantener el funcionamiento de las instituciones
y el financiamiento de las obras de infraestructura as como de la administracin en la institucin,
de sta labor estn encargados los Gobiernos Autnomos Descentralizados del Pas.

En el Gobierno Autnomo Descentralizado Intercultural Municipal del Cantn El Tambo quien
realiza dichos cobros es la empresa Municipal de Agua Potable y Alcantarillado EMAPAT, y lo
hace por la prestacin de servicios tales como el agua potable y alcantarillado.

El problema que se ha encontrado actualmente en la empresa EMAPAT, es que en el rea de
comercializacin, los reportes se hacen de forma manual invirtiendo mucho tiempo y personal, lo
cual demuestra una inadecuada forma de administracin en la empresa,debido a la falta de una
herramienta de inteligencia de negocios que ayude a organizar y optimizar estas actividades.

Considerando esta problemtica en la institucin y con el fin de dar solucin a dicho problema se
propone implementar un Data Mart, que desarrollar y brindar soluciones con un manejo
personalizado y eficaz de la informacin para el rea de comercializacin en la mencionada
empresa.


65

La implementacin del Data Mart ser de gran ayuda para la empresa EMAPAT del Cantn El
Tambo, pues podr aumentar la capacidad de volumen de almacenamiento de informacin
continua conforme al crecimiento de la empresa y de la poblacin a la cual brinda sus servicios.

Es factible realizar este proyecto, ya que se cuenta con la disponibilidad al cambio de las
autoridades de la institucin, pero sobre todo con los medios necesarios para desarrollar una
buena aplicacin de esta herramienta deinteligencia de negocios, con el propsito de mejorar la
situacin actual de la institucin.

VIII. LIMITACIONES
Corto tiempo para la investigacin.
La falta de Equipos informticos en la empresa.
La falta de colaboracin de los empleados.

IX. MARCO REFERENCIAL, TERICO Y CONCEPTUAL
ANTECEDENTES DE LA INVESTIGACIN.
En primer lugar se tiene que,la tesis realizada en la Escuela Politcnica Nacional por Fernando
Santiago Jimnez Camba y Edgar Rolando Zambrano Noguera, en el ao 2009, cuyo tema es
Implementacin de un data Mart para el rea de capacitacin y consultora del centro de
educacin continua CEC , sus principales conclusiones expresan lo siguiente:
La metodologa utilizada combina la gestin de proyectos propuesta en la metodologa de
Harjinder, Prakash y SAS Institute, cubren aspectos necesarios para alcanzar una solucin

66

efectiva, mantenible y escalable de forma independiente de la plataforma tecnolgica y de las
herramientas de desarrollo que se utilicen para su implementacin.

Si bien en la actualidad existen diversas herramientas para el desarrollo de Data Marts, tanto
propietario como software libre, es importante considerar aquella que se integre adecuadamente a
la infraestructura existente en la empresa en la cual se va a implementar la solucin.
La implementacin del Data Mart permiti integrar los datos transaccionales e histricos con los
que dispone la CEC de forma consolidada, por lo cual la informacin estratgica requerida por la
coordinacin se encuentra en plena disponibilidad, dejando a lado el acceso a la base de datos
transaccional para su obtencin.

Otra tesis realizada por Fiorelly Shirley Guilln Rodrguez en la Universidad Privada del Norte
cuyo tema es: desarrollo de un Data Mart para mejorarla toma de decisiones en el rea de
tesorera de la Municipalidad de la Provincia de Cajamarca, Cajamarca Per 2012, sus
principales conclusiones expresan lo siguiente:

Se cumpli con el objetivo principal mejorando significativamente los resultados del proyecto,
as mismo se logr la simulacin del rea de Tesorera. Con el desarrollo del data Mart los
reportes anuales y mensuales para la mejor administracin de lo recaudado hacia las dems reas
de la Municipalidad Provincial de Cajamarca.

Se decidi usar las herramientas de software libre para la base de datos y para los procesos de
extraccin y explotacin por sus bajos costos.

67


En base a las caractersticas propias de la empresa el uso de la metodologa de Ralph Kimball
resulta una solucin eficaz en tiempo y recursos debido a que abarca la solucin al problema en
corto plazo. Se disea un modelo dimensional adecuado segn la cantidad y profundidad de
datos que posee el Data Mart.

BASES TERICAS
En este captulo se analiza el problema planteado dentro de un sistema de conocimientos
existentes para poderlo as formularlo tericamente.Se hace uso de los ejes conceptuales que
permitan una propuesta coherente como son:

BUSINESS INTELLIGENCE
Business Intelligence es la habilidad para transformar los datos en informacin, y la informacin
en conocimiento, de forma que se pueda optimizar el proceso de toma de decisiones en los
negocios.

Desde un punto de vista ms pragmtico, y asocindolo directamente con las tecnologas de la
informacin, podemos definir Business Intelligence como el conjunto de metodologas,
aplicaciones y tecnologas que permiten reunir, depurar y transformar datos de los sistemas
transaccionales e informacin desestructurada (interna y externa a la compaa) en informacin
estructurada, para su explotacin directa (reporting, anlisis OLTP / OLAP, alertas...) o para su

68

anlisis y conversin en conocimiento, dando as soporte a la toma de decisiones sobre el
negocio.

La inteligencia de negocio acta como un factor estratgico para una empresa u organizacin,
generando una potencial ventaja competitiva, que no es otra que proporcionar informacin
privilegiada para responder a los problemas de negocio: entrada a nuevos mercados, promociones
u ofertas de productos, eliminacin de islas de informacin, control financiero, optimizacin de
costes, planificacin de la produccin, anlisis de perfiles de clientes, rentabilidad de un producto
concreto, etc...
Los principales productos de Business Intelligence que existen hoy en da son:
Cuadros de Mando Integrales (CMI)
Sistemas de Soporte a la Decisin (DSS)
Sistemas de Informacin Ejecutiva (EIS)
ARQUITECTURA DE UNA SOLUCIN DE BUSINESS INTELLIGENCE
Una solucin de Business Intelligence parte de los sistemas de origen de una organizacin (bases
de datos, ERPs, ficheros de texto...), sobre los que suele ser necesario aplicar una transformacin
estructural para optimizar su proceso analtico.

Para ello se realiza una fase de extraccin, transformacin y carga (ETL) de datos. Esta etapa
suele apoyarse en un almacn intermedio, llamado ODS, que acta como pasarela entre los

69

sistemas fuente y los sistemas destino (generalmente un datawarehouse), y cuyo principal
objetivo consiste en evitar la saturacin de los servidores funcionales de la organizacin.

La informacin resultante, ya unificada, depurada y consolidada, se almacena en un
datawarehouse corporativo, que puede servir como base para la construccin de distintos Data
Marts departamentales. Estos Data Marts se caracterizan por poseer la estructura ptima para el
anlisis de los datos de esa rea de la empresa, ya sea mediante bases de datos transaccionales
(OLTP) o mediante bases de datos analticas (OLAP).

SISTEMAS DE SOPORTE A LA DECISIN (DSS)
Un Sistema de Soporte a la Decisin (DSS) es una herramienta de Business Intelligence enfocada
al anlisis de los datos de una organizacin.
En principio, puede parecer que el anlisis de datos es un proceso sencillo, y fcil de conseguir
mediante una aplicacin hecha a medida o un ERP sofisticado. Sin embargo, no es as: estas
aplicaciones suelen disponer de una serie de informes predefinidos en los que presentan la
informacin de manera esttica, pero no permiten profundizar en los datos, navegar entre ellos,
manejarlos desde distintas perspectivas... etc.

El DSS es una de las herramientas ms emblemticas del Business Intelligence ya que, entre otras
propiedades, permiten resolver gran parte de las limitaciones de los programas de gestin. Estas
son algunas de sus caractersticas principales:

70

Informes dinmicos, flexibles e interactivos
No requiere conocimientos tcnicos
Rapidez en el tiempo de respuesta
Integracin entre todos los sistemas/departamentos de la compaa
Cada usuario dispone de informacin adecuada a su perfil
Disponibilidad de informacin histrica

SISTEMAS DE INFORMACIN GERENCIAL (MIS)
Los sistemas de informacin gerencial (MIS, Management Information Systems), tambin
llamados Sistemas de Informacin Administrativa (AIS) dan soporte a un espectro ms amplio de
tareas organizacionales, encontrndose a medio camino entre un DSS tradicional y una aplicacin
CRM/ERP implantada en la misma compaa.

SISTEMAS DE INFORMACIN EJECUTIVA (EIS)
Un Sistema de Informacin para Ejecutivos o Sistema de Informacin Ejecutiva es una
herramienta software, basada en un DSS, que provee a los gerentes de un acceso sencillo a
informacin interna y externa de su compaa, y que es relevante para sus factores clave de xito.

La finalidad principal es que el ejecutivo tenga a su disposicin un panorama completo del estado
de los indicadores de negocio que le afectan al instante, manteniendo tambin la posibilidad de
analizar con detalle aquellos que no estn cumpliendo con las expectativas establecidas, para
determinar el plan de accin ms adecuado.


71

SISTEMAS EXPERTOS BASADOS EN INTELIGENCIA ARTIFICIAL (SSEE)
Los sistemas expertos, tambin llamados sistemas basados en conocimiento, utilizan redes
neuronales para simular el conocimiento de un experto y utilizarlo de forma efectiva para
resolver un problema concreto. Este concepto est muy relacionado con el Data Mining.

SISTEMAS DE APOYO A DECISIONES DE GRUPO (GDSS)
Un sistema de apoyo a decisiones en grupos (GDSS, Group Decision Support Systems) es "un
sistema basado en computadoras que apoya a grupos de personas que tienen una tarea (u
objetivo) comn, y que sirve como interfaz con un entorno compartido". El supuesto en que se
basa el GDSS es que si se mejoran las comunicaciones se pueden mejorar las decisiones.
Por otro lado, los principales componentes de orgenes de datos en el Business Intelligence que
existen en la actualidad son:
Data Warehouse
Data Mart

DATAWAREHOUSE
Un Datawarehouse es una base de datos corporativa que se caracteriza por integrar y depurar
informacin de una o ms fuentes distintas, para luego procesarla permitiendo su anlisis desde
infinidad de perspectivas y con grandes velocidades de respuesta. La creacin de un
datawarehouse representa en la mayora de las ocasiones el primer paso, desde el punto de vista
tcnico, para implantar una solucin completa y fiable de Business Intelligence.

72


La ventaja principal de este tipo de bases de datos radica en las estructuras en las que se almacena
la informacin (modelos de tablas en estrella, en copo de nieve, cubos relacionales... etc.). Este
tipo de persistencia de la informacin es homognea y fiable, y permite la consulta y el
tratamiento jerarquizado de la misma (siempre en un entorno diferente a los sistemas
operacionales).

El trmino Data Warehouse fue acuado por primera vez por Bill Inmon, y se traduce
literalmente como almacn de datos. No obstante, y como cabe suponer, es mucho ms que eso.
Segn defini el propio Bill Inmon, un datawarehouse se caracteriza por ser:
Integrado
Temtico
Histrico
No voltil

PRINCIPALES APORTACIONES DE UN DATA WAREHOUSE
Proporciona una herramienta para la toma de decisiones en cualquier rea funcional,
basndose en informacin integrada y global del negocio.

73

Facilita la aplicacin de tcnicas estadsticas de anlisis y modelizacin para encontrar
relaciones ocultas entre los datos del almacn; obteniendo un valor aadido para el negocio
de dicha informacin.
Proporciona la capacidad de aprender de los datos del pasado y de predecir situaciones
futuras en diversos escenarios.
Simplifica dentro de la empresa la implantacin de sistemas de gestin integral de la relacin
con el cliente.
Supone una optimizacin tecnolgica y econmica en entornos de Centro de Informacin,
estadstica o de generacin de informes con retornos de la inversin espectaculares.

DATAMART
Un Data Mart es una base de datos departamental, especializada en el almacenamiento de los
datos de un rea de negocio especfica. Se caracteriza por disponer la estructura ptima de datos
para analizar la informacin al detalle desde todas las perspectivas que afecten a los procesos de
dicho departamento. Un datamart puede ser alimentado desde los datos de un datawarehouse, o
integrar por s mismo un compendio de distintas fuentes de informacin.

CUBO DE DATA MART
Por tanto, para crear el Data Mart de un rea funcional de la empresa es preciso encontrar la
estructura ptima para el anlisis de su informacin, estructura que puede estar montada sobre
una base de datos OLTP, como el propio datawarehouse, o sobre una base de datos OLAP. La

74

designacin de una u otra depender de los datos, los requisitos y las caractersticas especficas
de cada departamento. De esta forma se pueden plantear dos tipos de Data Marts:
Data Mart OLAP
Data Mart OLTP
Los datamarts que estn dotados con estas estructuras ptimas de anlisis presentan las siguientes
ventajas:
Poco volumen de datos
Mayor rapidez de consulta
Consultas SQL y/o MDX sencillas
Validacin directa de la informacin
Facilidad para la historizacin de los datos

CARACTERSTICAS DE UN DATA MART
Los Data Marts tienen las siguientes caractersticas
Usuarios limitados
rea especifica
Tiene un propsitos especfico
Tiene una funcin de apoyo



75

TABLAS DE HECHOS (FACT TABLES).
La tabla de hechos es la tabla primaria del modelo dimensional, y contiene los valores del
negocio que se desea analizar, cada tabla de hechos contiene las claves externas que se relacionan
con sus respectivas tablas de dimensiones y las columnas con los valores que sern analizados.

DIMENSIONES
Las dimensiones organizan los datos en funcin de un rea de inters para los usuarios, cada
dimensin describe un aspecto del negocio y proporciona el acceso intuitivo y simple a datos, una
dimensin provee al usuario de un gran nmero de combinaciones e intersecciones para analizar
datos.

ESQUEMA ESTRELLA.
Para facilitar el anlisis, el Data Mart organiza los datos en una estructura llamada esquema de
estrella. Esta estructura est compuesta por una tabla central (tabla de hechos) y un conjunto de
tablas organizadas alrededor de sta (tablas de dimensiones).

En las puntas de la estrella se encuentran las tablas de dimensin que contienen los atributos de
las aperturas que interesan al negocio que se pueden utilizar como criterios de filtro y son
relativamente pequeas. Cada tabla de dimensin se vincula con la tabla de hechos por un
identificador.

76

ESQUEMA COPO DE NIEVE
Esquema en copo de nieve (bola de nieve) es una variedad ms compleja del esquema estrella. El
afinamiento est orientado a facilitar mantenimiento de dimensiones. Lo que distingue a la
arquitectura en copo de nieve del esquema estrella, es que las tablas de dimensiones en este
modelo representan relaciones normalizadas y forman parte de un modelo relacional de base de
datos.

Con varios usos del esquema en copo de nieve, el ms comn es cuando las tablas de
dimensiones estn muy grandes o complejas y es muy difcil representar los datos en esquema
estrella.

BASES DE DATOS OLTP Y OLAP
OLTP (on-line transactional processing)
Los sistemas OLTP son bases de datos orientadas al procesamiento de transacciones. Una
transaccin genera un proceso atmico (que debe ser validado con un commit, o invalidado con
un rollback), y que puede involucrar operaciones de insercin, modificacin y borrado de datos.
El proceso transaccional es tpico de las bases de datos operacionales.
El acceso a los datos est optimizado para tareas frecuentes de lectura y escritura. (Por
ejemplo, la enorme cantidad de transacciones que tienen que soportar las BD de bancos o
hipermercados diariamente).

77

Los datos se estructuran segn el nivel aplicacin (programa de gestin a medida, ERP o
CRM implantado, sistema de informacin departamental...).
Los formatos de los datos no son necesariamente uniformes en los diferentes departamentos
(es comn la falta de compatibilidad y la existencia de islas de datos).
El historial de datos suele limitarse a los datos actuales o recientes.

OLAP (on-line analytical processing)
Los sistemas OLAP son bases de datos orientadas al procesamiento analtico. Este anlisis suele
implicar, generalmente, la lectura de grandes cantidades de datos para llegar a extraer algn tipo
de informacin til: tendencias de ventas, patrones de comportamiento de los consumidores,
elaboracin de informes complejos etc. Este sistema es tpico de los datamarts.
El acceso a los datos suele ser de slo lectura. La accin ms comn es la consulta, con muy
pocas inserciones, actualizaciones o eliminaciones.
Los datos se estructuran segn las reas de negocio, y los formatos de los datos estn
integrados de manera uniforme en toda la organizacin.
El historial de datos es a largo plazo, normalmente de dos a cinco aos.
Las bases de datos OLAP se suelen alimentar de informacin procedente de los sistemas
operacionales existentes, mediante un proceso de extraccin, transformacin y carga (ETL).




78

DATAMINING (MINERA DE DATOS)
El datamining (minera de datos), es el conjunto de tcnicas y tecnologas que permiten explorar
grandes bases de datos, de manera automtica o semiautomtica, con el objetivo de encontrar
patrones repetitivos, tendencias o reglas que expliquen el comportamiento de los datos en un
determinado contexto.

De forma general, los datos son la materia prima bruta. En el momento que el usuario les atribuye
algn significado especial pasan a convertirse en informacin. Cuando los especialistas elaboran
o encuentran un modelo, haciendo que la interpretacin que surge entre la informacin y ese
modelo represente un valor agregado, entonces nos referimos al conocimiento.

Aunque en datamining cada caso concreto puede ser radicalmente distinto al anterior, el proceso
comn a todos ellos se suele componer de cuatro etapas principales:
Determinacin de los objetivos.
Preprocesamiento de los datos.
Determinacin del modelo.
Anlisis de los resultados.
ETL
ETL este trmino viene de ingls de las siglas Extract-Transform-Load que significan Extraer,
Transformar y Cargar y se refiere a los datos en una empresa. ETL es el proceso que organiza el

79

flujo de los datos entre diferentes sistemas en una organizacin y aporta los mtodos y
herramientas necesarias para mover datos desde mltiples fuentes a un almacn de datos,
reformatearlos, limpiarlos y cargarlos en otra base de datos, Data Mart o bodega de datos. ETL
forma parte de la Inteligencia Empresarial (Business Intelligence), tambin llamado Gestin de
los Datos (Data Management).

La idea es que una aplicacin ETL lea los datos primarios de unas bases de datos de sistemas
principales, realice transformacin, validacin, el proceso cualitativo, filtracin y al final escriba
datos en el almacn y en este momento los datos son disponibles para analizar por los
usuarios.Las herramientas y aplicaciones ms populares ETL del mercado son:

IBM Websphere DataStage (anteriormente Ascential DataStage y Ardent DataStage)
Pentaho Data Integration (Kettle ETL) - Una herramienta Open Source Business Intelligence
SAS ETL Studio
Oracle Warehouse Builder
Informatica PowerCenter
Cognos Decisionstream
Ab Initio
BusinessObjects Data Integrator (BODI)
Microsoft SQL Server Integration Services (SSIS)


80

PENTAHO OPEN SOURCE
Pentaho es un proyecto iniciado por una comunidad OpenSource, provee una alternativa de
soluciones de BI en distintas reas como en la Arquitectura, Soporte, Funcionalidad e
Implantacin. Estas soluciones al igual que su ambiente de implantacin estn basados en
JAVA, hacindolo flexible en cubrir amplias necesidades empresariales. A travs de la
integracin funcional de diversos proyectos de OpenSource permite ofrecer soluciones en reas
como: Anlisis de informacin, Reportes, Tableros de mando conocido como DashBoards,
Flujos de Trabajo y Minera de Datos.

Pentaho es una de las ms completas de todas las soluciones de inteligencia de negocios, integra
toda una serie de componentes Open Source muy utilizados y fiables: Servidor OLAP Mondrian,
JPivot, Kettle ETL , Enhydra Shark, Quartz, Weka, JFreeReport, JFreeChart, JBoss Portal, entre
otros.

PLATAFORMA PENTAHO
Las soluciones que brinda Pentaho se componen fundamentalmente de una infraestructura de
herramientas de anlisis e informes integrados con un motor de workflow de procesos de
negocio. Algunos de los productos que forman la plataforma son: JFreeReport, JPivot, Mondrian
o Apache FOP.



81

MONDRIAN ANALISIS SERVER
Ahora bautizado como Pentaho Analysis Service forma parte del motor OLAP integrado en la
suite BI de pentho.

Mondrian, motor OLAP Mondrian es una de las aplicaciones ms importantes de la plataforma
Pentaho. Mondrian es un servidor OLAP Open Source que gestiona la comunicacin entre una
aplicacin OLAP y la base de datos con los datos fuente, en otras palabras, acta como JDBC
para OLAP. Mondrian no es ms que un motor R-OLAP con cach, lo cual lo sita cerca del
concepto de Hybrid OLAP. R-OLAP significa que los datos se encuentran en un Sistema de
Gestin de Bases de Datos externo y no en Mondrian a no ser los que estn en la cach. En esta
base de datos es la que residen las tablas que conforman la informacin multidimensional con la
que Mondrian trabaja.

Mondrian se encarga de recibir consultas dimensionales (lenguaje MDX) y devolver los datos de
un cubo, slo que este cubo no es algo fsico sino un conjunto de metadatos que definen como se
han de mapear estas consultas que tratan conceptos dimensionales a sentencias SQL ya
tratando con conceptos relacionales que obtengan de la base de datos la informacin necesario
para satisfacer la consulta dimensional.

Expresiones multidimensionales (MDX) es el lenguaje de consulta que se utiliza para trabajar con
datos multidimensionales. MDX est basado en la especificacin XML para anlisis (XMLA

82

MDX utiliza expresiones compuestas de identificadores, valores, instrucciones, funciones y
operadores para recuperar un objeto (por ejemplo, un conjunto o un miembro).

JFREEREPORT / PENTAHO REPORTING
JFreeReport, BIRT o JasperReport: Presentacin de informes en los formatos habituales (HTML,
PDF, RTF, MS Excel, etc.),es una herramienta de Reportes flexibles y con clase empresarial, de
escritorios o basados en Web. La herramienta de reportes PENTAHO permite comenzar desde
sencillos reportes inciales hasta formar complejos reportes ajustados a tus necesidades de
negocio.

JPivot: Permite ver tablas OLAP a travs de un navegador Web y realizar las tareas tpicas de
anlisis OLAP (drill, down, slice, etc.).

PENTAHO DATA INTEGRATIN
Pentaho Data Integration (PDI) o Kettle, es una poderosa, intuitiva y eficiente herramienta, para
la realizacin de procesos de Extraccin, Transformacin y Carga, Es multiplataforma, as que si
trabajamos en Windows o en Linux no tenemos por qu preocuparnos. Es muy grfica, as que
nuestros procesos quedan plasmados en forma de flujos.
Definicin de algunos conceptos de Pentaho Data Integration:

83

Kettle: Otro nombre con el que se suele denominar Pentaho Data Integration, o mejor el
nombre original de la herramienta antes que fuera adquirida por Pentaho.
Spoon: Programa que permite construir procesos con una interfaz muy grfica e intuitiva.
Kitchen: Componente que permite ejecutar Jobs (trabajos) por lnea de comandos.
Pan: Componente que permite ejecutar transformaciones por lnea de comandos.

FUNDAMENTACIN LEGAL
Para el desarrollo del sistema no se ha encontrado ningn tipo de impedimento legal, ya que
cuenta con la aprobacin de las autoridades respectivas.

DEFINICIN DE TRMINOS BSICOS
Business Intelligence: Se denomina Business Intelligence o inteligencia de negocios al conjunto
de estrategias y herramientas enfocadas a la administracin y creacin de conocimiento mediante
el anlisis de datos existentes en una organizacin o empresa.
DSS (Decision Support Systems): Sistemas de soporte a la toma de decisiones es un sistema de
aplicaciones automatizadas que asiste a la organizacin en la toma de decisiones mediante un
anlisis estratgico de la informacin histrica.
Data Warehouse: en espaol Almacn de datos, es una coleccin de datos orientada a un
dominio, integrada, no voltil y que vara en el tiempo.
Dama Mart: es una implementacin de un Data Warehouse con un mbito de datos y funciones
ms pequeo que un Data Warehouse, que sirve a un departamento nico de la organizacin. Una
organizacin generalmente tiene varios Data Marts

84

Cubo: una coleccin de dimensiones y medidas en un rea temtica particular.
Dimensin: Atributos de los datos a analizar, no son ms que los filtros que podemos aplicar a
nuestros datos, tanto filas como columnas.
Esquema en estrella: Organizacin fsica de los Data Marts que facilita el acceso a los datos y al
anlisis. Se caracteriza por tener una tabla central de hechos rodeada por tablas de dimensiones
que contienen informacin desnormalizada de los hechos.
ETL: Son las siglas en ingls de Extraer, Transformar y Cargar. Es el proceso que permite a las
organizaciones mover datos desde mltiples fuentes, reformatearlos, limpiarlos, y cargarlos en
otra base de datos o data warehouse para analizar, o en otro sistema operacional para apoyar un
proceso de negocio.
Data Mining: en espaol Minera de Datos Conjunto de tcnicas para la induccin de
conocimiento til a partir de masas muy grandes de datos. Tiene un solapamiento importante con
otras disciplinas como la estadstica tradicional, el reconocimiento de patrones, la inteligencia
artificial, etc.
OLAP(Procesamiento Analtico en Lnea): consiste en la realizacin de consultas a estructuras
multidimensionales que contienen datos resumidos. Su objetivo fundamental es lograr altas
velocidades en consultas complejas.
OLTP(Procesamiento Transaccional en Lnea):es un tipo de procesamiento que facilita y
administra aplicaciones transaccionales, usualmente para entrada de datos y recuperacin y
procesamiento de transacciones (gestor transaccional). Base de Datos: Una base de datos o banco
de datos es un conjunto de datos que pertenecen al mismo contexto almacenados
sistemticamente para su posterior uso.


85

SISTEMA DE HIPTESIS
La implementacin de un Data Mart mejorara la eficiencia en la toma de decisiones para el rea
de comercializacin de la empresa EMAPAT Del Cantn El Tambo

SISTEMA DE VARIABLES
Variable Independiente
Implementacin de un Data Mart.
Variable Dependiente
La eficiencia en la toma de decisiones en la empresa EMAPAT.

X. MARCO METODOLGICO
La presente investigacin se basara en un enfoque cualitativo y cuantitativo, en virtud de que se
parte de las realidades existentes en la empresa EMAPAT del Cantn El Tambo, se buscara las
causas y la explicacin de los hechos, este enfoque permitir partir del problema y objetivos
previamente definidos, plantear la hiptesis la cual mantiene una relacin entre las variables para
el anlisis de la informacin.

NIVEL DE INVESTIGACIN
El proceso de investigacin es primordial para conocer a profundidad la problemtica por la cual
es necesaria la implementacin de un Data Mart en la empresa EMAPAT del Cantn El Tambo.


86

Investigacin Exploratoria: La investigacin pasar por el nivel de investigacin exploratoria
porque sondear un problema poco investigado o desconocido en un ambiente determinado,
especialmente para definir el tema de investigacin.

Investigacin Descriptiva: Es descriptiva porque se buscara informar los resultados obtenidos
de la investigacin entre la comparacin de dos variables, tomando encuentra criterios de
coherencia interna y pertinencia.

DISEO DE INVESTIGACIN
Investigacin Documental: ya que est basado en la obtencin y anlisis de datos provenientes
de materiales impresos u otro tipo de documentos como es la recoleccin de datos en la realidad
donde ocurre el hecho.

Investigacin de Campo: La investigacin tendr la modalidad de campo porque el investigador
acudir al lugar en donde se producen los hechos para obtener informacin relacionada con los
objetivos de la investigacin.

POBLACIN Y MUESTRA
La poblacin que se estudiara en esta investigacin, est compuesta por un determinado o
limitado nmero de personas. Esta poblacin finita consta de 10 empleados, en la empresa
EMAPAT del Cantn El tambo.

Por ser pequea la poblacin a ser investigada no se utilizar ninguna tcnica de muestra.

87


TCNICAS E INSTRUMENTOS DE RECOLECCIN DE DATOS
Entrevista y Encuestas
Dirigidas al Gerente Administrativo, al Administrador del Sistema y a los empleados de la
institucin, cuyos instrumentos sern una gua para recaudar informacin de los procesos y el
manejo de la informacin de la base de datos. Adems de conocer el entorno de hardware y
software sobre el cual se encuentran implantados los sistemas operacionales de la institucin, esto
con el fin de conocer cules son los reportes y peticiones de informacin ms comunes y
solicitadas.

TCNICAS DE PROCESAMIENTO Y ANLISIS DE DATOS

Revisin crtica de la informacin recogida; es decir, limpieza de la informacin defectuosa:
contradictoria, incompleta, no pertinente, etc.
Repeticin de la recoleccin, en ciertos casos individuales, para corregir fallas de
contestacin.
Tabulacin o cuadros segn variables de la hiptesis
La presentacin de datos puede hacerse siguiendo los siguientes procedimientos:
Representacin escrita
Representacin tabular
Representacin grfica

XI. CONTENIDOS O TEMARIO

88


CAPITULO I
EL PROBLEMA

1.1 PLANTEAMIENTO DEL PROBLEMA
1.2. INTERROGANTES DE LA INVESTIGACIN
1.2.1. INTERROGANTE GENERAL.
1.2.2. INTERROGANTES ESPECFICAS.
1.3. FORMULACIN DEL PROBLEMA.
1.4 OBJETIVOS.
1.4.1. OBJETIVO GENERAL
1.4.2. OBJETIVOS ESPECFICOS.
1.5. JUSTIFICACIN DE LA INVESTIGACIN
1.6. LIMITACIONES.


CAPITULO II
MARCO REFERENCIAL, TERICO Y CONCEPTUAL

2.1. ANTECEDENTES DE LA INVESTIGACIN (Marco Referencial)
2.2. MARCO TERICO.
2.2.1. FUNDAMENTACIN TERICA O BASES TERICAS.
2.2.1.1 BUSINESS INTELLIGENCE

89

2.2.1.1.2 ARQUITECTURA DE UNA SOLUCIN DE BUSINESS
INTELLIGENCE
2.2.2.1 SISTEMAS DE SOPORTE A LA DECISIN (DSS)
2.2.2.1.1 SISTEMAS DE INFORMACIN GERENCIAL (MIS)
2.2.2.1.2 SISTEMAS DE INFORMACIN EJECUTIVA (EIS)
2.2.2.1.3 SISTEMAS EXPERTOS BASADOS EN INTELIGENCIA
ARTIFICIAL (SSEE)
2.2.2.1.4 SISTEMAS DE APOYO A DECISIONES DE GRUPO (GDSS)
2.2.3.1 DATAWAREHOUSE
2.2.3.1.1 PRINCIPALES APORTACIONES DE UN
DATAWERAHOUSE
2.2.4.1 DATAMART
2.2.4.1.1 CUBO DE DATA MART
2.2.4.1.2 CARACTERSTICAS DE UN DATA MART
2.2.4.1.3 TABLAS DE HECHOS (FACT TABLES).
2.2.4.1.4 DIMENSIONES
2.2.4.1.5 ESQUEMA ESTRELLA.
2.2.4.1.6 ESQUEMA COPO DE NIEVE
2.2.5.1 BASES DE DATOS OLTP Y OLAP
2.2.5.1.1 OLTP (ON-LINE TRANSACTIONAL PROCESSING)
2.2.5.1.2 OLAP (ON-LINE ANALYTICAL PROCESSING)
2.2.6.1 DATAMINING (MINERA DE DATOS)

90

2.2.7.1 ETL EXTRACCIN, TRANSFORMACIN Y CARGA
2.2.8.1 PENTAHO OPEN SOURCE
2.2.8.1.1 PLATAFORMA PENTAHO
2.2.8.1.2 MONDRIAN
2.2.8.1.3 JFREEREPORT / PENTAHO REPORTING
2.2.8.1.4 PENTAHO DATA INTEGRATIN
2.2.8.1.5 MINERA DE DATOS
2.2. FUNDAMENTACIN LEGAL.
2.3. DEFINICIN DE TRMINOS BSICOS (Marco conceptual)
2.4. SISTEMA DE HIPTESIS Y VARIABLES
2.4.1. CONCEPTUALIZACIN DE VARIABLES
2.4.2. OPERACIONALIZACIN DE VARIABLES

CAPTULO III
MARCO METODOLGICO

3.1. METODOLOGA.
3.2. NIVEL DE LA INVESTIGACIN.
3.3. TIPO DE INVESTIGACIN.
3.4. MTODOS DE INVESTIGACIN.
3.5. POBLACIN Y MUESTRA
3.6. TIPOS DE MUESTREO

91

3.7. TCNICAS E INSTRUMENTOS PARA LA RECOLECCIN DE LA
INFORMACIN.
3.7. PRESENTACIN, ANLISIS E INTERPRETACIN DE RESULTADOS.
3.8. ANLISIS DE CONFIABILIDAD Y VALIDEZ.

CAPTULO IV
IMPLEMENTACIN DE LA PROPUESTA

4.1. TTULO DE LA PROPUESTA
4.2. PRESENTACIN
4.3. OBJETIVOS
4.4. JUSTIFICACIN
4.5. FUNDAMENTACIN TERICA
4.6. DESCRIPCIN DE LA PROPUESTA
4.7. FACTIBILIDAD DE LA PROPUESTA
4.7.1. RECURSOS MATERIALES
4.7.2. RECURSOS FINANCIEROS
4.7.3. TALENTO HUMANO
4.7.4. LEGAL
4.8. DESARROLLO DE LA PROPUESTA
4.9. EVALUACIN DE LA PROPUESTA.

CONCLUSIONES.

92

RECOMENDACIONES.
BIBLIOGRAFA.
ANEXOS.

XII. MARCO ADMINISTRATIVO
RECURSOS MATERIALES:
Los recursos materiales necesarios para la implementacin, se encuentran disponibles en la
empresa EMAPAT DEL Cantn El Tambo, por lo que no es necesaria la adquisicin:
Un Servidor.
Computadoras personales de los empleados de la empresa.
Servicio de Internet.

TALENTO HUMANO QUE INTERVENDR EN LA EJECUCIN DEL PROYECTO:
Investigador: Carlos Armando Montalvo Molina.
Director: Ingeniero Luis Fernando Pinos.
Gerente de la empresa EMAPAT: Ingeniero Galo Garca.
Empleados de la empresa EMAPAT.

93

CRONOGRAMA DE ACTIVIDADES

ACTIVIDAD DICIEMBRE ENERO FEBRERO MARZO ABRIL MAYO
DISEO DEL TRABAJO X X X
REVISION DEL DIRECTOR X
APROBACION X X X
DESARROLLO X X X X X X X X X X
RECOLECCION DE DATOS X
INTERPRETACION DE
RESULTADOS
X X
CONCLUSIONES Y
RECOMENDACIONES
X
PRESENTACIN DEL
TRABAJO
X
DEFENSA DEL TRABAJO X

94




95

XIII. BIBLIOGRAFA
XIV. RESPONSABILIDAD Y FECHA

En esta parte rubricarn tanto el investigador como el director del proyecto.

Caar, ____ de _____________ de ________


_____________________
INVESTIGADOR
(Nombres y Apellidos)
________________________
DIRECTOR
(Nombres y Apellidos)



96

ANEXO 2

MODELO DE ENTREVISTA SEMI ESTRUCTURADA
APLICADA AL PERSONAL QUE LABORA EN LA EMPRESA EMAPAT DEL
CANTN EL TAMBO

ENTREVISTADOR: CARLOS ARMANDO MONTALVO MOLINA.
ENTREVISTADO: EMPLEADO DE LA EMPRESA.
TEMA: IMPLEMENTACION DE UN DATA MART PARA EL AREA DE
COMERCIALIZACIN DE LA EMPRESA EMAPAT.

ENTREVISTA AL GERENTE DE LA EMPRESA EMAPAT.
Nombre: Galo Garca.
Ttulos Obtenidos: Ing. Civil
Experiencia en el Trabajo: Actividades profesionales durante 3 aos en la empresa.

Preguntas planteadas
1. cmo describira su papel y sus tareas al interior de la empresa EMAPAT?
2. Cuantos aos trabaja en la empresa?
3. Podra darnos a conocer como est conformada la estructura orgnica de la empresa
Emapat?
4. Cules creen ustedes que seran las fortalezas y debilidades que mantiene la empresa?

97

5. Qu informacin considera usted sera la ms relevante y que debe llegar a su conocimiento
para el desarrollo de su actividad?Cules son los principales reportes que el gerente le
solicita?
6. Cree que Los reportes que se realizan con el actual sistema cubren con toda las necesidades
de la gerencia para el anlisis y toma de decisiones?
7. Cree que es necesario realizar los reportes de manera grfica?

ENTREVISTA AL ENCARGADO DEL REA ADMINISTRATIVA DE LA EMPRESA
EMAPAT.
Nombre: Mara Eugenia De La Torre.
Ttulos Obtenidos: Ing. Empresarial
Experiencia en el Trabajo: Actividades profesionales durante 1 aos en la empresa.
Preguntas planteadas
1. Podra darnos a conocer cuntos aos trabaja en la empresa Emapat
2. Cmo describira su papel y sus tareas al interior de la empresa Emapat?
3. Qu tipo de informacin recibe Usted para analizarla?
4. Cules son los principales reportes que el gerente le solicita?
5. Cmo piensa usted que deberan ser los reportes que se entregan a la gerencia: numrica,
grfica o de las dos formas?



98


LA PRESENTE ENCUESTA EST DISEADA PARA EVALUAR EL ESTADO
ACTUAL DEL SISTEMA DE COBROS DE IMPUESTO AL DESARROLLADOR Y
ENCARGADO DEL MANTENIMIENTO DEL SISTEMA.

1. Qu tiempo tiene el sistema de cobros de impuesto.
2. Existe algn servidor en donde se almacenan los datos
3. cuenta el sistema con reportes grficos, orientados para la toma de dicciones en la
gerencia.
4. En que motor de base de datos se almacena la informacin.
5. Existe un modelado E/R de la Base de datos del sistema de cobro de impuestos.









99

ANEXO 3
INSTALACIN Y CONFIGURACIN DE LA SUITE DE PENTAHO
INTRODUCCIN
Pentaho es una suite de herramientas de inteligencia de negocios que tiene dos versiones, la
versin comercial y la versin de cdigo abierto.
Pentaho ofrece herramientas para el desarrollo de informes como:
Pentaho Reporting: le permitir acceder fcilmente a la informacin generada por sus
procesos de negocio que provienen de diversas fuentes y asi distribuirla, a todos sus
empleados, clientes y socios, de una forma ms intuitiva.
Pentaho Analysis: lo ayudar a operar con mxima efectividad y a entender lo necesario para
tomas ptimas decisiones.
Pentaho Dashboards: ofrece una perspectiva individual, por departamentos o resultados, lo
cual ayuda a comprender y mejorar el desempeo organizacional.
Pentaho Data Integration: permite la integracin de datos de gran alcance Extraccin.
Transformacin y Carga (ETL) de las capacidades mediante un enfoque innovador de
metadatos.




100

MANUAL DE INSTALACION Y USO DE LA SUITE DE PENTAHO.

CONFIGURACIN DE LA BASE DE DATOS
Se utilizar PostgreSQL como motor de base de datos, tanto para los procesos transaccionales,
como para la creacin del repositorio ETL y la base de datos dimensional.

USO DE LA APLICACIN GRFICA DE POSTGRES
Se ingresa a la aplicacin grfica a travs de Aplicaciones->Programacin-> PgAdmin, aparecer
una ventana principal de pgAdminIII, si tenemos todo correctamente configurado se procede con
el proceso de creacin de base de datos pero de modo grfico o ejecutando scripts de creacin
como se demuestra a continuacin.

Figura 1: Creacin de la base de datos en Postgres
Fuente: Armando Montalvo.

101

PENTAHO DATA INTEGRACTION

PDI Pentaho Data Integration (Kettle).- el cual es una ETL que nos permitir extraer la
informacin de la base de datos transaccional de la empresa EMAPAT, para ello se tiene que
transformar la informacin a un modelo dimensional y cargar los resultados de la transformacin
en una base de datos destino tipo Data Warehouse, para que luego pueda ser consultados y
analizados.

Para descargar Ketle nos vamos a la siguiente pgina:
http://sourceforge.net/projects/pentaho/files/Data%20Integration/5.0.1-stable/ y presionamos en
la versin pdi-ce-5-0-1-stable que se utiliza para la plataforma Windows como se muestra en la
figura 2.

Figura 2: Archivo de descarga de PDI
Fuente: Armando Montalvo.



102

EJECUCIN DE PENTAHO DATA INTEGRACIN
Una vez descargado el archivo Zip nos ubicamos en la carpeta donde queremos que se
descomprima y ejecutamos el archivo SPOON.BAT, para que se abra la ventana de Kettle

Figura 3: Ventana principal de PDI
Fuente: Armando Montalvo.

INICIANDO KETTLE CON INTERFAZ DE USUARIO
Al iniciar el Spoon.bat para Windows que se encuentra en el directorio Kettle, todos los datos van
a ser guardados en archivos XML con extenciones .Ktr (para las transformaciones) y .Kjb (para
los Jobs) como se muestra en la siguiente imagen

103


Figura 4: Pantalla de inicio de interfaz de usuario de Kettle.
Fuente: Armando Montalvo.

ELEMENTOS PARA UNA TRANSFORMACIN
A continuacin mostramos la tabla de los elementos ms usados durante el proceso de
transformacin.
Tabla 1: Steps de Pentaho Kettle
Icono Nombre Descripcin

Input Table Utilizado para leer informacin de una base de datos,
usando una conexin y SQL. Sentencias SQL son
generadas automticamente

Excel Input Provee la habilidad de leer datos de uno o ms archivos
Excel.

Insert /
Update
Permite, primero realiza una bsqueda de una fila en una
tabla usando una o ms llaves. Si la fila no es encontrada,
se inserta. Caso contrario se actualizan los campos si se

104

requiere.

Database
lookup
Permite buscar valores en una tabla de base de datos.
Valores encontrados son aadidos como nuevos campos en
el flujo.

Select values til para seleccionar, renombrar y configurar la longitud y
precisin de los campos en el flujo.

Filter Rows Permite filtrar filas basndose en condiciones y
comparaciones. Una vez que el step est conectado a
step previos (uno o ms entradas), se construye la
condicin.

Add
sequence
Permite aadir una secuencia al flujo. Una secuencia es un
valor entero con un inicio y un valor de incremento.

Group By Permite calcular valores sobre un grupo de campos
definidos.

Calculator Provee funciones predefinidas que pueden ser ejecutadas en
valores de los campos.

Fuente: Anlisis del investigador.
Elaborado por:Armando Montalvo.

ANALISIS DE DIMENSIONES Y TABLA DE HECHOS DEL MODELO LGICO DEL
ESQUEMA EMAPAT.

105

Vamos a detallar cada una de las dimensiones, enumerando los atributos que las forman y
construyendo el modelo lgico. Tendremos en cuenta todas las consideraciones vistas hasta
ahora, verificando igualmente durante la identificacin de los atributos e indicadores la
informacin existente en el sistema transaccional de la empresa Emapat, que se llenara el Data
Mart.
Medidores
PK,FK1 cli_codigo
PK,FK2 sec_codigo
PK,FK3 rut_codigo
PK,FK4 cat_codigo
PK,FK5 fecha_sk
Indicadores
Clientes
PK cli_codigo
Atrubutos
Sectores
PK sec_codigo
Atributos
Rutas
PK rut_codigo
Atributos
Lecturas
PK,FK1 cli_codigo
PK,FK1 sec_codigo
PK,FK1 rut_codigo
PK,FK1 cat_codigo
PK,FK1 fecha_sk
PK lec_codigo
Atributos
Cobros
PK cob_codigo
FK1 lec_codigo
Atributos
FK1 fecha_sk
Detalle_Factura
PK det_codigo
FK1 cob_codigo
FK2 fac_codigo
Factura
PK fac_codigo
Atributos
Categoria
PK cat_codigo
Atributos
Tiempo
PK fecha_sk
Atrubutos

Figura 5: Modelo lgico
Fuente: Armando Montalvo.


EXTRACCIN, TRANSFORMACIN Y CARGA
En esta seccin se explican los pasos seguidos para realizar la extraccin, transformaciny carga
de los datos dentro del Data Mart desde la base de datos Emapat. De aqu en adelante se referir a
la extraccin, transformacin y carga como ETL.Como ya se indic anteriormente, en esta

106

investigacin se decidi utilizar la herramienta Pentaho Data Integration de la plataforma
Pentaho, tambin conocida como Kettle.

Esta cuenta con varias aplicaciones para la manipulacin de datos, entre las que seencuentran
Spoon, Pan y Kitchen. Por medio de Spoon, se puede acceder a una interfaz grfica que permite
disear los elementos principales de un proceso de ETL, los cuales son los trabajos y las
transformaciones. Pan es una aplicacin que interpreta y ejecuta transformaciones diseadas con
Spoon. De forma similar, Kitchen es una aplicacin que interpreta y ejecuta trabajos diseados
con Spoon. Mediante estas 3 herramientas se pueden cubrir todos los requerimientos de carga del
Data Mart.

CREACIN DEL REPOSITORIO
Un repositorio de Kettle (Kettle Repository) es un conjunto de tablas de base de datos que son
accesibles por los clientes de Kettle (Spoon, Chef, Pan y Kitchen) para almacenar y recibir
transformaciones, trabajos, conexiones de base de datos, un poco ms en detalle, un repositorio
de Kettle es una base de datos que contiene las tablas necesarias para poder almacenar todos los
objetos Kettle que creemos. Transformaciones, trabajos, conexiones estarn disponibles de
forma centralizada, facilitando la reutilizacin y gestin de cambios.

Para la creacin del repositorio tenemos que ubicarnos en la ventana principal de PDI, dirigirnos
a la barra de herramientas y presionar en tools, se nos desplegar la lista de opciones, pulsamos

107

en repository y luego en conect. Se nos abrir una pequea ventana que sirve para la conexin a
los repositorios existentes, para crear uno nuevo repositorio damos click en el signo ms, se nos
abrir otra ventana, presionamos la primera fila como lo demuestra la siguiente figura

Figura 6: Creacin del repositorio de Pentaho Kettle
Fuente: Armando Montalvo.


En nuestro caso, como vamos a crear un nuevo repositorio, pulsamos el botn OK. Para
crearlo, primeramente tenemos que tener una conexin a la base de datos donde se almacenar,
seleccionamos la base de datos que previamente creamos en Postgres y damos click en NEW.

Figura 7: Crear nueva conexin
Fuente: Armando Montalvo.

Creamos una nueva conexin, es importante tener en cuenta dos cosas:

108

El tipo de conexin debe ser Native (JDBC).
El usuario de acceso a la base de datos tienen que tener permisos para crear tablas al menos
durante el proceso de creacin del repositorio, sino obviamente no podr crear las tablas del
repositorio.

Figura 8: Crear la conexin con la base de datos
Fuente: Armando Montalvo.

Presionamos el botn de Aceptar y en la parte inferior de la ventana presionamos el botn de OK
adicional. Se ha creado de esta manera la conexin.
Se nos presenta nuevamente la ventana anterior y debemos presionar Create or Upgrade para
de esa manera terminar de definir nuestro repositorio.

109


Figura 9: Crea r el ID y Nombre del repositorio
Fuente: Armando Montalvo.

Una vez que presionamos Create or upgrate nos pide la confirmacin de la base de datos en
donde ser nuestro repositorio damos click en si para ejecutarse.

Figura 10: Confirmar la creacin del repositorio
Fuente: Armando Montalvo.

Para finalizar se va a ejecutar un script para la creacin del repositorio dndole click en execute

Figura 11: Ejecutar el query de creacin
Fuente: Armando Montalvo.

Spoon crear automticamente todas las tablas y datos necesarios para el repositorio en la base de
datos. Al mismo tiempo, toda la configuracin de acceso creada quedar almacenada en el

110

fichero repositories.xml dentro del directorio .Kettle (este a su vez dentro del directorio
personal del usuario).
Una vez creado el repositorio, necesitamos tambin un usuario y un password para poder
conectarnos. El primer usuario/password en un repositorio recin creado es admin/admin. El
password puede ser (o mejor dicho, debera ser) cambiado despus de realizar el primer lgin con
el explorador de repositorio.

Figura 12: Ingresar al repositorio
Fuente: Armando Montalvo.

BACKUP DEL REPOSITORIO
Como siempre es importante asegurar la recuperacin del trabajo realizado en caso de desastre y
realizar una copia de seguridad de repositorio. Vamos a ver que es muy sencillo realizar un
backup y puede ser en si otra de las ventajas de tener almacenados los objetos de Kettle en un
repositorio.


111

Con el Explorador del Repositorio, en el men seleccionar la opcin de Exportar todos los
objetos a un fichero XML. Tambin se pueden exportar subgrupos de objetos con el men
contextual que aparece al pulsar encima de ellos con el botn derecho del ratn. Estas
indicaciones tambin son vlidas la restauracin de copias de seguridad.Con pan.bat
exprep=miFicheroDeBackup.xml. Con este mtodo podemos crear una pequea tarea de
Windows para que realice un backup todas las noches. (en Linux es con pan.sh).

STEPS O TRANSFORMACIN
Para que PDI ha comience a crear un nuevo trabajo se puede hacer clic en el> Nuevo> opcin
Trabajo del archivo o usar el CTRL + ALT + N atajo.

Figura 13: Icono de Job (trabajo) y Transformacin
Fuente: Armando Montalvo.
CARACTERISTICAS DE UN TRANSFORMACON

Consiste en una coleccin de steps de transformacin.
Cada step denota una operacin del proceso ETL.
La salida de un step produce un conjunto de registros.
Los steps de la transformacin se ejecutan de forma simultnea y asincrnica.
El resultade es un archivo .ktr.

112

AADIR STEPS
Para aadir steps al transformation simplemente se arrastran de la barra lateral y se colocan
en el rea de trabajo, luego se deben configurar y organizar. Las relaciones entre steps se
denominan hops.

EJECUTAR TRANSFORMACIN
Cuando se ha finalizado la modificacin al transformation se debe ejecutar con el botn Run o
Start del men principal.
Aparecer un registro con los pasos realizados y sus estados, adems de presentarse errores se
podrn verificar tambin en el registro.

Figura 14: Ejemplo de transformacin
Fuente: http://churriwifi.wordpress.com










Figura 15: Ejemplo de Jobs
Fuente:http://churriwifi.wordpress.com

113

CREAR LAS CONEXIONES DE BASE DE DATOS COMPARTIDA.
El siguiente paso es crear dos conexiones de base de datos compartidas uno para la base de datos
transaccional Emapat, de donde traeremos las entidades que vamos a utilizar para crear las
dimensiones. Y la otra ser la base de datos dimensional que creamos que se llama Repositorio.
En el panel de la izquierda haga clic derecho en el elemento de conexin de base de datos y
seleccione la opcin Nuevo, como se muestra en la siguiente figura.

Figura 16: Conexin con la base de datos Transaccional y repositorio
Fuente: Armando Montalvo.

Aparecer la ventana de conexin de base de datos. A continuacin, rellenar las opciones
disponibles para su conexin a la base de datos, en este casose utilizara una base de datos
Postgres.
Nombre de conexin: Nombre de la conexin es decir Emapat
Nombre de host: host de su servidor de base de datos es decir, localhost

114

Base de datos: Nombre de la base de datos que contiene la informacin de las entidades, es
decir Emapat
Nmero de puerto: Port que su base de datos est a la escucha, es decir 5432
Nombre de usuario: El usuario para acceder a la base de datos es decir, la razpostgres
Contrasea: Contrasea para acceder a la base de datos
Realizamos el mismo proceso para la base de datos Repositorio.

Figura 17: Propiedad para que la base de datos este siempre conectada
Fuente: Armando Montalvo.
Y por ltimo de damos click en Share, esta propiedad sirve para que las bases de datos estn
conectadas todas las veces que necesitemos hacer una transformacin.

POBLAR LAS TABLAS DE LAS DIMENSIONES CON DATOS HISTRICOS
La extraccin de los datos se realiza mediante sentencias SQL a las tablas de la base de datos
Emapat, como resultado nos devolvern los registros de acuerdo a la consulta realizada en el
proceso de carga inicial.

115

Luego de creado el almacn (repositorio) que soportar las dimensiones que contienen los datos
para su extraccin y posterior transformacin desde los sistemas operacionales que se deseen
integrar mediante el proceso ETL, se carga con los datos previstos con el siguiente proceso.

TRATAMIENTO DE DIMENSIONES LENTAMENTE CAMBIANTES (SCD) CON
PENTAHO DATA IINEGRATION
Antes de continuar con la construccin de los procesos ETL, vamos a ver la forma de gestionar
las dimensiones lentamente cambiantes con Pentaho Data Integration. En concreto, veremos en
detalle el paso Dimension lookup/update. En este step se implementa de forma automatica el
algoritmo para el tratamiento de las SCD del tipo I y II, aunque exista otra categora mas.

SCD Tipo 1: Sobreescribir, cuando hay un cambio en los valores de un atributo, sobrescribimos
el valor antiguo con el nuevo sin registrar una historia. Esto significa perder toda la historia del
dato, y cuando hagamos un anlisis veremos la informacin histrica desde el punto de vista
actual.
SCD Tipo 2: Aadir fila: cuando hay un cambio, creamos un nuevo registro en la tabla. El nuevo
registro tiene una nueva clave subrogada, de forma que una entidad de sistema operacional (por
ejemplo, un cliente), puede tener varios registros en la tabla de la dimensin segn se van
produciendo los cambios. Estamos gestionando un versionado, que ademas puede incluir unas
fechas para indicar los periodos de validez, numerador de registros o un indicador de registro
activo o no.


116

La carga de las dimensiones en nuestro ETL se lo realizara utilizando SCD tipo 1, de acuerdo
con los requerimientos especificados.

DIMENSIN CLIENTES
La dimensin Cliente nos permitir el anlisis desde la perspectiva de todos los atributos
relacionados con el cliente, (tomando en cuenta que los Nombres y los Apellidos los vamos a
concatenar),como se especifica en la imagen de la consulta.
Nombre de Tabla: dim_Clientes.
Tipo de Tabla: Dimensin.
Esquema Origen: Sistema Transaccional Emapat.
Tabla Origen: Clientes.
Tabla 2: Tabla dimensin Clientes
Destino Origen
Nombre-
columna
Descripcin Tipo de
dato
tamao
SCD Sistema/esquema
tabla
Campo de
origen
Tipo de
dato origen
cli_codigo
Id_codigo
PK
Subrrogada
int4
bigserial

1
Sistema ETL cli_codigo Serial
nombres Nombres y
Apellidos del
Cliente
Text 1 Emapat cli_apellido varchar(50)
Emapt cli_nombre varchar(50)
Fuente: Anlisis del investigador.
Elaborado por: Armando Montalvo.

En la ventana principal de Kettle abrimos la carpeta input que se encuentra en el lado izquierdo
de la ventana y arrastramos el siguiente icono

117



Figura 18: Configurar table input
Fuente: Armando Montalvo.
Este paso se utiliza para leer informacin de una base de datos, utilizando una conexin y SQL.
Instrucciones SQL bsicas se pueden generar automticamente pulsando select instruccin Get
SQL.
Para ello damos doble click en el icono table unput, nos abrir otra ventana a la que tendremos
que ingresar la base de datos transaccional que previamente nos conectamos, en esta base de
datos Emapat hacemos doble click en Clientes como se ve en la siguiente figura.

Figura 19: Marcar Clientes de la base de datos transaccional
Fuente: Armando Montalvo.

118


Le damos aceptar.

Figura 20: Confirmar la consulta
Fuente: Armando Montalvo.

Nos aparecer una ventana con una consulta SQL que vamos a modificarlo, ya que de Clientes
solo necesitamos los tres campos campos que son cli_codigo, cli_nombre y cli_apellido. Adems
los nombres y apellidos los vamos a concatenar como vemos en la siguiente figura.

Figura 21: Vista previa de la consulta
Fuente: Armando Montalvo.


Para ver el resultado de la consulta damos click en Preview.

119


Figura 22: resultado de la vista
Fuente: Armando Montalvo.

Presionamos Ok y tenemos listo la extraccin de los datos del Cliente de la base de datos
transaccional. El siguiente proceso es aadir varios Steps a la transformacin como se ve en la
siguiente figura.

Figura 23: Etl dimensin Clientes
Fuente: Armando Montalvo.


120

Aadir Secuencia (Add sequence).- Este paso se limita a aadir un valor de secuencia que se
resetea cada vez se modifica o actualiza un valor en la lista de campos especificados.
Para estatransformacin completamos el siguiente campo:
Nombre del Valor: nombre del campo que contendr la secuencia. En este caso: Id_cliente.

Figura 24: Agregar secuencia al Etl Cliente
Fuente: Armando Montalvo.
Seleccione Valores (Select values).- El paso Seleccione Valores es til para la seleccin, la
eliminacin, cambio de nombre, cambio de tipos de datos y la configuracin de la longitud y la
precisin de los campos en la secuencia.

121


Figura 25: Seleccionar valores
Fuente: Armando Montalvo.
Ordenar Filas (Sort rows).- El paso Ordenar filas ordena las filas basndose en los campos que
se especifiquen y sobre si se deben ordenar de forma ascendente o descendente, en nuestro caso
dejamos solamente.

Figura 26: Ordenar filas
Fuente: Armando Montalvo.

122

Dimensin de bsqueda / actualizacin (Dimension lookup /Update.- Tiene ms control sobre
si se debe actualizar, perforar, o ignorar ciertos campos. Tambin requiere que la dimensin de
ser una dimensin de variacin lenta con la versin de campos extra, a partir de la fecha, hasta la
fecha. Adems de que va a poblar la dimensin Clientes en la base de datos Repositorio que
creamos anteriormente.

El proceso de poblar la dimensin es el siguiente:
Arrastramos el estep Dimension lookup/update al lienzo.
Hacemos la conexin a la base de datos Repositorio
Presionamos Get fields para recuperar los datos.
Creamos la clave subrogada y presionamos OK

Figura 27: Paso Dimensin bsqueda/actualizacin
Fuente: Armando Montalvo.

123

Tenemos que prestar atencin en lo que se refiere a las claves subrogadas. Las claves existentes
en los OLTP se denominan claves naturales; en cambio, las claves subrogadas son aquellas que
se definen artificialmente, son de tipo numrico secuencial, no tienen relacin directa con ningn
dato y no poseen ningn significado en especial.

Lo anterior, es solo una de las razones por las cuales utilizar claves subrogadas en el DW, pero se
pueden definir una serie de ventajas ms:
Ocupan menos espacio y son ms performantes que las tradicionales claves naturales, y ms
an si estas ltimas son de tipo texto.
Son de tipo numrico entero (autonumrico o secuencial).
Permiten que la construccin y mantenimiento de ndices sea una tarea sencilla.
El DW no depender de la codificacin interna del OLTP.
Si se modifica el valor de una clave en el OLTP, el DW lo tomar como un nuevo elemento,
permitiendo de esta manera, almacenar diferentes versiones del mismo dato.
Permiten la correcta aplicacin de tcnicas SCD (Dimensiones lentamente cambiantes).

Para poblar las dimensiones de dim_Sector, dim_Rutas y dim_Categoras realizamos el mismo
proceso de la dimensin Clientes


124

DIMENSIN SECTOR.
La dimensin Sector nos permitir el anlisis desde la perspectiva de todos los atributos
relacionados con cdigo del sector y nombre del sector, dado que el Cantn se encuentra
dividido en varios sectores, como se especifica a continuacin.
Nombre de Tabla: dim_Sectores.
Tipo de Tabla: Dimensin.
Esquema Origen: Sistema Transaccional Emapat.
Tabla Origen: Sectores.

Tabla 3: Tabla dimensin Sectores
Destino Origen
Nombre-
columna
Descripcin Tipo de dato
tamao
SCD Sistema/esquema
tabla
Campo de
origen
Tipo de
dato origen
sec_codigo
id_sector
PK
Subrogada
int4
bigserial

1
Sistema ETL sec_codigo Serial
Sectores Ubicacin
del medidor
por sectores
varchar(30) 1 Emapat sec_nombre varchar(30)
Fuente: Anlisis del investigador.
Elaborado por: Armando Montalvo.

Arrastramos los Step al lienzo, unimos y ejecutamos la transformacin de la dimensin Sectores.

125


Figura 28: Etl dimensin Sectores
Fuente: Armando Montalvo.
DIMENSIN RUTA.
La dimensin Ruta nos permitir el anlisis desde la perspectiva de todos los atributos
relacionados con la ruta, como cdigo de la ruta y nombre de la ruta, como se especifica a
continuacin.
Nombre de Tabla: dim_Rutas.
Tipo de Tabla: Dimensin.
Esquema Origen: Sistema Transaccional Emapat.
Tabla Origen: Rutas.
Tabla 4: Tabla dimensin Rutas
Destino Origen
Nombre-
columna
Descripcin Tipo de dato
tamao
SCD Sistema/esquema
tabla
Campo de
origen
Tipo de
dato origen
rut_codigo
id_ruta
PK
Subrogada
int4
bigserial

1
Sistema ETL rut_codigo Serial
Ruta Ruta de
lecturas
varchar(30) 1 Emapat rut_nombre varchar(30)
Fuente: Anlisis del investigador.
Elaborado por: Armando Montalvo.

126

Arrastramos los Step al lienzo, unimos y ejecutamos la transformacin de la dimensin Rutas.

Figura 29: Etl dimensin Rutas
Fuente: Armando Montalvo.
DIMENSIN CATEGORIA.
La dimensin Categora nos permitir el anlisis desde la perspectiva de todos los atributos
cdigo y nombre de la categora, que estn relacionados con los medidores instalados en el
Cantn El Tambo, como se especifica a continuacin.
Nombre de Tabla: dim_Categoria.
Tipo de Tabla: Dimensin.
Esquema Origen: Sistema Transaccional Emapat.
Tabla Origen: Categoria.





127

Tabla 5: Tabla dimensin Categora
Destino Origen
Nombre-
columna
Descripcin Tipo de
dato
tamao
SCD Sistema/esquema
tabla
Campo de
origen
Tipo de
dato origen
cat_codigo
id_categoria
PK
Subrogada
int4
bigserial

1
Sistema ETL cat_codigo Serial
categoria Categora
del medidor
varchar(30) 1 Emapat cat_nombre varchar(30)
Fuente: Anlisis del investigador.
Elaborado por: Armando Montalvo.

Arrastramos los esteps al lienzo, unimos y ejecutamos la transformacin de la dimensin
Categora.

Figura 30: Etl dimensin Categora
Fuente: Armando Montalvo.
DIMENSIN FACTURA.
La dimensin Factura nos permitir el anlisis desde la perspectiva de todos los atributos cdigo
de la Factura, el inters en caso de retraso de pago por dos meses, el valor total a pagar y el
cdigo de la entidad cobro que est normalizado dentro de la dimensin factura como se
especifica a continuacin.

128

Nombre de Tabla: dim_Factura.
Tipo de Tabla: Dimensin.
Esquema Origen: Sistema Transaccional Emapat.
Tabla Origen: Factura.

Tabla 6: Tabla dimensin Factura
Destino Origen
Nombre-
columna
Descripcin Tipo de dato
tamao
SCD Sistema/esquema
tabla
Campo de
origen
Tipo de dato
origen
cob_codigo
lec_codigo
id_cobros
PK

Subrogada
int4
int4
bigserial

1
Sistema ETL cob_codigo
lec_codigo
Serial
int4
Valor Valor-pagar numeric(10,2) 1 Emapat cob_valora numeric(8,2)
Alcabala Impuesto
de Alcabala
numeric(10,2) 1 Emapat cob_valoralc numeric(8,2)
Total Total-pagar numeric(10,2) 1 Emapat cob_total numeric(8,2)
Fecha Fecha-pago Timestamp 1 Emapat cob_fechai Date
Fuente: Anlisis del investigador.
Elaborado por: Armando Montalvo.

Para la trasformacin de la dimensin Facturas vamos a utilizar un estep adicional.
Primero arrastramos al lienzo dos tablas input y extraemos los registros de la base de datos
transaccional Emapat, luego arrastramos el estep llamado Merge join, este estep sirve para
cargar registros de dos tablas diferentes relacionados con las claves forneas lo que en Sql
llamamos Inner join.
De la entidad Cobros utilizaremos los siguientes campos:
cob_codigo
cob_valora
cob_valoralc
cob_total

129

cob_fecha
Y de la tabla lectura utilizaremos el campo lec_codigo, el cual es clave fornea de la entidad
Cobros. Despus hacer la unin continuamos con el resto de procesos iguales a las otras
dimensiones.

Figura 31: Etl dimensin factura
Fuente: Armando Montalvo.
DIMENSIN TIEMPO.
Como bien se sabe, la dimisin tiempo es bsica para cualquier modelo, pues el tiempo siempre
es una de las perspectivas por las que queremos analizar la informacin. Los datos que forman
esta dimensin los generaremos para un periodo de tiempo determinado (por ejemplo 10 a15 o 20
aos, para incluir periodos pasados y periodos futuros). Vamos a intentar generar el mayor
nmero posible de atributos para esta dimensin para facilitar luego el anlisis. Adems, el
nmero de componentes o registros de esta dimensin va a ser limitado y no hay problemas de
tamao en la Base de Datos.

130

Esta dimensin es esttica por lo que no aplica utilizar las propiedades de SCD (dimensin
lentamente cambiante), tambin hay que recalcar que esta dimensin no existe en la base de datos
transaccional.

Nombre de Tabla: dim_tiempo.
Tipo de Tabla: Dimensin.

Tabla 7: Tabla dimensin Tiempo
Destino
Nombre-
Columna
Descripcin Tipo de
dato/tamao
Fecha_sk Clave primaria subrogada float8
fecha_id fecha en la notacin habitual de tipo date Timestamp
fecha_desc Fecha formateada en texto (ejemplo: 15 de abril de 2009). Text
diasem_id Da 1,2,37. float8
diasem_desc Da de la semana en texto (Lunes, Martes...). Text
diames_id N de da de la fecha en el mes (da 14, da 28, da 31). float8
diaano_id Numero de da de la fecha en el ao (da 234, da 365). float8
semanan_id notacin ao-semana para comparativas, cabeceras Es la
clave que identifica cada semana
float8
semanan_desc Semana del ao en formato descriptivo (Semana 45 de
2008).
Text
mes_id notacin ao-mes para comparativas, cabeceras Es la clave
que va a identificar cada mes
Text
mes_desc Mes del ao en formato descriptivo ( Enero de 2008, Abril
de 2010,etc).
Text
mesn_desc Descripcin en texto del mes (Enero, Febrero, Marzo,). float8
anyo_id

ao de la fecha, con 4 dgitos. Es la clave que va a identificar
cada ao.
float8
Fuente: Anlisis del investigador.
Elaborado por: Armando Montalvo.

131


El proceso ETL utilizando PDI. El proceso va a generar todos los datos vistos para cada fecha,
desde el 01 de Enero de 2005 hasta el 31 de Diciembre de 2020. El diseo de nuestra
transformacin ser el siguiente:
Generar Fecha: con un paso del tipo Generate Row (categora Input), generamos 10 mil veces
un valor del tipo fecha, con el valor 20050101, que corresponde a la fecha inicial que queremos
procesar. Esta fecha es el punto de partida de la generacin de toda la secuencia de fechas hasta
llegar al 31 de diciembre de 2020.

Figura 32: Generar Filas
Fuente: Armando Montalvo.

Aadir 1 da: con un paso del tipo Add Secuence (categora Transform) generamos un valor
numrico, que empieza por 1, y que se va incrementando en cada ejecucin. Este valor ser el
que sumaremos ms adelante a la fecha de partida del paso anterior para generar cada una de las
fechas deseadas.

132


Figura 33: Aadir secuencia
Fuente: Armando Montalvo.

Calcular Fechas: con un paso del tipo Calculator (categora Transform) empezamos a realizar
varias operaciones sobre la fecha. La ms importante, como hemos indicado, es sumar la
secuencia del paso anterior a la fecha inicial, para generar las fechas. Adems, vamos a realizar
otras operaciones, como la conversin de la fecha a nmero para generar la clave subrogada
(pasos 2 y 3, utilizando una variable auxiliar). Adems, con las diferentes operaciones que nos
proporciona el paso, obtenemos el ao de una fecha, el ao anterior, el da del mes y del ao, la
semana, el nmero de mes de la fecha, etc.

Figura 34: Calcular fechas
Fuente: Armando Montalvo.


133

Filter Rows: con un paso del tipo Filter Rows (categora Flow) filtramos los registros generados
por la fecha, para evitar que se genere ninguna fecha superior al 31 de diciembre de 2020. Las
fechas que no cumplen la condicin son desechadas a un paso Dummy (que no hace nada).

Figura 35: filtrar filas
Fuente: Armando Montalvo.

Calculo de Textos: con un paso del tipo Formula (categora Scripting), calculamos algunos
campos ms, como el identificador de la semana y su descripcin, el mes, el da de la semana,
etc. El paso Formula lo utilizaremos cuando los clculos son ms complejos, y no nos vale el
step Calculator. Ese paso utiliza la librera LibFormula, cuya sintaxis est basada en el estndar
OpenFormula standard, el paso tiene un montn de frmulas disponibles, y cuando
seleccionamos alguna tenemos una pequea ayuda con la sintaxis de cada una.

Figura 36: Calcular textos
Fuente: Armando Montalvo.

Calculo Resto Atributos: igualmente, para aquellos clculos ms complejos, siempre nos queda
la opcin de picar nuestro propio cdigo. Para ello, con el paso Modified Java Script Value

134

(categora Scripting) podemos definir nuestro propio cdigo Javascript. En este caso, hemos
utilizado la localizacin en espaol para trabajar con las fechas y as poder extraer las
descripciones de los meses del ao y de los das de la semana, as como para obtener otros
valores como los trimestres.

Figura 37: script para el resto de atributos
Fuente: Armando Montalvo.

Ordena Valores: con el paso Select / Rename values (categora Transform), seleccionamos los
campos que queremos pasar al siguiente paso, y el orden. Estamos ordenando los registros para
que estn igual que los campos de la base de datos. Con este paso tambin podramos seleccionar
que campos queremos eliminar ( y no pasar en el flujo al siguiente paso).

135


Figura 38: Ordenar Valores
Fuente: Armando Montalvo.

Carga dim_Tiempo: como paso final en la transformacin, utilizamos el step Table Output
(categora Output) para insertar en la correspondiente tabla de la base de datos los registros
generados. En concreto, insertamos en la tabla dim_Tiempo. Previamente, hemos definido en
PDI la conexin a base de datos para poder seleccionar la tabla destino


136


Figura 39: Table Ouput para seleccionar el destino
Fuente: Armando Montalvo.

Finalizada la transformacin se vera de esta manera

137


Figura 40: Etl dimensin Tiempo
Fuente: Armando Montalvo.
REALIZAR LA CARGA HISTRICA DE LA TABLA DE HECHOS
De igual manera que las dimensiones se usaran las SCD para cargar la tabla de hechos y la
asignacin de claves subrogadas, tambin se adicionara otra funcionalidad que ser sobre los
cambios en la extraccin de datos que hayan sufrido alguna alteracin.

BUSQUEDA DE CLAVES SUBROGADAS EN LA TABLA DE HECHOS CONSUMO
MEDIDORES









138

Tabla 8: Bsqueda de claves subrogadas
Campos de origen Campos clave primaria Campos clave subrogada
med_codigo
med_ubicacion
cli_codigo
cat_codigo
rut_codigo
sec_codigo
cob_codigo
lec_mes
cob_estado
fecha_sk
lec_fecha
cob_valora
cob_valoralc
cob_tasa
cob_total
med_codigo Id_codigo
cli_codigo Id_Cliente
cat_codigo Id_Categoria
rut_codigo Id_Ruta
sec_codigo Id_Sector
cob_codigo Id_Factura
fecha_sk Fecha_sk
Fuente: Anlisis del investigador.
Elaborado por: Armando Montalvo.

CARGAR LOS REGISTROS EN LA TABLA DE HECHOS CONSUMO MEDIDORES
El proceso para cargar la tabla de hechos es diferente al de las dimensiones lo primero que hay
que hacer es arrastrar al lienzo el estep table input de la categora Input, le damos doble click
para que se nos abra y le colocamos y hacemos la conexin a la base de datos transaccional que
estamos Emapat que estamos utilizando, le damos un nombre a la transformacin en este caso
Consumo_Medidor y creamos una consulta Select que va a contener las claves primarias de
todas las dimensiones, adems de las medidas que vamos a utilizar como lo demuestra la
siguiente figura.

139


Figura 41: Table input Consulta para llenar la tabla de hechos
Fuente: Armando Montalvo.

Luego arrastramos al lienzo el estep Table Output de la categora Output y le unimos con un
salto al estep Consumo_Medidor, para poder migrar los registros hacia la base de datos
Repositorio en donde se encuentran las dimensiones, este proceso lo realizamos dando doble
click en el estep, le damos el nombre de la tabla de hechos que ser fact_consumo_med.
Le damos click en SQL, para ejecutar la siguiente consulta, luego le damos click en Execute, se
abrir la ltima ventana en la que presionaremos OK.


140


Figura 42: Ejecutar consulta
Fuente: Armando Montalvo.


El resultado final ser el siguiente.

Figura 43: Etl Tabla de hechos
Fuente: Armando Montalvo.

141

ACTUALIZAR LAS DIMENSIONES Y LA TABLA DE HECHOS
Sin duda una de los procesos ms importantes del ETL es la actualizacin de los registros de la
base de datos, de lo contrario no tendra ningn valor la extraccin y anlisis. Por lo que es
necesario realizar una serie de sub procesos que lo detallamos a continuacin.

Job.- es un conjunto complejo o sencillo de tareas para realizar una accin determinada.
Igualmente disponemos de un conjunto de pasos (que son diferentes a los de las
transformaciones) y los saltos (que en este caso determinan el orden de ejecucin, y la gestin de
resultados de la ejecucin de cada paso). Dentro de los Jobs podemos ejecutar una o varias
transformaciones, los que nos permite ir dividiendo los procesos en partes y luego orquestar su
ejecucin mediante los Jobs.
Start (entrada de trabajo).- define el punto de partida para la ejecucin del trabajo. Cada
trabajo debe tener una (y slo una) Inicio.
La configuracin de entrada de trabajo de arranque contienen funcionalidad bsica de
programacin; Sin embargo, la programacin no es persistente y slo est disponible cuando el
dispositivo est en funcionamiento.

Figura 44: Iniciar Job
Fuente: Armando Montalvo.

142

El siguiente proceso es crear un Job al que le llamaremos Master Job. El job se encuentra en un
nivel superior a las transformaciones, estos job tienen un icono de color naranja que permiten
ejecutar las transformaciones y otros procesos, en este caso el Master Job cargar otro job que se
llama Etl_Emapat.


Figura 45: Carga del Job Etl_Emapat en el Master Job
Fuente: Armando Montalvo.
Y podemos observar que el job Etl_Emapat a su vez est ejecutando una serie de
transformaciones como la tabla de hecho Consumo_Medidor y las dimensiones Clientes,
Categoras, Rutas, etc. Y en el caso de ocurrir algn error mostrara un mensaje.

143


Figura 46: Ejecucin del Job Etl Emapat
Fuente: Armando Montalvo.
Tomando como ejemplo dim_Clientes en el job Etl_Emapt se abre la transformacin que
realizamos previamente como se muestra a continuacin.

Figura 47: Etl dimensin Clientes ejecutado por el Job Etl Emapat
Fuente: Armando Montalvo.

A continuacin le damos doble click sobre el icono Star parametrizar la actualizacin y
procedemos a llenar los campos,en nuestro caso vamos a actualizar el Etl cada fin de mes en
espesifico el dia 28 a las 8: 10 de cada mes, como se muestra en la siguiente figura.

144


Figura 48: Calendarizar el Master job
Fuente: Armando Montalvo.
Ejecutada la transformacin la ventana se vera de la siguiente manera.

Figura 49: Ejecucin del Master Job
Fuente: Armando Montalvo.
Una vez actualizado nos dirigimos a la barra de herramientas en la parte superior izquierda y
pulsamos en Edit y verificamos la actualizacin.

145


Figura 50: Propiedades del Master Job
Fuente: Armando Montalvo.







PENTAHO SCHEMA WORKBENCH

Mondrian esquema Workbench es una interfaz de diseo que te permite crear y probar esquemas
de cubos OLAP Mondrian visualmente. El motor Mondrian procesa las solicitudes de MDX con
la ROLAP (Relational OLAP) esquemas. Estos archivos de esquema son modelos de metadatos
XML que se crean en una estructura especfica que utiliza el motor de Mondrian. Estos modelos
XML pueden ser consideradas estructuras de forma de cubo que utilizan tablas de hechos y de
dimensiones existentes que se encuentran en su RDBMS.


146

INSTALACIN
Lo primero que debemos hacer es descargar Mondrian Schema Workbench (Pentaho Schema
Workbench -PSW-) de la siguiente direccin:
http://sourceforge.net/projects/mondrian/files/schema%20workbench/3.6.1-stable/

Una vez que se descarg el archivo, procedemos a descomprimirlo en algn lugar apropiado. Yo
lo tengo en la carpeta de Archivos de Programas/Pentaho/ProgramasSuite Pero eso es eleccin de
cada uno. Si lo quieres poner en el Escritorio va a funcionar igual.
ACCESO
Luego se debe iniciar PSW en Windows: entrar en la carpeta del programa y ejecutar
workbench.bat. Automticamente se iniciar una ventana de Ms-dos y lanzar el programa en
otra ventana de aspecto bastante ordinario.

Figura 51:Ventana de Schema Workbench
Fuente: Armando Montalvo.

El elemento principal del sistema son los ficheros xml donde se representan los esquemas
dimensionales. Para construir estos ficheros xml, podriamos utilizar cualquier editor de texto o
xml, o bien la herramienta que nos ofrece Pentaho, que se llama Schema Workbench. Pentaho

147

Schema Workbench es la herramienta grfica que permite la construccin de los esquemas de
Mondrian, y adems permite publicarlos al servidor BI para que puedan ser utilizados en los
analisis por los usuarios de la plataforma.

CONEXIN CON LA BASE DE DATOS
Como en todas las herramientas de Pentaho, en primer lugar hemos de definir las conexiones a
base de datos como paso previo a la configuracin de los esquemas. Adems, tenemso que
colocar el driver jdbc en el directorio drivers de Schema workbench. En nuestro caso, hemos
configurado la conexin con Postgres de la siguiente manera.
En la ventana principal de Schema Workbench damos click en Options para abrir la ventana de
conexin a la base de datos, llenamos los datos en los casilleros correspondientes y pinchamos el
botn Test para verificar la conexin luego presionamos OK, y estar lista nuestra conexin.

Figura 52: Conexin con la base de datos

148

Fuente: Armando Montalvo.

CREACIN DE UN ESQUEMA
Un esquema es un contenedor de cubos (que tendr un nico fichero xml), donde podremos crear tantos
cubos como deseemos. Las propiedades que se pueden indicar al crear un esquema son un nombre, la
descripcin, un nombre para la dimensin que agrupara a las medidas y un rol por defecto para utilizar
en las conexiones de base de datostal y como veis en la imagen siguiente.

Figura 53: Creacin del esquema
Fuente: Armando Montalvo.

CREACIN DE CUBOS
Al crear el Cubo, le indicaremos un nombre y una descripcin, pudiendo marcar adems las
opciones cache (para que Mondrian trabaje con cache en este cubo) y la opcin enabled (para que
el cubo sea visible. Sino est marcado este flag, el cubo no aparecer).


149


Figura 54: Creacin del cubo Consumo_Medidor
Fuente: Armando Montalvo.
DEFINIR TABLA DE HECHOS
Una tabla de hechos es una tabla principal en el modelado multidimensional y que almacena las
medidas del rendimiento del negocio. El trmino "hecho" se usa para referirse a una medida de
negocio, siendo esta medida el dato que se toma de la sumarizacin de las dimensiones que
intervienen en el esquema multidimensional"

Procediendo a crear la tabla de hechos, dando clic en el cubo ConsumoMedidor se puede ver
como se despliega un icono de tabla Table, pues en este lugar se selecciona la tabla que
contendr los hechos, es decir aquello que deseamos analizar.


150


Figura 55: Agregar tabla de hechos al cubo
Fuente: Armando Montalvo.



AADIR DIMENSIONES
Son las tablas que contienen la descripcin del negocio. En un modelo bien diseado estas tablas
tienen los atributos para que cada fila bien definida. Cada dimensin est definida por su clave
primaria, manteniendo as la integridad referencial con cualquier tabla de hechos con la que
pueda ser relacionada.

Para crear la dimensin nos paramos encima del cubo, le damos clic derecho y del conjunto de
opciones que sale se selecciona la opcin Add Dimension, le damos los nombres y as
sucesivamente creamos todas las dimensiones del cubo.


151


Figura 56: Crear dimensiones
Fuente: Armando Montalvo.
En el siguiente grafico se muestra como el elemento New Dimensin Clientes tiene en su
interior a Hierarchy (jerarqua), quien a su vez contiene un Table, la filosofa de ir
configurando estas estructuras compuestas, desde adentro hacia afuera hace que esta herramienta
sea eficiente, por lo que el modo de configuracin es el siguiente.

Table: dimcliente contiene el campo name en donde se escoge la tabla dimensin requerida,
nos interesa dimcliente, as que seleccionamos la mencionada. De la misma forma que arriba
Table se acoge al nombre de la tabla seleccionada.


152


Figura 57: Agregar dimensin en la jerarqua
Fuente: Armando Montalvo.
Luego nos paramos en Hierarchy y en los campos name y allMemberName ponemos
Todos_los_clientes este ser el ttulo de los valores que saldrn en los reportes, vistas de
anlisis, etc.

En el campo primaryKey seleccionamos de los campos que tenga esta tabla dimensin aquel
que sea la llave primaria, en este caso cod_cliente.

153


Figura 58: Agregar clave primaria a la jerarqua
Fuente: Armando Montalvo.
Bien, ya establecimos la conexin entre las tablas mencionadas, pero no hemos establecido que
campo(s) son los que mostraremos. Para ellos nos paramos en Hierarchy y damos clic derecho y
seleccionamos Add Level, A este Level le ponemos nombre en name y en nameColumn
seleccionamos el campo que deseamos se muestre.

Figura 59: Crear un nivel
Fuente: Armando Montalvo.

154

AADIR INDICADORES
Nos posicionamos arriba del cubo, damos clic derecho y seleccionamos Add Measure, en
name ponemos el nombre de este valor a calcular, en aggregator seleccionamos la operacin
de sumarizacin que se desee realizar, en nuestro caso AVG.

Figura 60: Crear medidas o mtricas
Fuente: Armando Montalvo.
Y realizamos la misma tarea para el resto de medidas

Figura 61: Resto de medidas
Fuente: Armando Montalvo.

155

PUBLICACION DEL ESQUEMA
Luego de construir el esquema, el paso final para poder utilizarlo en los anlisis del portal BI de
Pentaho es su publicacin. Para ello, salvamos el cubo y seleccionamos la opcin de men File
Publish. Se nos pide la direccin de publicacin del servidor, la contrasea de publicacin y los
datos del usuario. Se realiza la conexin con el servidor y el esquema ya est disponible para ser
utilizado.

Figura 62: Publicar esquema
Fuente: Armando Montalvo.

Atencin, para poder hacer una publicacin en nuestro servidor hay que haber modificado un
archivo que nos da permisos para ello. Para poder modificar este fichero sigue estos pasos:
Entra en biserver-ce
pentaho-solutions
system
Botn derecho en el archivo
publisher_config.xml

156

<publisher-config>
<publisher-password>Emapat</publisher-password>
</publisher-config>
Accedemos al portal para ver si esto es as. Al crear una nueva vista de anlisis, nos aparecen los
diferentes esquemas disponibles, y ya aparece el nuestro, adems delos esquemas de
demostracin que incluye el servidor.

PENTAHO REPORT DESIGNER (PRD).

Pentaho Report Designer es una herramienta de reporting que nos permite crear nuestros propios
informes, bien para ejecutarlos directamente o para publicarlos en la plantaforma BI y que desde
all puedan ser utilizados por los usuarios. La herramienta es independiente de la plataforma y
forma parte del conjunto de herramientas de la suite de Pentaho.

Pentaho Report Designer nos permite trabajar con multiples origenes de datos (JDBC, Olap4J,
Pentaho Analysis, Pentaho Data Integration, XML) incluido el metadata que tengamos definido
en nuestro sistema. Tambin nos permite modificar los informes ad-hoc que hayamos creado
utilizando WAQR (de hecho es la nica forma de modificarlos). El motor de reporting de
Pentaho est basado en JFreeReports y ha sido totalmente rediseado en lo que llaman PRD.


157

El resultado de los informes que vamos diseando se puede ver con las opciones de
previsualizacin, y nos permite la salida de resultados en diferentes formatos como PDF, HTML,
XLS, RTF y CSV.

CARRACTERISTICAS DE PENTAHO REPORT DESIGNER
Diseador grfico basado en arrastrar y soltar (drag and drop), provee un completo control de
acceso alos datos, agrupaciones, clculos, grficos, etc.
Asistente pas a paso integrado para guiar a los diseadores de reportes durante el proceso de
diseo.
Plantillas de reportes que aceleran el proceso de generacin de reportes proporcionando un
aspecto consistente y atractivo.
Opciones de salida flexibles que incluyen formatos PDF, HTML, EXCEL, entre otros.
CONFIGURACIN DE PRD
Lo primero que vamos a hacer es descargar Pentaho Report Designer de la siguiente direccin
http://sourceforge.net/projects/jfreereport/files/04.%20Report%20Designer/5.0.1-stable/
Previamente debemos tener ya instalado y configurado Pentaho BI Server.
Damos clic en Report Designer, luego en la versin ms reciente estable, y finalmente
descargamos el archivo.

158


Figura 63: Prd para Windows
Fuente: Armando Montalvo.

Una vez descargado, descomprimimos el archivo, en la carpeta report-designer tenemos la
siguiente estructura, le damos doble click en report designer.bat

Figura 64: Directorio de Pentaho report Designer
Fuente: Armando Montalvo.

INICIO DE SESIN EN PENTAHO REPORT DESIGNER
Le damos clic en la opcin New Report. Nos va a poner un reporte en blanco con el que vamos a
poder trabajar, la pantalla de PRD est divida en las siguientes partes que se demuestra a
continuacin.

159


Figura 65: Crear un nuevo reporte
Fuente: Armando Montalvo.
1. Men principal: Ac tenemos las opciones de abrir un nuevo reporte, cargar uno ya
existente, guardar el actual. Adems hay opciones para publicacin de nuestro reporte en el
BIServer o para exportacin a PDF, Excel, etc.
2. Barra de herramientas: En esta barra tenemos elementos que podemos meter a nuestro
reporte segn sea necesario, etiquetas de texto, imgenes, grficos, entre otros.
3. Estructura y Datos: En esta ventana vamos a administrar las conexiones, variables,
funciones y datos que van a estar en nuestro reporte.
4. Men de Formato: Es un atajo para darle formato (tipo de letra, tamao, negritas, cursivas,
alineaciones) a nuestros elementos de nuestro reporte.
5. rea de trabajo: Es el reporte, est dividido (al principio) en 5 secciones (Page Header,
Report Header, Details, Report Footer, Page Footer).

1
2
3
4
5

160

PENTAHO REPORT DESIGN WIZARD
El asistente de reportes de Pentaho Report Designer es una herramienta muy til, que agiliza
enormemente la creacin de reportes a los usuarios, proporcionando una gua con siete (7) pasos
para el diseo. Mediante la utilizacin de este manual nos enfocaremos a generar un reporte
desde el comienzo con el asistente paso a paso.

Para comenzar a utilizar el asistente abrimos el men File en la esquina superior izquierda y
seleccionamos la opcin Report Design Wizard, se abrir la ventana de trabajo y seleccionamos:

Figura 66: Crear un reporte con wizard
Fuente: Armando Montalvo.
INICIO DEL ASISTENTE DE REPORTES
Select Look and Feel: en esta rea podemos definir como se ver nuestro reporte.
Marcando la opcin Template, se nos mostrar una lista con un conjunto de diseos visuales
predeterminados. El reporte ser configurado por defecto por la aplicacin, seleccionando una
plantilla de diseo obtendremos la configuracin de estilo, formato y un conjunto de variables
que pueden ser mapeadas a una fuente de datos o introducidas por el usuario.

161


Fuente: Armando Montalvo.
Data Source and: Creamos la conexin con la fuente de datos pinchando en el lpiz que se
encuentra en la parte superior derecha de la ventana.

Figura 68: Opciones de conexin para los datos
Fuente: Armando Montalvo.

En nuestro caso hacemos una conexin JDBC, se abrir la siguiente ventana.
Figura 67: Opciones del asistente de reportes

162


Figura 69: Agregar una conexin JDBC
Fuente: Armando Montalvo.
Creamos nuestra conexin a la base de datos REPOSITORIO, dando click en el signo (+), se
abrir la ventana de conexin con la fuente de datos, en nuestro caso PostgresQl, damos click en
test para verificar la conexin y despus le damos OK

Figura 70: Configurar la conexin con la base de datos
Fuente: Armando Montalvo.

163

Continuamos creando la primera consulta que llamaremos Consulta_Consumos_mes,
pinchamos en la base de datos Repositorio que se encuentra en la parte superior derecha y luego
damos click en el lpiz que se encuentra en la parte inferior derecha como se ve en la siguiente
figura.

Figura 71: Ir al diseador de consultas
Fuente: Armando Montalvo.
Se abrir la siguiente ventana, abrimos el combo box y damos click en Public para que se cargue
las tablas de la base de datos Repositorio.
Una vez que elegimos las tablas y seleccionamos los campos a graficar, del lado isquierdo
podemos apreciar los campos seleccionados
Presionamos el lpiz para ver el
diseador de sentencias SQL

164


Figura 72: Diseador de consultas SQL
Fuente: Armando Montalvo.

Dando click en sintaxis podemos visualizar la consulta que creamos

Figura 73: Consulta para un reporte
Fuente: Armando Montalvo.
En este paso agrupamos segn el campo que elijamos en nuestra consulta y presionamos finish
Agregamos los parmetros creados
para esta sentencias SQL

165


Figura 74: Asistente de diseo de reportes
Fuente: Armando Montalvo.
Finalmente se presentara la ventana con el reporte que creamos, que lo podemos modificar para
mejorar la presentacin.

Figura 75: Vista de un reporte
Fuente: Armando Montalvo.

166

AGREGAR BPARAMENTROS
Para crear los parmetros tenemos que realizar una consulta que tendr los campos que
necesitamos en nuestro caso de la dimensin Tiempo. Para ello damos click en Parameters como
se muestra en la siguiente figura.

Figura 76: Agregar parmetros
Fuente: Armando Montalvo.

Llenamos los campos como se muestra en la siguiente figura y presionamos OK. Este proceso lo
realizamos con todos los parmetros que sean necesarios.

Figura 77: Aadir parmetros
Fuente: Armando Montalvo.

167

Para finalizar editamos la primera consulta consulta con el parametro que creamos. Este proceso
lo realizaremos para todos los parametros que sean necesarios.

Figura 78: Modificar la consulta con los nuevos parmetros
Fuente: Armando Montalvo.
INSERTAR GRFICOS
Una vez hecho el reporte lo que nos faltara es insertar las grficas correspondientes, La grfica
va a aparecer una sola vez al final del reporte, por lo tanto debemos meterla en la seccin Report
Footer.

Nos ubicamos en la barra de herramientas el elemento chart y lo arrastramos a la seccin Report
Footer de nuestro reporte

168


Figura 79: Agregar Chart (grafico)
Fuente: Armando Montalvo.
Configurarnos el Chart, dndole doble clic a nuestro elemento del reporte y nos va a desplegar la
pantalla Edit Chart. En la seccin de Primary Data Source buscamos los atributos category-
column, value-columns y series-by-field, y les damos los valores respectivos de med_codigo
[lec_mes], y [lec_mes] y damos clic en OK.

Figura 80: Editar Chart
Fuente: Armando Montalvo.

169

VISUALIZACIN DEL REPORTE
Para visualizar los reportes, Pentaho Report Designer brinda barias opciones de salida en
formatos HTML, PDF, EXCEL, RTF TEXT y CSV.

Una vez listo el reporte damos click en el botn verde ubicado en la parte superior para ver una
vista previa del reporte y escogemos el formato con el que vamos a visualizarlo.

Figura 81: Vista previa del reporte
Fuente: Armando Montalvo.

Escogemos los parmetros.

170


Figura 82: aadir los parmetros
Fuente: Armando Montalvo.

Figura 83: Vista previa del reporte en PDF
Fuente: Armando Montalvo.

171

PUBLICACIN DE LOS REPORTES EN EL SERVIDOR BI DE PENTAHO
La ventaja que brinda Pentaho Report Designer es la de poder publicar nuestros reportes en el
servidor BI de Pentaho, para ello lo primero que tenemos que hacer es crear una carpeta dentro
del servidor de Pentaho. La ruta en nuestra situacin seria la siguiente:
C:\Users\armando\Desktop\Pentahotools\biserver 4.8\biserver-ce\pentaho-
solutions\Reportes_Creados.

A continuacin tiene que estar corriendo el servidor BI, luego para publicar el reporte nos
ubicamos en la parte superior izquierda de la ventana de PRD damos click en el icono en forma
de ovalo o presionamos File, Publish. O como se muestra en la siguiente figura



Figura 85: Publicar reportes
Fuente: Armando Montalvo.
Figura 84: Icono de Publicacin
Fuente: Armando Montalvo.

172

Se abrir la siguiente ventana, damos click en OK

Figura 86: Publicar reporte
Fuente: Armando Montalvo.
Se abrir la ventana de publicacin, le damos un titulo, su descripcin, escogemos la carpeta que
creamos en el servidor de BI, escogemos en que formato queremos visualizarlo, escribimos la
contrasea que editamos en pentahoSystemConfig y presionamos OK

Figura 87: Aadir a la carpeta de reportes en Biserver
Fuente: Armando Montalvo.


173

Despus vamos al servidor de BI, actualizamos el cache y verificamos que el reporte para poder
visualizarlo.

Figura 88: Reportes publicados en la consola de Biserver
Fuente: Armando Montalvo.

Llenamos los parmetros

Figura 89: Llenar parmetros en la consola BI
Fuente: Armando Montalvo.


174

Y ya podemos visualizar nuestros reportes en el servidor BI de Pentaho

Figura 90: Visualizar reporte en la consola de BI
Fuente: Armando Montalvo.
REPORTE CREADOS CON REPORT DESIGNER
REPORTE DE CONSUMOS ALTOS DURANTE UN PERIODO DE TIEMPO
Saber si existen picos de consumo de medidores por causa de fugas o el mal uso del agua para
ello se cre los siguientes parmetros:
Ao
Mes
Consumo


175


Figura 91: Reporte de consumos altos
Fuente: Armando Montalvo.

Consulta general

Figura 92: Sql del reporte consumos altos
Fuente: Armando Montalvo.


176

REPORTE DEL HISTORIAL DE CONSUMOS DE UN MEDIDOR
Con el fin de analizar el consumo individual de un medidor durante un periodo de tiempo, para
ello se crearon los siguientes parmetros:
Registro
Fecha de inicio
Fecha final

Figura 93: Reporte de historial de consumos
Fuente: Armando Montalvo.




177

La consulta es la siguiente

Figura 94: Sql de historial de consumos
Fuente: Armando Montalvo.

REPORTE DEL DE CONSUMOS DE UN MEDIDOR POR CATEGORIA
Para analizar los consumos por la categora del medidor, para ello se crearon los siguientes
parmetros:
Estado (true = pagado, false = no pagado)
Fecha inicial
Fecha final

178


Figura 95: Reporte de consumos por categora
Fuente: Armando Montalvo.

La consulta es la siguiente

Figura 96: Sql de consumos por categora
Fuente: Armando Montalvo.



179

REPORTE DEL DE RECAUDACIONES
Con el fin de saber las recaudaciones pagadas o no durante el ao, para ello se crearon los
siguientes parmetros
Ao
Estado ( true = pagadas, false = no padado)

Figura 97: Reporte de Recaudaciones
Fuente: Armando Montalvo.





180

La consulta es la siguiente

Figura 98: Sql reporte de recaudaciones
Fuente: Armando Montalvo.








PLATAFORMA BI DE PENTAHO

Pentaho Business Intelligence es una plataforma open source de Anlisis de los Datos e informes
empresariales. Las soluciones de Pentaho estn escritas en Java y tienen un ambiente de
implementacin tambin basado en Java. Eso hace que Pentaho es una solucin muy flexible para
cubrir una amplia gama de necesidades empresariales tanto las tpicas como las sofisticadas y
especificas al negocio.


181

INSTALACIN Y CONFIGURACIN
Seleccionamos una carpeta (por ejemplo c:\pentaho), y en ella vamos a descomprimir el fichero
Zip que nos hemos bajado de la siguiente direccin:
http://sourceforge.net/projects/pentaho/files/Business%20Intelligence%20Server/
Despus el proceso, tendremos dos carpetas diferenciadas, llamadas administration-console y
biserver-ce. La primera carpeta alberga los ficheros de la plataforma de administracin, que
utilizamos para configurar y administrar el servidor BI (utiliza Jetty). La segunda, es la
plataforma de BI propiamente dicha (la que utilizarn los usuarios), que utiliza tomcat.
Para poder ejecutar la plataforma de BI de Pentaho es necesario disponer de una mquina virtual
Java instalada en el equipo donde vamos a trabajar. Pentaho recomienda la versin 1.5 de Sun
JRE. Con versiones anteriores no funciona y la jdk1.7.0_25no est oficialmente soportada (es la
que tengo instalada yo), pero funciona bien.

INICIANDO LA PLATAFORMA DE PENTAHO BI
Para iniciar el servidor de Pentaho (BI Server).entra a la carpeta "\pentaho\server\biserver-ce\" y
ejecuta el archivo start-pentaho.bat

182


Figura 99: Ejecutar Pentaho consola de usuario
Fuente: Armando Montalvo.

Para iniciar la Consola de Administracin de Pentaho, entra a la carpeta
"\pentaho\server\administration-console\" y ejecuta el archivo start-pac.bat

Figura 100: Ejecutar Pentaho consola de administracin
Fuente: Armando Montalvo.
Una vez iniciadas las consolas se mostrarn 3 ventanas que no sedeber cerrar, lo que significa
que cada vez que se reiniciela computadora, se tendr que volver a ejecutar estos pasos.

183


Figura 101: Pantalla de ejecucin de Biserver
Fuente: Armando Montalvo.


Figura 102: Pantalla de ejecucin Biserver consola de administracin
Fuente: Armando Montalvo.
Para entrar a la ventana de login de Pentaho en la barra de direccin del browser escribe la
siguiente direccin. http://localhost:8080/pentahoPuedes elegir el usuario Joe, ya que este usuario
tiene privilegios de administrador.

Figura 103: Ventana de login de Biserver
Fuente: Armando Montalvo.

Aparecer la siguiente pantalla, observa que del lado izquierdo se encuentra un panel oculto, trata
de mostrarlo arrastrando una pequea manija gris que tiene en la barra vertical.

184


Figura 104: Ventana principal de Biserver
Fuente: Armando Montalvo.

Para entrar a la consola de administracin de Pentaho en la barra de direccin del browser se
escribe la siguiente direccin. http://localhost:8099/ y se pone como usuario Admin y Password
como contrasea.

INICIANDO LA PLATAFORMA DE PENTAHO BI
Para ejecutar la consola de administracin, solamente basta con ejecutar el archivo que se
encuentra en la carpeta C:\Pentaho\biserver-ce-4.8.stable\administration-console\, el cual lanzar
un servidor web Jetty automticamente. Esta aplicacin no puede funcionar correctamente si no
se ha iniciado primero el servidor Pentaho BI, puesto que necesita conectarse a ste para obtener
informacin acerca de las fuentes de datos y usuarios.
Se puede acceder a esta aplicacin desde el navegador en la siguiente direccin:
http://localhost:8099/ e ingresar con el usuario: admin. Y contrasea: password que viene por
defecto.


185

5.3.1 CREAR UNA CONEXIN A LA BASE DE DATOS
Para definir las conexiones de Base de Datos Relacionales se debe ir a la pestaa Administracion,
Database Connections de la Consola de Administracin y adicionamos una nueva conexin
proporcionando los siguientes datos:

Figura 105: Crear conexin con la base de datos en la consola de administracin
Fuente: Armando Montalvo.
ANALISIS DEL CUBO
Una vez que hayamos publicado el cubo, abrimos la consola de usuario de Pentaho BI y
encontraremos la ventana de Jpivot.

5.3.2 JPIVOT
Jpivot es el cliente de Pentaho que vamos a utilizar para visualizar el resultado de los anlisis,
para ello presionamos el botn New Analysis y se nos abrir una pequea ventana en donde
escogeremos el esquema y el cubo que vamos a analizar.

Nombre de la conexin
Jdbc:PostgresDriver
User Name (Postgres)
Contrasea
Informacin requerida para la conexin

186


Figura 106: Analizar un cubo con Jpivot
Fuente: Armando Montalvo.

A continuacin aparece la tabla de Jpivot con todas las dimensiones y medidas definidas en el
cubo.

Figura 107: Anlisis de dimensiones y mtricas
Fuente: Armando Montalvo.


187

BARRA DE HERRAMIENTAS DE JPIVOT
La interfaz de usuario de Jpivot dispone bsicamente de una barra de herramientas con botones
en donde podemos configurar las propiedades que vamos a visualizar como resultado del anlisis
y se componen de la siguiente forma:

Figura 108: Barra de herramientas de Jpivot
Fuente: Armando Montalvo.


NAVEGADOR OLAP
A lo que damos click en el cubo, las columnas sern las medidas y las filas sern dimensiones

Figura 109: Navegador Olap
Fuente: Armando Montalvo.

Si damos click en medidas se abrir todas las medidas que definimos en el cubo y el
mismo caso con las dimensiones.

Abrir Detalle
Editor MDX
Suprimir filas/Columnas
vacas
Intercambiar Ejes
Navegador Olap
Ocultar Repeticiones
Mostrar Padres
Detallar Miembro
Entrar en Detalle

Exportar PDF

Configurar impresin
Configurar Grafico
Mostrar Grafico
Mostrar Datos de Origen

Exportar Excel

Configurar tabla Olap

188


Figura 110: Medidas del cubo
Fuente: Armando Montalvo.
EDITOR MDX
Ac nos muestra el cdigo MDX de las medidas y las filas seleccionadas

Figura 111: consulta MDX
Fuente: Armando Montalvo.
REPORTE UTILIZANDO JPIVOT


189


Figura 112: Reporte grafico Jpivot
Fuente: Armando Montalvo.
ZAIKU HERRAMIENTA DE ANALISIS OLAP
Saiku es un excelente visor OLAP que proporciona al usuario final una magnifica herramienta
para realizar anlisis de forma fcil e intuitiva, es una herramienta Open Source que puede
ofrecer soluciones de excelente calidad a la vanguardia de la tecnologa y delicada experiencia
de usuario.

Se puede utilizar saiku slo si quieren realizar anlisis OLAP. Es un servidor independiente, o
tambin se puedes embeberlo en un servidor Pentaho como un pluguin de forma fcil y sencilla.


190

ZAIKU PLUGUIN PARA PENTAHO
Para instalar el pluguin de Zaiku en Pentaho nos dirigimos a la consola de usuario en la parte superior y
pinchamos herramienta y en MarketPlace o en el icono que se encuentra a lado luego lo instalamos y
finalmente reiniciamos la consola de usuario.

Figura 113: Integrando Zaiku pluguin a pentaho
Fuente: Armando Montalvo.
CREAR REPORTES CON ZAIKU
Para crear un reporte lo primero que hacemos es pinchar en el icono correspondiente a Zaiku, se abrir
la ventana de reportes en donde seleccionaremos el cubo que vamos analizar

Figura 114: conexin con el cubo
Fuente: Armando Montalvo.

191

Arrastramos y soltamos las dimensiones y las mtricas al lienzo, filtramos el nombre, y el ao,
finalmente pinchamos en el Chart que se encuentra en la parte superior derecha para que el reporte se
vea de manera grfica.

Figura 115: Reporte con Zaiku
Fuente: Armando Montalvo.




192

Figura 116: Reporte grfico con Zaiku

Anda mungkin juga menyukai