Memoria Tecnica 2

CREACION ETL UTILIZANDO HERRAMIENTA PENTAHO
UNIVERSIDAD LAICA ELOY ALFARO DE MANABÍ
FACULTAD DE CIENCIAS INFORMÁTICAS
INGENIERÍA EN SISTEMAS
INTEGRANTES:
CEVALLOS SANTANDER GEMA MARÍA
JARAMILLO VÈLEZ NIDIA
GUTIERREZ MERO MARTIN
PEÑAFIEL VÈLEZ ELENA
DOCENTE
Ing. CESAR CEDEÑO
NIVEL
SEXTO “B” BASE DE DATOS DISTRIBUIDAS
MANTA – MANABÍ – ECUADOR

2016-2017
BASE DE DATOS DISTRIBUIDAS
[Company] 6to Nivel “B”
INDICE
INTRODUCCIÒN .................................................................................................................... 3
OBJETIVOS.............................................................................................................................. 4
OBJETIVO GENERAL ......................................................................................................... 4
OBJETIVO ESPECIFICOS ................................................................................................... 4
DISEÑO GLOBAL DE LA PROPUESTA .............................................................................. 5
................................................................................................................................................... 5
PASOS DE LA INSTALACIÓN Y CONFIGURACIÒN ........................................................ 5
RECOMENDACIONES ........................................................................................................... 2
BIBLIOGRAFÍA ....................................................................................................................... 3
Página 2 de 45
INTRODUCCIÒN
PENTAHO es un proyecto iniciado por una comunidad OpenSource, provee una alternativa de
soluciones de BI en distintas áreas como en la Arquitectura, Soporte, Funcionalidad e
Implantación. Estas soluciones al igual que su ambiente de implantación están basados en
JAVA, haciéndolo flexible en cubrir amplias necesidades empresariales. A través de la
integración funcional de diversos proyectos de OpenSource permite ofrecer soluciones en
áreas como: Análisis de información, Reportes, Tableros de mando conocido como
“DashBoards”, Flujos de Trabajo y Minería de Datos.
Son herramientas que nos permiten realizar transformaciones de datos. Estos ayudan a los
ingresos y la carga de datos informaciòn desde los archivos externos para que puedan ser
procesados.
Para facilitar la comprensión y proveer una clasificación manejable sobre los diversos
elementos que determinan el entorno PENTAHO, hemos definido seis temas fundamentales
Página 3 de 45
OBJETIVOS
OBJETIVO GENERAL
Obtener conocimientos de cómo utilizar pentaho de tal manera se trate de aportar con
herramientas tecnológicas que interactúen con la inteligencia de negocios para hacer la
automatización y mejor extracción de Datos de ETL con PENTAHO.
OBJETIVO ESPECIFICOS
 Minimizar tiempo, ahorrar grandes cantidades de dinero, trabajar de una manera más
rápida y precisa, que es para donde apunta la tecnología.
 Analizar y diseñar los procesos de extracción, transformación y carga.
 Transportar la data de forma íntegra y segura, validando posibles errores.
Página 4 de 45
DISEÑO GLOBAL DE LA PROPUESTA
PASOS DE LA INSTALACIÓN Y CONFIGURACIÒN
Instalar JDK, para poder ejecutar aplicaciones Java.
Página 5 de 45
Una vez descargada la máquina virtual de java se procede a instalar
Ejecutar el instalador, el entorno de ejecución de Java 2, Edición estándar (JRE), que incluye
el software del complemento Java y los componentes de la Máquina virtual de Java (JVM)
necesarios para ejecutar applets basados en la tecnología Java en un navegador Web.
Página 6 de 45
Para realizar este paso utilizaremos PDI específicamente data integration el que nos
servirá como herramienta para la extracción, transformación y carga de datos de
gestores de base de datos lo descargamos del siguiente enlace:
Si quieres la versión completa donde tienes que pagar para tener el mejor rendimiento de la
herramienta puedes desargarla aquí http://www.pentaho.com/downloand o descargas la
prueba por 30 días O puedes descargar la versión Community del siguiente enlace:
http://community.pentaho.com/projects/data-integration/
Luego le damos doble click al instalador u seguimos las siguientes interfaces:
Página 7 de 45
Requisitos para seguir la memoria técnica es tener instalado Ubuntu server en una maquina
física o virtual en nuestro caso en una maquina visrtual, en nuestro caso utilizaremos el
emulador VMWARE, dentro de esta máquina Virtual instalaremos es gestor de BASE DE
DATOS POSTGRESQL que contiene la BASE DE DATOS SITEMA que será nuestros datos
a replicar con el siguiente modelo de relación:
Página 8 de 45
Llevando este mismo modelo a una Base de datos llamada INTEGRACION encontrándose
en SQLSERVER.
Como primer paso es establecer conexión entre las dos máquinas para ello vamos a
configurar la tarjeta de red con la siguientes ip:
Página 9 de 45
Ubuntu. - 192.168.152.128/24 con Gateway apuntando hacia el servidor Windows que será
192.168.152.1/24
Ahora configuramos la tarjeta de red por parte de Windows donde escojeremos el adaptador
que ofrece VMWARE:
Luego por parte de Ubuntu configuraremos el firewall tenemos dos formas de hacerlos es
deshabilitando todo pero es un modo inseguro o podemos crear una regla de entrada para que
sea escuchado el puerto 5432 que es el puerto que escuchara postgres y permitirá la
transferencia de forma remota:
Página 10 de 45
Ahora configuramos el archivo postgresql.conf donde editaremos el listener que será el

servidor que va escuchar el gestor de base de datos que se encuentra en la siguiente dirección:
Página 11 de 45
le quitamos el “#” a la línea listen_addresses=’*’ quedando de la siguiente forma:
El siguiente paso editaremos el archivo pg_hba.conf donde ubicaremos los servidores que
interactuaran con nuestro gestor de base de datos postgresql.
Página 12 de 45
La configuración por parte de Ubuntu y postgresql están hechas ahora crearemos

nuestra base de datos a replicar que se llamara SISTEMAS:
Nuestra configuración en postgres llega hasta aquí.
Página 13 de 45
Ahora iniciaremos los servicios de Sql server:
Los cuales nos interesa el agente SQL y los que están activados dentro de la imagen:
Ahora nos iniciamos sesión en nuestro gestor de Base de Datos SQL Server
Página 14 de 45
Aquí crearemos una base de datos llamada INTEGRACION
La cual aún no tiene tablas, y es aquí donde cargaremos la transformación de la

extracción de la base de datos SISTEMAS de postgresql:
Página 15 de 45
Lo primero conseguir la Transformacion es crear un trabajo de la siguiente forma:
Guardamos el archivo con el nombre integración ahora nos dirigimos a la pestaña tool
para crear las conexiones a las bases de datos:
Escojemos el gestor de Base de Datos e este caso postgres para esto nos ofrece 3
formas de acceso a la base de datos como son native JDBC ODBC y JNDI para eso
nosotros utilizaremos JDBC native donde tenemos que descargar el JDBC de postgres
Página 16 de 45
de la siguiente pagina https://jdbc.postgresql.org/download.html el cual nos permite
instalar un .jar
Ahora en nombre del servidor colocaremos la IP de nuestro servidor UBUNTU donde

está alojado POSTGRESQL con el nombre de la base de datos que deseamos replicar
o extraer.
Página 17 de 45
Ahora ingresamos el usuario de nuestro postgres y su respectiva contraseña y damos
click a probar conexión nos aparece un mensaje de conexión satisfactoria.
Ahora conectaremos con SQL Server :
Ahora solo buscamos MS SQL Server y seguimos con el mismo proceso:
Página 18 de 45
Ahora buscamos el nombre de nuestro servidor.
Si no sabemos cual es el nombre de nuestro servidor puede ir a propiedades de la

conexión de sql server como la imagen que esta arriba. Ahora teniendo el nombre de
nuestro servidor llenamos la siguiente interfaz ↓↓ con el nombre de la base de datos
que creamos “INTEGRACION”
Página 19 de 45
Pulsamos next y ahora solo nos toca ingresar el nombre del usuario con el que
tendremos acceso a la base de datos como muestra la siguiente interfaz:
Ahora que tenemos las dos conexiones de bases de datos solo nos toca hacer la carga y
transformación de datos: nos dirigimos a tools → asistente → asistente para copiar
tablas como muestra la imagen.
Página 20 de 45
Nos Aparece la siguiente Interfaz: donde escogemos de donde se tomaran los datos y
a donde se van a replicar. En este caso seleccionamos postgres y sql server que fueron
las conexiones creadas en los pasos anteriores. Pulsamos next.
Página 21 de 45
En la siguiente interfaz aparecerán las tablas de la base de datos que establecimos en
nuestra conexión podemos escoger una en especial o todas en este caso todas.
Y pulsamos next ↑ ↑ luego aparece la siguiente interfaz donde pondremos nombre al

trabajo y buscamos la dirección donde deseamos guardar. Y pulsamos finish. Y
aparecerá un mensaje que dirá procesando tablas y esperamos a que termine de
cargar
Página 22 de 45
Y automáticamente aparece la Extracion, transformación y carga los datos a la nueva
base de datos de todas nuestras trablas:
Página 23 de 45
Ahora solo nos queda ejecutar por primera vez.
Como observamos en nuestra base de datos INTEGRACION dentro de nuestro gestor

SQL Server no tenemos ni una tabla, hasta que ejecutemos la transformación.
Ahora ejecutamos y aparece esta interfaz: a la que pulsaremos ejecutar.
Página 24 de 45
La ejecución ha sido un éxito: solo nos queda revisar nuestras tablas en sql server si
contiene los datos.
Vamos a nuestro servidor Ubuntu a ver datos de la tabla producto.
Página 25 de 45
Ahora comprobaremos que estos datos se encuentren en SQL Server.
Pero hasta aquí la replicacion no se matiene actualizada por si solo para eso debemos
configurar unas opciones en pentaho: seleccionamos los archivos de crear tablas y se
Página 26 de 45
nos abre una interfaz la cual ingresaremos la línea DROP TABLE bodega; o el
nombre de la tabla. Y damos click en vale.
Como segundo paso damos click en el archivo START y modificamos los siguientes
parámetros, activamos la casilla Repeat, type inrteval, y el tiempo del intervalo en este
caso de 0 minutos y 10 segundos así cada intervalo de tiempo establecido se replicará
constantemente.
Página 27 de 45
Y asi cada cierto tiempo mantiene replicado cada 10 segundos
Ahora solo utilizaremos ciertos datos para de una base de datos que afectaran a otras
tablas de una base de datos diferente en este caso utilizaremos el mismo escenario
Sistema ventas en postsgresql y una base de datos de control de cuentas donde
insertaremos todos los ingresos obtenidos en el sistema de ventas.
Y en nuestra base de datos diferentes que se encuentra en SQL server una base de datos
con 4 tablas control de cuentas una tabla de ingreso otra de egresos una de cuentas y
Página 28 de 45
una tabla que recibirá parámetros de una vista creada en postgres donde solo se toma
varios datos :
Para esto Crearemos una nuevo transformación donde crearemos las conexciones a las
base de datos igual que los pasos anteriores a excepción de sql server que utilizaremos
una nueva base de datos llamada CONTROL_DE_INGRESOS.
Página 29 de 45
Se establece conexión con Postgresql
Página 30 de 45
En la interfaz gráfica de pentaho a su izquierda hay varias opciones nos centraremos
en entrada y salida y escogeremos las tabla entrada y la tabla salida respectivamente
Página 31 de 45
Realizamos una consulta en nuestro servidor UBUNTU sobre lo que necesitamos
replicar solo los datos necesarios:
Copiamos el código de la consulta y lo llevamos a pentaho de la siguiente forma. Damos

doble click a la tabla de entrada y copiamos el código o la consulta que obtendremos
solo los datos necesarios.
Página 32 de 45
Como siguiente paso damos pre visualizar los resultados.
Ahora configuramos la tabla de salida: donde escogemos la conexión de la base de datos

que recibirán los datos luego escogeremos la tabla que recibirán los datos
específicamente y damos en ok y vale:
Página 33 de 45
Solo nos queda unir las tablas para que interactúen entre ellas:
Luego ejecutamos:
Revisamos la base de datos en SQL server ya tenemos los datos replicados:
Y en nuestra tabla ingresos ya tenemos la sumatoria actualizada de las ventas

realizadas:
Página 34 de 45
Ahora Mostraremos una transformación de datos entre diferentes gestores de datos,
pero en un entorno de sistemas homogéneos Utilizaremos Postgresql Y SQL Server en
la misma maquina Windows 10.
Página 35 de 45
Configuramos los archivos pg_hba.conf y postgresql.conf de la siguiente forma en
pg_hba.conf ingresaremos las ip relacionada con el servidor para que pueda interactuar
con la base de datos
Utilizaremos la misma configuración que hicimos en la transformación anterior para

SQL Server. AHORA LLEVAREMOS LOS DATOS DE LA BASE DE DATOS
INTEGRACION DE SQL SERVER A EL GESTOR POSTGRESQL CON LA BASE
DE DATOS VENTAS.
Página 36 de 45
Nos damos cuenta que nuestro gestor de base de datos postgres no tiene tablas en su
base de datos VENTAS donde cargara la transforamcion de datos enviada desde MS
SQL Server.
Luego de tener esto realizaremos la extracción desde pentaho:
Creamos un nuevo trabajo
Página 37 de 45
Luego crearemos las conexiones de la base de datos:
Llenamos los formularios que aparecen sobre el nombre del servidor el nombre de la
base de datos en nuestro caso será INTEGRACION luego nos pedria el nombre de
usuario y contraseña probamos la conexión y saldrá lo siguiente:
Página 38 de 45
Realizamos los mismo pasos que SQL server a postgres pero ahora la base de datos que
recibirá la transformación se llamara ventas la ip del servidor, el nombre de usuario y
su contraseña. Hasta conseguir la conexión.
Siguiente paso crear la extracción, transformación y carga de datos, nos dirigimos a

tool.
Página 39 de 45
Ahora escogemos a quien se le extraen los datos y quien recibirá los mismos datos. En
este caso es de Sql Server a Postgresql.
Seleccionamos las tablas que serán transformadas.
Página 40 de 45
Guardamos la transformación. Y esperamos se procesen las tablas y la configuración
automática.
Y Así se realizó la extracción y transformación de datos solo falta ejecutar para que los
datos se carguen al nuevo gestor de base de datos.
Página 41 de 45
Se ejecuta la transformación:
Se ha Realizado la transformación y carga de datos.
Página 42 de 45
Solo nos queda revisar nuestro gestor Postgres su base de datos Ventas y comprobar
si los datos se encuentran ahí .
Facultad de Ciencias Informáticas 6to Nivel “B”
CONCLUSIONES
 Pentaho no únicamente ofrece las características o herramientas utilizadas y

mencionadas en el presente documento, brinda además otros componentes que
ayudan en la integración de servicios.
 Se minimizó el tiempo, ahorra grandes cantidades de dinero, trabajar de una manera

más rápida y precisa, que es para donde apunta la tecnología.
 Se analizó y diseño los procesos de extracción, transformación y carga.
 Se transportó la data de forma íntegra y segura, validando posibles errores.
RECOMENDACIONES

 Tener bastantes conocimientos de Bases de Datos.
 Descargar los conectores para las bases de datos de las páginas oficiales.
Página 2 de 45
Facultad de Ciencias Informáticas 6to Nivel “B”
BIBLIOGRAFÍA
(s.f.). Recuperado el 18 de SEPTIEMBRE de 2016, de
http://integrandodatos.blogspot.com/2013/06/pentaho-data-integration-instalacion.html
(s.f.). Recuperado el 18 de SEPTIEMBRE de 2016, de http://community.pentaho.com/
Página 3 de 45

Memoria Tecnica 2

Diunggah oleh

Informasi Dokumen

Hak Cipta

Format Tersedia

Bagikan dokumen Ini

Bagikan atau Tanam Dokumen

Opsi Berbagi

Apakah menurut Anda dokumen ini bermanfaat?

Apakah konten ini tidak pantas?

Hak Cipta:

Format Tersedia

Memoria Tecnica 2

Diunggah oleh

Hak Cipta:

Format Tersedia

CREACION ETL UTILIZANDO HERRAMIENTA PENTAHO

UNIVERSIDAD LAICA ELOY ALFARO DE MANABÍ

FACULTAD DE CIENCIAS INFORMÁTICAS

MANTA – MANABÍ – ECUADOR

 Analizar y diseñar los procesos de extracción, transformación y carga.

 Transportar la data de forma íntegra y segura, validando posibles errores.

DISEÑO GLOBAL DE LA PROPUESTA

PASOS DE LA INSTALACIÓN Y CONFIGURACIÒN

Instalar JDK, para poder ejecutar aplicaciones Java.

Una vez descargada la máquina virtual de java se procede a instalar

Luego le damos doble click al instalador u seguimos las siguientes interfaces:

emulador VMWARE, dentro de esta máquina Virtual instalaremos es gestor de BASE DE

a replicar con el siguiente modelo de relación:

configurar la tarjeta de red con la siguientes ip:

Ahora configuramos el archivo postgresql.conf donde editaremos el listener que será el

le quitamos el “#” a la línea listen_addresses=’*’ quedando de la siguiente forma:

La configuración por parte de Ubuntu y postgresql están hechas ahora crearemos

Nuestra configuración en postgres llega hasta aquí.

Ahora iniciaremos los servicios de Sql server:

La cual aún no tiene tablas, y es aquí donde cargaremos la transformación de la

Ahora en nombre del servidor colocaremos la IP de nuestro servidor UBUNTU donde

Ahora conectaremos con SQL Server :

Ahora solo buscamos MS SQL Server y seguimos con el mismo proceso:

Si no sabemos cual es el nombre de nuestro servidor puede ir a propiedades de la

Y pulsamos next ↑ ↑ luego aparece la siguiente interfaz donde pondremos nombre al

Como observamos en nuestra base de datos INTEGRACION dentro de nuestro gestor

Ahora ejecutamos y aparece esta interfaz: a la que pulsaremos ejecutar.

Vamos a nuestro servidor Ubuntu a ver datos de la tabla producto.

Copiamos el código de la consulta y lo llevamos a pentaho de la siguiente forma. Damos

Ahora configuramos la tabla de salida: donde escogemos la conexión de la base de datos

Revisamos la base de datos en SQL server ya tenemos los datos replicados:

Y en nuestra tabla ingresos ya tenemos la sumatoria actualizada de las ventas

Utilizaremos la misma configuración que hicimos en la transformación anterior para

Luego de tener esto realizaremos la extracción desde pentaho:

Creamos un nuevo trabajo

Siguiente paso crear la extracción, transformación y carga de datos, nos dirigimos a

Seleccionamos las tablas que serán transformadas.

Se ha Realizado la transformación y carga de datos.

 Pentaho no únicamente ofrece las características o herramientas utilizadas y

 Se minimizó el tiempo, ahorra grandes cantidades de dinero, trabajar de una manera

 Se analizó y diseño los procesos de extracción, transformación y carga.

 Se transportó la data de forma íntegra y segura, validando posibles errores.

(s.f.). Recuperado el 18 de SEPTIEMBRE de 2016, de http://community.pentaho.com/

Anda mungkin juga menyukai