Anda di halaman 1dari 45

CREACION ETL UTILIZANDO HERRAMIENTA PENTAHO

UNIVERSIDAD LAICA ELOY ALFARO DE MANABÍ

FACULTAD DE CIENCIAS INFORMÁTICAS

INGENIERÍA EN SISTEMAS

INTEGRANTES:
CEVALLOS SANTANDER GEMA MARÍA
JARAMILLO VÈLEZ NIDIA
GUTIERREZ MERO MARTIN
PEÑAFIEL VÈLEZ ELENA

DOCENTE
Ing. CESAR CEDEÑO

NIVEL
SEXTO “B” BASE DE DATOS DISTRIBUIDAS

MANTA – MANABÍ – ECUADOR


2016-2017
BASE DE DATOS DISTRIBUIDAS
[Company] 6to Nivel “B”

INDICE
INTRODUCCIÒN .................................................................................................................... 3
OBJETIVOS.............................................................................................................................. 4
OBJETIVO GENERAL ......................................................................................................... 4
OBJETIVO ESPECIFICOS ................................................................................................... 4
DISEÑO GLOBAL DE LA PROPUESTA .............................................................................. 5
................................................................................................................................................... 5
PASOS DE LA INSTALACIÓN Y CONFIGURACIÒN ........................................................ 5
RECOMENDACIONES ........................................................................................................... 2
BIBLIOGRAFÍA ....................................................................................................................... 3

Página 2 de 45
BASE DE DATOS DISTRIBUIDAS
[Company] 6to Nivel “B”

INTRODUCCIÒN

PENTAHO es un proyecto iniciado por una comunidad OpenSource, provee una alternativa de
soluciones de BI en distintas áreas como en la Arquitectura, Soporte, Funcionalidad e
Implantación. Estas soluciones al igual que su ambiente de implantación están basados en
JAVA, haciéndolo flexible en cubrir amplias necesidades empresariales. A través de la
integración funcional de diversos proyectos de OpenSource permite ofrecer soluciones en
áreas como: Análisis de información, Reportes, Tableros de mando conocido como
“DashBoards”, Flujos de Trabajo y Minería de Datos.

Son herramientas que nos permiten realizar transformaciones de datos. Estos ayudan a los
ingresos y la carga de datos informaciòn desde los archivos externos para que puedan ser
procesados.

Para facilitar la comprensión y proveer una clasificación manejable sobre los diversos
elementos que determinan el entorno PENTAHO, hemos definido seis temas fundamentales

Página 3 de 45
BASE DE DATOS DISTRIBUIDAS
[Company] 6to Nivel “B”

OBJETIVOS

OBJETIVO GENERAL

Obtener conocimientos de cómo utilizar pentaho de tal manera se trate de aportar con
herramientas tecnológicas que interactúen con la inteligencia de negocios para hacer la
automatización y mejor extracción de Datos de ETL con PENTAHO.

OBJETIVO ESPECIFICOS

 Minimizar tiempo, ahorrar grandes cantidades de dinero, trabajar de una manera más
rápida y precisa, que es para donde apunta la tecnología.

 Analizar y diseñar los procesos de extracción, transformación y carga.

 Transportar la data de forma íntegra y segura, validando posibles errores.

Página 4 de 45
BASE DE DATOS DISTRIBUIDAS
[Company] 6to Nivel “B”

DISEÑO GLOBAL DE LA PROPUESTA

PASOS DE LA INSTALACIÓN Y CONFIGURACIÒN

Instalar JDK, para poder ejecutar aplicaciones Java.

Página 5 de 45
BASE DE DATOS DISTRIBUIDAS
[Company] 6to Nivel “B”

Una vez descargada la máquina virtual de java se procede a instalar

Ejecutar el instalador, el entorno de ejecución de Java 2, Edición estándar (JRE), que incluye
el software del complemento Java y los componentes de la Máquina virtual de Java (JVM)
necesarios para ejecutar applets basados en la tecnología Java en un navegador Web.

Página 6 de 45
BASE DE DATOS DISTRIBUIDAS
[Company] 6to Nivel “B”

Para realizar este paso utilizaremos PDI específicamente data integration el que nos
servirá como herramienta para la extracción, transformación y carga de datos de
gestores de base de datos lo descargamos del siguiente enlace:

Si quieres la versión completa donde tienes que pagar para tener el mejor rendimiento de la
herramienta puedes desargarla aquí http://www.pentaho.com/downloand o descargas la
prueba por 30 días O puedes descargar la versión Community del siguiente enlace:
http://community.pentaho.com/projects/data-integration/

Luego le damos doble click al instalador u seguimos las siguientes interfaces:

Página 7 de 45
BASE DE DATOS DISTRIBUIDAS
[Company] 6to Nivel “B”

Requisitos para seguir la memoria técnica es tener instalado Ubuntu server en una maquina

física o virtual en nuestro caso en una maquina visrtual, en nuestro caso utilizaremos el

emulador VMWARE, dentro de esta máquina Virtual instalaremos es gestor de BASE DE

DATOS POSTGRESQL que contiene la BASE DE DATOS SITEMA que será nuestros datos

a replicar con el siguiente modelo de relación:

Página 8 de 45
BASE DE DATOS DISTRIBUIDAS
[Company] 6to Nivel “B”

Llevando este mismo modelo a una Base de datos llamada INTEGRACION encontrándose

en SQLSERVER.

Como primer paso es establecer conexión entre las dos máquinas para ello vamos a

configurar la tarjeta de red con la siguientes ip:

Página 9 de 45
BASE DE DATOS DISTRIBUIDAS
[Company] 6to Nivel “B”

Ubuntu. - 192.168.152.128/24 con Gateway apuntando hacia el servidor Windows que será

192.168.152.1/24

Ahora configuramos la tarjeta de red por parte de Windows donde escojeremos el adaptador
que ofrece VMWARE:

Luego por parte de Ubuntu configuraremos el firewall tenemos dos formas de hacerlos es
deshabilitando todo pero es un modo inseguro o podemos crear una regla de entrada para que
sea escuchado el puerto 5432 que es el puerto que escuchara postgres y permitirá la
transferencia de forma remota:

Página 10 de 45
BASE DE DATOS DISTRIBUIDAS
[Company] 6to Nivel “B”

Ahora configuramos el archivo postgresql.conf donde editaremos el listener que será el


servidor que va escuchar el gestor de base de datos que se encuentra en la siguiente dirección:

Página 11 de 45
BASE DE DATOS DISTRIBUIDAS
[Company] 6to Nivel “B”

le quitamos el “#” a la línea listen_addresses=’*’ quedando de la siguiente forma:

El siguiente paso editaremos el archivo pg_hba.conf donde ubicaremos los servidores que
interactuaran con nuestro gestor de base de datos postgresql.

Página 12 de 45
BASE DE DATOS DISTRIBUIDAS
[Company] 6to Nivel “B”

La configuración por parte de Ubuntu y postgresql están hechas ahora crearemos


nuestra base de datos a replicar que se llamara SISTEMAS:

Nuestra configuración en postgres llega hasta aquí.

Página 13 de 45
BASE DE DATOS DISTRIBUIDAS
[Company] 6to Nivel “B”

Ahora iniciaremos los servicios de Sql server:

Los cuales nos interesa el agente SQL y los que están activados dentro de la imagen:

Ahora nos iniciamos sesión en nuestro gestor de Base de Datos SQL Server

Página 14 de 45
Aquí crearemos una base de datos llamada INTEGRACION

La cual aún no tiene tablas, y es aquí donde cargaremos la transformación de la


extracción de la base de datos SISTEMAS de postgresql:

Página 15 de 45
Lo primero conseguir la Transformacion es crear un trabajo de la siguiente forma:

Guardamos el archivo con el nombre integración ahora nos dirigimos a la pestaña tool
para crear las conexiones a las bases de datos:

Escojemos el gestor de Base de Datos e este caso postgres para esto nos ofrece 3
formas de acceso a la base de datos como son native JDBC ODBC y JNDI para eso
nosotros utilizaremos JDBC native donde tenemos que descargar el JDBC de postgres

Página 16 de 45
de la siguiente pagina https://jdbc.postgresql.org/download.html el cual nos permite
instalar un .jar

Ahora en nombre del servidor colocaremos la IP de nuestro servidor UBUNTU donde


está alojado POSTGRESQL con el nombre de la base de datos que deseamos replicar
o extraer.

Página 17 de 45
Ahora ingresamos el usuario de nuestro postgres y su respectiva contraseña y damos
click a probar conexión nos aparece un mensaje de conexión satisfactoria.

Ahora conectaremos con SQL Server :

Ahora solo buscamos MS SQL Server y seguimos con el mismo proceso:

Página 18 de 45
Ahora buscamos el nombre de nuestro servidor.

Si no sabemos cual es el nombre de nuestro servidor puede ir a propiedades de la


conexión de sql server como la imagen que esta arriba. Ahora teniendo el nombre de
nuestro servidor llenamos la siguiente interfaz ↓↓ con el nombre de la base de datos
que creamos “INTEGRACION”

Página 19 de 45
Pulsamos next y ahora solo nos toca ingresar el nombre del usuario con el que
tendremos acceso a la base de datos como muestra la siguiente interfaz:

Ahora que tenemos las dos conexiones de bases de datos solo nos toca hacer la carga y
transformación de datos: nos dirigimos a tools → asistente → asistente para copiar
tablas como muestra la imagen.

Página 20 de 45
Nos Aparece la siguiente Interfaz: donde escogemos de donde se tomaran los datos y
a donde se van a replicar. En este caso seleccionamos postgres y sql server que fueron
las conexiones creadas en los pasos anteriores. Pulsamos next.

Página 21 de 45
En la siguiente interfaz aparecerán las tablas de la base de datos que establecimos en
nuestra conexión podemos escoger una en especial o todas en este caso todas.

Y pulsamos next ↑ ↑ luego aparece la siguiente interfaz donde pondremos nombre al


trabajo y buscamos la dirección donde deseamos guardar. Y pulsamos finish. Y
aparecerá un mensaje que dirá procesando tablas y esperamos a que termine de
cargar

Página 22 de 45
Y automáticamente aparece la Extracion, transformación y carga los datos a la nueva
base de datos de todas nuestras trablas:

Página 23 de 45
Ahora solo nos queda ejecutar por primera vez.

Como observamos en nuestra base de datos INTEGRACION dentro de nuestro gestor


SQL Server no tenemos ni una tabla, hasta que ejecutemos la transformación.

Ahora ejecutamos y aparece esta interfaz: a la que pulsaremos ejecutar.

Página 24 de 45
La ejecución ha sido un éxito: solo nos queda revisar nuestras tablas en sql server si
contiene los datos.

Vamos a nuestro servidor Ubuntu a ver datos de la tabla producto.

Página 25 de 45
Ahora comprobaremos que estos datos se encuentren en SQL Server.

Pero hasta aquí la replicacion no se matiene actualizada por si solo para eso debemos
configurar unas opciones en pentaho: seleccionamos los archivos de crear tablas y se

Página 26 de 45
nos abre una interfaz la cual ingresaremos la línea DROP TABLE bodega; o el
nombre de la tabla. Y damos click en vale.

Como segundo paso damos click en el archivo START y modificamos los siguientes
parámetros, activamos la casilla Repeat, type inrteval, y el tiempo del intervalo en este
caso de 0 minutos y 10 segundos así cada intervalo de tiempo establecido se replicará
constantemente.

Página 27 de 45
Y asi cada cierto tiempo mantiene replicado cada 10 segundos

Ahora solo utilizaremos ciertos datos para de una base de datos que afectaran a otras
tablas de una base de datos diferente en este caso utilizaremos el mismo escenario
Sistema ventas en postsgresql y una base de datos de control de cuentas donde
insertaremos todos los ingresos obtenidos en el sistema de ventas.

Y en nuestra base de datos diferentes que se encuentra en SQL server una base de datos
con 4 tablas control de cuentas una tabla de ingreso otra de egresos una de cuentas y

Página 28 de 45
una tabla que recibirá parámetros de una vista creada en postgres donde solo se toma
varios datos :

Para esto Crearemos una nuevo transformación donde crearemos las conexciones a las
base de datos igual que los pasos anteriores a excepción de sql server que utilizaremos
una nueva base de datos llamada CONTROL_DE_INGRESOS.

Página 29 de 45
Se establece conexión con Postgresql

Página 30 de 45
En la interfaz gráfica de pentaho a su izquierda hay varias opciones nos centraremos
en entrada y salida y escogeremos las tabla entrada y la tabla salida respectivamente

Página 31 de 45
Realizamos una consulta en nuestro servidor UBUNTU sobre lo que necesitamos
replicar solo los datos necesarios:

Copiamos el código de la consulta y lo llevamos a pentaho de la siguiente forma. Damos


doble click a la tabla de entrada y copiamos el código o la consulta que obtendremos
solo los datos necesarios.

Página 32 de 45
Como siguiente paso damos pre visualizar los resultados.

Ahora configuramos la tabla de salida: donde escogemos la conexión de la base de datos


que recibirán los datos luego escogeremos la tabla que recibirán los datos
específicamente y damos en ok y vale:

Página 33 de 45
Solo nos queda unir las tablas para que interactúen entre ellas:

Luego ejecutamos:

Revisamos la base de datos en SQL server ya tenemos los datos replicados:

Y en nuestra tabla ingresos ya tenemos la sumatoria actualizada de las ventas


realizadas:

Página 34 de 45
Ahora Mostraremos una transformación de datos entre diferentes gestores de datos,
pero en un entorno de sistemas homogéneos Utilizaremos Postgresql Y SQL Server en
la misma maquina Windows 10.

Página 35 de 45
Configuramos los archivos pg_hba.conf y postgresql.conf de la siguiente forma en
pg_hba.conf ingresaremos las ip relacionada con el servidor para que pueda interactuar
con la base de datos

Utilizaremos la misma configuración que hicimos en la transformación anterior para


SQL Server. AHORA LLEVAREMOS LOS DATOS DE LA BASE DE DATOS
INTEGRACION DE SQL SERVER A EL GESTOR POSTGRESQL CON LA BASE
DE DATOS VENTAS.

Página 36 de 45
Nos damos cuenta que nuestro gestor de base de datos postgres no tiene tablas en su
base de datos VENTAS donde cargara la transforamcion de datos enviada desde MS
SQL Server.

Luego de tener esto realizaremos la extracción desde pentaho:

Creamos un nuevo trabajo

Página 37 de 45
Luego crearemos las conexiones de la base de datos:

Llenamos los formularios que aparecen sobre el nombre del servidor el nombre de la
base de datos en nuestro caso será INTEGRACION luego nos pedria el nombre de
usuario y contraseña probamos la conexión y saldrá lo siguiente:

Página 38 de 45
Realizamos los mismo pasos que SQL server a postgres pero ahora la base de datos que
recibirá la transformación se llamara ventas la ip del servidor, el nombre de usuario y
su contraseña. Hasta conseguir la conexión.

Siguiente paso crear la extracción, transformación y carga de datos, nos dirigimos a


tool.

Página 39 de 45
Ahora escogemos a quien se le extraen los datos y quien recibirá los mismos datos. En
este caso es de Sql Server a Postgresql.

Seleccionamos las tablas que serán transformadas.

Página 40 de 45
Guardamos la transformación. Y esperamos se procesen las tablas y la configuración
automática.

Y Así se realizó la extracción y transformación de datos solo falta ejecutar para que los
datos se carguen al nuevo gestor de base de datos.

Página 41 de 45
Se ejecuta la transformación:

Se ha Realizado la transformación y carga de datos.

Página 42 de 45
Solo nos queda revisar nuestro gestor Postgres su base de datos Ventas y comprobar
si los datos se encuentran ahí .
BASE DE DATOS DISTRIBUIDAS
Facultad de Ciencias Informáticas 6to Nivel “B”

CONCLUSIONES

 Pentaho no únicamente ofrece las características o herramientas utilizadas y


mencionadas en el presente documento, brinda además otros componentes que
ayudan en la integración de servicios.

 Se minimizó el tiempo, ahorra grandes cantidades de dinero, trabajar de una manera


más rápida y precisa, que es para donde apunta la tecnología.

 Se analizó y diseño los procesos de extracción, transformación y carga.

 Se transportó la data de forma íntegra y segura, validando posibles errores.

RECOMENDACIONES


 Tener bastantes conocimientos de Bases de Datos.
 Descargar los conectores para las bases de datos de las páginas oficiales.

Página 2 de 45
BASE DE DATOS DISTRIBUIDAS
Facultad de Ciencias Informáticas 6to Nivel “B”

BIBLIOGRAFÍA
(s.f.). Recuperado el 18 de SEPTIEMBRE de 2016, de
http://integrandodatos.blogspot.com/2013/06/pentaho-data-integration-instalacion.html

(s.f.). Recuperado el 18 de SEPTIEMBRE de 2016, de http://community.pentaho.com/

Página 3 de 45

Anda mungkin juga menyukai