Anda di halaman 1dari 13

VALIDACIÓN DE TÉCNICAS DE MIGRACIÓN Y HERRAMIENTAS ETCL

GESTION Y SEGURIDAD DE BASES DE DATOS

REALIZADO POR:

DIANA CAROLINA DELGADO SANTOS

SERVICIO NACIONAL DE APRENDIZAJE


AGOSTO 17 DE 2019
BOGOTA D.C.
ALCALDIA DE SAN ANTONIO DEL SENA MIGRACIÓN

Secretaría De Hacienda Técnicas Existentes

Hay una variedad de técnicas relacionadas con los procesos de migración de datos, a continuación, conoceremos las más
utilizadas en los procesos presentes.

Sincronización De Base De Datos

La sincronización de los datos se refiere al proceso de propagación de los cambios en los datos y el esquema entre el
publicador y los suscriptores después de haber aplicado la instantánea inicial en el suscriptor.

La sincronización puede producirse: De forma continua, lo que es típico de la replicación transaccional.


Esta técnica es muy utilizada en procesos de migración de datos, consiste en la realización de dos bases de datos las cuales
son iguales al mismo tiempo.

Esto se logra mediante la copia de datos y metadatos de una base de datos origen a una base de datos destino mediante una
herramienta tecnológica. Los asistentes de sincronización de los SMBD son configurados con las bases de datos origen y la
base de datos destino, parametrizando la ubicación de particiones y métodos de seguridad.

Importación/Exportación De Archivos (Csv) O Xml A Través De Comandos De Consola O Interfaz Gráfica

Para realizar las actividades de migración de datos es muy común utilizar archivos para el movimiento de los datos. Se
pueden utilizar diferentes tipos de archivos, pero los formatos más usados son los archivos de texto, llamados archivos
planos, que guardan la información sin formato usando solo caracteres.

Los sistemas de codificación más comunes para estos archivos son:

 ASCII
 ISO-8859-1
 Latín-1
 Unicode

Los archivos de texto pueden tener un distinto formato delimitado utilizando coma (,), punto y coma (;) o Tabulaciones
para delimitar los campos definiendo de esa forma columnas y filas. También pueden tener formato de ancho fijo para los
campos, que se utiliza para delimitar columnas y filas.
CSV (Comma-Separated-Values)

Un formato de archivo plano muy usado es el “CSV”, en español Valores Separados por Coma), donde el delimitador
usado es una coma. Muy usado para movimientos de datos con hojas de cálculo.

XML (Extensible Marckup Language)

Otro formato útil para la migración de datos es el “XML” que utiliza un metalenguaje extensible de etiquetas las cuales
sirven como estándar para intercambio de información estructurada entre distintas plataformas.

SENTENCIAS DML

Esta es una posibilidad de un SMBD, como lo es la utilización de sentencias DML para generar scripts SQL que permiten
realizar migraciones de bases de datos existentes.

En un script SQL se pueden realizar las siguientes tareas:

 Copia de seguridad para creación de todos los usuarios, grupos, inicios de sesión y permisos.
 Creación o actualización de código para la implementación de una base de datos.
 Creación de un entorno de pruebas.

Estos procesos se orientan al uso de las sentencias DML, para realizar el paso de datos de la base de datos de origen a la
base de datos destino, a través de los entornos administrativos de los SMBD.
Procedimientos Etcl (Extracción, Transformación, Limpieza Y Carga)
Esta técnica se basa en el diseño y construcción de procedimientos técnicos para realizar Extracción, Transformación,
Limpieza y Cargue de Datos (ETCL). Los procedimientos o pasos necesarios para el desarrollo de un proyecto de
migración de datos utilizando la metodología ETCL son:

En todo proceso de migración, se ha de proceder a integrar dos o más sistemas por lo cual pueden usarse diferentes
técnicas, siendo las más comunes:

Perfilado de datos: Permite explorar los propios datos, agregando a los de origen las reglas necesarias. Esta técnica hace
posible también el obtener resultados acerca de duplicidades o errores en los datos.

Limpieza de datos: Puede llevarse a cabo empleando para ello una herramienta de Data Quality que ayude a eliminar
errores, incorrecciones o duplicidades, entre otras inconsistencias; y que, al mismo tiempo, enriquezca y homologue los
datos, preparándolos para el sistema de destino.

Conexión a distintas fuentes de datos: Técnica que precisa de una herramienta ad hoc que garantice el hacerlo en
condiciones de simultaneidad.

Las ventajas que proporciona el usar estas tecnologías se traducen en un aumento de la precisión, reducción del índice de
errores, mayor agilidad y optimización del tiempo; ya que su automatización evita los procesos manuales, algo que supone
su principal beneficio.

Qué Se Debe Tener En Cuenta Para La Elección Del Software De Etl

Hay muchas herramientas de ETL diferentes, como también hay infinidad de bases de datos, sistemas y organizaciones
distintas. En el momento de seleccionar la que liderará la migración e integración de datos pueden tomarse en
consideración las recomendaciones de Gartner en cuanto a las cualidades que la herramienta ha de presentar:

 Adaptabilidad a distintos sistemas operativos y plataformas hardware.


 Capacidades de gestión de datos: en cuanto a minería, perfilado y calidad
 Habilidades para monitorizar, gestionar y controlar los procesos de integración de datos en lo relativo a gestión de:
a. Errores
b.recolección de estadísticas de ejecución
c.controles de seguridad, etc.
 Capacidades SOA.
 Capacidades de diseño y entorno de desarrollo como:
a. soporte para test
b. representaciones gráficas
c. modelos
d. flujos de datos
 Cualidades de arquitectura e integración referidas al grado de interoperabilidad, compactación y consistencia de
los diferentes componentes que la formen.

Aunque la elección de un software de ETL no es sencilla, su repercusión en el curso del proyecto es decisiva. Una decisión
correcta pasa por la automatización y en base a ella quedan garantizados:

 Un aumento en la velocidad de desarrollo del proyecto.


 La descentralización del control de la ejecución y de todos los procesos.
 Una mayor agilidad en el negocio.
 Mayor precisión.
 Minimización de errores.

Herramientas Etl

Aplicación De Uso Libre

 Benetl:

Es una herramienta ETL de uso libre, desarrollado entre los años 2007 – 2014, hecha en java y trabaja con base a lenguajes
de base de datos PostgreSQL o MySQL.
Esta herramienta se creó para facilitar el trabajo con archivos TXT, CSV o archivos de fuente de datos XML. Para
recuperar los datos que tendrán que definir un dato de tiempo y una entidad, que está representado por datos a calcular o
para mostrar. Todos los objetos útiles serán creados por Benetl dentro de una base de datos MySQL o PostgreSQL. La
aplicación también es capaz de recuperar automáticamente los datos mediante el uso de diversas tareas planificadas de
Sistemas.
Mediante el uso de Benetl podrá se ha podido recuperar fácilmente la información de los archivos de datos planos, la
organización y el filtrado de acuerdo con su dato de tiempo y entidad.

Características Benetl

 Tecnologias: Java 7 update 80


 PostgreSQL 9.5.0 (con el apoyo plpgsql)
 MySQL 5.6 con función de OLD_PASSWORD de inicio de sesión de usuario (para controlador suministrado)
 Con Windows (se utiliza "tareas programadas")
 Benetl 4.7 funciona en Linux.
 Requerimientos Tecnicos: ejecución de Java (JRE) 1.7
 base de datos PostgreSQL 9.5 con soporte plpgsql
 base de datos de MySQL 5.6 con OLD_PASSWORD la función de inicio de sesión de usuario o el controlador
oficial de MySQL (no incluido)
 Probado en sistemas de 64 bits
 Ejemplo: Nombre EtlTool… Definir Nombre, Este nombre es también el nombre de la tabla de PostgreSQL o
tabla de MySQL donde se almacenan las líneas de datos.
Un archivo llamado "EtlTool.bat" se creará en la carpeta de origen de datos.

Debe presionar enter para validar su nombre EtlTool, y luego se pueden guardar los parámetros.

Aplicación SMBD Seleccionado

1. Sql Server Integration Services:

Microsoft Integration Services es una plataforma para la creación de soluciones empresariales de transformaciones de
datos e integración de datos. Integration Services sirve para resolver complejos problemas empresariales mediante la copia
o descarga de archivos, el envío de mensajes de correo electrónico como respuesta a eventos, la actualización de
almacenamientos de datos, la limpieza y minería de datos, y la administración de objetos y datos de SQL Server. Los
paquetes pueden funcionar en solitario o junto con otros paquetes para hacer frente a las complejas necesidades de la
empresa. Integration Services puede extraer y transformar datos de diversos orígenes como archivos de datos XML,
archivos planos y orígenes de datos relacionales y, después, cargar los datos en uno o varios destinos.

Integration Services contiene un variado conjunto de tareas y transformaciones integradas, herramientas para la creación de
paquetes y el servicio Integration Services para ejecutar y administrar los paquetes. Las herramientas gráficas de
Integration Services se pueden usar para crear soluciones sin escribir una sola línea de código. También se puede
programar el amplio modelo de objetos de Integration Services para crear paquetes mediante programación y codificar
tareas personalizadas y otros objetos de paquete.

2. El SSIS

Import/Export Wizard permite mover datos de origen a destino sin modificar los datos del origen y permitiendo hacer
iteraciones y cambios de información antes de llegar al destino dentro de tablas de ETL. Se pueden importar datos de
fuentes diferentes a SQL Server.

Con la herramienta Business Intelligence Development Studio, se pueden realizar tareas de migración fácilmente usando
tareas visuales. Si se desea crear nueva funcionalidad, se pueden crear scripts en c# o VB.

Los paquetes, que son las unidades de almacenamiento de estas tareas de migración se pueden guardar en archivos dtsx o
en la base de datos en formato XML.
 Una vez implementado el paquete puede ser depurado. Caracteristicas SSIS
 Ultima Version: SQL Server 2014 Integration Services
 Requerimientos Técnicos: Instalar en un equipo de 64 bits
 Instalar en un servidor dedicado para ETL
 Si requiere las características en tiempo de diseño de Integration Services, también debe instalar Business
Intelligence Development Studio.

Si necesita las versiones de 32 bits de las herramientas y del motor en tiempo de ejecución de Integration Services para
ejecutar ciertos paquetes en modo de 32 bits, también debe instalar Business Intelligence Development Studio

3. Oracle Warehouse Builder:

Es una complete herramienta para todos los aspectos de administración de datos y metadatos. Esta brinda características
para asegurar la calidad de datos, que integran el modelado relacional y multidimensional y que permiten la administración
de todo el ciclo de vida de datos y metadatos

4. Enterprise ETL Option

La opción empresarial ETL (Enterprise ETL Option) para Warehouse Builder es una opción que puede ser adquirida con
Oracle Warehouse Builder como parte de la edición empresarial del motor de base de datos (Oracle DB Enterprise
Edition).
Opciones Avanzadas para Carga de Datos

En grandes implementaciones, más y más procesos se ejecutan en paralelo, agotando los recursos debido a las grandes
cantidades de datos que participan en la carga.

Como parte de la Enterprise ETL Option, Warehouse Builder permite ejecutar cargas de datos usando métodos rápidos y
eficientes tales como el Oracle Data Pump y transportable tablespaces. Esta es una aproximación completamente diferente
al movimiento de datos que se realiza por medio de conjuntos de datos controlados por el motor de base de datos. Los
incrementos en velocidad de carga se deben entonces a la omisión de las capas SQL tradicionales.

Soporte a Dimensiones Lentamente Cambiantes Integrado

En Warehouse Builder la lógica de dimensiones lentamente cambiantes es diseñada en los metadatos de la dimensión. La
dimensión captura toda la lógica que será aplicada a los datos que se insertan dentro de la misma.

Una vez, los usuarios de negocio han decidido que atributos son importantes, el modelador de datos diseña la dimensión.
Con los pasos de ETL el desarrollador ve esta dimensión como cualquier otra. El siguiente paso es definir cómo efectuar
los cambios y actualizaciones en la dimensión. Warehouse Builder automatiza esto basado en la definición de la
dimensión. La combinación entre estos pasos, el diseño y la estandarización hacen que los procesos relacionados con
dimensiones lentamente cambiantes presente un alto desempeño en su ejecución.

Traza Lineal de Principio a Fin

Los servicios de administración de dependencias (Warehouse Builder Dependency Management) le permiten prever el
efecto que puedan tener los cambios que se hagan en cualquier lugar de los metadatos del sistema ETL antes de que estos
puedan afectarlo y deterióralo.
Por primera vez, tendrá la posibilidad de administrar los cambios de su sistema de manera proactiva. Como un ejemplo
(Figura 3), usted puede propagar los cambios a través de su sistema haciendo uso el Mapping Editor.

Administración de Configuraciones Avanzadas

Tener que mover sistemas o aplicaciones de un ambiente a otro (por ejemplo de desarrollo a producción) es un problema
frecuente.

Con la Enterprise ETL Option de Warehouse Builder, es posible generar un modelo para configurar los ambientes de
desarrollo, pruebas y producción a niveles separados. Para mover los cambios desde el ambiente de desarrollo a
producción, el código generado en desarrollo es modificado en producción solo en áreas específicas. Por ejemplo, la
información sobre las conexiones es substituida por la definida en desarrollo.
VENTAJAS, DESVENTAJAS, TIEMPOS Y COSTO DE LAS HERRAMIENTAS

TECNICA DESCRIPCIÓN

Es una técnica muy utilizada en procesos de migración de datos, consiste en hacer que
Sincronización de base de dos bases de datos sean equivalentes en el mismo tiempo. Se logra mediante la copia de
datos datos y metadatos de una base de datos origen a una base de datos destino mediante una
herramienta tecnológica. Los asistentes de sincronización de los SMBD son
configurados con las bases de datos origen y la base de datos destino, parametrizando
la ubicación de particiones y métodos de seguridad.

Requerimientos Ventajas Desventajas Tiempo


Técnicos

SQL SERVER Sql server standar 1. Es un sistema de gestión 1.Utiliza mucho la Estimado 3
de base de datos. memoria RAM para las semanas.
2. Es útil para manejar y instalaciones y
obtener datos de la red de Utilización de software. Semana 1:
redes. 2. No se puede utilizar Análisis de datos
Nos permite olvidarnos de como practicas porque se Semana 2:
los ficheros que forman la prohíben muchas cosas, Migración y
base de datos. tiene restricciones en lo validación de
3. Si trabajamos en una red particular. información
social nos permite agregar 3. La relación, calidad y Semana 3:
otros servidores de SQL el precio está muy debajo Optimización de
Server. Por ejemplo, dos comparado con oracle. proceso
personas que trabajan con 4. Tiene muchos
SQL Server, uno de ellos se bloqueos a nivel de
puede conectar al servidor de página, un tamaño de
su otro compañero y así se página fijo y demasiado
puede ver las bases de datos pequeño, una pésima
del otro compañero con SQL Implementación de los
Server. tipos de datos variables.
4. SQL permite administrar
permisos a todo.
ORACLE Oracle Estándar 1. Oracle es el motor de base de 1.Las versiones más Estimado 3
WAREHOUSE datos objeto relacional más recientes de Oracle son la semanas.
BUILDER usado a nivel mundial. 11g, 10g, 9g, 8g, desde el
2. Puede ejecutarse en todas las lanzamiento original de la 8 Semana 1:
plataformas, desde una Pc hasta se sucedieron varias Análisis de datos
un supercomputador. Versiones con correcciones, Semana 2:
3. Oracle soporta todas las hasta alcanzar la estabilidad Migración y
funciones que se esperan de un en la 8.0.3. El motivo de validación de
servidor "serio": un lenguaje de tantos fallos fue, al parecer, información
diseño de bases de datos muy la remodelación del sistema Semana 3:
completo (PL/SQL) que de almacenamiento por Optimización de
permite implementar diseños causa de la Introducción de proceso
"activos", con triggers y extensiones orientadas a
procedimientos almacenados, objetos.
con una integridad referencial 2. El mayor
declarativa bastante potente. Inconveniente de Oracle es
4. Permite el uso de particiones quizás su precio. Incluso las
para la mejora de la eficiencia, licencias de Personal Oracle
de replicación e incluso ciertas son excesivamente caras, en
versiones admiten la mi opinión. Otro problema
administración de es la necesidad de ajustes.
Bases de datos distribuidas. Un error frecuente consiste
5. El software del servidor en pensar que basta instalar
puede ejecutarse en multitud de el Oracle en un servidor y
sistemas operativos. enchufar directamente las
aplicaciones clientes.
3. Un Oracle mal
configurado puede ser
desesperantemente lento.
4.También es elevado el
coste de la información, y
sólo últimamente han
comenzado a aparecer
buenos libros sobre
asuntos técnicos distintos de
la simple instalación y
Administración.

Anda mungkin juga menyukai