Contenido
Historial de Revisiones........................................................................................ 4
1.
Alcance......................................................................................................... 5
2.
3.
3.1.
3.2.
3.3.
3.4.
3.5.
3.6.
3.7.
3.7.1.
3.8.
Backups................................................................................................... 10
3.9.
4.
4.1.
4.2.
Carga Staging.......................................................................................... 12
4.2.1.
4.2.2.
Extraccin de datos.............................................................................. 13
4.2.3.
Manejo de Duplicados..........................................................................15
4.2.4.
Validacin de Duplicados......................................................................16
4.2.5.
De-duplicacin...................................................................................... 16
4.2.6.
Proceso Diferencial............................................................................... 18
4.2.7.
4.2.8.
4.2.9.
Resumen Completo:............................................................................. 22
5.
5.1.
5.2.
5.3.
5.4.
5.5.
5.6.
5.7.
Table Definitions...................................................................................... 30
5.10.
Pruebas en IST...................................................................................... 30
5.11.
5.12.
NO MATCH JOIN..................................................................................... 34
5.13.
5.14.
5.15.
5.16.
5.17.
Historial de Revisiones
ITEM
1
VERSIN
1.0
FECHA
01/02/13
1.0
10/11/14
AUTOR
Carlos
Candela
Erika Gutierrez
1.0
24/11/14
Erika Gutierrez
3.2
28/10/2015
Ronald Ticona
DESCRIPCIN
Elaboracin de
Documento
Formateado
del documento
Actualizacind
el documento
Se agrega
consideracione
s Metadata
Workbench,
Eliminacin de
data en Tablas
grandes.
1. Alcance
Los datos son un activo fundamental dentro de toda organizacin. Estos datos son
generados por diversas operaciones que se realizan dentro de los proceso de
negocios. Estos procesos generan una gran cantidad de informacin que son
almacenados en diferentes repositorios fuente, siendo el principal el BanTotal.
Adems se cuenta con informacin de terceros, que son generados por los
proveedores que le brindan servicios al banco, e informacin no estructurada.
Ante la gran cantidad de datos, y los diversos repositorios, en distintas plataformas,
con los que cuenta el Banco, es necesario definir la Arquitectura de Integracin de
Datos.
La Arquitectura de Integracin es el proceso que organiza el flujo de los datos entre
diferentes sistemas en una organizacin y aporta los mtodos y herramientas
necesarias para mover datos desde mltiples fuentes, reformatearlos, limpiarlos y
cargarlos en un repositorio destino.
El objetivo del presente documento es definir la Arquitectura y buenas prcticas en
DataStage, con los que se trabajara los proyectos del Inteligencia de Negocios del
Banco. As como los estndares de construccin de Jobs, configuracin del
DataStage, Capas de Servicio.
2. Definicin de las Capas
En el presente captulo, se explica las diversas capas de servicio, que se han
definido para atender los proyectos de Inteligencia de Negocio.
Las capas del servicio, son las que detallan a continuacin:
Fuente
de
Datos
Proyecto Data
Stage (proDIA)
-Carga Staging
-Carga al
Warehouse
DW
Proyecto Data
Stage
DM
Proyecto Data
Stage
DM
Proyecto Data
Stage
DM
Stagi
ng
Autorizaciones: