Anda di halaman 1dari 8

ectura y Buenas Prcticas e

Arquitectura y Buenas Prcticas en DataStage

Contenido

Historial de Revisiones........................................................................................ 4
1.

Alcance......................................................................................................... 5

2.

Definicin de las Capas................................................................................. 5

3.

Procedimientos a Nivel DataStage e Integracin..........................................6

3.1.

Definicin de los proyectos........................................................................6

3.2.

Estructura de los componentes en jobs Staging........................................7

3.3.

Estructura de los componentes en Jobs de Integracin.............................7

3.4.

Configuracin a nivel S.O..........................................................................7

3.5.

Versionamiento y Logs de Revisiones........................................................8

3.6.

Ejecucin de los Procesos de DataStage...................................................8

3.7.

Scheduler de los Jobs Control M..............................................................8

3.7.1.

Inscripcin de jobs en control M.............................................................9

3.8.

Backups................................................................................................... 10

3.9.

Carga de Archivos Externos.....................................................................10

4.

Explicacin de carga Staging......................................................................12

4.1.

Ciclo de Carga al Staging.........................................................................12

4.2.

Carga Staging.......................................................................................... 12

4.2.1.

Tipos de Carga al Staging.....................................................................12

4.2.2.

Extraccin de datos.............................................................................. 13

4.2.3.

Manejo de Duplicados..........................................................................15

4.2.4.

Validacin de Duplicados......................................................................16

4.2.5.

De-duplicacin...................................................................................... 16

4.2.6.

Proceso Diferencial............................................................................... 18

4.2.7.

Proceso de Limpieza y carga Staging...................................................19

4.2.8.

Eliminacin de DataSets al finalizar la ejecucin del proceso..............21

4.2.9.

Resumen Completo:............................................................................. 22

5.
5.1.

Buenas prcticas de los proyectos staging e integracin (ODS, BDS)........23


Almacenamiento de archivos y Datasets del Proyecto en Ruta propia....23
2

Arquitectura y Buenas Prcticas en DataStage

5.2.

Patrn de Ejecucin en Paralelismo.........................................................23

5.3.

Patrn de Diseo de Jobs carga iterativa.................................................23

5.4.

Configuracin de Jobs Sequenciales........................................................24

5.5.

Patrn de Diseo Jobs de reproceso........................................................28

5.6.

Patrn de Diseo de Jobs control de errores............................................28

5.7.

Patrn de Diseo de Jobs donde se utilice Agregator..............................28

5.8. Regla de diseo de jobs, utilizacin de rutas de archivos definidas en


variables del job secuencial.............................................................................. 29
5.9.

Table Definitions...................................................................................... 30

5.10.

Pruebas en IST...................................................................................... 30

5.11.

LOOKUP JOIN MERGE........................................................................30

5.12.

NO MATCH JOIN..................................................................................... 34

5.13.

Utilizacin del Shrdcontainer................................................................35

5.14.

Modalidad de Almacenamiento Configuracin del Buffer.....................35

5.15.

Diseo de Jobs Multi instancia..............................................................24

5.16.

Patrn de diseo utilizando stages de rutinas......................................38

5.17.

Consideraciones adicionales para desarrollos en Datastage:...............39

5.17.1. Comentarios en los conectores DataStage...........................................39


5.17.2. Optimizar el uso de conexiones en DB2 Connector..............................39
5.17.3. Buenas prcticas en creacin de sentencias SQL.................................40
5.17.4. Uso de sentencias Delete en las secciones Uso, Before/After SQL.......40
5.17.5. Uso de sentencias para otorgar permisos en Conectores Datastage....40
5.17.6. METADATA WORKBENCH REQUISITOS................................................41
5.17.7. PROCEDIMIENTOS DE ELIMINACIN ESPECIAL DE DATA.......................42
5.17.7.1........................MANEJO DE ELIMINACION DE DATA EN TABLAS GRANDES
43
5.17.7.2......................MANEJO DE ELIMINACION DE DATA EN TABLAS MEDIANAS
43
5.17.8. Validacin de configuracin de Parametersets.....................................45
5.17.9. Uso de Metadata del Repositorio principal.................................................46

Arquitectura y Buenas Prcticas en DataStage

Arquitectura y Buenas Prcticas en DataStage

Historial de Revisiones

ITEM
1

VERSIN
1.0

FECHA
01/02/13

1.0

10/11/14

AUTOR
Carlos
Candela
Erika Gutierrez

1.0

24/11/14

Erika Gutierrez

3.2

28/10/2015

Ronald Ticona

DESCRIPCIN
Elaboracin de
Documento
Formateado
del documento
Actualizacind
el documento
Se agrega
consideracione
s Metadata
Workbench,
Eliminacin de
data en Tablas
grandes.

Arquitectura y Buenas Prcticas en DataStage

1. Alcance
Los datos son un activo fundamental dentro de toda organizacin. Estos datos son
generados por diversas operaciones que se realizan dentro de los proceso de
negocios. Estos procesos generan una gran cantidad de informacin que son
almacenados en diferentes repositorios fuente, siendo el principal el BanTotal.
Adems se cuenta con informacin de terceros, que son generados por los
proveedores que le brindan servicios al banco, e informacin no estructurada.
Ante la gran cantidad de datos, y los diversos repositorios, en distintas plataformas,
con los que cuenta el Banco, es necesario definir la Arquitectura de Integracin de
Datos.
La Arquitectura de Integracin es el proceso que organiza el flujo de los datos entre
diferentes sistemas en una organizacin y aporta los mtodos y herramientas
necesarias para mover datos desde mltiples fuentes, reformatearlos, limpiarlos y
cargarlos en un repositorio destino.
El objetivo del presente documento es definir la Arquitectura y buenas prcticas en
DataStage, con los que se trabajara los proyectos del Inteligencia de Negocios del
Banco. As como los estndares de construccin de Jobs, configuracin del
DataStage, Capas de Servicio.
2. Definicin de las Capas
En el presente captulo, se explica las diversas capas de servicio, que se han
definido para atender los proyectos de Inteligencia de Negocio.
Las capas del servicio, son las que detallan a continuacin:

Datos Fuentes, es la capa donde ser considerada cualquier repositorio,


tanto interno como externo, que tenga informacin relevante para el anlisis
del negocio.

Integracin de Datos, es la capa de donde reside el repositorio de staging


y se efecta el proceso integracin de fuentes, el cual se divide en dos
partes: la carga al staging y la carga al modelo warehouse.
La carga al staging consiste en extraer la informacin desde las fuentes de
datos, siguiendo un flujo de carga hacia el staging, donde se realiza
procesos de estandarizacin y calidad de datos.
La carga al modelo warehouse, incluye la integracin de fuentes de la
diversas fuentes que residen en el staging, hacia el modelo de negocios.
Este proceso incluye validaciones con respecto al negocio.

Repositorio de Datos, es considerada la capa donde reside el modelo


warehouse, que est en 3FN; y el ODS, repositorio donde se guardara
informacin plana o consolidada, necesarias para diversos procesos, o
anlisis simple.

Arquitectura y Buenas Prcticas en DataStage

3. Procedimientos a Nivel DataStage e Integracin


3.1.Definicin de los proyectos
Los proyectos que se creen en DataStage, estn alineadas con la arquitectura de
datos que se ha propuesta, para ello se deben de implementar los proyectos en
base a la definidas en el captulo anterior.
Por lo tanto se tendr un proyecto en DataStage para la Integracin de Datos,
donde implementar los procesos de la carga al Staging y los de la carga al
DataWarehouse. Por otro lado, se tendr un proyecto por cada

Fuente
de
Datos

Proyecto Data
Stage (proDIA)
-Carga Staging
-Carga al
Warehouse

DW

Proyecto Data
Stage

DM

Proyecto Data
Stage

DM

Proyecto Data
Stage

DM

Arquitectura y Buenas Prcticas en DataStage

Stagi
ng

Autorizaciones:

Anda mungkin juga menyukai