Anda di halaman 1dari 64

IBM InfoSphere QualityStage

Versin 8 Release 5

Gua de aprendizaje

SC11-3566-03

IBM InfoSphere QualityStage


Versin 8 Release 5

Gua de aprendizaje

SC11-3566-03

Nota Antes de utilizar esta informacin y el producto al que da soporte, lea la informacin de la seccin Avisos y marcas registradas en la pgina 51.

Copyright IBM Corporation 2004, 2010.

Contenido
Gua de aprendizaje de trabajos paralelos de IBM InfoSphere QualityStage . . . . . . . . . . . . . 1
Acerca de IBM InfoSphere QualityStage . . . . . 1 Proyectos en IBM InfoSphere QualityStage . . . 1 Acerca de los trabajos de InfoSphere QualityStage 2 Etapas de IBM InfoSphere DataStage y QualityStage . . . . . . . . . . . . . 2 Componentes servidor y cliente . . . . . . . 3 Objetivos del proyecto de la gua de aprendizaje . . 3 Configurar la gua de aprendizaje . . . . . . . 4 Crear una carpeta para los archivos de la gua de aprendizaje . . . . . . . . . . . . . . 5 Crear proyecto de la gua de aprendizaje . . . . 5 Copiar datos de la gua de aprendizaje . . . . 5 Iniciar un proyecto . . . . . . . . . . . 6 Mdulo 1: Investigar los de datos de origen . . . . 7 Leccin 1.1: Configurar y enlazar un trabajo Investigate . . . . . . . . . . . . . . 8 Leccin 1.2: Renombrar enlaces y etapas en un trabajo Investigate . . . . . . . . . . . 9 Leccin 1.3: Configurar el archivo de origen . . 10 Leccin 1.4: Configurar la etapa Copy . . . . 11 Leccin 1.5: Etapa Investigate, configurar para revisar nombres . . . . . . . . . . . . 12 Leccin 1.6: Etapa Investigate, configurar para revisar regiones geogrficas . . . . . . . . 14 Leccin 1.7: Configurar informes de destino . . 16 Leccin 1.8: Compilar y ejecutar trabajos . . . 16 Mdulo 1: Resumen . . . . . . . . . . 17 Mdulo 2: Estandarizar datos . . . . . . . . 17 Leccin 2.1: Configurar un trabajo Standardize 18 Leccin 2.2: Configurar las propiedades de etapa del trabajo Standardize . . . . . . . . . 20 Leccin 2.3: Configurar los conjuntos de datos de destino . . . . . . . . . . . . . . . Mdulo 2: Resumen . . . . . . . . . . Mdulo 3: Agrupar registros con atributos comunes Leccin 3.1: Configurar un trabajo Unduplicate Match . . . . . . . . . . . . . . . Leccin 3.2: Configurar las propiedades de etapa del trabajo Unduplicate Match . . . . . . . Leccin 3.3: Configurar archivos de destino de un trabajo Unduplicate. . . . . . . . . . . Mdulo 3: Resumen . . . . . . . . . . Mdulo 4: Crear un registro nico . . . . . . . Leccin 4.1: Configurar un trabajo Survive . . . Leccin 4.2: Configurar las propiedades de etapa del trabajo Survive . . . . . . . . . . . Mdulo 4: Resumen . . . . . . . . . . Gua de aprendizaje de IBM InfoSphere QualityStage: resumen . . . . . . . . . . . 27 28 28 29 31 34 36 36 37 38 41 41

Cmo ponerse en contacto con IBM . . 43 Documentacin del producto . . . . . 45 Cmo leer los diagramas de sintaxis 47

Accesibilidad de los productos . . . . 49 Avisos y marcas registradas . . . . . 51 ndice . . . . . . . . . . . . . . . 55

Copyright IBM Corp. 2004, 2010

iii

iv

Gua de aprendizaje de IBM InfoSphere QualityStage

Gua de aprendizaje de trabajos paralelos de IBM InfoSphere QualityStage


Utilice la gua de aprendizaje de trabajos paralelos para conocer las habilidades bsicas necesarias para desarrollar este tipo de trabajos. Objetivos del proyecto de la gua de aprendizaje en la pgina 3 son: utilizar las etapas del cliente del Diseador para limpiar datos de clientes, eliminar todas las direcciones de clientes duplicadas y facilitar el mejor formato para la direccin correcta. Gua de aprendizaje de IBM InfoSphere QualityStage: resumen en la pgina 41 a partir de las lecciones de esta gua de aprendizaje conocer cmo utilizar IBM InfoSphere QualityStage para ayudar a una organizacin a gestionar y mantener la calidad de sus datos. Es fundamental que las empresas mantengan la mxima calidad en los datos de sus clientes. Por ello, la informacin debe estar actualizada y ser completa, precisa y fcil de utilizar.

Acerca de IBM InfoSphere QualityStage


IBM InfoSphere QualityStage es un componente de limpieza de datos que forma parte del cliente de Diseador de IBM InfoSphere DataStage y QualityStage. El cliente del Diseador proporciona una interfaz de usuario comn en la que puede disear sus trabajos de calidad de datos. Adems, cuenta con la potencia de un motor de procesamiento en paralelo para procesar grandes almacenes de datos de origen. Las etapas integradas disponibles en el Repositorio proporcionan la base para llevar a cabo los siguientes conceptos de limpieza de datos: v Resolver ambigedades y conflictos de datos v Descubrir atributos ocultos o nuevos de columnas de origen con formato libre o poco controladas v Ajustar los datos transformando los tipos de datos en un formato estndar v Crear un nico resultado

Objetivos de aprendizaje
Los puntos clave que debe tener en cuenta al completar esta gua de aprendizaje incluyen los siguientes temas: v Cmo mejoran la calidad de los datos los procesos de estandarizacin y coincidencia v La facilidad de combinar las dos etapas de cliente de Diseador de InfoSphere DataStage y QualityStage en un mismo trabajo v Cmo fluyen los datos en un proceso interactivo entre dos trabajos v Los datos supervivientes tienen como resultado el mejor registro disponible

Proyectos en IBM InfoSphere QualityStage


El cliente de Diseador de IBM InfoSphere DataStage y QualityStage proporciona una vista para los proyectos. Los proyectos son un mtodo para organizar los
Copyright IBM Corp. 2004, 2010

datos reorganizados. Usted puede definir etapas y archivos de datos, y crear trabajos dentro de un proyecto concreto. IBM InfoSphere QualityStage utiliza estos proyectos para crear y almacenar archivos en el cliente y en el servidor. Cada proyecto de InfoSphere QualityStage contiene los siguientes componentes: v Trabajos de InfoSphere QualityStage v Etapas utilizadas para crear cada trabajo v Especificacin de coincidencia v Reglas de estandarizacin v Definiciones de tablas En esta gua de aprendizaje usted crear un proyecto utilizando los datos facilitados.

Acerca de los trabajos de InfoSphere QualityStage


IBM InfoSphere QualityStage utiliza trabajos para procesar datos. Para iniciar un trabajo de InfoSphere QualityStage, abra el cliente del Diseador y cree un nuevo trabajo paralelo. Puede crear un trabajo de InfoSphere QualityStage aadiendo etapas, archivos de origen y de destino, y enlaces del Repositorio, y colocndolos en el lienzo del Diseador. El cliente del Diseador compila el trabajo paralelo y crea un archivo ejecutable. Al ejecutarse el trabajo, las etapas procesan los datos a travs de las propiedades de datos que usted ha definido. El resultado es un conjunto de datos que se puede utilizar como entrada para el trabajo siguiente. En esta gua de aprendizaje puede crear cuatro trabajos de InfoSphere QualityStage. Cada trabajo se crea alrededor de una de las etapas de Data Quality y de etapas adicionales de IBM InfoSphere DataStage.

Etapas de IBM InfoSphere DataStage y QualityStage


Una etapa de IBM InfoSphere DataStage y QualityStage lleva a cabo una accin sobre los datos. El tipo de accin depende de la etapa en la que se encuentre. Las etapas del cliente de Diseador de InfoSphere DataStage y QualityStage se almacenan en la paleta de herramientas del Diseador. Puede acceder a todas las etapas de IBM InfoSphere QualityStage del grupo de calidad de datos en la paleta. Usted mismo configura cada etapa para realizar en los datos el tipo de acciones que obtienen los resultados necesarios. Esos resultados se utilizan ms tarde como datos de entrada en la etapasiguiente. Las siguientes etapas estn incluidas en InfoSphere QualityStage: v etapa Investigate v v v v v v etapa etapa etapa etapa etapa etapa Standardize Match Frequency Unduplicate Match Reference Match Survive Standardization Quality Assessment (SQA)

En esta gua de aprendizaje utilizar la mayor parte de etapas de InfoSphere QualityStage.

Gua de aprendizaje de IBM InfoSphere QualityStage

Adems puede aadir a su trabajo cualquier etapa de IBM InfoSphere DataStage. En algunas de las lecciones puede aadir etapas de InfoSphere DataStage para ampliar los tipos de herramientas para procesar los datos.

Componentes servidor y cliente


Debe cargar los componentes cliente y servidor que se utilizan para crear trabajos para limpiar datos. Se han instalado los siguientes componentes servidor en el servidor: Repositorio Un almacn central que contiene toda la informacin necesaria para crear un trabajo de IBM InfoSphere QualityStage. Motor de InfoSphere Information Server Ejecuta los trabajos de InfoSphere QualityStage. Los siguientes componentes cliente InfoSphere DataStage se instalan en el sistema personal: v Diseador de IBM InfoSphere DataStage y QualityStage v Director de IBM InfoSphere DataStage y QualityStage v Administrador de IBM InfoSphere DataStage y QualityStage En esta gua de aprendizaje utilizar todos estos componentes al crear y ejecutar su proyecto de InfoSphere QualityStage.

Objetivos del proyecto de la gua de aprendizaje


El objetivo de esta gua de aprendizaje es utilizar las etapas del Diseador de IBM InfoSphere DataStage y QualityStage para limpiar datos de clientes eliminando todas las direcciones de clientes duplicadas y facilitando el mejor formato para la direccin correcta. En esta gua de aprendizaje su rol es el de un analista de bases de datos de un banco que proporciona varios servicios financieros. El banco dispone de una extensa base de datos de clientes. Sin embargo, hay problemas con la lista de clientes porque contiene muchos registros de nombres y direcciones para una nica familia. El departamento de marketing quiere vender servicios adicionales a sus clientes, por lo que su tarea es encontrar y eliminar las direcciones duplicadas. Por ejemplo, un matrimonio tiene cuatro cuentas, todas ellas a su nombre. Las cuentas incluyen dos cuentas corrientes, un plan de pensiones y un fondo de inversin. En el sistema del banco el seguimiento de la informacin de los clientes se realiza por nmero de cuenta ms que por nombre, nmero o direccin del cliente. Para este nico cliente el banco dispone de cuatro entradas de direccin. Con el fin de ahorrar dinero en los envos, el banco quiere unificar la informacin de las familias, de manera que cada familia reciba solamente un envo. En esta gua de aprendizaje va a utilizar InfoSphere QualityStage para estandarizar todas las direcciones de los clientes. Adems, debe ubicar y unificar todos los registros de clientes que viven en la misma direccin.

Gua de aprendizaje de trabajos paralelos de IBM InfoSphere QualityStage

Objetivos de aprendizaje
La finalidad de esta gua de aprendizaje es proporcionar un conocimiento del sistema de trabajo que se utiliza en el flujo de procesos de InfoSphere QualityStage a travs de los distintos trabajos. Adems, aprender a llevar a cabo las siguientes tareas: v Configurar los trabajos del proyecto v Configurar las etapas del proyecto v Valorar los resultados de cada trabajo v Aplicar los resultados a sus prcticas empresariales Una vez completadas estas tareas, debera entender cmo las etapas de InfoSphere QualityStage reestructuran y limpian los datos a travs de reglas empresariales aplicadas. El tiempo para completar esta gua de aprendizaje es de 2'5 horas aproximadamente.

Nivel de habilidad
Para entender esta gua de aprendizaje necesita tener un nivel de comprensin de anlisis de datos intermedio-avanzado.

Audiencia
Esta gua de aprendizaje est destinada a analistas empresariales y analistas de sistemas que tengan inters en entender InfoSphere QualityStage.

Requisitos del sistema


v IBM InfoSphere Information Server v Sistemas operativos: Microsoft Windows XP o Linux

Requisitos previos
Para completar esta gua de aprendizaje debe saber utilizar v Diseador de IBM InfoSphere DataStage y QualityStage v Sistemas personales

Resultados esperados
Una vez completada esta gua de aprendizaje, debera poder crear sus propios proyectos de InfoSphere QualityStage a travs del cliente del Diseador para cumplir los requisitos empresariales y los estndares de calidad de datos de su empresa.

Configurar la gua de aprendizaje


El proceso de configuracin de la gua de aprendizaje incluye crear una carpeta, crear un proyecto, copiar el trabajo y el archivo de datos de entrada al proyecto y luego iniciar el proyecto. Debe completar las tareas de configuracin antes de empezar con el Mdulo 1 de esta gua.

Gua de aprendizaje de IBM InfoSphere QualityStage

Crear una carpeta para los archivos de la gua de aprendizaje


Copie la carpeta que contiene los archivos de la gua de aprendizaje del soporte de instalacin en su sistema cliente de IBM InfoSphere QualityStage. 1. Localice la carpeta TutorialData en el soporte. 2. Copie TutorialData del soporte a la unidad C: del sistema cliente (por ejemplo, C:\TutorialData). 3. Abra la carpeta TutorialData\QualityStage para localizar los archivos de datos de la gua de aprendizaje.

Crear proyecto de la gua de aprendizaje


Cree un nuevo proyecto de la gua de aprendizaje para poder tener sus ejercicios de la gua de aprendizaje separados del resto de trabajos en InfoSphere QualityStage. Para hacerlo, debe disponer de privilegios de administrador IBM InfoSphere QualityStage. Para crear el proyecto de gua de aprendizaje: 1. Seleccione Iniciar Todos los programas IBM InfoSphere Information Server Administrador de IBM InfoSphere DataStage y QualityStage. 2. En la ventana Adjuntar a DataStage, escriba su nombre de usuario y contrasea y pulse Aceptar. 3. En el separador Proyectos, pulse Aadir para abrir la ventana Aadir nuevo proyecto. 4. En el campo Nombre especifique el nombre del nuevo proyecto (por ejemplo, Gua de aprendizaje). 5. Pulse Aceptar para crear el nuevo proyecto. 6. Pulse Cerrar para cerrar el cliente del Administrador.

Copiar datos de la gua de aprendizaje


Copie los archivos de datos de la gua de aprendizaje de la carpeta de la gua de aprendizaje que usted mismo ha creado en el sistema cliente en la carpeta o el directorio del proyecto del IBM InfoSphere QualityStage sistema donde est instalada la capa del motor. Al crear el proyecto de la gua de aprendizaje ha creado automticamente una carpeta o directorio para el proyecto en el sistema donde est instalada la capa del motor. La capa del motor de InfoSphere Information Server puede estar instalada en el mismo sistema Windows que los clientes, o bien en un sistema Windows, UNIX o Linux separado. A veces se conoce a la capa del motor como el servidor de IBM InfoSphere DataStage y QualityStage. Para copiar datos de la gua de aprendizaje: 1. Abra la carpeta de la gua de aprendizaje TutorialData\QualityStage que usted mismo ha creado en el sistema cliente y localice el archivo input.csv. 2. Abra la carpeta del proyecto en el sistema donde est instalada la capa del motor para el proyecto de la gua de aprendizaje que ha creado. Donde tutorial_project corresponde al nombre del proyecto que ha creado. Algunos ejemplos de va de acceso son: v Para un servidor de Windows: C:\IBM\InformationServer\Server\Projects\ tutorial_project
Gua de aprendizaje de trabajos paralelos de IBM InfoSphere QualityStage

v Para un servidor de UNIX o Linux: opt/IBM/InformationServer/Server/ Projects/tutorial_project 3. Copie el archivo .csv a la carpeta del proyecto en el servidor.

Iniciar un proyecto
Utilice un proyecto del cliente del Diseador de IBM InfoSphere DataStage y QualityStage como contenedor para sus trabajos de IBM InfoSphere QualityStage. Abra el cliente del Diseador para iniciar la gua de aprendizaje. El trabajo paralelo del Diseador proporciona un archivo ejecutable que ejecuta sus trabajos de InfoSphere QualityStage. Para iniciar un proyecto: 1. Pulse Iniciar Todos los programas IBM InfoSphere Information Server Diseador de IBM InfoSphere DataStage y QualityStage. Se abrir la ventana Adjuntar a Proyecto. 2. En el campo Dominio introduzca el nombre del servidor al que est conectado. 3. En el campo Nombre de usuario introduzca su nombre de usuario. 4. En el campo Contrasea introduzca su contrasea. 5. En el campo Proyecto seleccione el proyecto que ha creado (por ejemplo, Gua de aprendizaje). 6. Pulse Aceptar. Se abrir la ventana Nuevo en el cliente del Diseador.

Creacin de un trabajo
El cliente del Diseador de IBM InfoSphere DataStage y QualityStage proporciona una interfaz al motor paralelo que procesa los trabajos. En este paso usted guardar un trabajo en una carpeta en el repositorio de metadatos. Si no lo tiene ya abierto, abra el cliente. Para crear un trabajo nuevo: 1. En la ventana Nuevo seleccione la carpeta Trabajos en el panel de la izquierda y, a continuacin, seleccione el icono Trabajo paralelo en el panel de la derecha. 2. Pulse Aceptar. En el rea Diseo de trabajo aparecer una nueva ventana de diseo de trabajo vaca. 3. Pulse Guardar Archivo. 4. En la ventana Guardar trabajo paralelo como pulse con el botn derecho del ratn la carpeta Trabajos y seleccione Nueva Carpeta en el men de atajos. 5. Introduzca un nombre para la carpeta (por ejemplo, MyTutorial). 6. Pulse la nueva carpeta (MyTutorial) e introduzca Investigate1 en el campo Nombre del elemento . 7. Pulse Guardar para guardar el trabajo. Ha creado un nuevo trabajo paralelo llamado Investigate y lo ha guardado en la carpeta Jobs\MyTutorial del repositorio. Utilice los procedimientos anteriores para crear 3 trabajos paralelos ms en esta carpeta y denomnelos Standardize1, Unduplicate1 y Survive1. Ahora importe los datos de la gua de aprendizaje a su proyecto.

Gua de aprendizaje de IBM InfoSphere QualityStage

Importar componentes de la gua de aprendizaje


Utilice el cliente del Diseador de IBM InfoSphere DataStage y QualityStage para importar los metadatos de ejemplo, que incluyan un trabajo y una definicin de tabla al proyecto de la gua de aprendizaje. Importe los metadatos ejemplo de la gua de aprendizaje para empezar con las lecciones de la gua de aprendizaje. Para importar componentes de la gua de aprendizaje: 1. Seleccione Iniciar Todos los programas IBM InfoSphere Information Server Diseador de IBM InfoSphere DataStage y QualityStage. 2. En la ventana Adjuntar a DataStage, introduzca su nombre de usuario y contrasea. 3. Seleccione el proyecto Gua de aprendizaje de la lista Proyectos y pulse Aceptar. Se abrir la ventana Nuevo del cliente del Diseador. 4. Pulse Cancelar para cerrar la ventana Nuevo si est abriendo un trabajo existente en lugar de crear un trabajo u objeto nuevo. 5. Seleccione Importar ComponentesDataStage. 6. En el campo Importar desde archivo, vaya al directorio en el cliente en el que copi los datos de la gua de aprendizaje, por ejemplo: C:\TutorialData\ QualityStage. Seleccione el archivo QualityStage_Tutorial.dsx. 7. Asegrese de que se ha seleccionado Importar todo. Tambin puede seleccionar Realizar anlisis de impacto. 8. Pulse Aceptar para importar el trabajo ejemplo y la definicin de tabla ejemplo a una carpeta del repositorio llamada Gua de aprendizaje de QualityStage. La gua de aprendizaje ejemplo aparece en el repositorio bajo la carpeta Gua de aprendizaje de QualityStage. Puede abrir cada trabajo y ver cmo ha sido diseado en el lienzo. Utilice estos trabajos como referencia para crear sus propios trabajos. Puede empezar con el Mdulo 1.

Mdulo 1: Investigar los de datos de origen


Este mdulo explica cmo configurar y procesar un trabajo Investigate para facilitar datos a partir de los cuales pueda crear informes en la consola Web de IBM Information Server. Puede utilizar la informacin de los informes para hacer supuestos bsicos sobre los datos y los pasos que debe llevar a cabo para lograr el objetivo de facilitar una direccin legtima para cada usuario incluido en la base de datos.

Objetivos de aprendizaje
Una vez completadas las lecciones de este mdulo, deber saber cmo llevar a cabo las siguientes tareas: 1. Aadir etapas y enlaces a un trabajo IBM InfoSphere DataStage y QualityStage 2. Configurar propiedades de etapa para especificar qu accin realizan al ejecutar el trabajo 3. Cargar y procesar datos y metadatos de clientes 4. Compilar y ejecutar un trabajo
Gua de aprendizaje de trabajos paralelos de IBM InfoSphere QualityStage

5. Generar datos para informes El tiempo para completar este mdulo es de 30 minutos aproximadamente.

Leccin 1.1: Configurar y enlazar un trabajo Investigate


Cree cada trabajo aadiendo etapas de Data Quality y archivos secuenciales y etapas de IBM InfoSphere DataStage al lienzo del Diseador de IBM InfoSphere DataStage y QualityStage. Todos los iconos del lienzo estn enlazados para permitir que los datos fluyan del archivo de origen a cada etapa. Si todava no lo ha hecho, abra el cliente del Diseador. 1. En el panel izquierdo del Diseador vaya a la carpeta MyTutorial que usted mismo ha creado para esta gua de aprendizaje y efecte una doble pulsacin en Investigate1 para abrir el trabajo. 2. Pulse Paleta Calidad de datos para seleccionar la etapa Investigate. Si no aparece la paleta, pulse Ver Paleta. 3. Arrastre la etapa Investigate al lienzo del Diseador y sultela enmedio del lienzo. 4. Arrastre una segunda etapa Investigate y sultela bajo la primera etapa Investigate. Debe utilizar dos etapas Investigate para crear los datos de los informes. 5. Pulse Paleta Archivo y seleccione Archivo secuencial. 6. Arrastre el Archivo secuencial al lienzo del Diseador y sultelo a la izquierda de la primera etapa Investigate. Este archivo secuencial es el archivo de origen. 7. Pulse Paleta Proceso y seleccione la etapa Copy. Esta etapa duplica los datos del archivo de origen y los copia en las dos etapas Investigate. 8. Arrastre la etapa Copy al lienzo del Diseador y sultela entre el Archivo secuencial y la primera etapa Investigate. 9. Pulse Paleta Archivo, y arrastre un segundo Archivo secuencial al lienzo del Diseador y sultelo a la derecha de la primera etapa Investigate. Los datos de la etapa Investigate se envan al segundo Archivo secuencial, que es el archivo de destino. 10. Arrastre un tercer Archivo secuencial al lienzo del Diseador y sultelo a la derecha de la etapa Investigate y bajo el segundo Archivo secuencial. Ahora tiene un archivo de origen, una etapa Copy, dos etapas Investigate y dos archivos de destino. 11. Arrastre un cuarto Archivo secuencial al lienzo del Diseador y sultelo bajo el tercer Archivo secuencial como ltimo archivo de destino. En el paso siguiente, enlace todas las etapas. 12. PulsePaleta General Enlazar. a. Pulse el botn derecho del ratn y arrastre un enlace del archivo de origen a la etapa Copy. Si el enlace es rojo, plselo para activarlo y arrstrelo hasta que llegue a la etapa. Tiene que volverse de color negro. Una vez enlazados todos los iconos del lienzo, puede pulsar una etapa y arrastrarla para cambiar su posicin. b. Siga enlazando el resto de etapas. La siguiente imagen muestra el trabajo Investigate completado con los nombres que deber asignar a las etapas y a los enlaces en la siguiente leccin.

Gua de aprendizaje de IBM InfoSphere QualityStage

Punto de comprobacin de la leccin


Al configurar un trabajo Investigate, usted conecta el archivo de origen con sus datos y metadatos de origen a todas las etapas y enlaza las etapas a los archivos de destino. Una vez completada esta leccin, usted habr aprendido acerca del Diseador lo siguiente: v Cmo aadir etapas al lienzo del Diseador v Cmo combinar etapas de calidad de datos y de proceso en el lienzo del Diseador v Cmo enlazar todas las etapas entre ellas

Leccin 1.2: Renombrar enlaces y etapas en un trabajo Investigate


Al crear un trabajo grande en el cliente del Diseador de IBM InfoSphere DataStage y QualityStage, es importante renombrar todas las etapas, archivos y enlaces con nombres con significado para evitar as cualquier confusin al seleccionar las vas de acceso durante la configuracin de las etapas. No utilice espacios al renombrar los enlaces y las etapas. El cliente del Diseador restablece el nombre a su valor genrico si introduce algn espacio. El objetivo de esta leccin es sustituir los nombres genricos de los iconos del lienzo con nombres ms adecuados. Para renombrar los iconos del lienzo: 1. Para renombrar una etapa, siga los siguientes pasos: a. Pulse el nombre del ArchivoSecuencial de origen hasta que aparezca un recuadro resaltado alrededor del nombre. b. Introduzca ArchivoOrigen en el recuadro. c. Pulse fuera del recuadro para deseleccionarlo. 2. Para renombrar un enlace, siga los siguientes pasos:
Gua de aprendizaje de trabajos paralelos de IBM InfoSphere QualityStage

3. 4. 5. 6. 7.

a. Pulse con el botn derecho del ratn en el nombre genrico del enlace DSLinkXX que conecta el ArchivoOrigen a la etapa Copy y seleccione Renombrar en el men de atajo. Aparecer un recuadro resaltado alrededor del nombre predeterminado. b. Introduzca Cliente y pulse fuera del recuadro. El nombre del enlace predeterminado cambiar a Cliente. Pulse con el botn derecho del ratn el nombre genrico del enlace que conecta la etapa Copy a la primera etapa Investigate. Repita el paso 2, pero introduzca ToName en el recuadro. Pulse con el botn derecho del ratn el nombre genrico del enlace que conecta la etapa Copy a la segunda etapa Investigate. Repita el paso 2, pero introduzca ACityStateZip en el recuadro. Pulse en los nombres de las siguientes etapas e introduzca el nombre nuevo de la etapa en el recuadro resaltado:
Cambiar a Copiar NombreInvestigate InvestigateCiudadEstadoZip

Etapa Copiar Investigate (la primera) Investigate (la segunda)

8. Renombre los tres archivos de destino de la parte superior en el orden siguiente: a. InformeSealesNombre b. InformePatrnCiudadEstadoZip c. InformeSealesCiudadEstadoZip 9. En los nombres de los siguientes enlaces, seleccione Renombrar e introduzca el nuevo nombre del enlace en el recuadro resaltado:
Cambiar a InvestigacinNombre InformePatrn InformeSeales

Enlace De NombreInvestigate a InformeSealesNombre De InvestigateCiudadEstadoZip a InformePatrnCiudadEstadoZip De InvestigateCiudadEstadoZip a InformeSealesCiudadEstadoZip

Renombrar los elementos del lienzo del Diseador ayuda a una mejor organizacin del trabajo Investigate.

Punto de comprobacin de la leccin


En esta leccin usted ha cambiado los nombres genricos de las etapas y enlaces a nombres ms adecuados para el trabajo. Ha aprendido a realizar las siguientes tareas: v Cmo seleccionar el campo de nombre predeterminado para editarlo v El mtodo correcto para cambiar el nombre

Leccin 1.3: Configurar el archivo de origen


Los datos y metadatos de origen van adjuntos al ArchivoOrigen como los datos de origen del trabajo.

10

Gua de aprendizaje de IBM InfoSphere QualityStage

El objetivo de esta leccin es adjuntar los datos de entrada de nombres y direcciones de clientes y cargar los metadatos. Para aadir datos y metadatos al trabajo Investigate debe configurar el archivo de origen para ubicar el archivo de datos de entrada input.csv almacenado en su sistema y cargar las columnas de metadatos. Para configurar el archivo de origen: 1. Efecte una doble pulsacin en el icono ArchivoOrigen para abrir el separador Propiedades en la ventana ArchivoOrigen - Archivo secuencial. 2. Seleccione el archivo de datos de la gua de aprendizaje: a. Pulse Origen Archivo para activar el campo Archivo. en el campo Archivo y seleccione Localizar Archivo. b. Pulse el c. Ubique el directorio en el servidor donde ha copiado el archivo input.csv del DVD (por ejemplo, C:\IBM\InformationServer\Server\Projects\ tutorial). d. Pulse input.csv para seleccionar el archivo y, a continuacin, pulse Aceptar. 3. Pulse el separador Columnas. 4. Pulse Cargar. 5. En la ventana Definiciones de tabla pulse la carpeta Gua de aprendizaje de QualityStage Definiciones de tabla. Esta carpeta ha sido creada al importar los metadatos ejemplo de la gua de aprendizaje. 6. Pulse Entrada en la carpeta Definiciones de tabla y pulse Aceptar. 7. Pulse Aceptar en la ventana Seleccionar columnas para cargar los metadatos de ejemplo. 8. Pulse Ver datos para visualizar la calidad de los datos de entrada. 9. En la primera ventana Investigate1 seleccione el nmero filas para visualizar y pulse Aceptar. Puede dejar el nmero de filas como 100. 10. En la segunda Investigate1 puede ver los nombres y direcciones de los clientes del banco. Las direcciones aparecen desordenadas, complicando as la tarea del banco de analizar los datos. 11. Pulse Cerrar para cerrar la ventana Investigate1. 12. Pulse Aceptar para descargar los datos de entrada en su sistema y cerrar la ventana Archivo de origen - Archivo secuencial.

Punto de comprobacin de la leccin


En esta leccin usted ha adjuntado datos de entrada (nombres y direcciones de clientes) y ha cargado los metadatos. Ha aprendido a llevar a cabo las siguientes tareas: v Adjuntar datos de origen al archivo de origen v Aadir los metadatos de la columna al archivo de origen

Leccin 1.4: Configurar la etapa Copy


La etapa Copy duplica los datos de origen y los enva a las dos etapas Investigate. Esta leccin explica cmo configurar una etapa Processing, la etapa Copy, para duplicar el origen y enviar los metadatos de salida a las dos etapas Investigate.
Gua de aprendizaje de trabajos paralelos de IBM InfoSphere QualityStage

11

Para configurar una etapa Copy: 1. Efecte una doble pulsacin en el icono de la etapa Copy para abrir el separador Propiedades en la ventana Copy - Copy. 2. Pulse el separador Entrada Columnas. Los metadatos que ha cargado en el ArchivoOrigen se han propagado a la etapa Copy. 3. Pulse el separador Salida Correlacionar para correlacionar las columnas del panel Columnas de la izquierda con el panel ToName. 4. En el campo Nombre de salida sobre el panel Columnas de la pantalla, seleccione ToName en caso de que no est ya seleccionado. Seleccionar el nombre de salida correcto asegura que los datos van a la etapa Investigate, InvestigateName, o InvestigateCityStateZip correcta. 5. Copie los datos del panel Columnas en el panel Nombrar: a. Coloque el cursor en el panel Columnas, pulse el botn derecho del ratn y seleccione Seleccionar todo en el men de atajos. b. Pulse el botn derecho del ratn y seleccione Copiar en el men de atajos. c. Coloque el cursor en el panel ToName, pulse el botn derecho del ratn y seleccione Pegar columna en el men de atajos. Los metadatos de columna se copian en el panel ToName y las lneas muestran el enlace del panel Columnas al panel ToName. 6. En el campo Nombre de salida sobre el panel Columnas, seleccione ToCityStateZip en el men desplegable. 7. Repita el paso 5 para correlacionar el panel Columnas con el panel ToCityStateZip. 8. Pulse Aceptar para guardar la etapa Copy actualizada. Este proceso le muestra cmo correlacionar columnas a dos salidas diferentes.

Punto de comprobacin de la leccin


En esta leccin usted ha correlacionado los metadatos de entrada a los dos enlaces de salida para seguir propagando los metadatos a las dos etapas posteriores. Ha aprendido a llevar a cabo las siguientes tareas: v Aadir una etapa de IBM InfoSphere DataStage a un trabajo de IBM InfoSphere QualityStage v Propagar metadatos a la etapa posterior v Correlacionar metadatos a dos enlaces de salida

Leccin 1.5: Etapa Investigate, configurar para revisar nombres


La opcin Word Investigate de la etapa Investigate analiza los datos de nombres y direcciones en patrones reconocibles mediante un conjunto de reglas que clasifica los nombres y las direcciones personales. La etapa Investigate analiza todos los registros del archivo de origen. En esta leccin debe seleccionar el conjunto de reglas NAME para aplicar los estndares USPS. Para configurar la etapa Investigate: 1. Efecte una doble pulsacin en el icono InvestigateName.

12

Gua de aprendizaje de IBM InfoSphere QualityStage

2. Pulse el separador Word Investigate para abrir la ventana Word Investigate. La columna Nombre propagada a la etapa InvestigateName desde la etapa Copy aparece en la seccin Columnas de datos disponibles. 3. Seleccione Nombre en la seccin Columnas de datos disponibles y pulse el para mover la columna Nombre al panel Columnas estndar. La etapa InvestigateName analiza la columna Nombre utilizando el conjunto de reglas que usted mismo ha seleccionado en el paso 4. para seleccionar un conjunto de 4. En el campo Conjunto de reglas:, pulse reglas para la etapa InvestigateName. a. En la ventana Conjuntos de reglas efecte una doble pulsacin en la carpeta Reglas de estandarizacin para abrir el rbol Reglas de estandarizacin. b. Efecte una doble pulsacin en la carpeta USA, una doble pulsacin en la carpeta USNAME y, a continuacin, seleccione USNAME. El conjunto de reglas USNAME analiza la columna Nombre de conformidad con la normativa postal de los Estados Unidos para los nombres. c. Pulse con el botn derecho del ratn en el archivo USNAME y seleccione Suministrar todo en el men de atajo. d. Pulse Aceptar para salir de la ventana Conjuntos de reglas. 5. Pulse el recuadro de seleccin Informe de seales en la seccin Conjunto de datos de salida de la ventana. 6. Pulse el separador Propiedades de etapa Salida Correlacin. 7. Correlacione las columnas de salida: a. Pulse el panel Columnas. b. Pulse el botn derecho del ratn y seleccione Seleccionar todo en el men de atajos. c. Pulse el botn derecho del ratn y seleccione Copiar en el men de atajos. d. Pulse en el panel NameInvestigation. e. Pulse el botn derecho del ratn y seleccione Pegar columna en el men de atajos. Las columnas de la izquierda estn correlacionadas con las columnas de la derecha. La correlacin de NameInvestigation debera tener el siguiente aspecto:

8. Pulse el separador Columnas. Fjese en que las columnas de Salida se llenan al correlacionar las columnas en el separadorCorrelacin. Pulse Aceptar. 9. Pulse Aceptar y, a continuacin, pulse Archivo Guardar para guardar la etapa Investigate actualizada.

Gua de aprendizaje de trabajos paralelos de IBM InfoSphere QualityStage

13

Resumen de la leccin
Esta leccin explica cmo configurar la etapa Investigate a travs del conjunto de reglas USNAME. Usted ha aprendido a configurar la etapa Investigate del trabajo Investigate a travs de las siguientes tareas: v Seleccionar las columnas a investigar v Seleccionar una regla del conjunto de reglas v Correlacionar las columnas de salida

Leccin 1.6: Etapa Investigate, configurar para revisar regiones geogrficas


La opcin Word Investigate de la etapa Investigate analiza los datos de nombres y direcciones en patrones reconocibles mediante un conjunto de reglas que clasifica los nombres y las direcciones personales. La etapa Investigate analiza todos los registros del archivo de origen. En esta leccin debe aplicar el conjunto de reglas USAREA para aplicar los estndares USPS. Para configurar el icono InvestigateCityStateZip: 1. Efecte una doble pulsacin en el icono InvestigateCityStateZip. 2. Pulse el separador Word Investigate para abrir la ventana Word Investigate. Las columnas de direcciones propagadas a la segunda etapa Investigate desde la etapa Copy aparecen en el panel Columnas de datos disponibles. 3. Seleccione las siguientes columnas en el panel Columnas de datos disponibles para moverlas al panel Columnas estndar. La segunda etapa Investigate analiza las columnas de direcciones mediante el conjunto de reglas que usted mismo ha seleccionado en el paso 5. v Ciudad v Regin v Zip5 v Zip4 4. Pulse estndar. para mover las columnas seleccionadas al panel Columnas

para ubicar un conjunto de 5. En el campo Conjunto de reglas:, pulse reglas para InvestigateCityStateZip. a. En la ventana Conjuntos de reglas efecte una doble pulsacin en la carpeta Reglas de estandarizacin para abrir el rbol Reglas de estandarizacin. b. Efecte una doble pulsacin en la carpeta USA y efecte otra doble pulsacin en la carpeta USAREA y seleccione el archivo USAREA. El conjunto de reglas USAREA analiza las columnas Ciudad, Estado, Zip5 y Zip4 de conformidad con la normativa postal de los Estados Unidos. c. Pulse el botn derecho del ratn y seleccione Seleccionar todo en el men de atajos. d. Pulse Aceptar para salir de la ventana Conjuntos de reglas. Aparecer USAREA.SET en el campo Conjunto de reglas.

14

Gua de aprendizaje de IBM InfoSphere QualityStage

6. Pulse los recuadros de seleccin Informe de seales y Informe de patrones en la seccin Conjunto de datos de salida de la ventana. Al asignar datos a 2 salidas debe verificar que la ordenacin de enlaces es correcta. La ordenacin de enlaces garantiza que los datos son enviados a los informes correctos a travs de los enlaces asignados que usted mismo ha nombrado en la Leccin 1.2. El separador Ordenacin de enlaces no se muestra si solamente hay un enlace. 7. Si necesita cambiar el orden de visualizacin de los enlaces, pulse el separador Propiedades de etapa Ordenacin de enlaces y seleccione el enlace de salida que desea mover. 8. Desplace los enlaces hacia arriba o hacia abajo tal y como se describe a continuacin:

v Pulse el

para subir el nombre del enlace un nivel.

v Pulse el

para bajar el nombre del enlace un nivel.

La siguiente imagen muestra el orden correcto de los enlaces.

9. Pulse el separador Salida Correlacin. Puesto que existen dos enlaces de salida desde la segunda etapa Investigate, debe correlacionar las columnas a cada enlace: a. En el campo Nombre de salida encima del panel Columnas, seleccione PatternReport. b. Seleccione el panel Columnas. c. Pulse el botn derecho del ratn y seleccione Seleccionar todo en el men de atajos. d. Pulse el botn derecho del ratn y seleccione Copiar en el men de atajos. e. Seleccione el panel PatternReport, pulse el botn derecho del ratn y seleccione Pegar Columna en el men de atajo. Las columnas estn correlacionadas con el enlace de salida PatternReport. f. En el campo Nombre de salida encima del panel Columnas, seleccione TokenReport. g. Repita los pasos de b a e, excepto el paso e, donde debe seleccionar el panel TokenReport. 10. Pulse Aceptar hasta cerrar la ventana InvestigateCityStateZip.

Resumen de la leccin
Esta leccin le ha explicado cmo configurar la segunda etapa Investigate al conjunto de reglas AREA. Ha aprendido a configurar la segunda etapa Investigate del trabajo Investigate mediante los siguientes temas: v Seleccionar las columnas a investigar v Seleccionar una regla del conjunto de reglas
Gua de aprendizaje de trabajos paralelos de IBM InfoSphere QualityStage

15

v Verificar la ordenacin de enlaces de los informes de salida v Correlacionar las columnas de salida a dos enlaces de salida

Leccin 1.7: Configurar informes de destino


Los metadatos de columna y la informacin de los datos de origen se propagan a los archivos de datos de destino para crear ms tarde los informes de Investigacin. El trabajo Investigate convierte los datos de origen sin formato en datos legibles que se configuran ms tarde como informes de Investigacin. Para configurar los archivos de datos: 1. Efecte una doble pulsacin en el icono InformeSealesNombre en el lienzo del cliente del Diseador. 2. En Entrada Propiedades, pulse Destino Archivo. y vaya hasta la va de acceso de la carpeta 3. En el campo Archivo, pulse en el sistema servidor donde reside el archivo de datos de entrada. En los pasos siguientes, va a especificar nombres de archivo de destino en separadores de entrada de etapa. 4. En el campo Nombre del archivo introduzca tokrpt.csv para mostrar la va de acceso y el nombre del archivo en el campo Archivo, (por ejemplo, C:\IBM\InformationServer\Server\Projects\tutorial\tokrpt.csv). 5. 6. 7. 8. 9. Pulse Aceptar hasta cerrar la etapa. Efecte una doble pulsacin en el icono InformePatrnCiudadEstadoZip. Repita los pasos del 2 al 5 pero introduzca areapatrpt.csv. Efecte una doble pulsacin en el icono InformeSealesCiudadEstadoZip. Repita los pasos del 2 al 5 pero introduzca areatokrpt.csv.

Punto de comprobacin de la leccin


Esta leccin le ha explicado cmo configurar los archivos de destino para utilizarlos como informes. Usted ha configurado los tres archivos de datos de destino enlazando los datos a cada archivo de informe.

Leccin 1.8: Compilar y ejecutar trabajos


Puede probar el trabajo Investigate ejecutando el compilador y ejecutando despus el trabajo para procesar los datos de los informes. Compile el trabajo Investigate en el cliente del Diseador. Una vez el trabajo est compilado correctamente, abra el cliente del Director y ejecute el trabajo. Para compilar y ejecutar el trabajo: 1. Pulse Archivo Guardar para guardar el trabajo Investigate en el lienzo del Diseador. para compilar el trabajo. Se abrir la ventana Compilar trabajo 2. Pulse el y el trabajo se empezar a compilar. Una vez finaliza el compilador, se mostrar el siguiente mensaje Trabajo compilado satisfactoriamente sin errores.

16

Gua de aprendizaje de IBM InfoSphere QualityStage

3. Pulse Herramientas Ejecutar Director. Se abrir la aplicacin del Director mostrando el trabajo en la vista de estado. para abrir la ventana Opciones de ejecucin del trabajo. 4. Pulse el 5. Pulse Ejecutar. Tras ejecutar el trabajo, aparecer Finalizado en la columna Estado.

Punto de comprobacin de la leccin


En esta leccin usted ha aprendido a compilar y procesar un trabajo Investigate. Usted ha procesado los datos en tres archivos de salida mediante las siguiente tareas: v Compilar el trabajo Investigate v Ejecutar el trabajo Investigate en el Director

Mdulo 1: Resumen
En el Mdulo 1 ha establecido, configurado y procesado un trabajo Investigate en Diseador de IBM InfoSphere DataStage y QualityStage. Un trabajo Investigate busca cada registro columna por columna y analiza el contenido de los datos de las columnas que usted ha seleccionado. El trabajo Investigate carga los datos de origen de nombres y direcciones almacenados en la base de datos del banco, analiza las columnas en un formato que pueda ser analizado y organiza los datos en tres archivos de datos. El trabajo Investigate convierte los datos de origen sin formato en datos legibles que puede configurar como informes Investigation mediante Consola web de IBM InfoSphere Information Server. Debe seleccionar los Informes de QualityStage para acceder a la interfaz de informes de la consola Web. El siguiente mdulo organiza los datos sin formato en datos estandarizados que proporcionan datos utilizables para la coincidencia y la supervivencia.

Lecciones aprendidas
Una vez completado este mdulo, usted habr aprendido los siguientes conceptos y tareas: v Cmo establecer y enlazar etapas en un trabajo de manera que los datos se propaguen de una etapa a la etapa posterior v Cmo configurar las propiedades de la etapa para aplicar el conjunto de reglas correcto al analizar los datos v Cmo compilar y ejecutar un trabajo v Cmo generar datos para anlisis

Mdulo 2: Estandarizar datos


Este mdulo explica cmo configurar y procesar un trabajo de Estandarizacin para estandarizar la informacin de nombres y direcciones procedente de la base de datos del banco. Cuando ha trabajado sobre los datos en el Mdulo 1, el formato de algunas direcciones era libre y no estaba estandarizado. Eliminar las direcciones de clientes
Gua de aprendizaje de trabajos paralelos de IBM InfoSphere QualityStage

17

duplicadas y garantizar que una direccin corresponde a un cliente en concreto sera muy difcil si no se estandarizaran antes los datos. La estandarizacin o el condicionamiento garantizan que los datos de origen son coherentes internamente, es decir, cada tipo de datos incluye el mismo tipo de contenido y est en el mismo formato. Cuando utiliza datos coherentes el sistema puede hacer coincidir los datos de direcciones con mayor precisin utilizando una de las etapas Match.

Objetivos de aprendizaje
Una vez completadas las lecciones de este mdulo, deber saber cmo llevar a cabo las siguientes tareas: 1. Aadir etapas y enlaces a un trabajo Standardize 2. Configurar las propiedades de las distintas etapas para procesar correctamente los datos al ejecutar el trabajo 3. Trabajar con nulos de manejo mediante derivaciones 4. Generar la distribucin de frecuencia para datos estandarizados El tiempo para completar este mdulo es de 60 minutos aproximadamente.

Leccin 2.1: Configurar un trabajo Standardize


Estandarizar los datos es el primer paso de la limpieza de datos. En la Leccin 2.1, ha aadido varias etapas al lienzo del Diseador de IBM InfoSphere DataStage y QualityStage. Estas etapas incluyen la etapa Transformer, que aplica derivaciones para manejar nulos y la etapa Match Frequency, que aade datos de frecuencia. Si todava no lo ha hecho, abra el cliente del Diseador. Tal y como ha aprendido en la Leccin 1.1, debe aadir etapas y enlaces al lienzo del Diseador para crear un trabajo Standardize. El trabajo Investigate que ha completado le ha ayudado a determinar cmo formular una estrategia empresarial a travs de informes de Investigacin. El trabajo Standardize aplica conjuntos de reglas a los datos de origen, condicionndolos as para que coincidan. Para configurar un trabajo Standardize: 1. En el panel izquierdo del Diseador vaya a la carpeta MyTutorial que ha creado para esta gua de aprendizaje y efecte una doble pulsacin en Standardize1 para abrir el trabajo. 2. Arrastre los siguientes iconos al lienzo del Diseador desde la paleta. v El icono Calidad de datos Standardize al medio del lienzo v El icono Archivo Archivo secuencial a la izquierda de la etapa Standardize v El icono Archivo Conjunto de datos a la derecha de la etapa Standardize v El icono Proceso Transformer entre la etapa Standardize y el archivo Conjunto de datos v El icono Proceso Copy entre la etapa Transformer y el archivo Conjunto de datos v El icono Calidad de datos Match Frequency debajo de la etapa Copy v El segundo icono Archivo Conjunto de datos a la derecha de la etapa Match Frequency Una vez enlazados los arhivos y las etapas, puede adjuntar su ubicacin en el lienzo.

18

Gua de aprendizaje de IBM InfoSphere QualityStage

3. Pulse con el botn derecho del ratn el icono Archivo secuencial y arrstrelo para crear un enlace del icono Archivo secuencial al icono de la etapa Standardize. 4. Arrastre los enlaces a las etapas restantes, del mismo modo que en el paso 3. Si el enlace es rojo, plselo para activarlo y arrstrelo hasta que llegue a la etapa. Tiene que volverse de color negro. Una vez enlazados todos los iconos del lienzo, puede pulsar sobre una etapa y arrastrarla para cambiar su posicin. 5. Pulse en los nombres de las siguientes etapas e introduzca el nombre nuevo de la etapa en el recuadro resaltado:
Etapa SequentialFile etapa Standardize Etapa Transformer Etapa Copy Archivo Conjunto_Datos (la salida de la etapa Copy) etapa Match Frequency Archivo Conjunto_Datos (la salida de la etapa Match Frequency) Cambiar a Cliente Estandarizar CrearColumnasAdicionales Copiar Estndar FrecuenciaCoincidencia Frecuencias

6. Pulse con el botn derecho del ratn los nombres de los siguientes enlaces, seleccione Renombrar e introduzca el nuevo nombre del enlace en el recuadro resaltado:
Enlace De Cliente a Standardize De Standardize a CreateAdditionalColumns De CreateAdditionalColumns a Copiar De Copy a Stan De Copy a MatchFrecuency De MatchFrequency a Frequencies Cambiar a Entrada Estandarizado Copiar DatosEstandarizados MatchFrequency Frequencies

La siguiente imagen muestra las etapas y enlaces del trabajo Standardize.

Gua de aprendizaje de trabajos paralelos de IBM InfoSphere QualityStage

19

Punto de comprobacin de la leccin


En esta leccin ha aprendido a configurar un trabajo Standardize. La importancia de la etapa Standardize reside en generar el tipo de datos que puedan utilizarse luego en un trabajo de coincidencia. Usted ha configurado y enlazado un trabajo Standardize mediante las siguientes tareas: v Aadir etapas de Calidad de datos y de Proceso al lienzo del Diseador v Enlazar todas las etapas v Renombrar los enlaces y etapas

Leccin 2.2: Configurar las propiedades de etapa del trabajo Standardize


Las propiedades de cada etapa del trabajo Standardize deben configurarse en el lienzo del Diseador de IBM InfoSphere DataStage y QualityStage. Complete las siguientes tareas para configurar el trabajo Standardize: v Cargue los datos y metadatos de origen v Aada conjuntos de reglas compatibles para nombres y direcciones de Estados Unidos v Aplique derivaciones a los conjuntos de nulos v Copie los datos en los dos enlaces de salida v Crear datos de frecuencia

Configuracin de las propiedades del archivo de Cliente


Para configurar las propiedades de etapa del Cliente (archivo de origen): 1. Efecte una doble pulsacin en el icono del archivo de origen Cliente para abrir elseparador Propiedades en la ventana Cliente - Archivo secuencial. 2. Pulse Origen Archivo. y vaya hasta la va de acceso de la carpeta 3. En el campo Archivo, pulse en el sistema servidor donde reside el archivo de datos de entrada. 4. Seleccione input.csv y luego pulse Aceptar. Este es el archivo de origen que lee la etapa Standardize al ejecutarse el trabajo. 5. Pulse el separador Columnas y pulse Cargar. 6. En la ventana Definiciones de Tabla pulse la carpeta Gua de aprendizaje de QualityStage. Esta carpeta ha sido creada al importar los metadatos ejemplo de la gua de aprendizaje. 7. Pulse Definiciones de tabla Entrada. Las definiciones de tabla se cargan en el separador Columnas del archivo de origen Cliente. 8. Pulse Aceptar para cerrar la ventana Definiciones de tabla. 9. Vuelva a pulsar Aceptar en la ventana Seleccionar columnas para cargar los metadatos de ejemplo. 10. Pulse Aceptar para cerrar el archivo de origen Cliente. Los datos de origen se adjuntan al archivo de origen Cliente y las definiciones de tabla se cargan para organizar los datos en columnas de direcciones estndar.

20

Gua de aprendizaje de IBM InfoSphere QualityStage

Configuracin de la etapa Standardize


La etapa Standardize aplica reglas a los datos de nombres y direcciones para analizar los datos en un formato de columna estndar. Para configurar la etapa Standardize: 1. Efecte una doble pulsacin sobre el icono de la etapa Standardize para abrir la ventana Etapa Standardize. 2. Pulse el separador Nuevo Proceso para abrir la ventana Proceso de reglas Standardize. 3. En el campo Conjunto de reglas pulse Reglas Standardize USA. Este conjunto de reglas es especfico de dominio para el trabajo Standardize. Este conjunto de reglas se establece para crear estructuras de datos y estructuras de coincidencia coherentes y estndares en el sector. 4. Abra la carpeta USNAME. a. Seleccione el conjunto de reglas USNAME y pulse Aceptar. Aparecer USNAME.SET en el campo Conjunto de reglas. Debe seleccionar este cdigo de pas porque los datos de nombres y direcciones pertenecen a los Estados Unidos. b. En el panel Columnas Disponibles seleccione Nombre. para mover la columna Nombre al panel Columnas c. Pulse el Seleccionadas. El campo Manejador NAMES opcional est activado. d. Pulse Aceptar.

5. Pulse el separador Nuevo Proceso para abrir la ventana Proceso de reglas Standardize. 6. En el campo Conjunto de reglas pulse Reglas Standardize EEUU y seleccione el conjunto de reglas USADDR. 7. Seleccione los siguientes nombres de columnas en el panel Columnas Disponibles y muvalas al panel Columnas Seleccionadas: v LneaDireccin1 v LneaDireccin2 8. Pulse Aceptar.
Gua de aprendizaje de trabajos paralelos de IBM InfoSphere QualityStage

21

9. Pulse el separador Nuevo Proceso para abrir la ventana Proceso de reglas Standardize. 10. En el campo Conjunto de reglas pulse Reglas Standardize USA y seleccione el conjunto de reglas USAREA. 11. Seleccione los siguientes nombres de columnas en el panel Columnas Disponibles y muvalas al panel Columnas Seleccionadas: v v v v Ciudad Regin Zip5 Zip4

Nota: Mantenga el orden de las columnas. Zip5 debe preceder a Zip4. 12. Pulse Aceptar. 13. Pulse el separador Nuevo Proceso para abrir la ventana Proceso de reglas Standardize. 14. En el campo Conjunto de reglas, pulse Reglas de estandarizacin EEUU y seleccione el conjunto de reglas USTAXID. 15. Seleccione el siguiente nombre de columna en el panel Columnas disponibles y muvalas al panel Columnas seleccionadas: v ApplicantSSN 16. Pulse Aceptar. 17. Correlacione las columnas de salida de la etapa Standardize. a. Pulse el separador Propiedades de etapa. b. Pulse el separador Salida Correlacin. c. En el panel Columnas pulse el botn derecho del ratn y seleccione Seleccionar todo en el men de atajos. d. Pulse el botn derecho del ratn y seleccione Copiar en el men de atajos. e. Vaya al panel Standardizado, pulse el botn derecho del ratn y seleccione Pegar Columna en el men de atajos. 18. Guarde las definiciones de tabla en la carpeta Definiciones de tabla a. Pulse el separador Columnas. b. Pulse Guardar para abrir la ventana Guardar definiciones de tabla con el nombre del archivo que aparece en el campo Nombre de archivo/tabla. c. En el campo Tipo de origen de datos introduzca Definiciones de Tabla. d. En el campo Nombre origen de datos introduzca QualityStage. e. En el campo Nombre de archivo/tabla introduzca Standardized. f. Guarde las definiciones de tabla de Standardization en la carpeta Definicin de tabla que est en un nivel inferior a la carpeta del proyecto, por ejemplo, Gua de aprendizaje Definiciones de tabla. g. Confirme los cambios y salga de las ventanas. Ha configurado la etapa Standardize para aplicar los conjuntos de reglas USNAME, USADDR, USAREA y USTAXID a los datos de cliente y ha guardado las definiciones de tabla.

Configuracin de la etapa Transformer


La etapa Transformer aumenta el nmero de columnas que la etapa de coincidencia utiliza para seleccionar las coincidencias. La etapa Transformer tambin aplica derivaciones para manejar valores nulos.

22

Gua de aprendizaje de IBM InfoSphere QualityStage

Para configurar las propiedades de la etapa Transformer: 1. Efecte una doble pulsacin sobre el icono de la etapa CreateAdditionalColumns para abrir la ventana Etapa Transformer. 2. En la seccin superior de la ventana, pulse con el botn derecho del ratn en la columna Standardized y seleccione Seleccionar todo en el men de atajo para resaltar todas las columnas de la columna Standardized. 3. Pulse el botn derecho del ratn y seleccione Copiar en el men de atajos. 4. Vaya al panel ACopia en la seccin superior de la ventana, pulse el botn derecho del ratn y seleccione Pegar columna en el men de atajos. La correlacin de columnas de entrada a derivaciones especificadas debera tener este aspecto:

5. En la seccin inferior derecha de la ventana seleccione la fila superior, fila 1, del panel ACopia y aada tres derivaciones y columnas a la etapa CreateAdditionalColumns: a. Pulse con el botn derecho del ratn la fila y seleccione Insertar fila en el men de atajos. b. Aada dos filas ms mediante el procedimiento explicado en el paso a. c. Pulse con el botn derecho del ratn la fila insertada superior y seleccione Editar fila en el men de atajos para abrir la ventana Editar Metadatos de Columna. d. En el campo Nombre de columna introduzca MatchFirst1. e. En el campo Tipo de SQL seleccione VarChar. En el campo Longitud seleccione 1. En el campo Posibilidades de nulos seleccione S. Pulse Aplicar y, posteriormente, pulse Cerrar para cerrar la ventana. Pulse con el botn derecho del ratn la siguiente fila y seleccione Editar fila en el men de atajos. j. En el campo Nombre de columna introduzca HouseNumberFirstChar. k. Repita los subpasos del e hasta el h. f. g. h. i.
Gua de aprendizaje de trabajos paralelos de IBM InfoSphere QualityStage

23

l. Pulse con el botn derecho del ratn la ltima fila nueva y seleccione Editar fila en el men de atajos. m. En el campo Nombre de columna introduzcaZipCode3. n. Repita los subpasos del e hasta el h, pero en el campo Longitud seleccione 3. La correlacin de columnas de entrada a derivaciones especificadas debera tener este aspecto:

6. Aadir derivaciones a las columnas: a. Efecte una doble pulsacin en la celda que se encuentra en la columna Derivacin y en la misma fila que la columna MatchFirst1, en la ventana ACopia. Escriba la derivacin: if IsNull(Standardized.MatchFirstName_USNAME) then Setnull() Else Standardized.MatchFirstName_USNAME[1,1]. Esta expresin detecta si la columna MatchFirstName contiene un nulo. Si la columna contiene un nulo, lo maneja. Si la columna contiene una serie, extrae el primer carcter y lo graba en la columna MatchFirst1.

24

Gua de aprendizaje de IBM InfoSphere QualityStage

b. Repita el subpaso a en la columna HouseNumberFirstChar y escriba el derivativo: if IsNull(Standardized.HouseNumber_USADDR) then Setnull() Else Standardized.HouseNumber_USADDR[1,1]. c. Repita el subpaso a en la columna ZipCode3 y escriba el derivativo: if IsNull(Standardized.ZipCode_USAREA) then Setnull() Else Standardized.ZipCode_USAREA[1,3]. 7. Correlacione las tres derivaciones y las columnas a las columnas de entrada. a. Vaya al panel superior izquierdo y desplace el panel Standardized hasta que localice MatchFirstName_USNAME. b. Pulse y arrastre la celda al panel ToCopy y a la celda que contiene Standardized.MatchFirstName_USNAME. c. Cuando se le solicite que ignore los datos existentes, pulse S. d. Repita los pasos del a al c para HouseNumber_USADDR y ZipCode_USAREA, emparejando los nombres de columna del panel Standardized con las columnas de nombre similar en el panel ToCopy. e. Pulse Aceptar para cerrar la ventana Etapa Transformer.

Configuracin de la etapa Copy


La etapa Copy duplica los datos y los graba en ms de un enlace de salida. En esta leccin, la etapa Copy duplica los metadatos de la etapa Transformer y los graba en la etapa Match Frequency y en el archivo de destino. Los metadatos de las etapas Standardize y Transformer se duplican y se graban en dos enlaces de salida. Para configurar la etapa Copy: 1. Efecte una doble pulsacin sobre el icono de la etapa Copy para abrir la ventana Copy Stage. 2. Pulse el separador Salida Correlacin. 3. Copie los datos del enlace de salida DatosEstandarizados: a. En el campo Nombre salida sobre el panel Columnas seleccione DatosEstandarizados. b. Pulse con el botn derecho del ratn el panel Columnas y seleccione Seleccionar todo en el men de atajos. c. Pulse el botn derecho del ratn y seleccione Copiar en el men de atajos. d. Vaya al panel DatosEstandarizados, pulse el botn derecho del ratn y seleccione Pegar Columna en el men de atajos. 4. Para copiar los datos en el enlace de salida ToMatchFrequency, seleccione ToMatchFrequency en el campo Nombre de salida sobre el panel Columnas y repita los pasos del b al d, copiando los datos al panel ToMatchFrequency. 5. Pulse Aceptar para copiar los datos y cerrar la etapa Copy.

Configuracin de la etapa Match Frequency


La etapa Match Frequency genera informacin de distribucin de frecuencia analizando los datos que se utilizan para realizar los emparejamientos. La etapa Match Frequency procesa datos de frecuencia independientemente de ejecutar una coincidencia. El enlace de salida de esta etapa contiene cuatro columnas: v qsFreqVal v qsFreqCounts
Gua de aprendizaje de trabajos paralelos de IBM InfoSphere QualityStage

25

v qsFreqColumnID v qsFreqHeaderFlag Para configurar la etapa Match Frequency: 1. Efecte una doble pulsacin en el icono de etapa Match Frequency para abrir la ventana Etapa Match Frequency. 2. Seleccione el recuadro de seleccin No utilizar una especificacin de coincidencia. En este momento usted desconoce qu columnas se utilizan en la especificacin de coincidencia. 3. Pulse el separador Propiedades de etapa. 4. Pulse el separador Salida Correlacin. a. En el campo Nombre de salida seleccione Frecuencias. b. Pulse con el botn derecho del ratn el panel Columnas y seleccione Seleccionar todo en el men de atajos. c. Pulse el botn derecho del ratn y seleccione Copiar en el men de atajos. d. Vaya al panel Frecuencias, pulse el botn derecho del ratn y seleccione Pegar Columna en el men de atajos. 5. Crear las definiciones de tabla de Match Frequency: a. Pulse el separador Columnas. b. Pulse Guardar. Se abrir la ventana Guardar definiciones de tabla. c. Pulse Aceptar para abrir la ventana Guardar definiciones de tabla como. d. En el campo Nombre de elemento, escriba ToFrequencies. El cliente del Diseador puede recuperar la definicin de tabla de cualquier carpeta en la que guarde las definiciones de tabla. Para esta gua de aprendizaje, se guardan las definiciones de tabla en la carpeta Definicin de tabla que est en un nivel inferior a la carpeta del proyecto, por ejemplo, Gua de aprendizaje Definiciones de tabla. e. Pulse Guardar. 6. Pulse Aceptar para cerrar el separador Salida Columna y la etapa Match Frequency. 7. Pulse Aceptar para cerrar la etapa.

Punto de comprobacin de la leccin


Esta leccin le ha explicado cmo configurar el archivo de origen y todas las etapas del trabajo Standardize. Usted ha aplicado los valores a cada etapa y ha correlacionado los archivos de salida a la siguiente etapa del trabajo de Estandarizacin. Ha aprendido a llevar a cabo las siguientes tareas: v Configurar el archivo de origen para cargar los datos y metadatos de clientes v Aplicar el conjunto de reglas del servicio postal de los Estados Unidos a los datos de nombres y direcciones de clientes v Aadir columnas adicionales para hacer coincidir y crear derivaciones para manejar nulos v Grabar datos en dos enlaces de salida y asociar los datos a los enlaces correctos v Crear datos de frecuencia

26

Gua de aprendizaje de IBM InfoSphere QualityStage

Leccin 2.3: Configurar los conjuntos de datos de destino


Los dos conjuntos de datos de destino del trabajo Standardize almacenan los datos estandarizados y de frecuencia que puede utilizar como datos de origen en el trabajo Unduplicate Match. Complete las siguientes tareas para configurar los conjuntos de datos de destino: v Adjunte el archivo al conjunto de datos de destino Stan v Adjunte el archivo al conjunto de datos Frequencies Para configurar los conjuntos de datos de destino: 1. Efecte una doble pulsacin en el icono de conjunto de datos de salida Stan para abrir la ventana Conjunto de datos. 2. Pulse Entrada Propiedades y seleccione Destino Archivo. y vaya a la carpeta en el sistema servidor donde reside el archivo 3. Pulse de datos de entrada (por ejemplo, input.csv). 4. En el campo Nombre del archivo, introduzca Stan y luego pulse Aceptar para visualizar la va de acceso y el nombre del archivo en el campo Archivo, (por ejemplo, C:\IBM\InformationServer\Server\Projects\tutorial\Stan). 5. Guarde las definiciones de tabla. a. Pulse el separador Columnas. b. Pulse Guardar para abrir la ventana Guardar definiciones de tabla. c. En el campo Tipo de origen de datos introduzca Definiciones de Tabla. d. En el campo Nombre de origen de los datos introduzca StandardizedData1. e. En el campo nombre del archivo/tabla introduzca StandardizedData1. f. Pulse Aceptar para abrir la ventana Guardar definicin de tabla como . Para esta gua de aprendizaje, se guardan las definiciones de tabla en la carpeta Definicin de tabla que est en un nivel inferior a la carpeta del proyecto, por ejemplo, Gua de aprendizaje Definiciones de tabla. g. Pulse Guardar para guardar la definicin de tabla y cerrar la ventana Guardar definicin de tabla como. h. Pulse Aceptar para cerrar la ventana de la etapa. 6. Efecte una doble pulsacin en el icono de conjunto de datos de destino Frequencies. 7. Repita los pasos del 2 al 5 con el archivo Frequencies, pero sustituya Stan por Frequencies y sustituya StandardizedData1 por ToFrequencies1 en los campos correspondientes. El archivo Stan y el archivo Frequencies son los conjuntos de datos de origen del trabajo Unduplicate Match. 8. Pulse Archivo Guardar para guardar el trabajo Standardize. 9. Pulse el 10. Pulse el para compilar el trabajo en el cliente del Diseador. para ejecutar el trabajo.

El trabajo estandariza los datos de acuerdo con las reglas aplicadas y aade columnas de coincidencia adicionales a los metadatos. Los datos se graban en dos conjuntos de datos de destino, que sirven como archivos de origen para un trabajo posterior.
Gua de aprendizaje de trabajos paralelos de IBM InfoSphere QualityStage

27

Punto de comprobacin de la leccin


Esta leccin le ha explicado cmo adjuntar archivos a conjuntos de datos de destino para almacenar los datos de nombres y direcciones de clientes estandarizados procesados y los datos de frecuencia. Usted ha configurado los archivos de conjuntos de datos de destino Stan y Frequencies para aceptar los datos cuando se procesan.

Mdulo 2: Resumen
En el Mdulo 2 usted ha establecido y configurado un trabajo Standardize. La ejecucin de un trabajo de Standardize condiciona los datos a fin de garantizar que todos los datos de nombres y direcciones de clientes incluyen el mismo contenido y estn en el mismo formato. El trabajo de Standardize carga los datos de origen de nombres y direcciones almacenados en la base de datos del banco y aade definiciones de tabla a fin de organizar los datos en un formato que pueda ser analizado por el conjunto de reglas. El proceso de la etapa Transformer aumenta el nmero de columnas y se generan datos de frecuencia para su entrada en el trabajo de coincidencia.

Lecciones aprendidas
Una vez completado este mdulo, usted habr aprendido los siguientes conceptos y tareas: v Cmo generar datos estandarizados de manera que los registros coincidan correctamente v Cmo ejecutar las etapas de IBM InfoSphere DataStage y Data Quality conjuntamente en un trabajo v Cmo aplicar conjuntos de reglas de pas o regin para analizar los datos de direcciones v Cmo utilizar derivaciones para manejar nulos v Cmo generar datos que puedan utilizarse luego como datos de origen en un trabajo posterior

Mdulo 3: Agrupar registros con atributos comunes


Este mdulo explica cmo configurar y ejecutar un trabajo Unduplicate Match utilizando datos estandarizados y datos de frecuencia generados para hacer que los registros coincidan y eliminar los que estn duplicados. La etapa Unduplicate Match es una de las dos etapas que hacen que los registros coincidan al tiempo que eliminan duplicados y residuales. La otra etapa de coincidencia es la etapa Reference Matching. La etapa Unduplicate Match agrupa los registros que comparten atributos comunes. La especificacin de oincidencia que debe aplicar ha sido configurada para separar todos los registros con un peso superior a un lmite de coincidencia concreto como duplicados. Para identificar el registro maestro debe seleccionar el registro del conjunto que coincida con el peso ms elevado. Todos los registros que no forman parte de un conjunto de duplicados son residuales. Estos registros y los registros maestros se utilizan en el siguiente paso. No debe incluir duplicados, ya que es importante que pertenezcan a un nico conjunto.

28

Gua de aprendizaje de IBM InfoSphere QualityStage

La etapa de coincidencia asegura la integridad de los datos, ya que se aplica tecnologa de coincidencia probabilstica. Esta tecnologa se aplica a los atributos relevantes para evaluar columnas, componentes de columnas o caracteres individuales definidos por usted. Adems, puede aplicar pesos de acuerdo o desacuerdo a elementos de datos clave.

Objetivos de aprendizaje
Una vez completadas las lecciones de este mdulo, deber saber cmo llevar a cabo las siguientes tareas: 1. Aadir enlaces y etapas de IBM InfoSphere DataStage a un trabajo 2. Aadir datos estandarizados y de frecuencia como archivos de origen 3. Configurar propiedades de etapa para especificar qu accin realizan al ejecutar el trabajo 4. Eliminar las direcciones duplicadas despus del primer pase 5. Aplicar una especificacin de coincidencia para determinar cmo se seleccionan las coincidencias 6. Canalizar los datos de atributos comunes a un archivo de destino independiente El tiempo para completar este mdulo es de 30 minutos aproximadamente.

Leccin 3.1: Configurar un trabajo Unduplicate Match


El prximo paso de la limpieza de datos es recoger registros en grupos con atributos relacionados. En esta leccin podr aadir la etapa Unduplicate Match de Calidad de Datos y una etapa Funnel para que los registros coincidan y eliminar los duplicados. Si todava no lo ha hecho, abra el cliente del Diseador de IBM InfoSphere DataStage y QualityStage. Tal y como ha aprendido en el mdulo anterior, debe aadir etapas y enlaces al lienzo del Diseador para crear un trabajo Unduplicate Match. El trabajo Standardize que acaba de completar ha creado un conjunto de datos Stan y un conjunto de datos Frequencies. La informacin de estos conjuntos de datos sirve como datos de entrada al disear el trabajo Unduplicate Match. Para configurar un trabajo Unduplicate Match: 1. Desde el panel derecho del Diseador, vaya a la carpeta MyTutorial que usted mismo ha creado para esta gua de aprendizaje y efecte una doble pulsacin en Unduplicate1 para abrir el trabajo. 2. Arrastre los siguientes iconos al lienzo del Diseador desde la paleta. v El icono Calidad de datos Unduplicate Match al medio del lienzo. v El icono Archivo Conjunto de datos a la parte superior izquierda del icono Unduplicate Match. v Un segundo icono Archivo Conjunto de datos a la parte inferior izquierda del icono Unduplicate Match. v El icono Proceso Funnel a la parte superior derecha del icono Unduplicate Match. v Los tres iconos Archivo Archivo secuencial, uno a la derecha de la etapa Funnel y los otros dos a la derecha de la etapa Unduplicate Match.

Gua de aprendizaje de trabajos paralelos de IBM InfoSphere QualityStage

29

3. Pulse con el botn derecho del ratn el icono Conjunto de datos de la parte superior y arrstrelo para crear un enlace de este conjunto de datos a la etapa Unduplicate Match. Nota: El orden en que cree los enlaces afectar a la ejecucin satisfactoria del trabajo. Ms adelante en esta gua de aprendizaje, modificar propiedades de etapas para poder cambiar el orden de algunos de los enlaces. 4. Arrastre los enlaces a las etapas restantes. Arrastre dos enlaces desde la etapa Unduplicate Match a la etapa Funnel. 5. Pulse en los nombres de las siguientes etapas e introduzca el nombre nuevo de la etapa en el recuadro resaltado:
Etapa Conjunto de datos de la parte superior izquierda Conjunto de datos de la parte inferior izquierda Coincidencia sin duplicados Funnel Archivo secuencial de la parte superior derecha Archivo secuencial de la parte central derecha Archivo secuencial de la parte inferior derecha Cambiar a Frecuencias Standardized Unduplicate CollectMatched MatchedOutput_csv ClericalOutput_csv NonMatchedOutput_csv

6. Pulse con el botn derecho del ratn los nombres de los siguientes enlaces, seleccione Renombrar en el men de atajos e introduzca el nombre nuevo de cada enlace en el recuadro resaltado:
Enlaces De Frequencies a Unduplicate De Standardized a Unduplicate De Unduplicate a CollectMatched De Unduplicate a CollectMatched De CollectMatched a MatchOutput_csv De Unduplicate a ClericalOutput_csv De Unduplicate a NonMatchedOutput_csv Cambiar a MatchFrequencies StandardizedData MatchedData Duplicates MatchedOutput Clerical NonMatched

7. Pulse Archivo Guardar para guardar el trabajo.

30

Gua de aprendizaje de IBM InfoSphere QualityStage

Puntos clave de la leccin del trabajo Unduplicate Match


En esta leccin usted ha aprendido a configurar un trabajo Unduplicate Match. En el procesamiento de este trabajo se hacen coincidir los registros mediante la Especificacin de coincidencia creada para esta gua de aprendizaje. Posteriormente, se ordenan los registros de acuerdo con sus atributos y se graban en varios enlaces de salida. Usted ha configurado y enlazado un trabajo Unduplicate Match mediante las siguientes tareas: v Aadir etapas de Calidad de datos y de Proceso al lienzo del Diseador v Enlazar todas las etapas v Renombrar los enlaces y las etapas con los nombres adecuados

Leccin 3.2: Configurar las propiedades de etapa del trabajo Unduplicate Match
Configure las propiedades de cada etapa del trabajo Unduplicate Match en el lienzo del Diseador. Complete las siguientes tareas para configurar el trabajo Unduplicate Match: v Cargue los datos y metadatos de los dos archivos de origen v Aplique una Especificacin de coincidencia al trabajo Unduplicate Match y seleccione los enlaces de salida v Combine los registros sin ordenar Para configurar los conjutos de datos Frequencies y Standarized: 1. Efecte una doble pulsacin en el icono de conjunto de datos Frequencies para abrir el separador Propiedades en la ventana Frequencies - Conjunto de datos. 2. Pulse Archivo Origen. y vaya hasta la va de acceso de la carpeta 3. En el campo Archivo, pulse en el sistema servidor donde reside el archivo de datos de entrada. 4. En el campo Nombre del archivo introduzca Frequencies. (Por ejemplo, C:\IBM\InformationServer\Server\Projects\tutorial\Frequencies). 5. Pulse Aceptar para abrir la ventana.
Gua de aprendizaje de trabajos paralelos de IBM InfoSphere QualityStage

31

6. Pulse el separador Columnas y pulse Cargar. Se abrir la ventana Definiciones de tabla. 7. Seleccione el archivo Carpeta_proyecto Definiciones de tabla ToFrequencies1 y pulse Aceptar. 8. Confirme los cambios y salga de las ventanas. Las definiciones de tabla se cargan en el separador Columnas del archivo de origen. 9. Efecte una doble pulsacin en el icono de conjunto de datos Standardized. 10. Repita los pasos del 2 al 9, pero introduzca Stan en el paso 4 y seleccione el archivo StandardizedData1 en el paso 7. Los datos del trabajo Standardize se cargan en los archivos de origen del trabajo Unduplicate Match.

Configuracin de la etapa Unduplicate Match


La etapa Unduplicate Match agrupa los registros con atributos comunes. Para configurar la etapa Unduplicate Match: 1. Efecte una doble pulsacin en el icono de la etapa Unduplicate. de Especificacin de coincidencia. 2. Pulse el botn 3. En la ventana Repositorio, expanda carpetas hasta localizar la carpeta NameandAddress. 4. Pulse con el botn derecho del ratn en la especificacin de coincidencia NameAndAddress y seleccione Suministrar todo en el men de atajos. 5. Pulse Aceptar para adjuntar la especificacin NameAndAddress Unduplicate Match a la gua de aprendizaje. 6. Pulse los recuadros de seleccin para las siguientes opciones de Salida de coincidencia: v Coincidencia - Enva los registros coincidentes como datos de salida. v Administrativo - Separa los registros que requieren una revisin administrativa. v Duplicado - Incluye los registros duplicados que estn por encima del lmite de coincidencia. v Residual - Separa los registros que no estn duplicados como residuales. 7. Mantenga la configuracin predeterminada Dependiente en el panel Tipo de coincidencia. Despus de ejecutar este primer pase se eliminan los duplicados con cada pase adicional. 8. Pulse el separador Propiedades de etapa Ordenacin de enlaces. Asegrese de que los enlaces de entrada y salida aparecen en el siguiente orden. Si es necesario, utilice los botones de flecha arriba y abajo para poner los enlaces en el orden correcto.
Etiqueta del enlace de entrada Datos FrecDatos Nombre de enlace DatosEstandarizados DatosFrecuencia

Etiqueta del enlace de salida Coincidencia Administrativo

Nombre de enlace MatchedData Administrativo

32

Gua de aprendizaje de IBM InfoSphere QualityStage

Etiqueta del enlace de salida Duplicado Residual

Nombre de enlace Duplicado NonMatched

9. Pulse el separador Salida Correlacin y correlacione las siguientes columnas con los enlaces correctos: a. En el campo Nombre de la salida sobre el panel Columnas seleccione MatchedData . b. Pulse con el botn derecho del ratn el panel Columnas y seleccione Seleccionar todo en el men de atajos. c. Pulse el botn derecho del ratn y seleccione Copiar en el men de atajos. d. Vaya al panel MatchedData, pulse el botn derecho del ratn y seleccione Pegar Columna en el men de atajos. e. Seleccione Duplicates en el campo Nombre de la salida sobre el panel Columnas. f. Repita los pasos del b al d con los datos de Duplicates. g. Seleccione Clerical en el campo Nombre de la salida sobre el panel Columnas. h. Repita los pasos del b al d con los datos de Clerical. i. Seleccione NonMatched en el campo Nombre de la salida sobre el panel Columnas. j. Repita los pasos del b al d con los datos de Nonmatched. 10. Pulse Aceptar para cerrar la ventana Propiedades de etapa. 11. Pulse Aceptar para cerrar la etapa.

Configuracin de la etapa Funnel


La etapa Funnel combina registros cuando estos se reciben en un formato sin orden. Para configurar una canalizacin continua: 1. Efecte una doble pulsacin en el icono de la etapa CollectMatched y pulse el separador Etapa Propiedades. 2. En el rbol Opciones seleccione Tipo de canalizacin. 3. En el campo Tipo de canalizacin, seleccione Ordenar canalizacin en el men desplegable. 4. Pulse Claves de ordenacin Clave y en el campo Clave, seleccione qsMatchSetID en el men desplegable. El orden de clasificacin predeterminado es Ascendente. 5. Vuelva a pulsar Claves de ordenacin. 6. En el campo Propiedades disponibles para aadir, pulse Clave. 7. En el campo Clave, seleccione qsMatchType en el men desplegable. 8. Pulse Orden de clasificacin y cambie el orden de clasificacin a Descendente.

Gua de aprendizaje de trabajos paralelos de IBM InfoSphere QualityStage

33

9. Pulse el separador Salida Correlacin. 10. Pulse con el botn derecho del ratn el panel Columnas y seleccione Seleccionar todo en el men de atajos. 11. Pulse el botn derecho del ratn y seleccione Copiar en el men de atajos. 12. Vaya a la columna MatchedOutput, pulse el botn derecho del ratn y seleccione Pegar Columna en el men de atajos. 13. Pulse Aceptar para cerrar la ventana de la etapa.

Puntos clave de la leccin 3.2


En la leccin 3.2 usted ha configurado las etapas y los archivos de origen del trabajo Unduplicate Match. Ha aprendido a llevar a cabo las siguientes tareas: v Cargar los datos y metadatos generados en un trabajo anterior v Aplicar una Especificacin de coincidencia para procesar los datos segn las coincidencias y los duplicados v Combinar registros en un nico archivo

Leccin 3.3: Configurar archivos de destino de un trabajo Unduplicate


Para configurar los archivos de destino Unduplicate debe adjuntar los archivos a cuatro registros de salida. Los registros del archivo MatchedOutput se convierten en los registros de origen para el siguiente trabajo. Para configurar los archivos de destino: 1. Efecte una doble pulsacin en el icono MatchedOutput_csv para abrir el separador Propiedades en la ventana MatchedOutput_csv - Archivo secuencial. Est adjuntando un nombre de archivo a los registros de coincidencia. 2. Pulse Destino Archivo.

34

Gua de aprendizaje de IBM InfoSphere QualityStage

3. En el campo Archivo pulse el y examine la carpeta en el sistema servidor donde reside el archivo de datos de entrada. 4. En el campo Nombre del archivo introduzca MatchedOutput.csv para visualizar la va de acceso y el nombre del archivo en el campo Archivo, (por ejemplo, C:\IBM\InformationServer\Server\Projects\tutorial\ MatchedOutput.csv). 5. Pulse Opciones , la primera lnea es Nombres de columna y cambie el valor a True. 6. Pulse el separador Formato, pulse con el botn derecho Valores predeterminados del campo en el campo Propiedades. 7. Pulse Aadir subpropiedad en el men y seleccione Valor de campo nulo. 8. Escriba unas comillas dobles (sin espacios) en el campo Valor de campo nulo. 9. Guarde las definiciones de tabla. a. Pulse el separador Columnas. b. Pulse Guardar para abrir la ventana Guardar definiciones de tabla. c. En el campo Tipo de origen de datos introduzca Definiciones de Tabla. d. En el campo Nombre de origen de datos introduzca MatchedOutput1. e. En el campo Tabla/nombre del archivo introduzca MatchedOutput1. f. Pulse Aceptar para abrir la ventana Guardar definicin de tabla como . g. Pulse Guardar para guardar la definicin de tabla y cerrar la ventana Guardar definicin de tabla como. h. Pulse Aceptar para cerrar la ventana de la etapa. 10. Repita los pasos del 1 al 9 con cada uno de los archivos de destino siguientes: v Para el archivo ClericalOutput_csv, introduzca ClericalOutput.csv y Clerical1 en los campos correspondientes. v Para el archivo NonMatchedOutput_csv, escriba NonMatchedOutput.csv y NonMatched1 en los campos adecuados. 11. Pulse Archivo Guardar para guardar el trabajo. para compilar el trabajo en el cliente del Diseador de IBM 12. Pulse el InfoSphere DataStage y QualityStage. 13. Pulse Herramientas Ejecutar Director para abrir el Director de Director de IBM InfoSphere DataStage y QualityStage. Se abrir el Director mostrando el trabajo Unduplicate en la ventana del Director con el estado Compilado. 14. Pulse el .

Ya ha configurado los archivos de destino.

Punto de comprobacin de la leccin


En esta leccin usted ha combinado los registros de direcciones coincidentes y duplicados en un nico archivo. Los registros de salida no coincidentes y administrativos se han separado en archivos individuales. Los registros de salida administrativos pueden revisarse manualmente para encontrar registros que coincidan. Los registros no coincidentes se utilizan en el siguiente pase. Los registros de direcciones coincidentes y duplicados se utilizan en el trabajo Survive.

Gua de aprendizaje de trabajos paralelos de IBM InfoSphere QualityStage

35

Usted ha aprendido a separar los registros de salida de la etapa Unduplicate Match en varios archivos de destino.

Mdulo 3: Resumen
En el Mdulo 3 ha establecido y configurado un trabajo utilizando la etapa de Unduplicate Match para consolidar los datos de nombres y direcciones coincidentes y duplicados en un archivo. Al crear un trabajo de etapasUnduplicate, usted ha aadido una especificacin de coincidencia para aplicar los criterios de bloqueo y coincidencia a los datos estandarizados y de frecuencia creados en el trabajo Standardize. Tras haber aplicado la especificacin de coincidencia, los registros resultantes se envan a travs de cuatro enlaces de salida, uno por cada tipo de registro. Las coincidencias y duplicados se envan a una etapa Funnel que combina los registros en una salida que se graba en un archivo. Los registros no coincidentes o residuales se envan a un archivo, ya que son registros de salida administrativos.

Lecciones aprendidas
Una vez completado el Mdulo 3, usted habr aprendido los siguientes conceptos y tareas: v Cmo aplicar una especificacin de coincidencia a la etapa Unduplicate v Cmo agrupa la etapa Unduplicate registros con atributos similares v Cmo asegurar la integridad de los datos aplicando la tecnologa de coincidencia probabilstica

Mdulo 4: Crear un registro nico


Este mdulo disea un trabajo Survive para aislar el mejor registro de nombre y direccin de cada cliente. El trabajo Unduplicate Match identifica un grupo de registros con atributos similares. En el trabajo Survive usted debe especificar qu columnas y valores de columna de cada grupo crean el registro de salida del grupo. El registro de salida puede incluir la siguiente informacin: v Un registro de entrada completo v Las columnas seleccionadas del registro v Las columnas seleccionadas de distintos registros del grupo Seleccione los valores de columna en funcin de las reglas para probar las columnas. Una regla incluye un conjunto de condiciones y una lista de destinos. Si una columna resulta verdadera frente a las condiciones, el valor de la columna de ese registro se convierte en el mejor candidato para el destino. Tras probar cada registro del grupo, se combinan las columnas declaradas como mejores candidatas para convertirse en el registro de salida del grupo. La supervivencia de la columna est determinada por el destino. La supervivencia del valor de la columna est determinada por las reglas.

Objetivos de aprendizaje
Una vez completadas las lecciones de este mdulo, deber saber cmo llevar a cabo las siguientes tareas: 1. Aadir etapas y enlaces a un trabajo Survive

36

Gua de aprendizaje de IBM InfoSphere QualityStage

2. Elegir la columna seleccionada 3. Aadir las reglas 4. Correlacionar las columnas de salida El tiempo para completar este mdulo es de 20 minutos aproximadamente.

Leccin 4.1: Configurar un trabajo Survive


Crear el mejor registro de resultados de la etapa Survive es el ltimo trabajo del proceso de limpieza de datos. El mejor registro de resultados es el nombre y la direccin que tienen una mayor probabilidad de corresponderse correctamente con cada cliente del banco. En esta leccin aadir la etapa Survive de calidad de datos, el archivo de origen de datos combinados del trabajo Unduplicate Match y el archivo de destino a los mejores registros. Para configurar un trabajo Survive 1. En el panel izquierdo del cliente del Diseador de IBM InfoSphere DataStage y QualityStage, vaya a la carpeta MyTutorial que ha creado para esta gua de aprendizaje y efecte una doble pulsacin en Survive1 para abrir el trabajo. 2. Arrastre los siguientes iconos al lienzo del Diseador desde la paleta: v El icono Calidad de datos Survive al medio del lienzo v El icono Archivo Archivo secuencial a la izquierda de la etapa Survive v El segundo icono Archivo Archivo secuencial a la derecha de la etapa Survive 3. Pulse con el botn derecho del ratn el icono Archivo secuencial de la izquierda y arrastre un enlace a la etapa Survive. 4. Arrastre un segundo enlace desde la etapa Survive al icono de salida Archivo secuencial. 5. Pulse en los nombres de las siguientes etapas e introduzca el nombre nuevo de la etapa en el recuadro resaltado:
Etapa Archivo secuencial de la izquierda etapa Survive Archivo secuencial de la derecha Cambiar a MatchedOutput Survive Survived_csv

6. Pulse con el botn derecho del ratn los nombres de los siguientes enlaces, seleccione Renombrar en el men de atajos e introduzca el nombre nuevo de cada enlace en el recuadro resaltado:
Enlaces De MatchedOutput a Survive De Survive a Survived_csv Cambiar a MatchesAndDuplicates Survived

Gua de aprendizaje de trabajos paralelos de IBM InfoSphere QualityStage

37

Punto de comprobacin de la leccin


En esta leccin usted ha aprendido a configurar un trabajo Survive aadiendo como datos de origen los resultados del trabajo Unduplicate Match, la etapa Survive y el archivo de destino como registro de salida del grupo. Adems, ha aprendido que la etapa Survive toma un enlace de entrada y un enlace de salida.

Leccin 4.2: Configurar las propiedades de etapa del trabajo Survive


Para configurar las propiedades de etapa del trabajo Survive debe cargar los datos coincidentes y duplicados del trabajo Unduplicate Match, configurar la etapa Survive con reglas que prueben las columnas a un conjunto de condiciones y configurar el archivo de destino. En el trabajo Survive probar los valores de columnas para determinar qu columnas son las mejores candidatas para el registro en cuestin. Estas columnas se combinan para convertirse en el registro de salida del grupo. Al seleccionar un mejor candidato puede especificar que se prueben los valores de las columnas en cuestin: v Datos de creacin del registro v Origen de datos v Longitud de los datos de una columna v Frecuencia de datos en un grupo Para configurar el archivo de origen: 1. Efecte una doble pulsacin en el icono Archivo MatchedOutput para accede a la pgina Propiedades. 2. Pulse Archivo Origen. y vaya hasta la va de acceso de la carpeta 3. En el campo Archivo, pulse en el sistema servidor donde reside el archivo de datos de entrada. 4. En el campo Nombre del archivo introduzca MatchedOutput.csv para visualizar la va de acceso y el nombre del archivo en el campo Archivo, (por ejemplo, C:\IBM\InformationServer\Server\Projects\tutorial\ MatchedOutput.csv). 5. Pulse Opciones , la primera lnea es Nombres de columna y cambie el valor a True. 6. Pulse el separador Formato, pulse el botn derecho del ratn y seleccione Valores predeterminados del campo en el men. 7. Pulse Aadir subpropiedad en el men y seleccione Valor de campo nulo. 8. Escriba unas comillas dobles (sin espacios) en el campo Valor de campo nulo. 9. Pulse el separador Columnas y pulse Cargar. Se abrir la ventana Definiciones de tabla.

38

Gua de aprendizaje de IBM InfoSphere QualityStage

10. Pulse el archivo Carpeta_proyecto Definiciones de tabla MatchedOutput1. Las definiciones de tabla se cargan en el separador Columnas del archivo de origen. 11. Confirme los cambios y salga de las ventanas. Usted ha adjuntado el archivo MatchedOutput.csv y ha cargado las Definiciones de tabla al archivo MatchedOutput.

Configuracin de la etapa Survive


Configure la etapa Survive con reglas para comparar las columnas en el mejor formato. Para configurar la etapa Survive: 1. Efecte una doble pulsacin en el icono de la etapa Survive. 2. Pulse Nueva regla para abrir la ventana Definicin de reglas Survive. La etapa Survive requiere una regla que incluya uno o ms destinos y una expresin de condicin TRUE. Defina la regla especificando los siguientes elementos: v Columna o columnas de destino v Columna a analizar v Tcnica a aplicar a la columna que se est analizando 3. En el panel Columnas disponibles, seleccione TodaslasColumnas y pulse el para mover TodaslasColumnas a la columna de Destino. Al seleccionar TodaslasColumnas est definiendo el primer registro del grupo como el mejor registro. 4. En la seccin Regla Survive (seleccione una) de la ventana, pulse Analizar columna y seleccione qsMatchType en el men desplegable. Est seleccionando qsMatchType como destino con el que comparar el resto de columnas. 5. En el men desplegable Tcnica pulse Igual. 6. En el campo Datos introduzca MP. MP significa Par de coincidencia para Unduplicate Match. 7. Pulse Aceptar para cerrar la ventana Definicin de regla Survive. 8. Siga los pasos del 2 al 5 para aadir las columnas y reglas siguientes. No introduzca ningn valor en el campo Datos.
Especificar columnas de salida > Destino(s) GenderCode_USNAME FirstName_USNAME MiddleName_USNAME PrimaryName_USNAME Analizar Columna GenderCode_USNAME FirstName_USNAME MiddleName_USNAME PrimaryName_USNAME Tcnica La ms frecuente (no en blanco) La ms frecuente (no en blanco) La ms larga La ms frecuente (no en blanco)

Puede visualizar las reglas que ha aadido en la cuadrcula Survive. 9. En la seccin Seleccionar columna de datos de identificacin del grupo pulse la Columna seleccionada qsMatchSetID de la lista 10. Pulse el separador Propiedades de etapa Salida Correlacin .
Gua de aprendizaje de trabajos paralelos de IBM InfoSphere QualityStage

39

11. Pulse con el botn derecho del ratn el panel Columnas y seleccione Seleccionar todo en el men de atajos. 12. Seleccione Copiar en el men de atajos. 13. Vaya al panel Survived, pulse el botn derecho del ratn y seleccione Pegar Columna en el men de atajos. 14. Confirme los cambios y salga de las ventanas.

Configuracin del archivo de destino


Usted est configurando el archivo de destino de la etapa Survive. 1. Efecte una doble pulsacin en el icono del archivo de destino Survived_csv y pulse Destino Archivo para activar el campo Archivo. y examine la carpeta en el sistema 2. En el campo Archivo pulse el servidor donde reside el archivo de datos de entrada. 3. En el campo Nombre del archivo introduzca record.csv para visualizar la va de acceso y el nombre del archivo en el campo Archivo, (por ejemplo, C:\IBM\InformationServer\Server\Projects\tutorial\record.csv). 4. Pulse Opciones , la primera lnea es Nombres de columna y cambie el valor a True. 5. Pulse el separador Formato, pulse el botn derecho del ratn y seleccione Valores predeterminados del campo en el men. 6. 7. 8. 9. Pulse Aadir subpropiedad en el men y seleccione Valor de campo nulo. Escriba unas comillas dobles (sin espacios) en el campo Valor de campo nulo. Confirme los cambios y salga de las ventanas. Pulse Archivo Guardar para guardar el trabajo. para compilar el trabajo en el cliente del Diseador.

10. Pulse el

40

Gua de aprendizaje de IBM InfoSphere QualityStage

11. Pulse Herramientas Ejecutar Director para abrir el Director de DataStage. Se abrir el Director mostrando el trabajo Standardize en la ventana del Director con el estado Compilado. 12. Pulse Ejecutar.

Punto de comprobacin de la leccin


Usted ha configurado el trabajo Survive, renombrado los enlaces y las etapas, y configurado los archivos de origen y destino, y la etapa Survive. Con la Leccin 4.2 usted ha aprendido a seleccionar conjuntos de reglas simples que se aplican posteriormente a una columna seleccionada. Esta combinacin se compara ms tarde con todas las columnas para encontrar el mejor registro.

Mdulo 4: Resumen
En el Mdulo 4 ha completado el ltimo trabajo del flujo de trabajo de IBM InfoSphere QualityStage. En este mdulo usted ha establecido y configurado el trabajo Survive para seleccionar el mejor registro de datos de nombres y direcciones coincidentes y duplicados que usted mismo ha creado en la etapa Unduplicate Match. Al configurar la etapa Survive, usted ha seleccionado una regla, ha incluido columnas del archivo de origen, ha aadido una regla a cada columna y ha aplicado los datos. Una vez la etapa Survive ha procesado los registros para seleccionar el mejor registro, la informacin se enva al archivo de salida.

Lecciones aprendidas
Al completar el Mdulo 4, habr aprendido los siguientes conceptos y tareas: v Cmo utilizar la etapa Survive para crear el mejor candidato de un registro v Cmo aplicar reglas simples a los valores de columna

Gua de aprendizaje de IBM InfoSphere QualityStage: resumen


Con las lecciones de esta gua de aprendizaje se aprende cmo se puede utilizarse InfoSphere QualityStage para ayudar a una organizacin a gestionar y mantener la calidad de sus datos. Es fundamental que las empresas mantengan la mxima calidad en los datos de sus clientes. Por ello, la informacin debe estar actualizada y ser completa, precisa y fcil de utilizar. La gua de aprendizaje presentaba un problema empresarial comn: verificar los nombres y las direcciones de clientes y mostrar los pasos a seguir en los trabajos de InfoSphere QualityStage para unificar los distintos nombres asignados a una nica familia. Esta gua de aprendizaje presentaba cuatro mdulos que cubran los cuatro trabajos del flujo de trabajo de InfoSphere QualityStage. Estos trabajos ofrecen a los clientes las siguientes garantas: v Investigacin de datos para identificar errores y validar los contenidos de los campos de un archivo de datos v Condicionamiento de datos para asegurar que los datos de origen son coherentes internamente v Coincidencia de datos para identificar todos los registros de un archivo que corresponden a registros similares de otro archivo v Identificacin de los registros de los datos de coincidencia que sobreviven para crear un mejor registro de candidatos
Gua de aprendizaje de trabajos paralelos de IBM InfoSphere QualityStage

41

Lecciones aprendidas
Una vez completada esta gua de aprendizaje, usted habr aprendido los siguientes conceptos y tareas: v Acerca del flujo de trabajo de InfoSphere QualityStage v Cmo configurar un trabajo de InfoSphere QualityStage v Cmo sirven los datos creados en un trabajo como datos de origen para el trabajo siguiente v Cmo crear datos de calidad mediante InfoSphere QualityStage

42

Gua de aprendizaje de IBM InfoSphere QualityStage

Cmo ponerse en contacto con IBM


Puede ponerse en contacto con IBM para obtener soporte al cliente, servicios de software, informacin sobre el producto e informacin general. Tambin puede proporcionar comentarios sobre los productos y la documentacin.

Soporte al cliente
Para obtener soporte al cliente para productos de IBM y para obtener informacin para la descarga de productos, vaya al sitio de soporte y descargas: www.ibm.com/support/. Puede abrir una solicitud de soporte accediendo al sitio de solicitud de servicio de software: www.ibm.com/software/support/probsub.html.

Mi IBM
Puede gestionar enlaces a sitios web de IBM y a informacin que satisfaga sus necesidades especficas de soporte tcnico creando una cuenta en el sitio Mi IBM: www.ibm.com/account/.

Servicios de software
Para obtener informacin sobre servicios de software, de tecnologas de la informacin y de consultora empresarial, vaya el sitio de soluciones: www.ibm.com/businesssolutions/.

Soporte del producto Information Management


Para obtener soporte del producto Information Manager, novedades y otra informacin del producto, dirjase a www.ibm.com/software/data/support/.

Soporte de IBM InfoSphere Information Server


Para obtener soporte sobre IBM InfoSphere Information Server, vaya a www.ibm.com/software/data/integration/support/info_server/.

Informacin general
Para encontrar informacin general sobre IBM, vaya a www.ibm.com.

Comentarios sobre productos


Puede proporcionar comentarios generales sobre productos mediante la encuesta de consumo en el sitio web www.ibm.com/software/data/info/consumabilitysurvey.

Comentarios sobre la documentacin


Para realizar comentarios acerca del Information Center, pulse el enlace Comentarios situado en la parte superior derecha de cualquiera de los temas del Information Center.

Copyright IBM Corp. 2004, 2010

43

Tambin puede enviar sus comentarios sobre los manuales en archivos PDF, el Information Center o cualquier otra documentacin de los siguientes modos: v Formulario de comentarios del lector en lnea: www.ibm.com/software/data/ rcf/ v Correo electrnico: comments@us.ibm.com

44

Gua de aprendizaje de IBM InfoSphere QualityStage

Documentacin del producto


La documentacin se proporciona en diversas ubicaciones y formatos, tambin en la ayuda que se abre directamente desde la interfaz del producto, en un Information Center (centro de informacin) para toda la suite y en manuales en archivos PDF. El Information Center se instala como un servicio comn con IBM InfoSphere Information Server. El Information Center contiene ayuda para la mayora de las interfaces del producto, as como documentacin completa correspondiente a todos los mdulos de producto de la suite. Puede abrir el Information Center desde el producto instalado o bien especificando una direccin Web y el nmero de puerto predeterminado. Puede utilizar los mtodos siguientes para abrir el Information Center instalado. v Desde la interfaz de usuario de IBM InfoSphere Information Server, pulse Ayuda en la parte superior derecha de la pantalla para abrir el Information Center. v Desde los clientes de InfoSphere Information Server, como el cliente del Diseador de InfoSphere DataStage y QualityStage, el cliente de FastTrack y el cliente de Balanced Optimization, pulse la tecla F1 para abrir el Information Center. La tecla F1 abre el tema que describe el contexto actual de la interfaz de usuario. v En el sistema en el que se ha instalado InfoSphere Information Server puede acceder al Information Center de InfoSphere Information Server aunque no haya iniciado sesin en el producto. Abra un navegador web y especifique la siguiente direccin: http://host_name:port_number/infocenter/topic/ com.ibm.swg.im.iis.productization.iisinfsv.nav.doc/dochome/ iisinfsrv_home.html donde host_name es el nombre del sistema de capa de servicios en el que est instalado el Information Center, y port_number es el nmero de puerto de InfoSphere Information Server. El nmero de puerto predeterminado es 9080. Por ejemplo, en un sistema Microsoft Windows Server denominado iisdocs2, la direccin Web tendr este formato: http://iisdocs2:9080/infocenter/topic/ com.ibm.swg.im.iis.productization.iisinfsv.nav.doc/dochome/iisinfsrv_home.html Tambin hay disponible un subconjunto de la documentacin del producto en lnea en la biblioteca de documentacin del producto en publib.boulder.ibm.com/ infocenter/iisinfsv/v8r5/index.jsp. Tambin puede disponer de manuales en archivos PDF mediante el instalador de software de InfoSphere Information Server y el soporte de distribucin. Tambin encontrar un subconjunto del Information Center que se renueva peridicamente en lnea en www.ibm.com/support/docview.wss?rs=14&uid=swg27008803. Tambin puede realizar pedidos de publicaciones de IBM en formato de copia en papel en lnea o por medio de su representante local de IBM. Para solicitar publicaciones en lnea, vaya al Centro de publicaciones de IBM en www.ibm.com/shop/publications/order.

Copyright IBM Corp. 2004, 2010

45

Puede enviar sus comentarios sobre la documentacin de los modos siguientes: v Formulario de comentarios del lector en lnea: www.ibm.com/software/data/ rcf/ v Correo electrnico: comments@us.ibm.com

46

Gua de aprendizaje de IBM InfoSphere QualityStage

Cmo leer los diagramas de sintaxis


Las reglas siguientes se aplican a los diagramas de sintaxis que se utilizan en esta documentacin: v Lea los diagramas de sintaxis de izquierda a derecha y de arriba abajo, siguiendo el recorrido de la lnea. Se utilizan los convenios siguientes: El smbolo >>--- indica el inicio de un diagrama de sintaxis. El smbolo ---> indica que el diagrama de sintaxis contina en la lnea siguiente. El smbolo >--- indica que el diagrama de sintaxis viene de la lnea anterior. El smbolo --->< indica el final de un diagrama de sintaxis. v Los elementos necesarios aparecen en la lnea horizontal (la lnea principal).
elemento_necesario

v Los elementos opcionales aparecen debajo de la lnea principal.


elemento_necesario elemento_opcional

Si aparece un elemento opcional sobre la lnea principal, dicho elemento no tendr efecto sobre el elemento de sintaxis y slo se utilizar para facilitar la lectura.
elemento_opcional elemento_necesario

v Si se puede elegir entre dos o ms elementos, stos aparecern apilados verticalmente. Si se debe elegir uno de los elementos, un elemento de la pila aparece en la lnea principal.
elemento_necesario opcin_necesaria1 opcin_necesaria2

Si la eleccin de uno de los elementos es opcional, toda la pila aparecer por debajo de la lnea principal.
elemento_necesario opcin_opcional1 opcin_opcional2

Si uno de los elementos es el predeterminado, aparecer por encima de la lnea principal y las opciones restantes se mostrarn por debajo.
opcin_predeterminada elemento_necesario opcin_opcional1 opcin_opcional2

Copyright IBM Corp. 2004, 2010

47

v Una flecha que vuelve hacia la izquierda, sobre la lnea principal, indica un elemento que se puede repetir.

elemento_necesario

elemento_repetible

Si la flecha de repeticin contiene una coma, los elementos repetidos se deben separar mediante una coma.
, elemento_necesario elemento_repetible

Una flecha de repeticin sobre una pila indica que los elementos de la pila se pueden repetir. v A veces, un diagrama se debe dividir en fragmentos. El fragmento de sintaxis se muestra por separado del diagrama de sintaxis principal, pero el contenido del fragmento se debe leer como si formara parte de la lnea principal del diagrama.
elemento_necesario nombre-fragmento

Nombre-fragmento:
elemento_necesario elemento_opcional

v Las palabras clave, y sus abreviaturas mnimas si las hay, aparecen en maysculas. Se deben escribir exactamente tal como se muestran. v Las variables aparecen en letras minsculas en cursiva (por ejemplo, nombre-columna). Representan nombres o valores proporcionados por el usuario. v Separe las palabras clave y los parmetros con un espacio como mnimo si no se muestra ningn signo de puntuacin en el diagrama. v Entre los signos de puntuacin, parntesis, operadores aritmticos y otros smbolos exactamente como se muestran en el diagrama. v Las notas a pie de pgina se muestran mediante un nmero entre parntesis, por ejemplo (1).

48

Gua de aprendizaje de IBM InfoSphere QualityStage

Accesibilidad de los productos


Puede obtener informacin sobre el estado de accesibilidad de los productos de IBM. Los mdulos y las interfaces de usuario de los productos de IBM InfoSphere Information Server no son totalmente accesibles. El programa de instalacin instala los siguientes mdulos y componentes del producto: v IBM InfoSphere Business Glossary v IBM InfoSphere Business Glossary Anywhere v IBM InfoSphere DataStage v IBM InfoSphere FastTrack v IBM InfoSphere Information Analyzer v IBM InfoSphere Information Services Director v IBM InfoSphere Metadata Workbench v IBM InfoSphere QualityStage Para obtener informacin sobre el estado de accesibilidad de los productos de IBM, consulte la informacin de accesibilidad de productos de IBM en http://www.ibm.com/able/product_accessibility/index.html.

Documentacin accesible
Se proporciona documentacin accesible sobre los productos de InfoSphere Information Server en un Information Center. El Information Center presenta la documentacin en formato XHTML 1.0, que se puede ver en la mayora de navegadores web. El formato XHTML permite establecer propiedades de visualizacin en el navegador. Tambin permite utilizar lectores de pantalla y otras tecnologas de asistencia para acceder a la documentacin.

IBM y la accesibilidad
Consulte el IBM Human Ability and Accessibility Center para obtener ms informacin sobre el compromiso de IBM con respecto a la accesibilidad:

Copyright IBM Corp. 2004, 2010

49

50

Gua de aprendizaje de IBM InfoSphere QualityStage

Avisos y marcas registradas


La presente informacin se ha desarrollado para productos y servicios ofrecidos en Estados Unidos.

Avisos
Es posible que IBM no comercialice en otros pases los productos, servicios o caractersticas que se describen en este manual. Consulte al representante local de IBM para obtener informacin sobre los productos y servicios que actualmente pueden adquirirse en su zona. Cualquier referencia a un producto, programa o servicio de IBM no pretende afirmar ni implicar que slo se pueda utilizar dicho producto, programa o servicio de IBM. En su lugar se puede utilizar cualquier producto, programa o servicio funcionalmente equivalente que no vulnere ninguno de los derechos de propiedad intelectual de IBM. Sin embargo, es responsabilidad del usuario evaluar y verificar el funcionamiento de cualquier producto, programa o servicio que no sea de IBM. IBM puede tener patentes o solicitudes de patentes en tramitacin que afecten al tema tratado en este documento. La posesin de este documento no otorga ninguna licencia sobre dichas patentes. Puede enviar consultas sobre licencias, por escrito, a la siguiente direccin: IBM Director of Licensing IBM Corporation North Castle Drive Armonk, NY 10504-1785 EE. UU. Para formular consultas relacionadas con el juego de caracteres de doble byte (DBCS), pngase en contacto con el departamento de la propiedad intelectual de IBM de su pas o enve las consultas, por escrito, a la siguiente direccin: Intellectual Property Licensing Legal and Intellectual Property Law IBM Japan Ltd. 1623-14, Shimotsuruma, Yamato-shi Kanagawa 242-8502 Japn El prrafo siguiente no es aplicable al Reino Unido ni a ningn pas en donde tales disposiciones sean incompatibles con la legislacin local: INTERNATIONAL BUSINESS MACHINES CORPORATION PROPORCIONA ESTA PUBLICACIN TAL CUAL, SIN GARANTA DE NINGUNA CLASE, NI EXPLCITA NI IMPLCITA, INCLUIDAS, PERO SIN LIMITARSE A ELLAS, LAS GARANTAS IMPLCITAS DE NO VULNERACIN DE DERECHOS, COMERCIALIZACIN O IDONEIDAD PARA UN FIN DETERMINADO. Algunos estados no permiten la declaracin de limitacin de responsabilidad de garantas expresas o implcitas en determinadas transacciones. Por consiguiente, es posible que esta declaracin no se aplique en su caso. Esta informacin podra contener imprecisiones tcnicas o errores tipogrficos. La informacin de este documento est sujeta a cambios peridicos; dichos cambios se incorporarn en nuevas ediciones de la publicacin. Es posible que IBM realice

Copyright IBM Corp. 2004, 2010

51

mejoras o efecte cambios en el(los) producto(s) y/o el(los) programa(s) descritos en esta publicacin en cualquier momento sin previo aviso. Las referencias hechas en esta publicacin a sitios Web que no son de IBM se proporcionan slo para la comodidad del usuario y no constituyen un aval de esos sitios Web. La informacin contenida en estos sitios Web no forma parte de la informacin del presente producto IBM, y el usuario es responsable de la utilizacin de dichos sitios. IBM puede utilizar o distribuir cualquier informacin que se le facilite de la manera que considere adecuada, sin contraer por ello ninguna obligacin con el remitente. Los licenciatarios de este programa que deseen obtener informacin sobre l con el fin de habilitar: (i) el intercambio de informacin entre programas creados de forma independiente y otros programas (incluido ste) y (ii) el uso mutuo de la informacin intercambiada, deben ponerse en contacto con: IBM Corporation J46A/G4 555 Bailey Avenue San Jos, CA 95141-1003 EE.UU. Dicha informacin puede estar disponible, sujeta a los trminos y condiciones apropiados, incluido en algunos casos el pago de una tarifa. El programa bajo licencia descrito en este documento y todo el material bajo licencia asociado a l los proporciona IBM segn los trminos del Acuerdo de Cliente de IBM, el Acuerdo Internacional de Programas Bajo Licencia de IBM o cualquier acuerdo equivalente entre el usuario e IBM. Los datos de rendimiento contenidos en este documento se obtuvieron en un entorno controlado. Por consiguiente, es posible que los resultados obtenidos en otros entornos operativos varen de forma significativa. Algunas mediciones pueden haberse realizado en sistemas experimentales y no es seguro que estas mediciones sean las mismas en los sistemas disponibles comercialmente. Adems, algunas mediciones pueden haberse calculado mediante extrapolacin. Los resultados reales pueden variar. Los usuarios del presente manual deben verificar los datos aplicables para su entorno especfico. La informacin relacionada con productos ajenos a IBM se ha obtenido a partir de los proveedores de dichos productos, los anuncios que han publicado u otras fuentes de dominio pblico. IBM no ha probado dichos productos ni puede confirmar la precisin del rendimiento, la compatibilidad ni ninguna otra afirmacin sobre productos ajenos a IBM. Las preguntas sobre las prestaciones de productos que no son de IBM deben dirigirse a los proveedores de esos productos. Todas las declaraciones de intenciones de IBM estn sujetas a cambio o cancelacin sin previo aviso, y slo representan objetivos. Esta informacin slo tiene como objeto la planificacin. La informacin de este documento est sujeta a cambios antes de que los productos descritos estn disponibles. Este manual contiene ejemplos de datos e informes que se utilizan en operaciones comerciales diarias. Para ilustrarlos de la forma ms completa posible, los ejemplos

52

Gua de aprendizaje de IBM InfoSphere QualityStage

incluyen nombres de personas, empresas, marcas y productos. Todos estos nombres son ficticios y cualquier similitud con nombres y direcciones utilizados por una empresa real es totalmente fortuita. LICENCIA DE COPYRIGHT: Esta informacin contiene programas de aplicacin de ejemplo en cdigo fuente que ilustran tcnicas de programacin en diferentes plataformas operativas. Puede copiar, modificar y distribuir estos programas de ejemplo de cualquier forma, sin pagar a IBM, con la finalidad de desarrollar, utilizar o distribuir programas de aplicacin que se ajusten a la interfaz de programacin de aplicaciones para la plataforma operativa para la que se han escrito los programas de ejemplo. Estos ejemplos no se han probado exhaustivamente bajo todas las condiciones. Por lo tanto, IBM no puede asegurar ni implicar la fiabilidad, utilidad o funcin de estos programas. Los programas de ejemplo se proporcionan "tal como estn", sin garantas de ningn tipo. IBM no se hace responsable de los daos que se hayan podido causar debido al uso de los programas de ejemplo. Todas las copias o partes de estos programas de ejemplo, o cualquier trabajo derivado, debern incluir un aviso de copyright como el siguiente: (nombre de la empresa) (ao). Partes de este cdigo provienen de programas de ejemplo de IBM Corp. Copyright IBM Corp. _entrar el ao o los aos_. Reservados todos los derechos. Si est visualizando esta informacin en copia software, es posible que las fotografas o las ilustraciones en color no aparezcan.

Marcas registradas
IBM, el logotipo de IBM e ibm.com son marcas registradas de International Business Machines Corp. en muchos pases o regiones de alrededor del mundo. Otros nombres de productos y servicios pueden ser marcas registradas de IBM u otras empresas. Encontrar una lista actualizada de las marcas registradas de IBM en www.ibm.com/legal/copytrade.shtml. Los trminos siguientes son marcas registradas de otras compaas: Adobe es una marca registrada de Adobe Systems Incorporated en los Estados Unidos y/o en otros pases. Linux es una marca registrada de Linus Torvalds en los Estados Unidos y/o otros pases. Microsoft, Windows, Windows NT y el logotipo de Windows son marcas registradas de Microsoft Corporation en los Estados Unidos y/o otros pases. UNIX es una marca registrada de The Open Group en Estados Unidos y en otros pases. Java y todas las marcas basadas en Java son marcas registradas de Sun Microsystems, Inc. en los EE.UU. y/o otros pases. El servicio postal de los Estados Unidos (United States Postal Service) es propietario de las siguientes marcas registradas: CASS, CASS Certified, DPV, LACSLink, ZIP, ZIP + 4, ZIP Code, Post Office, Postal Service, USPS y United States
Avisos y marcas registradas

53

Postal Service. IBM Corporation tiene titularidad no exclusiva de licencias de DPV y LACSLink de United States Postal Service. Otros nombres de empresas, productos o servicios pueden ser marcas registradas o marcas de servicio de otros.

54

Gua de aprendizaje de IBM InfoSphere QualityStage

ndice A
accesibilidad documentacin 45 accesibilidad de los productos accesibilidad 49 anlisis de direcciones 14 analizar datos que estn en formato libre 7 analizar direcciones 14 archivo origen 11 Secuencial 11 archivo de origen configurar 11 renombrar 11 Archivo secuencial 16, 18 Archivos de destino de trabajo Unduplicate configuracin 34 atributos comunes, agrupar registros avisos legales 51 documentacin accesible 45 InfoSphere QualityStage etapa Survive 37, 38 etapa Unduplicate Match 29, 31 etapas 2 proyectos 2 Trabajo de etapas Survive 36 resumen 41 trabajo de etapas Unduplicate 33 resumen 36 trabajos 2 valor 1 investigacin de columnas de dominio nico 7

E
elementos del proyecto 2 enlaces, renombrar 9 Etapa Copy configuracin 11, 25 etapa Funnel, configuracin 33 etapa Investigate 7 configurar 12, 14 etapa Match Frequency columnas 25 configuracin 25 etapa Standardize configuracin 20 datos de condicionamiento 17 Estandarizar conjuntos de reglas 20 etapa Survive configuracin 37 renombrar enlaces y etapas 37 Etapa Unduplicate configuracin de archivos de destino 34 etapa Unduplicate Match configuracin 32 etapas Copiar 11, 18, 25 Frecuencia de coincidencia 18, 25 Investigate 7, 12 Standardize 18, 20 Transformer 18 etapas, renombrar 9

L
Leccin 1.1 8 Leccin 3.1, configurar un trabajo Unduplicate Match 29 Leccin 3.2, configuracin de los archivos de origen no duplicados 31 Leccin 3.3, configurar archivos de destino de un trabajo Unduplicate 34 Leccin 3.4, configuracin de la etapa Funnel 33 Leccin 4.2, configuracin del trabajo Survive 38 lectores de pantalla documentacin del producto 45 limpiar datos 1 limpieza de datos 1

28

C
carpeta de datos de la gua de aprendizaje crear 5 caso de ejemplo del proyecto de la gua de aprendizaje 3 columnas, correlacin 11 componentes cliente 3 componentes de la gua de aprendizaje importacin 7 componentes servidor 3 configuracin etapa Match Frequency 25 trabajo de etapa Investigate 8 trabajo Standardize 18 configurar etapa Copy 25 configurar gua de aprendizaje 5 Conjunto de reglas seleccionar 12 copiando metadatos 25 copiar datos de la gua de aprendizaje 5 correlacin de columnas 25 Correlacionar columnas 12 crear carpeta de datos de la gua de aprendizaje 5 crear proyecto de la gua de aprendizaje 5

M
metadatos 11 carga 11 Mdulo 2, acerca de 17 Mdulo 3 etapa Unduplicate Match 28 resumen del trabajo de etapas Unduplicate 36 Mdulo 4 resumen 41

G
gua de aprendizaje configuracin 5

I
importar componentes de la gua de aprendizaje 7 informe de patrones 8, 16 Informe de patrones de palabra 8 informe de seales 8, 16 informes configurar salida 16 patrn 7, 16 Patrn de palabra 8 seal 7, 16 Seal de palabra 8 informes de salida, configurar 16 InfoSphere DataStage Cliente del Diseador 1 crear un trabajo 6 etapa Copy 25 Etapa Copy 11

O
objetivos del proyecto de la gua de aprendizaje 3

P
Palabra 7 Paleta de herramientas del Diseador grupo de calidad de datos 2 proyecto de la gua de aprendizaje crear 5 proyectos 2 apertura 6 Puntos clave de la leccin 3.2 34

D
data analizar formato libre 7 standardize 17 datos de la gua de aprendizaje copiar 5 Diseador de InfoSphere DataStage

Copyright IBM Corp. 2004, 2010

55

R
registros con atributos comunes 28

S
seleccionar Conjunto de reglas servicios de software 43 soporte cliente 43 soporte al cliente 43 12

T
trabajo de etapa Investigate configuracin 8 renombrar enlaces y etapas 9 trabajo de etapa Standardize configuracin 18 Trabajo de etapas Survive Mdulo 4 crear un registro nico 36 Mdulo 4: crear un registro nico resumen 41 Trabajo de etapas Unduplicate resumen 36 trabajo de etapas Unduplicate Match agrupar registros con atributos comunes 28 Trabajo de Supervivencia, configuracin 37 Trabajo paralelo guardar 6 trabajo Survive configuracin 38 Trabajo Unduplicate Match configuracin 29 configuracin de archivos de origen 31 Punto de comprobacin de la leccin 31 trabajos visin general 2

36

56

Gua de aprendizaje de IBM InfoSphere QualityStage

Impreso en Espaa

SC11-3566-03

Anda mungkin juga menyukai