You are on page 1of 43

IBM WebSphere DataStage

AGENDA
Datastage
Flow
Architecture
Roles
Componentes
Capas MetaData y Metastage
Flow
Datastage Manager
Datastage Administrator
Datastage Designer
Introduccin a IBM WebSphere DataStage Director
Ingresar a la Herramienta
Principales Componentes
Funciones Bsicas
Agendar Procesos
Monitorear Ejecuciones
Depuracin de Errores de Ejecucin
Recuperacin de Errores de Ejecucin

DataStage ~ Introduccion
DataStage
Inputs
Transform
Quality
Output
DataStage Server
Multiple Jobs in Parallel
T
a
r
g
e
t

S
y
s
t
e
m
s

S
o
u
r
c
e

S
y
s
t
e
m
s

VERSION ENTERPRISE : todas las funciones
VERSION STANDARD :( Instalada en region Andina) No
incluye funcionalidades de Quality Stage, Output y
Multiple Jobs in Paralell
DataStage es la herramienta para
Disear y construir procesos para la
transformacin y movimiento de datos es el
proceso por el cual los datos se extraen de
la fuente, se transforman y cargan al
formato requerido por los sistemas
especficos. Extract-Transform-Load
(ETL) . El proceso de manipula los datos
para ponerla en conformidad con las
empresas, el dominio y las normas de
integridad y con otros datos en el entorno
de destino.
DataStage ~ FLow
DataStage ~ Introduccion
DataStage ~ Architecture
DataStage ~ Administrator Client- Roles
DataStage Developer, who has full access to all areas of a DataStage project (except for
protected projects).

DataStage Production Manager, who has full access to all areas of a DataStage project,
and can also create and manipulate protected projects.
DataStage Operator, who has permission to run and manage DataStage jobs.

DataStage Super Operator, who has permission to run and manage DataStage jobs, and
to view items in the Designer (although not to edit them).
DataStage ~ Client Components
WebSphere DataStage y QualityStage Administrador proporciona herramientas para la
gestin general y de proyectos relacionados con tareas tales como tiempo de espera del
servidor y las asignaciones de NLS.
El WebSphere DataStage y QualityStage Director es el componente de cliente que valida,
corridas, schedules, y los monitoreos de los jobs que se ejecutan por el servidor de
WebSphere DataStage
El WebSphere DataStage y QualityStage Designer le ayuda a crear, administrar y jobs de
diseo. Tambin puede utilizar el cliente de diseo para definir las tablas y los servicios
de acceso a los metadatos.
DataStage Manager , interface para visualizar, editar y exportar/importar la metadata de
los proyectos Datastage in el repository con Datastage server


Manager:includio en el Designer
Managing the Repository
Managing Tables
Built-in- Data Elements
Built-in-Functions
Custom Routines
Managing Job Properties
Managing Shared Containers
Importing and Exporting Jobs
Package Creation


Administrator:
Project General Properties
Project Permissions
Project Tracing
Project Tunable
Project Sequences

IBM teamsite:
http://publib.boulder.ibm.com/infocenter/iisinfsv/v8r0/index.jsp?topic=/com.ibm.swg.im.iis.found.admin.comm
on.doc/topics/r_admin_ds_library.html
http://publib.boulder.ibm.com/infocenter/iisinfsv/v8r0/index.jsp?topic=/com.ibm.swg.im.iis.productization.iisinfs
v.overview.doc/topics/cisodsoverview.html
http://www-01.ibm.com/software/data/infosphere/datastage
DataStage ~ Client Components - Operations
Designer
Job Design Flow
Create a Job
Table Definition
Adding Stages
Palette for Stages
Stage Types
Adding Links
Grouping Stages & Links
Compiling & Running
Jobs
Debugging
Naming Constraints
Job Properties
Job Sequences
Programming in
DataStage
Director:
Jobs States and Status
Job Options
Job Scheduling
Job Resources
Monitoring Jobs
Job Log
Capas MetaStage y Metadata
Metadata
La informacin descriptiva que define los datos de Kraft, fuentes de datos, los datos de los productores, los
consumidores de informacin, informes de gestin y el proceso de integracin de datos. Los metadatos
deben existir para todos los proveedores de datos, todos los consumidores de datos, todos los servicios y el
proceso que afecta a los datos y las entidades orgnicas que definen y enriquecen.
El enlace que une a diferentes fuentes de datos y permite la integracin y la agregacin de la inteligencia
empresarial
La gestin de metadatos
Despus de importar los metadatos en el repositorio de metadatos, es posible que desee aadir o modificar
la informacin acerca de los metadatos como la descripcin de una tabla. Usted tambin puede agregar
informacin com o contactos, polticas y trminos a los esquemas importados, directorios, tablas, archivos, y
campos de datos.
MetaStage
Proporciona integracin de metadatos para todos los productos utilizados en el ciclo de integracin de datos:

Modelado de datos / Herramientas de Casos
Las aplicaciones de Business Intelligence
Bases de datos y almacenes de datos
Enterprise Applications
Empresa de integracin de datos Suites

Ofrece el anlisis comparativo del impacto de la herramienta y el conjunto de datos de informes y la
documentacin

Capacidad para gestionar negocios glosarios, vocabularios y trminos.
Bi-direccional y el intercambio de metadatos a travs de la reutilizacin de MetaBrokers

Datastage Project Import- Flow

Module: Working with Relational
Data
Import Table Definitions for
relational
tables.
Create Data Connections.
Use Connector stages in a job.
Use SQL Builder to define
SQL Select statements.
Use SQL Builder to define SQL Insert
and Update statements.
Use the DB2 Enterprise stage.

Module: Metadata in Parallel
Framework:
Explain schemas.
Create schemas.
Explain Runtime Column
Propagation (RCP).
Build a job that reads data from a
sequential file using a schema.
Build a shared container.

Module: Job Control:
Use the DataStage Job Sequencer to
build a job that controls a sequence
of jobs.
Use Sequencer links and stages to
control the sequence a set of jobs
run in.
Use Sequencer triggers and stages
to control the conditions under which
jobs run.
Pass information in job parameters
from the master controlling job to the
controlled jobs.
Define user variables.
Enable restart.
Handle errors and exceptions.
Module: Platform Architecture
Describe parallel processing
architecture Describe pipeline &
partition parallelism
List and describe partitioning
and collecting algorithms
Describe configuration files
Explain OSH & Score

Module: Combining Data
Combine data using the Lookup stage

Combine data using merge stage
Combine data using the Join stage
Combine data using the Funnel stage

Module: Sorting and Aggregating Data
Sort data using in-stage sorts
and Sort stage
Combine data using Aggregator stage

Remove Duplicates stage

Module: Transforming Data
Understand ways DataStage
allows you to transform data
Create column derivations using user
defined code and system functions
Filter records based on
business criteria
Control data flow based on data
conditions

Module: Repository Functions
Perform a simple Find
Perform an Advanced Find
Perform an impact analysis
Compare the differences between
two Table Definitions and Jobs.

Datastage Activities and Functionalities
Module: Introduction
DataStage Architecture.
DataStage Clients
Designer
Director
Administrator
DataStage Workflow
Module: Types of DataStage Job
Parallel Jobs
Server Jobs
Job Sequences
Setting up DataStage
Environment
DataStage Administrator
Properties
Defining Environment
Variables
Importing Table Definitions
Module: Creating Parallel Jobs
Design a simple Parallel job
in Designer
Compile your job
Run your job in Director
View the job log
Command Line Interface
(dsjob)
Module: Accessing Sequential Data
Sequential File stage
Data Set stage
Complex Flat File stage
Create jobs that read from and
write to sequential files
Read from multiple files using
file patterns
Use multiple readers
Null handling in Sequential File
Stage
Introduccin a IBM WebSphere
DataStage MANAGER
IBM WebSphere DataStage MANAGER
interfaz de usuario usada para visualizar
y editar el contenido del repositorio.
Se utiliza para almacenar y gestionar
metadatos tiles para los jobs ..
Se utiliza para impotarcion y exportacin de
componentes de archivo
sistema de proyectos Datastage .interface
Primaria al repositorio DataStage
Rutinas personalizadas y se transforma
tambin puede ser creado en el Administrador

Figure 1. Defining a project
Figure 1. Creating an application
DATASTAGE MANAGER - Functions
Introduccin a IBM WebSphere
DataStage ADMINISTRADOR
IBM WebSphere DataStage MANAGER
interfaz de usuario usada para visualizar y editar
el contenido del repositorio.




DataStage mayora de las tareas de configuracin se realiza mediante
la DataStage administrador, un programa cliente de disponer de
DataStage ..
Para acceder al Administrador de DataStage::
1 .. Desde la carpeta de l DataStage programa, elija DataStage
Administrador.
2 .. Inicie sesin en el servidor. Si lo hace como un administrador
(para Servidores de Windows NT), o como dsadm (para servidores
UNIX), usted tiene derechos ilimitados de administracin, de lo
contrario sus derechos estn restringidos
como se describe en la seccin anterior.
3 .. La ventana de Administracin DataStage aparece: La pgina
General le permite configurar las propiedades del servidor de ancho.
Se activa slo cuando al menos un proyecto existe. Los controles y
butons en esta pgina habilitadas solamente si se inicia sesin como
administrador
DATASTAGE ADMINISTRATOR Metadata Flow
Figure 1. MetaBrokers convert metadata to hub model
MetaBrokers convertir los metadatos de un formato a otro mediante la asignacin de los
elementos de un modelo estndar llamado el modelo de hhub. Los metadatos
seleccionado se importados y almacenados en el repositorio. El intercambio de
metadatos permite la descomposicin y la recomposicin de los metadatos en simples
unidades de significado.
Introduccin a IBM WebSphere
DataStage DESIGNER
IBM WebSphere DataStage Designer usada para
crear, disear y compilar tareas Datastage (pero
tambin permite testear y ejecutar). Mayormente
usado por los desarrolladores.

Diseador DataStage usado para:
_ Crear DataStage tthat Empleo se compilan en
programas ejecutables .
_ los jobs extraen, integran, agregadas,
cargan, y transforman datos
_ Crear y reutilizar los componentes de los metadatos y
job
_ Permite el uso grfica familiar de tcnicas para
desarrollar procesos para la extraccin, cleansing,
transformacin, integracin de
y la carga de datos ..
Figure 1. Table Definitions
window
Usted puede importar, crear y editar las definiciones
de tabla de muchas fuentes (por ejemplo, una fuente
de definiciones de tabla son los metadatos
de WebSphere Information Analyzer). Al editar o ver
un cuadro, las definiciones de la ventana se abre el
cuadro,

DATASTAGE DESIGNER - Flow
Figure 2. J ob difference report
Una opcin en el WebSphere DataStage y el
Diseador de QualityStage muestra las diferencias
entre los puestos de trabajo o las definiciones
expuestas en un contexto de WebSphere DataStage.
La figura 2 muestra un informe de texto con vnculos
con el editor correspondiente en el cliente de diseo.
Tambin puede ver las diferencias en los subgrupos
de puestos de trabajo, tales como contenedores
compartidos y rutinas. Este informe, opcionalmente,
se pueden guardar como un archivo XML.
Figure 3. Choosing a job type
usted elige el tipo de job
para crear y cmo crear
Figure 4. Simple WebSphere DataStage job
muestra el ms bsico job WebSphere DataStage, de tres etapas:
- Etapa de datasource.Fuente de datos (de entrada)
-Etapa deTransformacin (procesamiento)
- Etapa Target (salida)
DATASTAGE DESIGNER - Flow
DATA SOURCE
DataStage job Binding le permite vincular manualmente la salida de un job WebSphere DataStage a la entrada de otro job
WebSphere DataStage.
Origen de datos de identidad le permite identificar manualmente las bases de datos duplicados y esquemas
TARGETWebSphere DataStage realiza la transformacin de datos y el movimiento de los sistemas de origen a destino en
los sistemas de proceso por lotes y en tiempo real.
Las fuentes de datos pueden incluir archivos indexados, los archivos secuenciales, bases de datos relacionales, archivos,
fuentes de datos externas, aplicaciones empresariales, y las colas de mensajes
WebSphere DataStage tambin puede tratar el datawarehouse como el sistema de fuente que alimenta un datamart como el
sistema de destino, por lo general localizadas, los territorios subconjunto de datos que, como clientes, productos y geogrficos
DATASTAGE DESIGNER - Concepts
TRANSFORMACION
Agregacin
O resumen de la consolidacin de los valores de datos en un solo valor. Recogida diaria de datos de ventas para ser agregado al
nivel de la semana es un ejemplo comn de agregacin.
Conversin de base
Asegurarse de que los tipos de datos estn correctamente convertidos y se asigna desde el origen al destino columnas.
Limpieza
Resolver las incoherencias y se fijan las anomalas en los datos de origen.
Derivacin
La transformacin de datos de mltiples fuentes por medio de un algoritmo.
Enriquecimiento
La combinacin de datos procedentes de fuentes internas o externas para proporcionar un significado adicional a los datos.
Normalizar
Reducir la cantidad de datos redundantes y potencialmente duplicados.
Pivotante
Conversin de registros en un flujo de entrada con varios registros de la tabla correspondiente en el data warehouse o data mart.
Clasificacin
Secuenciacin de los datos basados en los datos o valores de cadena.
Figure 5. More complex WebSphere DataStage
job
los jobs puede ser tan sofisticado como exige la
integracin de datos de su empresa necesita
Figure 6. Tool palette
Cada fuente de datos y cada paso del proceso es una etapa
en el diseo de puestos de trabajo.
Las etapas estn vinculadas para mostrar el flujo de datos.
Arrastrar y soltar las etapas de la paleta de herramientas a la
lona. Esta paleta contiene los iconos de las etapas y los
grupos que se pueden personalizar para organizar las etapas,
DATASTAGE DESIGNER
Using Rational Data Architect to map source tables to a target table
DATASTAGE DESIGNER
Ejemplos de etapas en Datastage :
Cada etapa tiene caractersticas que le indican cmo realizar o procesar datos. Propiedades podra
incluir el nombre de archivo para la etapa de archivo secuencial, las columnas para ordenar, las
transformaciones a realizar, y el nombre de la tabla de base de datos para la fase de DB2.
DATASTAGE DESIGNER
EXPORTANDO UNA APLICACION
Figure 1. Inputs and outputs are determined by the job definition
Figure 1. Exporting an application
Introduccin a IBM WebSphere
DataStage Director
IBM WebSphere DataStage Director es
una herramienta utilizada principalmente
para validar, calendarizar, testear,
ejecutar y monitorear Jobs de DataStage.
Usado por los operadores y los testers.

DATASTAGE INGRESAR A LA HERRAMIENTA
Servidor al cual se
desea conectar
Se debe seleccionar
el proyecto
Usuario y Contrasea
DATASTAGE INGRESAR A LA HERRAMIENTA
Repositorio de Jobs
y Secuencias
Lista de Jobs y
Secuencias
Status de Jobs
y Secuencias
DATASTAGE DIRECTOR
ltima Fecha de
Ejecucin
Tiempo de Duracin
DATASTAGE DIRECTOR
Funciones Bsicas
Ejecutar Proceso
Parar ejecucin de
Un Proceso
Reestablecer
Un Proceso
FUNCIONES BSICAS
Log de ejecucin
DATASTAGE DIRECTOR
Agendar Procesos
Agendar Ejecucin de
Un proceso
AGENDAR PROCESOS
Lista de procesos a
agendar
DATASTAGE DIRECTOR
Seleccionar opcin
Para agendar proceso
Frecuencia de
Ejecucin
Das de
Ejecucin
Hora de
Ejecucin
AGENDAR PROCESOS
Parmetros de
Ejecucin
Modificar ejecucin
agendada
AGENDAR PROCESOS
Monitorear Ejecuciones
MONITOREAR EJECUCIONES
Funcin Ejecutar
Parmetros de
Ejecucin
El Status cambia a
RUNNING
Seleccionar
Monitor
MONITOREAR EJECUCIONES
MONITOREAR EJECUCIONES
Nombre del Stage Status del Stage
Nmero de Registros
procesados
Depuracin de Errores de
Ejecucin
DEPURACIN DE ERRORES
Status de Ejecucin
Aborted
Seleccionar Funcin
Ver Log
DEPURACIN DE ERRORES
Registro de Error
Detalle del Evento
Recuperacin de Errores de
Ejecucin
RECUPERACIN DE ERRORES
Seleccionar Funcin
Reiniciar
El Status cambia a
has been reset

You might also like