You are on page 1of 71

17/01/2013

Antecedentes

Objetivos
Al completar este seminario usted deber:
Reconocer la diferencia entre sistemas de informacin y

sistemas transaccionales
Saber qu es Inteligencia de Negocios y su importancia en el

mercado actual
Reconocer los procesos para crear Inteligencia de Negocios Conocer la arquitectura que soporta la Inteligencia de

Negocios
Entender cmo se construyen aplicaciones de Inteligencia

de Negocios

17/01/2013

Agenda
Contenido:
Sistemas Operacionales Qu es Inteligencia de Negocios? Antecedentes y evolucin

Por Qu no podemos Obtener Informacin Estratgica de Nuestros Sistemas Actuales


Los sistemas transaccionales estn diseados para

cubrir las necesidades operacionales


Los datos no son consistentes entre las actividades

de la empresa
El acceso a los datos es complicado

Los Procesos Transaccionales estn Diseados para Satisfacer Necesidades Operacionales


Proceso de transacciones en lnea de alto rendimiento Los datos estn cambiando constantemente El detalle de los datos est a nivel de cada transaccin Las consultas intensas pueden generar inconvenientes en los sistemas transaccionales

17/01/2013

Informacin para Decisiones Crticas de Negocio

Conclusiones
Tenemos muchos datos, poca informacin Se toman decisiones por olfato, bajo presin, en tiempos

reducidos
Se toman decisiones con informacin: Insuficiente Inconsistente No confiable

Qu es Inteligencia de Negocios?
Inteligencia de Negocios es el proceso de

transformar datos en informacin y descubrir cmo se transforma esa informacin en conocimiento

- Gartner Group

17/01/2013

Inteligencia de Negocios
Sistemas Operacionales
Lo que pas Operar el negocio Usuario operativo Organizado por procesos Datos del momento Datos aislados Acceso repetitivo Optimizado para transacciones

Inteligencia de Negocios
Lo que puede pasar Mejorar el negocio Usuario gerencial Organizado por temas Datos histricos Datos integrados Acceso Ad-hoc Optimizado para consultas

El Propsito de la Inteligencia de Negocios


El Propsito de la inteligencia de negocios es

convertir grandes volmenes de datos en valor para los negocios


Decisiones Conocimiento Informacin Datos Valor

Volumen

Evolucin de la Inteligencia de Negocios


Sistemas de Informacin Ejecutivo (EIS) Sistemas de Soporte de Decisiones (DSS) Inteligencia de Negocios (BI)
BI

DSS EIS

17/01/2013

Anlisis de Datos desde Sistemas Operacionales


Estructura de datos muy compleja Diseados para alto rendimiento en manejo de transacciones La representacin de los datos no es muy significativa para los negocios Los datos estn dispersos No estn hechos para consultas complejas

Sistemas Produccin

Reportes Operacionales

Procesos de Extraccin de Datos


Usuarios finales entrenados en computacin traen

datos desde los sistemas operacionales


Slo datos que eran propiedad de los usuarios

Sistemas Operacionales

Extraccin

Toma de Decisiones

Problemas en el Manejo de la Extraccin de Datos

Sistemas Operacionales

Extraccin

Toma de Decisiones

17/01/2013

Problemas de Productividad en la Extraccin de Datos


Duplicacin de esfuerzos Mltiple tecnologa Reportes obsoletos Carencia de metadata Islas de informacin

Extraccin con Problemas de Calidad de Datos


No se utiliza la misma medida del tiempo Diferentes algoritmos de clculos Diferentes niveles de extraccin Diferentes nombres de campos Prdida de informacin No hay reglas para validaciones y correccin de datos Sin capacidades de drill down

Manejo de Negocios con Data Warehouse


Soportado por Sistemas de Informacin Provee informacin de calidad Reduce Costos Dinamismo en los negocios Mejora los mrgenes

17/01/2013

Data Warehouse y Datamart

& Consulting Group


Copyright e-Builders & Consulting Group, 2004. All rights reserved. CONFIDENTIAL

Agenda
Contenido
Qu es un Data Warehouse? Estructura de un Data Warehouse Propiedades de un Data Warehouse Qu es un Datamart? Introduccin al desarrollo de un Data Warehouse Arquitectura de referencia Esquema bsico de la metodologa de desarrollo

Qu es Data Warehouse?
Es una coleccin de datos diseada para soportar

la administracin de la toma de decisiones, orientada por temas, integrada, perdurable y variante en el tiempo. - Bill Inmon

17/01/2013

Definicin de Data Warehouse


Es un repositorio estructurado de la organizacin,

orientado a temas, variante en el tiempo, con datos histricos, usado para recuperar informacin y para el soporte en la toma de decisiones. El Data Warehouse almacena datos atmicos y resumidos.
- Definicin de Oracle

Caractersticas del Data Warehouse


Se simplifica el acceso a los datos Las bases de datos son creadas con la informacin especfica

para ser usada en la toma de decisiones


Los datos se extraen desde sus sistemas de origen con un

proceso de transformacin e integracin


Asegura integridad y calidad de los datos Perspectiva histrica

OLAP vs OLTP
OLAP
Resumen de Datos Temas por reas Esttica, se refresca Procesos analticos Pocas tablas Niveles de resumen Respuestas de segundos a minutos Valores actuales Aplicaciones Dinmica Procesos repetitivos Muchas Tablas Transacciones Respuestas de segundos a milisegundos

OLTP

17/01/2013

Estructura Diseada para el Soporte a la Toma de Data Warehouse Sistemas Operacionales Decisiones Comparativo
Manufactura Ventas Servicios Financieros Contabilidad

Ordenes Datos Operacionales estn organizados por procesos o tareas especficas

Mercadeo

Los Datos del Warehouse estn organizados por reas especficas e integrados desde datos residentes en varios sistemas operacionales

Datos Precisos Basados en el Tiempo


Sistemas Operacionales Precisin Tiempo Estructuras Claves Data Warehouse

Datos Actuales

Datos Histricos

Datos Integrados y Transformados


Sistemas Operacionales Data Warehouse

Aplicaciones Especficas

Integrados

17/01/2013

Avances Tecnolgicos que Permiten el Data Warehouse


Equipos Sistemas operativos Base de datos Herramientas de consulta Aplicaciones Arquitectura de 64-bit Tcnicas de indexado Econmico, sistemas abiertos Herramientas robustas de Data

Warehouse
Sofisticadas herramientas de

usuario final

Propiedades del Data Warehouse


Orientado a Temas Integrado

Data Warehouse

Perdurable

Variante en el Tiempo

Orientado a Temas Especficos


Aplicaciones OLTP Planes Tarjetas Seguros Prstamos Ahorros

Los datos son categorizados y almacenados por

temas especficos en vez de aplicacin por aplicacin

Tema especfico de Negocio Data Warehouse

Informacin Financiera de Clientes

10

17/01/2013

Integrado
Datos de un tema especfico de negocio son definidos y

almacenados
Ahorros

Cuentas Actuales

Prstamos

Cliente

Aplicaciones OLTP

Data Warehouse

Variante en el Tiempo
Los datos son almacenados como una serie de

fotos, cada una representando un periodo en el tiempo

Data Warehouse

Perdurable
Lo tpico en un Data Warehouse es que los datos

no son actualizados o borrados


Operacional Warehouse

Cargar

Ingresar, actualizar, borrar, leer

Leer

11

17/01/2013

Bases de datos Operacionales

Cambios en un Data Warehouse


Carga Inicial

Base de datos del Data Warehouse

Incremento

Incremento

Incremento

Limpieza / Depuracin

Warehouse de Toda la Empresa


Implementacin de gran escala El alcance abarca todo el negocio Datos de todas las reas de negocio Desarrollo incremental Una sola fuente de datos para toda la empresa Sincronizacin de todos los datos de la empresa Punto nico de distribucin para Datamarts dependientes

Data Warehouse vs Datamart


Propiedad Alcance Areas de negocio Fuente de datos Tiempo de implementacin Data Warehouse Toda la empresa Mltiples Muchas De meses a aos Datamart Departamento Una sola Pocas Meses

12

17/01/2013

Datamart Dependiente
Sistemas Operacionales Archivos Planos Datamarts

Datos Herencia

Data Warehouse

Mercadeo

Datos operacionale s

Mercadeo Ventas Finanzas RRHH Datos Externos

Ventas

Datos externos

Finanzas

Datamart Independiente
Sistemas Operacionales Archivos Flat Ventas o Mercadeo

Datos Herencia

Datos Operacion es

Datos Externos

Datos Externos

Componentes Tpicos de un Data Warehouse


Sistemas Fuentes rea de Organizacin rea de Presentacin Herramientas de Acceso

Herencia Data Warehouse Externos ODS

Operacional

Datamarts

Repositorio de Metadatos

13

17/01/2013

Desarrollo Warehouse
Gran Explosin

Por Incrementos: Incremental Top-down Incremental Bottom-up

Gran Explosin
Analizar Requerimientos de la Empresa

Construir Data Warehouse de toda la Empresa

Reportes o Almacenar en Datamarts

Desarrollo Top-Down
Analice los requerimientos a nivel de empresa Desarrolle modelo conceptual Identifique y priorice reas del negocio Seleccione un rea de negocio y complete el modelo Mapee los datos disponibles Realice anlisis de los sistemas fuentes Implemente la base de la arquitectura Tcnica Establezca metadatos, procesos de ETL
inicial para el rea de negocio

Realice la carga inicial del Datamart del rea de


negocio de acuerdo al marco establecido para el Data Warehouse

14

17/01/2013

Desarrollo Bottom-Up
Defina el alcance y cobertura del Data
Warehouse y analice el sistema fuente de acuerdo a este alcance

Defina el incremento inicial basado en


informacin crtica en beneficio del negocio y el volumen y estado de los datos

Implemente la base de la arquitectura tcnica Establezca los metadatos y ETL de acuerdo


al incremento deseado

Crear y cargar el rea de negocio inicial


y cargar el incremento inicial al Data Warehouse

Desarrollo Incremental para el Data Warehouse


Mltiples iteraciones Implementaciones pequeas Validacin de cada fase
Estrategia Definicin Anlisis Diseo Construccin Iterativo Produccin Incremento 1

Componentes del Proceso del Data Warehouse Metodologa


Arquitectura Extraccin, Transformacin y Carga (ETL) Implementacin Operacin y soporte

15

17/01/2013

Metodologa
Asegura el xito del Data Warehouse Establecer el desarrollo incremental Ofrece un enfoque por etapas para un Data Warehouse

empresarial:
Seguro Manejable Probado Recomendado

Arquitectura
Provee la planificacin, estructura y estandarizacin

necesarias para asegurar la integracin de mltiples componentes, proyectos y procesos a travs del tiempo Establece el marco, estndares y procedimientos para un Data Warehouse que abarque toda la empresa
The Data Warehousing Institute

Extraccin, Transformacin y Carga (ETL)


Procesos efectivos para la extraccin, transformacin y

carga de datos representan el factor nmero uno para que su proyecto de Data Warehouse sea exitoso y puede representar el 70% en tiempo y esfuerzo para un proyecto tpico de Data Warehouse DM Review, Marzo 2001

Source

Staging Area

Target

16

17/01/2013

Operacin y Soporte
Acceso a los datos y reportes Carga peridica al Data Warehouse Monitoreo Respuesta al cambio

Fases del Desarrollo Incremental


Estrategia Definicin Anlisis Diseo Contruccin Produccin Incremento 1

Arquitectura de Referencia ...


Fuente de Datos Construccin del Data Warehouse Acceso y Uso del Data Warehouse

Capa de Administracin de Datos Capa de Administracin de Metadatos Capa de Transporte Capa de Infraestructura

17

17/01/2013

... Arquitectura de Referencia ...


Datos de Produccin Datos de Herencia Sistemas Internos de Oficina Fuentes Externas
Fuente de Datos Construccin del Data Warehouse Acceso y uso del Data Warehouse

Capa de Administracin de Datos Capa de Administracin de Metadatos Capa de Transporte Capa de Infraestructura

Metadatos para Fuente

... Arquitectura de Referencia ...


Refinamiento Estandarizar Filtrar y Ajustar
Fuente de Datos Construccin del Data Warehouse Acceso y uso del Data Warehouse

Reingeniera Integrar y Separar Condensar / Agregar


Clculos Previos

Data Warehouse Modelar Resumir

Limpiar
Fecha de Datos Fuente

Agregar Conciliar y Validar Crear Metadatos Crear Glosario

Capa de Administracin de Datos Capa de Administracin de Metadatos Capa de Transporte Capa de Infraestructura

Traducir y Formatear Transformar y Reubicar Crear Metadatos

Verificar Calidad Datos Crear y Extraer Metadatos

... Arquitectura de Referencia


Acceso y Recuperacin Acceso y Consultas al Recuperacin Data Warehouse

Herramientas de Reporte Herramienta Anlisis


Herramientas Modelo Empresarial Herramientas Predictivas

Anlisis y Reporte

Fuente de Datos

Construccin del Data Warehouse

Acceso y uso del Data Warehouse

Reingenieria
Transformar a Estructura Multidimensional Crear Repositorios

Capa de Administracin de Datos Capa de Administracin de Metadatos Capa de Transporte Capa de Infraestructura

Consultas

Creacin y Extraccin de Aplicaciones de Produccin Metadatos Administar Administracin Metadatos del de Metadatos Data Warehouse

O LAP

18

17/01/2013

Ciclo de la Metodologa

Desarrollo Extraccin, Transformacin y Carga (ETL)

Pruebas Unitarias

Desarrollo Aplicaciones de Consulta

Pruebas Unitarias

Gestin del Proyecto

Proyectos de Data Warehouse

& Consulting Group


Copyright e-Builders & Consulting Group, 2004. All rights reserved. CONFIDENTIAL

Agenda
Contenido: Justificar proyectos de DW Planificar proyectos de DW Desarrollar proyectos de DW

19

17/01/2013

Manejo Financiero
Justificaciones financieras para una solucin de data

warehouse
Beneficios intangibles Permanece competitivo Respuesta al cambio de las condiciones del negocio Soporta reorganizacin Mejor toma de decisiones y mejores datos Reduccin de costos en Sistemas de Informacin Mejora tiempos de respuesta Reportes confiables

Manejo Financiero
Retorno de Inversin (ROI):
Para usuarios internos Para usuarios externos

ROI: Costos Asociados


Construya un buen caso para establecer Costos ROI Rentabilidad Eficiencia Objetivos Considerar: Impacto del tiempo para el ETL Requerimientos adicionales de almacenamiento Costo de la redundancia de datos Costo de base de datos, licencias de software, trabajo

20

17/01/2013

ROI: Beneficios
Tres tipos de Beneficios:
Salarios del staff de IT ahorrados por eliminar los sistemas

de soporte de decisiones tradicionales


Tiempo (y dinero) ahorrado por los gerentes por

automatizar la recoleccin e integracin de datos


Dinero ahorrado o ganado por mejores decisiones

ROI: Costos Tpicos


Costo Inicial Hardware Servidor, disco, servidor de aplicaciones, red Base de datos, opciones, herramientas de BI, herramientas de ETL Jefe de proyecto, Analistas, Instructores, desarrolladores, DBA Costo Recurrente Soporte y mantenimiento Soporte y actualizaciones

Software

Equipo

DBA, administrador de sistemas, modelador

ROI: Ejemplo
Costo inicial: $1,350,000 Costos recurrentes: $250,000 por ao Ahorros recurrentes: Personal de IT empleado en otras labores Costo Ahorrado: $150,000 por ao Mejor manejo del inventario reduce perdidas a la mitad Costo ahorrado: $125,000 por mes = $1.5 million por ao

Conclusin: Este sistema se paga a si mismo en un ao

21

17/01/2013

Fondos para el Proyecto


Demuestre y haga evidente que los costos de

integracin de sistemas son altos


Determine quin patrocina el proyecto Sistemas de Informacin - Grupo de desarrollo Departamentos - Usuarios
Departamento

Sistemas Informacin

Selecc. rea Piloto


Equipo Pequeo Corta Duracin

Departamento Departamento Ms reas Invierte el Usuario Organizaciones

Establecer Expectativas
Incremental Alcance Salida a Tiempo Fases

Manejar Expectativas
Documentando Informando a los patrocinadores Reportando el progreso a los usuario finales

22

17/01/2013

Armando el Equipo del Proyecto Jefe de proyecto


Arquitecto Ejecutivo patrocinador Analista de datos Administrador de base de datos Administrador de metadatos

Reconociendo Factores Crticos de xito


Enfocado en el negocio, no en la tecnologa Use una metodologa Iterativa Incluir a todos los interesados en el equipo de

trabajo

Requerimientos de Usuarios
Diseo fsico
Especificaciones de aplicaciones

Arquitectura tcnica

Requerimiento de usuarios del negocio

Plan de despliegue

Alcance del proyecto

Mantenimiento y crecimiento

23

17/01/2013

Tcnicas para Recolectar Requerimientos


Entrevistas Individuales Pequeos Grupos Facilidades para sesiones de grupos Tormenta de ideas Resolucin de los problemas con el consenso necesario Investigar Disponer de recursos (Reporte anual, literatura de mercadeo, contenido

Web)
Grfico de la organizacin (entender la estructura de la organizacin) Iniciativas previas de warehousing (que se hizo, qu no se hizo, por qu)

Checklist de los Requerimientos Enfocarse en reas:


Cmo hacen negocios los usuarios Quienes manejan el negocio Qu atributos necesitan los usuarios (requerido vs. lo que debe ser) Cules son las jerarquas del negocio Cules datos de los usuarios se usan y qu les gustara tener Qu niveles de detalle o resumen son necesarios Qu tipo de herramientas usan para acceder a los datos Cmo los usuarios esperan ver los resultados

Toma de Requerimientos: Posibles Obstculos


Algunos de los posibles obstculos:
Los objetivos del negocio para el Data Warehouse no se han

especificado bien
El alcance del Data Warehouse es demasiado amplio No se ha entendido el propsito y funcin de los sistemas de

soporte de decisiones

24

17/01/2013

Estrategia de Acceso a los Datos


Defina y analice los requerimientos del los usuarios Determine las opciones de herramientas Identifique los roles de los usuarios y los

requerimientos de acceso

Requerimientos para el Acceso a los Datos


Reportes sencillos Anlisis complejos de tendencias Anlisis de regresin Anlisis multidimensional Reportes excepcionales Presupuesto y estimaciones Manipulacin de datos Minera de datos Reportes parametrizados para ejecucin batch Web o Cliente / Servidor (o ambos)

Use las Consultas Progresivamente


Comience con algo sencillo Luego algo ms analtico Se requieren diferentes tcnicas y herramientas

Flexibles
Por Qu? Qu? Por Qu? Por Qu?

25

17/01/2013

Consultas Eficientes
Consultas terminan satisfactoriamente Velocidad de ejecucin Menos uso de CPU Ms oportunidad de seguir analizando Opiniones de los usuarios

Consultas Eficientes
Consideraciones en el diseo Uso de ndices Seleccionar el mnimo de datos Emplee manejos de consultas Reducir los cuellos de botella Desarrollo de mtricas Usar consultas preparadas y probadas

Planificacin y Seguimiento de Consultas


Planificar consultas: Manejo de la informacin usada Consultas directas Ejecucin de consultas Establecer prioridades de procesos Seguimiento de consultas: Uso de recursos para las consultas Detectar consultas que no se usan Identifique las consultas que usan datos resumidos ineficientemente Identifique las consultas que realizan resmenes en tiempo de ejecucin Detecte los accesos ilegales

26

17/01/2013

Arquitectura del Acceso para Consultas


Cliente / Servidor Web

Web Server

Acceso Web
Menos costos de despliegue y manejo Menos costos de capacitacin Acceso Remoto Destacado servicio a Clientes con una imagen de Tecnologa

de punta
Mayor Colaboracin entre usuarios

Seguridad
No pase por alto la seguridad Patrocinador del rea de negocio: Revise y autorice requerimientos para el acceso Identificar mejoras Transparencia Facilidad de implementacin, mantenimiento y manejo

27

17/01/2013

Control Muy Detallado de Seguridad en Oracle


Quin soy? Dnde estoy ?

Oracle

Contexto de la aplicacin Tabla Poltica de accesos

Requerimientos de Implementacin
La Adquisicin de los datos La Calidad de los datos Documentacin Pruebas Capacitacin Soporte post implementacin

La Adquisicin de los Datos


Identificar, extraer, transformar y transportar los datos

fuentes
Considerar datos internos y externos Mover datos entre fuentes y destino Realizar anlisis de fallas de los datos entre la fuente y los

objetos de base de datos de destino


Definir la carga inicial y la perdica Definir requerimientos de herramientas Construir, probar y ejecutar los procesos de adquisicin de

datos

28

17/01/2013

La Calidad de los Datos


Asegure la consistencia de los datos, su confiabilidad y precisin Desarrollar estrategias para: Limpieza Integridad Procedimientos Identificar reglas de negocio para: Limpieza Manejo de errores Auditorias y control Definir requerimientos de las herramientas de calidad de datos Construir, Probar y ejecutar los modulos de calidad de datos

Documentacin
Producir entregables escritos Glosario Manual de usuario y documentacin tcnica Ayuda en lnea Gua de referencia de los metadatos Manual de referencia del Data warehouse Gua de nuevas caractersticas

Pruebas
Desarrolle una estrategia para las pruebas Plan de pruebas, scripts y escenarios Prueba todos los componentes: Procesos de ETL Acceso a los datos Acceso directo Regresin Volumen Respaldos Recuperacin Actas de aceptacin de pruebas

29

17/01/2013

Capacitacin
Requerimientos: Tcnicos Usuario Final Negocio Identifique los participantes Silabus Disee y elabore el material Centrarse en la capacitacin de la herramienta y uso de Data

Warehouse

Soporte Post Implementacin


Evaluar y revisar el uso del data warehouse Seguimiento del uso Incrementar el Warehouse Seguimiento y respuesta a los problemas Conducir pruebas de ejecucin y afinamiento Transferir responsabilidades Evaluar y revisar la solucin implementada

Arquitectura Data Warehouse

& Consulting Group


Copyright e-Builders & Consulting Group, 2004. All rights reserved. CONFIDENTIAL

30

17/01/2013

Agenda
Contenido: Modelos de Data Warehouse Anlisis para la consecucin de un Data Warehouse Diseo de un Data Warehouse Caractersticas Modelo Dimensional Modelo fsico de Data Warehouse Arquitectura de Data Warehouse

Problemas de Modelamiento Data Warehouse


Entre los principales problemas encontrados para el

modelamiento de Data Warehouse se encuentran los siguientes:


Diferentes tipos de datos Varias maneras de usarlo Varias maneras para estructurar los datos Mltiples tcnicas de modelamiento Largos volmenes de datos

Ambiente del Data Warehouse Las estructuras dede modelamiento Estructuras Datosmas comunes se
encuentran en un ambiente de Data Warehouse:
Formato Normalizado (3NF) Esquema Estrella Esquema Copo de Nieve

31

17/01/2013

Modelo Estrella
Tabla Productos Product_id PK Product_disc,... Tabla Almacen Store_id PK District_id,...

Tabla central de hechos

Tabla Hechos Ventas Product_id FK Store_id FK Item_id FK Day_id FK Sales_amount Sales_units, ...

Dimensiones desnormalizadas

Tabla Tiempo Day_id FK Month_id Year_id,...

Tabla Unidades Item_id FK Item_desc,...

Esquema Copo de Nieve


Tbl Producto Tbl Almacen

Product_id Product_desc

Store_id Store_desc District_id

Tbl Distrito

District_id District_desc

Tbl Hechos Venta

Item_id Store_id Product_id Week_id Sales_amount Sales_units


Tbl Tiempo Tbl Unidad Tbl Depart Tbl Mgr

Week_id Period_id Year_id

Item_id Item_desc Dept_id

Dept_id Dept_desc Mgr_id

Dept_id Mgr_id Mgr_name

Esquema Copo de Nieve


Algunas herramientas lo usan directamente Mas flexible a cambios Carga de datos mas rpida Puede ser grande e inmanejable Degrada la ejecucin de las consultas Metadatos mas complejos
Pas Depto. Provincia Distrito

32

17/01/2013

Base de Datos del Data Warehouse Fases Fase 1: de Diseo


Definir el modelo del negocio

Fase 2: Definir el modelo dimensional Fase 3: Definir el modelo fsico

Fase 1: Definir el Modelo del Negocio


Realizar anlisis estratgico Crear el modelo del negocio Documentar metadatos

Realizar Anlisis Estratgico


Identificar los procesos crticos del negocio Entender los procesos del negocio Priorizar y seleccionar el proceso de negocio a implementar

Alto

Beneficio negocio Bajo Baja Factibilidad Alta

33

17/01/2013

Crear el Modelo del Negocio


Definir requerimientos del negocio: Identificar las medidas del negocio Identificar las dimensiones Identificar granularidad Identificar definiciones y reglas del negocio Verificar las fuentes

Requerimientos del Negocio Maneja el Proceso de Diseo


En primer lugar
Requerimientos

En segundo lugar

Metadatos existentes

Modelo de produccin

Investigacin

Identificar Medidas y Dimensiones

Medidas

El atributo vara continuamente: Balance Unidades vendidas Importe costo Importe de ventas

El Atributo de criterios de anlisis: Nombre producto Localizacin Empaque Capacidad

Dimensiones

34

17/01/2013

Use Matriz de Procesos


Procesos Dimensiones Ventas Retorno Inventario

Clientes Tiempo Producto Canal Promocin

Ejemplo de matriz de procesos

Determinar Granularidad
Ao? Trimestre? Mes? Semana? Da?

Identificar las Reglas del Negocio


Localizacin Proximidad Geogrfica 0 - 1 Km 1 - 5 KM > 5 KM
Producto Tipo PC Server Monitor Estado 15 cm Nuevo 17 cm Reconstruido 19 cm Propio Ninguno

Tiempo Mes > Trimestre > Ao

Almacn Almacn> Distrito > Regin

35

17/01/2013

Documentar Metadatos
La Documentacin de los metadatos debe incluir:
Documentacin de diseo de procesos Documentacin del desarrollo de los procesos Registro de cambios

Como Documentar Metadatos


Automatizado Herramienta de modelamiento de datos Herramientas de ETL Herramienta para usuarios finales Manual

Fase 2: Definir el Modelo Dimensional


Identificar tablas de hechos: Llevar las medidas del negocio a las tablas de hecho Analizar la fuente de datos para medidas adicionales Identificar tablas de dimensiones Conectar tablas de hechos con tablas de dimensiones Modelar la dimensin tiempo

36

17/01/2013

Modelo dimensional Estrella


Tabla Producto

Product_id Product_desc ...

Tabla Hechos Ventas

Tabla Almacn

Tabla Tiempo

Day_id Month_id Period_id Year_id

Product_id Store_id Item_id Day_id Sales_amount Sales_units ...

Store_id District_id ...

Tabla Unidades

Item_id Item_desc ...

Caractersticas de la Tabla Hechos de Contienen mtricas numricas del negocio


Pueden almacenar gran volumen de datos Puede crecer rpidamente Pueden contener clculos y resmenes de datos Son tpicamente aditivas Estn unidas a las dimensiones
Tabla Hechos Ventas

a travs de claves forneas que hacen referencia a las claves primarias de las dimensiones

Product_id Store_id Item_id Day_id Sales_amount Sales_units ...

Caractersticas de las Tablas de Dimensiones


Las tablas de dimensiones tienen las siguientes

caractersticas:
Contienen informacin textual que representan los

atributos del negocio (criterios de anlisis)


Contienen datos relativamente estticos Estn unidas a una tabla de hechos a travs de una referencia

de clave fornea

37

17/01/2013

Caratersticas del Modelo Estrella Dimensional


El un modelo de fcil entendimiento para los usuarios Las claves primarias representan la dimensin Las columnas que no son claves forneas son valores Los hechos son altamente normalizados Las dimensiones completamente desnormalizadas Provee respuestas rpidas a las consultas La reduccin de Joins provee desempeo a las consultas Los usuarios finales expresan consultas complejas Soportado por todas las herramientas front-end

Usando el Tiempo en Data Warehouse


Definicin de estndares para el tiempo son crticas. Resmenes basados en el tiempo son complejos

La Dimensin Tiempo
El Tiempo es crtico para el Data Warehouse. Una

consistente representacin del tiempo se requiere para extender

Hechos Ventas

Dimensin Tiempo

Dnde deben ser almacenados los elementos del tiempo?

38

17/01/2013

Usando Herramientas de Modelamiento de Datos


Herramientas con interfase grfica dan mejor definicin

para modelar y documentar


Evitar las mezclas de tcnicas de modelamiento causadas

por:
Presiones para desarrollar Desarrolladores sin conocimiento Falta de estrategia

Determine una estrategia Escriba y publique formalmente Disponibilidad electrnica

Fase 3: Definiendo el Modelo Fsico


Lleve el diseo dimensional a un modelo fsico para su

implementacin
Defina la estrategia de almacenamiento e indexaciones Establezca tamao de la base de datos Defina la estrategia de indexacin inicial Defina la estrategia de particiones Actualice la documentacin de los metadatos con la

informacin fsica de los datos


Estndares para su nomenclatura

Estrategia para Definicin de Arquitectura


Obtenga planes de arquitectura existentes Obtenga los capacity plans existentes Documente las interfaces existentes Prepare capacity plans Prepare la arquitectura tcnica Documente requerimientos de sistemas operativos Desarrolle planes de recuperacin Desarrolle planes de seguridad Cree la arquitectura Cree la valoracin tcnica de riesgos

39

17/01/2013

Requerimientos de Arquitectura
Escalabilidad Mantenimiento Disponibilidad Extensibilidad Flexibilidad Integracin

Usuarios Presupuesto

Negocios Tecnologa

Tamao Base de Datos


El tamao tiene influencia en el capacity planning y el

manejo del ambiente de los sistemas


Dimensionar el tamao se requiere para: La base de datos Otras reas de almacenamiento Dimensionar el tamao no es una ciencia exacta Las tcnicas varan

Prueba de muestras de cargas


Analice una muestra representativa de datos usando

mtodos estadsticos. Asegrese que la muestra refleje:


Prueba de cargas para diferentes perodos Operaciones da por da Los datos estacionarios y los peores escenarios ndices y resmenes

40

17/01/2013

Indexando
La indexacin es usada por las siguientes razones:
Es un ahorro de Costo grande, mejorando bastante el

performance y la escalabilidad
Este puede reemplazar un full table scan por una rpida

lectura del ndice y solo leer el bloque del disco que contiene los registros necesarios.

Extraccin, Transformacin y Carga de Datos

& Consulting Group


Copyright e-Builders & Consulting Group, 2004. All rights reserved. CONFIDENTIAL

Captulo 5
Introduccin a los procesos de ETL ETL: tareas, importancia y costo Como manejar la fuente de datos Tcnicas y mtodos de extraccin Problemas con el ETL Herramientas ETL

41

17/01/2013

Procesos de Extraccin, Transformacin y Carga (ETL)


Extrae datos fuentes Transforma / Limpia datos Indexa y resume Carga en el Data Warehouse Detecta cambios Incrementa datos
Programas Gateways Herramientas Data Warehouse Sistemas Operacionales

ETL

ETL: Tareas, Importancia y Costos Data Warehouse


Extraer Limpiar Consolidar Reestructurar Cargar Mantener Incrementar

Sistemas Operacionales

ETL
Relevante til De calidad Preciso Accesible

Extraer Datos
Sistemas fuentes Datos desde varios sistemas fuentes en varios formatos Rutinas de extraccin Desarrollado para seleccionar campos de datos desde su fuente Reglas de negocio, rastros de auditoria, facilidad de correccin de errores

Mapear Datos Transformar Base de datos operacionales rea de organizacin de datos Base de datos Warehouse

42

17/01/2013

Examinando Fuente de Datos


Produccin Archivos Internos Externos

Mapeo de los Datos


Mapeo de los datos define:
Que atributos operacionales usar Como transformar los atributos para el Data Warehouse Donde van los atributos en el data Warehouse
File A F1 F2 F3 Metadata File A F1 Staging File One Number F2 F3 Name DOB Staging File One Number USA123 Name Mr. Bloggs DOB 10-Dec-56

123 Bloggs 10/12/56

Tcnicas de Extraccin
Programas: C, C++, COBOL, PL/SQL, Java Gateways: acceso transparente a las bases de datos Herramientas: Desarrollo con herramientas propias Terceros

43

17/01/2013

Mtodos de Extraccin
Mtodos lgicos de extraccin: Extraccin Total Extraccin incremental Mtodos fsicos de extraccin: Extraccin en Lnea Extraccin fuera de lnea

Anlisis: Fuentes, tecnologas Tipo de datos, calidad, dueos

Diseando Procesos de Extraccin

Opciones de Diseo: Manual, Propia, gateway, terceros Replicacin, total o actualizaciones Problemas de diseo: Volumen y consistencia de los datos Automatizacin, habilidades necesarias, recursos

Mantenimiento de los Metadatos de Extraccin


Localizacin fuentes, tipo, estructura Mtodo de acceso Privilegios Almacenamientos temporales Falla de procesos Validaciones Manejo de prdida de datos

44

17/01/2013

Herramientas de Extraccin

Criterios de Seleccin
Base funcional Caractersticas de las interfaces Repositorios de metadatos Open API Acceso a los metadatos Procesos de entrada y salida Limpieza, reformateo y auditora Referencias Requerimientos de capacitacin

Posibles Fallas de ETL


Archivos fuentes no encontrados Fallas de sistema Metadatos inadecuados Mapeos errados Inadecuada planificacin del almacenamiento Cambios en la estructura de los fuentes Inexistencia de planes de contingencia Validacin inadecuada de datos

45

17/01/2013

La Calidad en el ETL
Un Procesos de ETL debe ser Probado Documentado Monitoreado y revisado Los metadatos dispares deben coordinarse

Transformacin
La Transformacin elimina anomalas de los datos

operacionales:
Limpiar y estandarizar Presentar datos de reas especificas
Extraer Sistemas Operacionales Cargar rea de organizacin de datos Transformar: Limpiar Consolidar Reestructurar

Warehouse

Posibles Modelos de reas de Organizacin de Datos


rea remota En el sitio

46

17/01/2013

rea de Organizacin Remota rea de organizacin junto al ambiente del Warehouse


Transformacin Extrae Sistemas Operacionales Carga rea de org Warehouse

rea de organizacin en su propio ambiente


Transformacin

Sistemas Operacionales

Extrae rea de org

Carga Warehouse

Area de Organizacin en el Sitio


rea de organizacin junto al ambiente

operacional, posiblemente afectando los sistemas operacionales


Transformacin

Extrae Sistemas Operacionales rea de org

Carga Warehouse

Anomalas en los Datos


Sin clave nica Nombres y cdigos con anomalas Inconsistencias de texto y sintaxis
CUSNUM 90233479 90233489 90234889 90345672 NAME Oracle Limited Oracle Computing Oracle Corp. UK Oracle Corp UK Ltd ADDRESS 100 N.E. 1st St. 15 Main Road, Ft. Lauderdale 15 Main Road, Ft. Lauderdale, FLA 181 North Street, Key West, FLA

47

17/01/2013

Rutinas de Transformacin
Limpieza de datos Eliminando inconsistencias Agregando elementos Comparando datos Integrando datos Transformacin de datos antes de cargar

Transformando Datos: Problemas


Claves de mltiples partes Mltiples estndares locales Mltiples archivos Omisin de valores Valores duplicados Formatos de entrada Integridad referencial Nombres y direcciones

Mltiples Estndares Locales


Mltiples estndares locales Herramientas y filtros de preprocesos
cm inches DD/MM/YY MM/DD/YY 1,000 GBP FF 9,990

cm

DD-Mon-YY

USD 600

48

17/01/2013

Mltiples Archivos
Mltiples archivos fuentes agregan complejidad Simples para comenzar
Mltiple archivos fuente Lgica para detectar corregir fuente Datos transformados

Omisin de Valores
Solucin:
Ignrelos Espera para corregir Marcar registros

If NULL then field = A

Valores Duplicados
Solucin:
Tcnicas: SQL self-join Constraint en la base de datos
ACME Inc ACME Inc ACME Inc

SQL> 2 3 4 5 6 7

SELECT ... FROM table_a, table_b WHERE table_a.key (+)= table_b.key UNION SELECT ... FROM table_a, table_b WHERE table_a.key = table_b.key (+);

49

17/01/2013

Nombres
Solucin: Criterio nico
Customer

Cliente

Cliente

Contacto

Nombre

Formatos de Entrada

EBCDIC 123-73

ASCII 12373 ACME Co.

Beer (Pack of 8)

Integridad Referencial
Solucin:
SQL anti-join Constraints Herramientas especiales
Departamento 10 20 30 40 Emp 1099 1289 1234 6786 Nombre Smith Jones Doe Harris Departamento 10 20 50 60

50

17/01/2013

Calidad de los Datos: Importancia y Beneficios

Calidad de los datos: Clave para el xito de la implementacin La calidad de los datos ayuda en: Objetividad del cliente Determinando patrones de compra Identificar organizaciones: privados y comerciales Uniendo clientes Identifica datos histricos

Estndares de Calidad
Establecer estndares: Defina una estrategia de calidad Decida nivel optimo de calidad de datos Mejorando la calidad de los datos operacionales Considerar modificar reglas para los datos operacionales Documentar los fuentes Disear los procesos de limpieza cuidadosamente Limpieza inicial y su mantenimiento varan

Pautas para la Calidad de los Datos


Datos Operacionales:
No deben ser usados directamente en el Warehouse Deben ser limpiados en cada incremento No se arreglan simplemente modificando las aplicaciones

51

17/01/2013

Tcnicas de Transformacin
Uniendo y comparando datos (merge) Agragar fecha Agregar claves a los datos

Agregar Fecha: Tablas de Hechos y Product Table Dimensiones


Product_id Time_key Product_desc Sales Fact Table Item_id Store_id Time_key Sales_dollars Sales_units

Store Table Store_id District_id Time_key

Time Table Week_id Period_id Year_id Time_key

Item Table Item_id Dept_id Time_key

Resumen de Datos
1. Durante la extraccin o en el rea de organizacin de datos 2. Despus de la carga al servidor del Warehouse

Bases de datos Operacionales

rea de Organizacin de datos

Base de datos Warehouse

52

17/01/2013

Cargando Datos en el Data Warehouse


La carga mueve los datos al Warehouse La carga implica tiempo: Considerar ventana para carga Programe y automatice la carga Carga inicial mueve grandes volmenes de datos Cargas subsecuentes (peridicas) mueven menos datos
Transformar

Extrae Bases de datos Operacionales

Transporta, rea de Org carga Base de datos Warehouse

Carga Inicial y Peridica


Carga Inicial: Evento nico que puebla la base de datos con datos histricos Involucra grandes volmenes de datos Empleo de diferentes tareas Involucra grandes cantidades de proceso despus de la carga Carga Peridica: Realizada de acuerdo a los ciclos de negocio Menos datos que cargar Tareas de carga menos complejas Menores cantidades de procesos posteriores

Tcnicas y herramientas

Construyendo Procesos de Carga

Mtodos de transferencia de archivos Tiempo disponible para la carga Tiempo disponible para otras tareas Volmenes de carga inicial y peridica Frecuencia de la carga peridica Conectividad

53

17/01/2013

Construyendo los Procesos de Carga


Pruebe la tcnica propuesta Documente el propsito de la carga Supervise, repase y revise

Granuilaridad de los Datos


Importante disearla Nivel mnimo de granularidad: Caro, mximo nivel de procesos, ms espacio en disco, ms detalle Nivel mximo de granularidad: Barato, menos procesos, menor espacio en disco, menos detalle

Tcnicas de Carga
Herramientas Utilitarios y 3GL Puertas de enlace Personalice copias de programas Replicacin FTP Manual

54

17/01/2013

Creando Claves Derivadas


El uso de claves derivadas o generalizadas es recomendado

para mantener identificaciones nicas de un registro


Mtodos: Concatenar clave operacional con un nmero adicional generado Asigne un nmero secuencial generado o de una lista

109908

109908 01

109908

100

Resmenes
Tablas resumidas Vistas materializadas
Datos resumidos

Filtrando Datos
Desde el Warehouse a Datamarts CREATE TABLE AS SELECT (CTAS), or CREATE TABLE AS SELECT...

PARALLEL (pCTAS)
Datos Resumidos

Warehouse Datamarts

55

17/01/2013

Verificando Integridad de Datos


Cargar datos en archivos intermedios Compare totales de fuente y destino antes de cargar

Conteo y Cantidades

Totales Carga
Preserve, revise, arregle, entonces cargar

Archivo intermadio Conteo y Cantidades

Destino Totales

Definiendo los Metadatos del Warehouse


Datos acerca de los datos del Data Warehouse y sus procesos Vital para el Data Warehouse Usado por todos La clave para entender la informacin del Warehouse

Metadata

Metadatos de Usuarios

Usuarios Finales

Repositorio de Metadatos

Desarrolladores

Profesionales IT

56

17/01/2013

Tipos de Metadatos
Metadatos de usuario final: Clave para un buen Warehouse Ayuda para la navegacin Proveedor de informacin Metadatos ETL: Mapa de la fuente al destino Informacin de la fuente y el destino Transformaciones Contexto Metadatos operacionales: Carga, manejo y programacin de procesos Performance

Examinar los Tipos de Metadatos Metadatos del ETL


Metadata del usuario final
Repositorio de Metadatos ETL Usuario Final

Fuentes Externas

Datos Fuente Operacional

Warehouse

Metadatos del ETL


Reglas de negocio Tablas fuentes, campos y valores claves Propietarios Conversin de campos Tablas de referencia y codificacin Cambio de Nombres Cambios de claves Valores por defecto Lgica para manejar mltiples fuentes Algoritmos Fechado

57

17/01/2013

Metas de los Metadatos y su Intencin


Definir metas claras Identificar requerimientos Identificar la intencin

Metadatos

Identificando Usuarios de Metadatos


Quienes son los usuarios de los metadatos? Desarrolladores Usuario finales Qu informacin necesitan ellos? Cmo se accede a los metadatos?

Escoja Herramientas para Metadatos y Tcnicas

Herramientas: Modeladores de datos ETL Usuario final (consulta y anlisis) Esquemas de base de datos Herramientas Middleware

58

17/01/2013

Metamodelo Comn del Data Warehouse (Common Warehouse Metamodel CWM)


Diseo y Administracin
Aplicaciones analticas Cualquier Fuente ERP Operacional Externa Integracin Datos Warehouse Cualquier Acceso Reportes Consultas y Anlisis Minera

Entrega Informacin

Marts Repositorio de Metadatos CWM

6
Medidas

Modelamiento Dimensional

& Consulting Group


Copyright e-Builders & Consulting Group, 2004. All rights reserved. CONFIDENTIAL

Partes de un Modelo Dimensional


Cantidades Importes Criterios de anlisis Atributos descriptivos

59

17/01/2013

Modelo Dimensional
Composicin
Tabla de Hecho Medidas Dimensiones Elementos Atributos Agregados Copos de Nieve

Modelo Dimensional
Granularidad
Nivel mnimo de detalle

A menor granularidad, mayor cantidad de detalle Entre mayor sea la granularidad, mayor ser la cantidad de procesamiento

Dimensiones
Elementos: son los

datos a travs de los cuales establecemos jerarquas

60

17/01/2013

Dimensiones
Drill-Up y Drill-Down

Dimensiones
Ejemplos de Jerarquas

Departamento Provincia Distrito

Tipo de Producto Marca Producto Producto

Dimensiones
La mayora de las dimensiones se conformarn al menor grado de granularidad

posible
Creacin de claves primarias no son necesariamente el cdigo que se utliza en

las fuentes
Definicin clara de elementos jerrquicos Definicin de atributos descriptivos

61

17/01/2013

Dimensiones

El promedio recomendado por cada modelo

estrella est entre 4 y 15 Dimensiones por cada Tabla de Hechos

Dimensiones
Dimensiones combinadas: resulta de la unin

(producto cartesiano) de dos posibles dimensiones.


Dimensin A Dimensin B Dimensin AB

Dimensiones
Divisin de dimensiones: resulta de dividir una dimensin en dos

entidades diferentes

Dimensin A1

Dimensin A2

Dimensin A

62

17/01/2013

Dimensiones
Dimensiones muy grandes

Dimensiones
Copos de Nieve (Snowflaking)
Normalizacin de atributos Su aplicacin no es recomendada porque aumenta

los tiempos de respuesta y complica el modelo

Dimensin Hechos Dimensin

Dimensin

Copo de Nieve

Dimensin

Dimensiones
Para que una dimensin sea exitosa: Utilizar textos completos entendibles Muy descriptiva Completa (sin omitir valores) Asegurar calidad (bien escrito, sin valores imposibles, sin valores obsoletos, sin

diferentes versiones del mismo atributo)

Indexacin Desnormalizada Bien Documentada

63

17/01/2013

Dimensiones
Slowly Changing Dimension
Tcnicas para actualizacin de datos en las

dimensiones, bsicamente existen 3 tipos de actualizacin de datos crticos para los atributos principales de las dimensiones

Dimensiones
Slowly Changing Dimension
Tipo 1: Cuando existe un cambio en alguna

dimensin que afecte las consultas, se substituye el valor anterior por el nuevo

Dimensiones
Slowly Changing Dimension
Tipo 2: Cuando existe un cambio en alguna dimensin que

afecte las consultas, se agregan nuevos registros con los cambios.

64

17/01/2013

Dimensiones
Slowly Changing Dimension
Tipo 3: Cuando existe un cambio en alguna dimensin que

afecte las consultas, se colocan los cambios agregando campos en el mismo registro de la dimensin

Dimensiones
La Dimensin Tiempo
Es la dimensin mas crtica del Data

Warehouse

Se requiere una representacin

consistente del tiempo para una mejor visin de los datos

Dimensiones
Granularidad de la Dimensin Tiempo
Impacto en el tamao de la base de

datos
Establecer siempre un nivel de

granularidad menor al requerido

65

17/01/2013

Hechos
Medida: Dato numrico que determina lo

ocurrido o el comportamiento en la empresa

Hechos
La granularidad en los hechos de cada Datamart est basado en

el nivel de granularidad natural mnimo de las dimensiones que lo constituyen

Hechos
Clave primaria conformada por los FK de las

dimensiones
Dimensin Productos
PK Id Producto Atributo Atributo Atributo

Tabla de Hechos
Id Producto Id Tiempo Medida Medida Medida FK FK

Dimensin Tiempo
Id Tiempo Atributo Atributo Atributo PK

66

17/01/2013

BI Developer Components Oracle Warehouse Builder Discoverer JDeveloper Reports Developer

Reporting OLAP Data Mining Web Analytics Ad-hoc Query Personalization Portal

BI Beans

ETL

Oracle9i Discoverer Desktop

Oracle9i Discoverer Administrator

Discoverer Metadata Database Tables

67

17/01/2013

Discoverer Plus Browser Java Applet Oracle AS HTTP Server Discoverer Services

Discoverer Viewer Browser Viewer Servlet

Discoverer Desktop

End User Layer

Discoverer Administrator

Construyendo y Ejecutando una Consulta


Cliente Application Server Base de Datos

SQL

End User Layer

68

17/01/2013

Caching Data
Discoverer Plus

Client

Cache

ResultsBase

Data tables

Application Server

Redireccin a Tablas Sumarias

Summary awareness Summary tables Or Data tables

End User Layer Employees Hierarchies Joins Data dictionary emp_data emp_code view_mgr

Database

69

17/01/2013

Discoverer Plus and Discoverer Viewer Discoverer Desktop Web Client

Discoverer Administrator End User Layer

Application Server

Programando ejecucin de reportes en el tiempo

1
End user

70

17/01/2013

Oracle Discoverer Viewer

71

You might also like