Professional Documents
Culture Documents
Antecedentes
Objetivos
Al completar este seminario usted deber:
Reconocer la diferencia entre sistemas de informacin y
sistemas transaccionales
Saber qu es Inteligencia de Negocios y su importancia en el
mercado actual
Reconocer los procesos para crear Inteligencia de Negocios Conocer la arquitectura que soporta la Inteligencia de
Negocios
Entender cmo se construyen aplicaciones de Inteligencia
de Negocios
17/01/2013
Agenda
Contenido:
Sistemas Operacionales Qu es Inteligencia de Negocios? Antecedentes y evolucin
de la empresa
El acceso a los datos es complicado
17/01/2013
Conclusiones
Tenemos muchos datos, poca informacin Se toman decisiones por olfato, bajo presin, en tiempos
reducidos
Se toman decisiones con informacin: Insuficiente Inconsistente No confiable
Qu es Inteligencia de Negocios?
Inteligencia de Negocios es el proceso de
- Gartner Group
17/01/2013
Inteligencia de Negocios
Sistemas Operacionales
Lo que pas Operar el negocio Usuario operativo Organizado por procesos Datos del momento Datos aislados Acceso repetitivo Optimizado para transacciones
Inteligencia de Negocios
Lo que puede pasar Mejorar el negocio Usuario gerencial Organizado por temas Datos histricos Datos integrados Acceso Ad-hoc Optimizado para consultas
Volumen
DSS EIS
17/01/2013
Sistemas Produccin
Reportes Operacionales
Sistemas Operacionales
Extraccin
Toma de Decisiones
Sistemas Operacionales
Extraccin
Toma de Decisiones
17/01/2013
17/01/2013
Agenda
Contenido
Qu es un Data Warehouse? Estructura de un Data Warehouse Propiedades de un Data Warehouse Qu es un Datamart? Introduccin al desarrollo de un Data Warehouse Arquitectura de referencia Esquema bsico de la metodologa de desarrollo
Qu es Data Warehouse?
Es una coleccin de datos diseada para soportar
la administracin de la toma de decisiones, orientada por temas, integrada, perdurable y variante en el tiempo. - Bill Inmon
17/01/2013
orientado a temas, variante en el tiempo, con datos histricos, usado para recuperar informacin y para el soporte en la toma de decisiones. El Data Warehouse almacena datos atmicos y resumidos.
- Definicin de Oracle
OLAP vs OLTP
OLAP
Resumen de Datos Temas por reas Esttica, se refresca Procesos analticos Pocas tablas Niveles de resumen Respuestas de segundos a minutos Valores actuales Aplicaciones Dinmica Procesos repetitivos Muchas Tablas Transacciones Respuestas de segundos a milisegundos
OLTP
17/01/2013
Estructura Diseada para el Soporte a la Toma de Data Warehouse Sistemas Operacionales Decisiones Comparativo
Manufactura Ventas Servicios Financieros Contabilidad
Mercadeo
Los Datos del Warehouse estn organizados por reas especficas e integrados desde datos residentes en varios sistemas operacionales
Datos Actuales
Datos Histricos
Aplicaciones Especficas
Integrados
17/01/2013
Warehouse
Sofisticadas herramientas de
usuario final
Data Warehouse
Perdurable
Variante en el Tiempo
10
17/01/2013
Integrado
Datos de un tema especfico de negocio son definidos y
almacenados
Ahorros
Cuentas Actuales
Prstamos
Cliente
Aplicaciones OLTP
Data Warehouse
Variante en el Tiempo
Los datos son almacenados como una serie de
Data Warehouse
Perdurable
Lo tpico en un Data Warehouse es que los datos
Cargar
Leer
11
17/01/2013
Incremento
Incremento
Incremento
Limpieza / Depuracin
12
17/01/2013
Datamart Dependiente
Sistemas Operacionales Archivos Planos Datamarts
Datos Herencia
Data Warehouse
Mercadeo
Datos operacionale s
Ventas
Datos externos
Finanzas
Datamart Independiente
Sistemas Operacionales Archivos Flat Ventas o Mercadeo
Datos Herencia
Datos Operacion es
Datos Externos
Datos Externos
Operacional
Datamarts
Repositorio de Metadatos
13
17/01/2013
Desarrollo Warehouse
Gran Explosin
Gran Explosin
Analizar Requerimientos de la Empresa
Desarrollo Top-Down
Analice los requerimientos a nivel de empresa Desarrolle modelo conceptual Identifique y priorice reas del negocio Seleccione un rea de negocio y complete el modelo Mapee los datos disponibles Realice anlisis de los sistemas fuentes Implemente la base de la arquitectura Tcnica Establezca metadatos, procesos de ETL
inicial para el rea de negocio
14
17/01/2013
Desarrollo Bottom-Up
Defina el alcance y cobertura del Data
Warehouse y analice el sistema fuente de acuerdo a este alcance
15
17/01/2013
Metodologa
Asegura el xito del Data Warehouse Establecer el desarrollo incremental Ofrece un enfoque por etapas para un Data Warehouse
empresarial:
Seguro Manejable Probado Recomendado
Arquitectura
Provee la planificacin, estructura y estandarizacin
necesarias para asegurar la integracin de mltiples componentes, proyectos y procesos a travs del tiempo Establece el marco, estndares y procedimientos para un Data Warehouse que abarque toda la empresa
The Data Warehousing Institute
carga de datos representan el factor nmero uno para que su proyecto de Data Warehouse sea exitoso y puede representar el 70% en tiempo y esfuerzo para un proyecto tpico de Data Warehouse DM Review, Marzo 2001
Source
Staging Area
Target
16
17/01/2013
Operacin y Soporte
Acceso a los datos y reportes Carga peridica al Data Warehouse Monitoreo Respuesta al cambio
Capa de Administracin de Datos Capa de Administracin de Metadatos Capa de Transporte Capa de Infraestructura
17
17/01/2013
Capa de Administracin de Datos Capa de Administracin de Metadatos Capa de Transporte Capa de Infraestructura
Limpiar
Fecha de Datos Fuente
Capa de Administracin de Datos Capa de Administracin de Metadatos Capa de Transporte Capa de Infraestructura
Anlisis y Reporte
Fuente de Datos
Reingenieria
Transformar a Estructura Multidimensional Crear Repositorios
Capa de Administracin de Datos Capa de Administracin de Metadatos Capa de Transporte Capa de Infraestructura
Consultas
Creacin y Extraccin de Aplicaciones de Produccin Metadatos Administar Administracin Metadatos del de Metadatos Data Warehouse
O LAP
18
17/01/2013
Ciclo de la Metodologa
Pruebas Unitarias
Pruebas Unitarias
Agenda
Contenido: Justificar proyectos de DW Planificar proyectos de DW Desarrollar proyectos de DW
19
17/01/2013
Manejo Financiero
Justificaciones financieras para una solucin de data
warehouse
Beneficios intangibles Permanece competitivo Respuesta al cambio de las condiciones del negocio Soporta reorganizacin Mejor toma de decisiones y mejores datos Reduccin de costos en Sistemas de Informacin Mejora tiempos de respuesta Reportes confiables
Manejo Financiero
Retorno de Inversin (ROI):
Para usuarios internos Para usuarios externos
20
17/01/2013
ROI: Beneficios
Tres tipos de Beneficios:
Salarios del staff de IT ahorrados por eliminar los sistemas
Software
Equipo
ROI: Ejemplo
Costo inicial: $1,350,000 Costos recurrentes: $250,000 por ao Ahorros recurrentes: Personal de IT empleado en otras labores Costo Ahorrado: $150,000 por ao Mejor manejo del inventario reduce perdidas a la mitad Costo ahorrado: $125,000 por mes = $1.5 million por ao
21
17/01/2013
Sistemas Informacin
Establecer Expectativas
Incremental Alcance Salida a Tiempo Fases
Manejar Expectativas
Documentando Informando a los patrocinadores Reportando el progreso a los usuario finales
22
17/01/2013
trabajo
Requerimientos de Usuarios
Diseo fsico
Especificaciones de aplicaciones
Arquitectura tcnica
Plan de despliegue
Mantenimiento y crecimiento
23
17/01/2013
Web)
Grfico de la organizacin (entender la estructura de la organizacin) Iniciativas previas de warehousing (que se hizo, qu no se hizo, por qu)
especificado bien
El alcance del Data Warehouse es demasiado amplio No se ha entendido el propsito y funcin de los sistemas de
soporte de decisiones
24
17/01/2013
requerimientos de acceso
Flexibles
Por Qu? Qu? Por Qu? Por Qu?
25
17/01/2013
Consultas Eficientes
Consultas terminan satisfactoriamente Velocidad de ejecucin Menos uso de CPU Ms oportunidad de seguir analizando Opiniones de los usuarios
Consultas Eficientes
Consideraciones en el diseo Uso de ndices Seleccionar el mnimo de datos Emplee manejos de consultas Reducir los cuellos de botella Desarrollo de mtricas Usar consultas preparadas y probadas
26
17/01/2013
Web Server
Acceso Web
Menos costos de despliegue y manejo Menos costos de capacitacin Acceso Remoto Destacado servicio a Clientes con una imagen de Tecnologa
de punta
Mayor Colaboracin entre usuarios
Seguridad
No pase por alto la seguridad Patrocinador del rea de negocio: Revise y autorice requerimientos para el acceso Identificar mejoras Transparencia Facilidad de implementacin, mantenimiento y manejo
27
17/01/2013
Oracle
Requerimientos de Implementacin
La Adquisicin de los datos La Calidad de los datos Documentacin Pruebas Capacitacin Soporte post implementacin
fuentes
Considerar datos internos y externos Mover datos entre fuentes y destino Realizar anlisis de fallas de los datos entre la fuente y los
datos
28
17/01/2013
Documentacin
Producir entregables escritos Glosario Manual de usuario y documentacin tcnica Ayuda en lnea Gua de referencia de los metadatos Manual de referencia del Data warehouse Gua de nuevas caractersticas
Pruebas
Desarrolle una estrategia para las pruebas Plan de pruebas, scripts y escenarios Prueba todos los componentes: Procesos de ETL Acceso a los datos Acceso directo Regresin Volumen Respaldos Recuperacin Actas de aceptacin de pruebas
29
17/01/2013
Capacitacin
Requerimientos: Tcnicos Usuario Final Negocio Identifique los participantes Silabus Disee y elabore el material Centrarse en la capacitacin de la herramienta y uso de Data
Warehouse
30
17/01/2013
Agenda
Contenido: Modelos de Data Warehouse Anlisis para la consecucin de un Data Warehouse Diseo de un Data Warehouse Caractersticas Modelo Dimensional Modelo fsico de Data Warehouse Arquitectura de Data Warehouse
Ambiente del Data Warehouse Las estructuras dede modelamiento Estructuras Datosmas comunes se
encuentran en un ambiente de Data Warehouse:
Formato Normalizado (3NF) Esquema Estrella Esquema Copo de Nieve
31
17/01/2013
Modelo Estrella
Tabla Productos Product_id PK Product_disc,... Tabla Almacen Store_id PK District_id,...
Tabla Hechos Ventas Product_id FK Store_id FK Item_id FK Day_id FK Sales_amount Sales_units, ...
Dimensiones desnormalizadas
Product_id Product_desc
Tbl Distrito
District_id District_desc
32
17/01/2013
Alto
33
17/01/2013
En segundo lugar
Metadatos existentes
Modelo de produccin
Investigacin
Medidas
El atributo vara continuamente: Balance Unidades vendidas Importe costo Importe de ventas
Dimensiones
34
17/01/2013
Determinar Granularidad
Ao? Trimestre? Mes? Semana? Da?
35
17/01/2013
Documentar Metadatos
La Documentacin de los metadatos debe incluir:
Documentacin de diseo de procesos Documentacin del desarrollo de los procesos Registro de cambios
36
17/01/2013
Tabla Almacn
Tabla Tiempo
Tabla Unidades
a travs de claves forneas que hacen referencia a las claves primarias de las dimensiones
caractersticas:
Contienen informacin textual que representan los
de clave fornea
37
17/01/2013
La Dimensin Tiempo
El Tiempo es crtico para el Data Warehouse. Una
Hechos Ventas
Dimensin Tiempo
38
17/01/2013
por:
Presiones para desarrollar Desarrolladores sin conocimiento Falta de estrategia
implementacin
Defina la estrategia de almacenamiento e indexaciones Establezca tamao de la base de datos Defina la estrategia de indexacin inicial Defina la estrategia de particiones Actualice la documentacin de los metadatos con la
39
17/01/2013
Requerimientos de Arquitectura
Escalabilidad Mantenimiento Disponibilidad Extensibilidad Flexibilidad Integracin
Usuarios Presupuesto
Negocios Tecnologa
40
17/01/2013
Indexando
La indexacin es usada por las siguientes razones:
Es un ahorro de Costo grande, mejorando bastante el
performance y la escalabilidad
Este puede reemplazar un full table scan por una rpida
lectura del ndice y solo leer el bloque del disco que contiene los registros necesarios.
Captulo 5
Introduccin a los procesos de ETL ETL: tareas, importancia y costo Como manejar la fuente de datos Tcnicas y mtodos de extraccin Problemas con el ETL Herramientas ETL
41
17/01/2013
ETL
Sistemas Operacionales
ETL
Relevante til De calidad Preciso Accesible
Extraer Datos
Sistemas fuentes Datos desde varios sistemas fuentes en varios formatos Rutinas de extraccin Desarrollado para seleccionar campos de datos desde su fuente Reglas de negocio, rastros de auditoria, facilidad de correccin de errores
Mapear Datos Transformar Base de datos operacionales rea de organizacin de datos Base de datos Warehouse
42
17/01/2013
Tcnicas de Extraccin
Programas: C, C++, COBOL, PL/SQL, Java Gateways: acceso transparente a las bases de datos Herramientas: Desarrollo con herramientas propias Terceros
43
17/01/2013
Mtodos de Extraccin
Mtodos lgicos de extraccin: Extraccin Total Extraccin incremental Mtodos fsicos de extraccin: Extraccin en Lnea Extraccin fuera de lnea
Opciones de Diseo: Manual, Propia, gateway, terceros Replicacin, total o actualizaciones Problemas de diseo: Volumen y consistencia de los datos Automatizacin, habilidades necesarias, recursos
44
17/01/2013
Herramientas de Extraccin
Criterios de Seleccin
Base funcional Caractersticas de las interfaces Repositorios de metadatos Open API Acceso a los metadatos Procesos de entrada y salida Limpieza, reformateo y auditora Referencias Requerimientos de capacitacin
45
17/01/2013
La Calidad en el ETL
Un Procesos de ETL debe ser Probado Documentado Monitoreado y revisado Los metadatos dispares deben coordinarse
Transformacin
La Transformacin elimina anomalas de los datos
operacionales:
Limpiar y estandarizar Presentar datos de reas especificas
Extraer Sistemas Operacionales Cargar rea de organizacin de datos Transformar: Limpiar Consolidar Reestructurar
Warehouse
46
17/01/2013
Sistemas Operacionales
Carga Warehouse
Carga Warehouse
47
17/01/2013
Rutinas de Transformacin
Limpieza de datos Eliminando inconsistencias Agregando elementos Comparando datos Integrando datos Transformacin de datos antes de cargar
cm
DD-Mon-YY
USD 600
48
17/01/2013
Mltiples Archivos
Mltiples archivos fuentes agregan complejidad Simples para comenzar
Mltiple archivos fuente Lgica para detectar corregir fuente Datos transformados
Omisin de Valores
Solucin:
Ignrelos Espera para corregir Marcar registros
Valores Duplicados
Solucin:
Tcnicas: SQL self-join Constraint en la base de datos
ACME Inc ACME Inc ACME Inc
SQL> 2 3 4 5 6 7
SELECT ... FROM table_a, table_b WHERE table_a.key (+)= table_b.key UNION SELECT ... FROM table_a, table_b WHERE table_a.key = table_b.key (+);
49
17/01/2013
Nombres
Solucin: Criterio nico
Customer
Cliente
Cliente
Contacto
Nombre
Formatos de Entrada
EBCDIC 123-73
Beer (Pack of 8)
Integridad Referencial
Solucin:
SQL anti-join Constraints Herramientas especiales
Departamento 10 20 30 40 Emp 1099 1289 1234 6786 Nombre Smith Jones Doe Harris Departamento 10 20 50 60
50
17/01/2013
Calidad de los datos: Clave para el xito de la implementacin La calidad de los datos ayuda en: Objetividad del cliente Determinando patrones de compra Identificar organizaciones: privados y comerciales Uniendo clientes Identifica datos histricos
Estndares de Calidad
Establecer estndares: Defina una estrategia de calidad Decida nivel optimo de calidad de datos Mejorando la calidad de los datos operacionales Considerar modificar reglas para los datos operacionales Documentar los fuentes Disear los procesos de limpieza cuidadosamente Limpieza inicial y su mantenimiento varan
51
17/01/2013
Tcnicas de Transformacin
Uniendo y comparando datos (merge) Agragar fecha Agregar claves a los datos
Resumen de Datos
1. Durante la extraccin o en el rea de organizacin de datos 2. Despus de la carga al servidor del Warehouse
52
17/01/2013
Tcnicas y herramientas
Mtodos de transferencia de archivos Tiempo disponible para la carga Tiempo disponible para otras tareas Volmenes de carga inicial y peridica Frecuencia de la carga peridica Conectividad
53
17/01/2013
Tcnicas de Carga
Herramientas Utilitarios y 3GL Puertas de enlace Personalice copias de programas Replicacin FTP Manual
54
17/01/2013
109908
109908 01
109908
100
Resmenes
Tablas resumidas Vistas materializadas
Datos resumidos
Filtrando Datos
Desde el Warehouse a Datamarts CREATE TABLE AS SELECT (CTAS), or CREATE TABLE AS SELECT...
PARALLEL (pCTAS)
Datos Resumidos
Warehouse Datamarts
55
17/01/2013
Conteo y Cantidades
Totales Carga
Preserve, revise, arregle, entonces cargar
Destino Totales
Metadata
Metadatos de Usuarios
Usuarios Finales
Repositorio de Metadatos
Desarrolladores
Profesionales IT
56
17/01/2013
Tipos de Metadatos
Metadatos de usuario final: Clave para un buen Warehouse Ayuda para la navegacin Proveedor de informacin Metadatos ETL: Mapa de la fuente al destino Informacin de la fuente y el destino Transformaciones Contexto Metadatos operacionales: Carga, manejo y programacin de procesos Performance
Fuentes Externas
Warehouse
57
17/01/2013
Metadatos
Herramientas: Modeladores de datos ETL Usuario final (consulta y anlisis) Esquemas de base de datos Herramientas Middleware
58
17/01/2013
Entrega Informacin
6
Medidas
Modelamiento Dimensional
59
17/01/2013
Modelo Dimensional
Composicin
Tabla de Hecho Medidas Dimensiones Elementos Atributos Agregados Copos de Nieve
Modelo Dimensional
Granularidad
Nivel mnimo de detalle
A menor granularidad, mayor cantidad de detalle Entre mayor sea la granularidad, mayor ser la cantidad de procesamiento
Dimensiones
Elementos: son los
60
17/01/2013
Dimensiones
Drill-Up y Drill-Down
Dimensiones
Ejemplos de Jerarquas
Dimensiones
La mayora de las dimensiones se conformarn al menor grado de granularidad
posible
Creacin de claves primarias no son necesariamente el cdigo que se utliza en
las fuentes
Definicin clara de elementos jerrquicos Definicin de atributos descriptivos
61
17/01/2013
Dimensiones
Dimensiones
Dimensiones combinadas: resulta de la unin
Dimensiones
Divisin de dimensiones: resulta de dividir una dimensin en dos
entidades diferentes
Dimensin A1
Dimensin A2
Dimensin A
62
17/01/2013
Dimensiones
Dimensiones muy grandes
Dimensiones
Copos de Nieve (Snowflaking)
Normalizacin de atributos Su aplicacin no es recomendada porque aumenta
Dimensin
Copo de Nieve
Dimensin
Dimensiones
Para que una dimensin sea exitosa: Utilizar textos completos entendibles Muy descriptiva Completa (sin omitir valores) Asegurar calidad (bien escrito, sin valores imposibles, sin valores obsoletos, sin
63
17/01/2013
Dimensiones
Slowly Changing Dimension
Tcnicas para actualizacin de datos en las
dimensiones, bsicamente existen 3 tipos de actualizacin de datos crticos para los atributos principales de las dimensiones
Dimensiones
Slowly Changing Dimension
Tipo 1: Cuando existe un cambio en alguna
dimensin que afecte las consultas, se substituye el valor anterior por el nuevo
Dimensiones
Slowly Changing Dimension
Tipo 2: Cuando existe un cambio en alguna dimensin que
64
17/01/2013
Dimensiones
Slowly Changing Dimension
Tipo 3: Cuando existe un cambio en alguna dimensin que
afecte las consultas, se colocan los cambios agregando campos en el mismo registro de la dimensin
Dimensiones
La Dimensin Tiempo
Es la dimensin mas crtica del Data
Warehouse
Dimensiones
Granularidad de la Dimensin Tiempo
Impacto en el tamao de la base de
datos
Establecer siempre un nivel de
65
17/01/2013
Hechos
Medida: Dato numrico que determina lo
Hechos
La granularidad en los hechos de cada Datamart est basado en
Hechos
Clave primaria conformada por los FK de las
dimensiones
Dimensin Productos
PK Id Producto Atributo Atributo Atributo
Tabla de Hechos
Id Producto Id Tiempo Medida Medida Medida FK FK
Dimensin Tiempo
Id Tiempo Atributo Atributo Atributo PK
66
17/01/2013
Reporting OLAP Data Mining Web Analytics Ad-hoc Query Personalization Portal
BI Beans
ETL
67
17/01/2013
Discoverer Plus Browser Java Applet Oracle AS HTTP Server Discoverer Services
Discoverer Desktop
Discoverer Administrator
SQL
68
17/01/2013
Caching Data
Discoverer Plus
Client
Cache
ResultsBase
Data tables
Application Server
End User Layer Employees Hierarchies Joins Data dictionary emp_data emp_code view_mgr
Database
69
17/01/2013
Application Server
1
End user
70
17/01/2013
71