You are on page 1of 98

Sistemas de Data Warehousing

Diseo e Implementacin
Gestin de Bases de Datos
Dra. Anglica Urrutia Seplveda

Temario: Diseo Conceptual


Introduccin. Diseo Conceptual: Modelos Multidimensionales. Diseo Lgico Relacional. Implementacin en OLAP en SQL SERVER. Conclusiones.

Introduccin

Temas:

Motivaciones: La informacin y las organizaciones Caractersticas de los Sistemas de DW Desarrollo de Sistemas DW.

Motivaciones

Problemtica planteada:

Acceso a Informacin para la toma de decisiones.

La informacin y las organizaciones

Las organizaciones tienen necesidad de:

Conocimiento:

Informacin:

Materia prima para toma de decisiones. Es lo que se desea construir.

Datos:

Materia prima para conocer los fenmenos reales. Un item de datos es informacin segn el contexto de toma de decisiones.
Materia prima de la informacin. Generados por procesos que no necesariamente los explotan.

La informacin y las organizaciones

Los datos existen, pero ...

No siempre se acceden fcilmente. No siempre se explotan.

La informacin suele ser difcil de obtener:

Un reporte de los Laboratorios Bell indica que la cantidad de datos se duplica cada 5 aos, y que solo se usa un 5% de ella.

Deben obtenerse los datos:


En un cierto contexto, un tem puede ser informacin:

A partir de los cuales se construye la informacin. Que definen el contexto del mismo. Dependiendo del tipo de decisiones a tomar. Dependiendo de la persona encargada. Dependiendo de la calidad de su valor.

La informacin y las organizaciones

Y los sistemas de informacin tradicionales ...


Orientados a sistemas operacionales. Asociados a procesos productivos. Procesan grandes cantidades de transacciones.

Pueden resolver estas necesidades ?

Sistemas de Produccin y de Decisin

Sistemas orientado a la Produccin:

Prioridad:

tiempo de respuesta a transacciones read-write.

Se manejan datos actuales muy detallados. Estables y de larga vida util. Prioridad:

Sistema orientado a la Decisin:

expresividad y eficiencia en consultas complejas.

Datos actuales+histricos resumidos. En constante evolucin.

Sistemas de Produccin y de Decisin

Conclusin.

Se trata de sistemas con objetivos diferentes. Se construyen para ser eficientes en sus objetivos.

No es posible usar uno para las tareas del otro.

Sistemas de Data Warehousing

Sistemas de Data Warehousing

Algunos conceptos:

Diccionario de Datos o Metadata:

Asocia objetos del negocio a datos en BDs.

Anlisis multidimensional y herramientas OLAP:

Modelamiento del problema en dimensiones.


Bsqueda de correlaciones entre datos. Se agregan criterios de Relevancia y Pertinencia de Datos.

Data Mining:

Calidad de Datos

SDW: Visin General

Definiciones:

Data Warehouse [Inmon 94]:

Es un conjunto de datos orientados a temas, integrados, no voltiles e histricos, organizados para soportar un proceso de toma de decisiones. Es un sistema informtico capaz de ofrecer informacin para toma de decisiones, y cuya pieza principal es un Data Warehouse.

Sistema de Data Warehousing:

Sistemas de Data Warehousing

Definiciones (cont.):

Datos Orientados a Temas:

En los DW, los datos se organizan en torno a los Temas principales de la organizacin

Datos integrados:

Heterogeneidad de datos:

Diferentes reas de la organizacin. Diferentes tipos (tradicionales, geogrfico, documentos). Unificacin de conceptos. Construccin del dato integrado a partir de los fuentes.

Aspectos a resolver en la integracin:


Sistemas de Data Warehousing

Definiciones (cont.):

Datos histricos:

Se deben manejar los datos con su referencia temporal.

Datos no voltiles:

Los datos deben ser lo suficientemente estables como para permitir anlisis largos sin que cambien durante el mismo. Esto se obtiene como consecuencia de:

La historizacin. La planificacin de la carga.

Sistemas de Data Warehousing

Los Data Marts.

Son aplicaciones de anlisis de datos en reas precisas de negocios. Por ejemplo:

Ventas, Marketing, Recursos Humanos.

Toman sus datos del Data Warehouse. Priorizan la funciones de anlisis de datos:

Interfaces a usuario. Indicadores especficos al rea de negocio.

Normalmente basados en OLAP.

Estructura del Data Warehouse

Estructura del Data Warehouse

Tipos de Operaciones/Transformaciones (1):

Extraccin de datos.

Consiste en extraer los datos de la BD fuente y cargarlo en el ODS o DW.

Filtrado.

Consiste en filtrar datos no admisibles en el DW.


Consiste en adaptar formatos o valores para que cumpla pautas definidas en el DW. Consiste en integrar datos provenientes de dos fuentes.

Modificacin de formato o valores.

Integracin.

Estructura del Data Warehouse

Tipos de Operaciones/Transformaciones (2):

Clculos y Consolidaciones (Agregaciones).

Consiste en calcular indicadores a partir de datos base. Pueden implicar consolidaciones.

Generacin de datos histricos (historizacin).

Consiste en agregar marcas de tiempo a datos.


Consiste en agregar atributos diferenciadores de diferentes versiones de un objeto base. La historizacin permite hacer esto marcando la versin con un valor temporal.

Generacin de versiones.

Propiedades de los Sist. DW

Un Sistema de DW debera :

Mantener una relacin adecuada con BD Fuentes:


Acceso a BDs heterogneas y multiplataforma. Independiente de los Sistemas de Produccin. Soportar mltiples tipos de usuarios. Ofrecer Interfaces a usuario avanzadas.

Permitir acceso efectivo a usuarios finales:

Funcionar en arquitecturas de varios niveles.

Acceso a BD Fuentes heterogneas

BD Fuentes heterogneas:

Diferentes modelos de datos:


Relacional. Archivos legados (legacy). Geogrficos. Documentos electrnicos. Fuentes externas de datos (P.ej: cotizaciones bolsa). Diferentes modelizaciones de informacin similar.

Diferentes formatos:

Claves diferentes para los mismos objetos.

Soportar mltiples tipos de usuarios

Diferentes niveles jerrquicos:


Directivos. Gerentes de rea. Mandos tcnicos. Planificacin. Control. Anlisis.

Diferentes funciones:

Arquitecturas en Varios Niveles

Ejemplos de Arquitecturas de SDW:

Interaccin con Metadata

Proceso de Desarrollo

Herramientas Consultas y Reportes

Productos:

Business Objects. Andyne - GQL. Seagate - Crystal Reports. Soft AG - Esperant Oracle - Discoverer Y OLAP IBM - Application System, QMF SQL Server - OLAP Informix - Viewpoint Otros

Herramientas OLAP

Introduccin:

Implementan Modelos Multidimensionales.

Los Modelos MD representan los datos como dimensiones en un hipercubo.

Tecnologa en pleno desarrollo y expansin. Diferentes alternativas tecnolgicas:

ROLAP vs. MOLAP vs. HOLAP:


ROLAPs: actuan directamente sobre BD Rel. MOLAPs: trabajan sobre almacenamiento especializado. HOLAP: intentan aplicar ambas estrategias.

OLAP - Modelos Multidimensionales

Motivaciones:

Representar los datos en forma ms cercana a la intuicin del usuario. Resolver problemas planteados en sistemas relacionales. La informacin se representa como: cuadros de doble o triple entrada. cubos de "n" dimensiones. Una BD-MD incluye varias dimensiones.

Principios generales:

OLAP - Modelos Multidimensionales

Ejemplo: Anlisis de ventas de autos

Sistemas de Data Warehousing

Diseo Conceptual

Motivacin

Cules son las herramientas que necesita


el diseador para poder razonar sobre los datos y presentrselos al usuario ?

Modelos de Datos

Los niveles en diseo de BDs:

Proceso de Diseo

Enfoques de Diseo Conceptual

Anlisis desde requerimientos:

Los requerimientos son el universo de informacin. Las bases fuente se relacionarn luego. Aplicable cuando se tienen Bases Fuentes complejas. (Se analizan con los requerimientos en mente). Trabajos: [Car00], [Sap99], [Hus00], [Fra99].
Datos fuentes son el universo de informacin. El DW se obtiene transformando las fuentes. Aplicable cuando los requerimientos estn poco claros. Trabajos: [Gol98a], [Cab98].

Anlisis desde datos:


Etapas de Diseo Conceptual

Las principales etapas son:

Definir un esqueleto de esquema:

Primer grupo de dimensiones medidas.

Establecer correspondencia entre requerimientos y datos fuentes. Completar jerarquas en las dimensiones. Especificar segundo grupo de medidas (calculadas).
Iterar

Diseo Conceptual

Modelos Multidimensionales
Temas:

Motivacin. Estructuras en los MMD. Operaciones en los MMD

Motivacin

Motivacin

Motivacin

Motivacin

Modelos Multidimensionales

Qu tienen en comn estas dos ltimas representaciones?

El usuario final (gerente) las entiende y maneja habitualmente. Representar los datos en forma cercana a la intuicin del usuario. Resolver problemas planteados en sistemas relacionales.

Objetivos de los MMD:

MMD en la arquitectura

Caractersticas

Se representan los datos como una matriz.

En los ejes estn los criterios de anlisis. En los cruces estn los valores a analizar. A esta estructura se le llama Cubo o Hipercubo.

Caractersticas

Agregando una 3a. dimensin:

Caractersticas

Agregando una 4a. dimensin:

Estructuras bsicas

Los Cubos o Hipercubos constan de:

Dimensiones:

Medidas

Criterios de anlisis de los datos. Macro-objetos del problema. Variables independientes. Ejes en el hipercubo. Valores o indicadores a analizar. Datos asociados a relaciones entre los objetos del problema. Variables dependientes. Variables en la interseccin de las dimensiones.

Estructuras bsicas

En el ejemplo anterior:

Dimensiones:

Modelo Color Vendedor Fecha

Medida:

Cantidad Vendida

Dimensiones

Jerarquas:

Los valores se organizan en jerarquas (categoras). Por ejemplo: Dimensin: Vendedores

Dimensiones

Jerarquas alternativas:

Pueden haber varias jerarquas para una misma dimensin. Por ejemplo:

Dimensin Vendedores: Regin / Ciudad / Vendedor. Sexo / Rango_Edad / Vendedor.

Dimensiones

Jerarquas Arbitrariamente Complejas

Medidas

Propiedades:

Se ubican en la interseccin de algunos valores de las dimensiones. Dado un valor para cada dimensin se puede determinar un valor para la medida.

Medidas

Cubos

La realidad se modela como un conjunto de cubos.

Cada cubo, esta formado por:


Un conjunto de Dimensiones organizadas en jerarquas. Un conjunto de Medidas asociadas a cada Coordenada.

Es posible moverse en las jerarquas de las dimensiones y observar de esa forma, diferentes visiones de las medidas.

Caso de Estudio

Operaciones

Principales operaciones en modelos MD:


Slice. Dice. Rotacin. Drill-down. Drill-up. Roll-up. Drill-across. Drill-through.

Operaciones: Slice

Seleccionar Dimensiones (Slice)

Se define un subconjunto del hipercubo especificando sobre qu dimensiones interesa analizar qu medida.

Operaciones: Slice

Operaciones: Dice

Filtrado (DICE)

Se fijan valores para algunas dimensiones.

Operaciones: Rotacin

Rotacin.

Selecciona el orden de visualizacin de las dimensiones.

Operaciones: Drill-up, drill-down

Movimientos en la Jerarqua de una Dimensin (Drill-up,Drill-down)

Operaciones: Drill-up, drill-down

Drill-Up o Drill-Down pueden verse como ajuste en las escalas de los ejes. Son agrupamientos y des-agrupamientos.

Operaciones: Roll-up

Consolidacin (Roll-Up).

Calcula las medidas en funcin de agrupamientos. Realiza el re-clculo de la medida de acuerdo a los ajustes de escala.

Limites de los MMD

Los MMD no realizan adecuadamente ciertas operaciones:

Salvo en algunos trabajos de investigacin, no se habla de representacin y consulta de datos descriptivos o secundarios. Tampoco se permiten diferentes RollUps por medida.

Entonces:

Se deben resolver con otras tcnicas, o Se deben considerar en el diseo.

Caractersticas de los MMD

Resumen:

Permiten describir una realidad en trminos de matrices multidimensionales (Cubos). Desde el punto de Vista del DW, se utilizan para describir Datamarts o el DW Completo. Las Dimensiones pueden tener una o ms jerarquas.

Diseo Conceptual

Estrategia basada en Medina y Dimensiones

Temas: Modelo CMDM. Pautas de Diseo. Ejemplos.

Modelo CMDM

Objetivos principales:

Representacin directa, expresiva y precisa de esquemas multidimensionales. Basado en conceptos aceptados de MMD. Independiente de las implementaciones. Tesis de maestras [Car00].

Caractersticas:

Desarrollado por el grupo CSI (InCo).

Modelo CMDM

Estructuras bsicas.

Niveles. Dimensiones.

Con Jerarquias, formadas por Niveles. Incluye Medidas (Dimensionalidad Genrica).

Relaciones dimensionales. Cubos.

Cruzamientos especficos.

Modelo CMDM

Dimensiones:

Una dimensin esta formada por:

Modelo CMDM

Dimensiones:

Ejemplo:

Modelo CMDM

Niveles:

Un nivel representa un conjunto de datos.

Modelo CMDM

Niveles:

Ejemplo:

Modelo CMDM

Jerarquas:

Los niveles se organizan en jerarquas. Cada jerarqua est compuesta por uno o varios niveles. En cada jerarqua:

Se tiene una relacin <1-n> entre objetos de nivel superior e inferior.

Modelo CMDM

Jerarquas:

Ejemplo

Modelo CMDM

Relaciones Dimensionales:

Representan cruzamientos entre Dimensiones. Las Medidas participan como Dimensiones. Vista como una relacin:

Se tiene un elemento en el conjunto relacin si y solo si hay un cruzamiento. Esto obliga a que las Dimensiones participantes realmente sean cruzables.

Modelo CMDM

Relaciones Dimensionales.

Ejemplo

Modelo CMDM

Esquema Conceptual MD:

Est formado por un conjunto de Relaciones Dimensionales. Las Relaciones Dimensionales pueden compartir Dimensiones.

Permite el Drill-Across.

Cubos:

Dada una Relacin Dimensional, un cubo representa un cruzamiento concreto entre niveles determinados de las Jerarquas de la RD.

Modelo CMDM

Cubos: Ejemplo.

Modelo CMDM

Conclusiones sobre CMDM.

Apunta a dar un modelo de especificacin de esquemas conceptuales Multidimensionales.


Cumpliendo un rol equivalente al del Modelo ER. Los esquemas conceptuales MD luego sern traducidos a esquemas lgicos MD. Mejoras de la herramienta CASE. Un lenguaje de Restricciones de Integridad. Una base formal para el modelo.

Todava en desarrollo, se trabaja sobre:


Pautas de diseo

Preguntas bsicas en diseo:

Qu es una Dimensin y qu es una Medida? Tiene sentido construir cualquier cruzamiento de niveles? Cundo definir una Dimensin con varias jerarquas o varias Dimensiones? Con qu criterios definir una o varias Relaciones Dimensionales? Dada una relacin dimensional, cualquier operacin de roll-up es correcta? Cmo clasificar las medidas calculadas?

Def. de Dimensiones y Medidas

Qu items pueden ser medidas y cules dimensiones?

No hay ningn criterio ni mtodo efectivo para tomar la decisin. Pueden haber indicios basados en:

Objetos del problema y/o criterios de anlisis Vs. Indicadores y/o medidas. Inters de totalizar segun Drill-Ups. Identificadores Vs. No Identificadores. Estudio de distribucin de valores. Estudio de independencia de variables.

Def. de Dimensiones y Medidas

Separar objetos de medidas o Identificadores Vs. no identificadores.

Ejemplos:

Los vendedores, son un objeto del problema, por lo tanto tienen posibilidades de funcionar bien como una dimensin. El tiempo es tpicamente, un criterio de anlisis. El promedio de autos vendidos por vendedor y por fecha, es casi seguro una medida. Los autos vendidos pueden ser considerados una medida en realidad las cantidades de autos vendidos.

Contraejemplo:

Jerarquas en dimensiones

Criterios para construir jerarquas:


Definir caminos de navegacin (drill-down/up). Definir agrupamientos naturales de los datos (reportes). Asociar diferentes niveles de clculo de indicadores. Cuidado con el comportamiento de las medidas cuando se hace roll-up.

Atencin !

Jerarquas en dimensiones

Ejemplos:

Los supervisores de ventas estudian las ventas segn la ubicacin geogrfica de los clientes. Los analistas de marketing estudian los clientes segn segmentos de mercado. Se hacen reportes de distribucin geogrfica de los segmentos de mercado. La seccin depsito maneja fechas calendario, en cambio contadura maneja aos fiscales.

Relaciones dimensionales

Ejemplos de distintas Medidas:

Tipos de frmulas

Frmulas descriptivas:

Datos fuentes o agregacin de datos fuentes. Ej:


Cantidad de unidades en stock. Costo del item Ultimo precio de venta Cantidad de unidades salientes Margen de ganancia Promedio diario de unidades en stock.

Conclusiones

Tcnica de diseo

Introduccin de un modelo conceptual.


Guiada por los requerimientos de informacin. Aparecen tareas de mapping.


Se busca una notacin abstracta y efectiva. Representacin de conceptos multidimensionales Construccin de dimensiones y jerarquas. Construccin de relaciones dimensionales. Aditividad en medidas.

Pautas de buen diseo.


Diseo Lgico

MODELO RELACIONAL PARA CUBOS

Temas: Estrella. Copo de Nieve.

Diseo de un DW Relacional

Caractersticas del DW

Acceso y mantenimiento de datos


Consultas complejas Se considera solo-lectura. El mantenimiento no se hace va sistema OLTP, sino en forma "batch". Usuario final accede directamente al DW con herramientas de consulta (OLAP)

Modelo Relacional poco adecuado para consultas dimensionales.

Diseo de un DW Relacional

Modelo Dimensional de [Kim96]

Tablas de hechos (fact tables)


donde se guardan las medidas numricas del negocio Interseccin de todas las dimensiones granularidad clave compuesta (la combinacin de las fk) donde se guardan las descripciones textuales de las dimensiones del negocio

Tablas de dimensin (dimension tables)

Jerarquas: desnormalizadas o normalizadas

Tipos de esquemas en el MD-Rel

Star: Es la estructura bsica del MD

1 tabla grande central y un conjunto de tablas mas chicas organizadas alrededor de la tabla de hechos.

Otras opciones MD-Rel

Star-Cluster schema [MK00]

Diseo Conceptual
Implementacin en SQL SERVER
Temas:

Service manager.

Analysis Manager: Es un complemento que se ejecuta en Microsoft Management Console (MMC)

Cubo en Estrella y Copo de Nieve

Datos del Cubo Mediante el Examinador de Cubos

Diseo Conceptual

Conclusiones

Temas:

Proceso de diseo. Enfoques de diseo conceptual. Bibliografa.

Proceso de Diseo

Diseo Conceptual

Las principales etapas son:

Definir un esqueleto de esquema:

Primer grupo de dimensiones medidas.

Establecer correspondencia entre requerimientos y datos fuentes. Completar jerarquas en las dimensiones. Especificar segundo grupo de medidas (calculadas). Implementar en una plataforma los cubos en un diseo relacional de estrella o copo de nieve

iterar

Bibliografa

[Bal98] Ballard, C. Herreman, D. Schau, D. Bell, R. Kim, E. Valncic, A.: Data Modeling Techniques for Data Warehousing. SG24-2238-00. IBM Red Book. 1998. [Cab98] Cabibbo, L. Torlone, R.:"A Logical Approach to Multidimensional Databases", EDBT, 1998. [Car00] Carpani, F.: CMDM: A conceptual multidimensional model for Data Warehouse. Master Thesis. Advisor: Ruggia. InCo - Pedeciba, UdelaR, Uruguay, 2000. [Fra99] Franconi, E. Sattler, U.:"A Data Warehouse Conceptual Data Model for Multidimensional Aggregation", DMDW99, Germany, 1999. [Gol98a] Golfarelli, M. Maio, D. Rizzi, S.:"Conceptual Design of Data Warehouses from E/R Schemes.", HICSS98, IEEE, Hawaii,1998.

You might also like