Professional Documents
Culture Documents
Diseo e Implementacin
Gestin de Bases de Datos
Dra. Anglica Urrutia Seplveda
Introduccin. Diseo Conceptual: Modelos Multidimensionales. Diseo Lgico Relacional. Implementacin en OLAP en SQL SERVER. Conclusiones.
Introduccin
Temas:
Motivaciones: La informacin y las organizaciones Caractersticas de los Sistemas de DW Desarrollo de Sistemas DW.
Motivaciones
Problemtica planteada:
Conocimiento:
Informacin:
Datos:
Materia prima para conocer los fenmenos reales. Un item de datos es informacin segn el contexto de toma de decisiones.
Materia prima de la informacin. Generados por procesos que no necesariamente los explotan.
Un reporte de los Laboratorios Bell indica que la cantidad de datos se duplica cada 5 aos, y que solo se usa un 5% de ella.
A partir de los cuales se construye la informacin. Que definen el contexto del mismo. Dependiendo del tipo de decisiones a tomar. Dependiendo de la persona encargada. Dependiendo de la calidad de su valor.
Orientados a sistemas operacionales. Asociados a procesos productivos. Procesan grandes cantidades de transacciones.
Prioridad:
Se manejan datos actuales muy detallados. Estables y de larga vida util. Prioridad:
Conclusin.
Se trata de sistemas con objetivos diferentes. Se construyen para ser eficientes en sus objetivos.
Algunos conceptos:
Data Mining:
Calidad de Datos
Definiciones:
Es un conjunto de datos orientados a temas, integrados, no voltiles e histricos, organizados para soportar un proceso de toma de decisiones. Es un sistema informtico capaz de ofrecer informacin para toma de decisiones, y cuya pieza principal es un Data Warehouse.
Definiciones (cont.):
En los DW, los datos se organizan en torno a los Temas principales de la organizacin
Datos integrados:
Heterogeneidad de datos:
Diferentes reas de la organizacin. Diferentes tipos (tradicionales, geogrfico, documentos). Unificacin de conceptos. Construccin del dato integrado a partir de los fuentes.
Definiciones (cont.):
Datos histricos:
Datos no voltiles:
Los datos deben ser lo suficientemente estables como para permitir anlisis largos sin que cambien durante el mismo. Esto se obtiene como consecuencia de:
Toman sus datos del Data Warehouse. Priorizan la funciones de anlisis de datos:
Extraccin de datos.
Filtrado.
Integracin.
Generacin de versiones.
Un Sistema de DW debera :
Acceso a BDs heterogneas y multiplataforma. Independiente de los Sistemas de Produccin. Soportar mltiples tipos de usuarios. Ofrecer Interfaces a usuario avanzadas.
BD Fuentes heterogneas:
Relacional. Archivos legados (legacy). Geogrficos. Documentos electrnicos. Fuentes externas de datos (P.ej: cotizaciones bolsa). Diferentes modelizaciones de informacin similar.
Diferentes formatos:
Diferentes funciones:
Proceso de Desarrollo
Productos:
Business Objects. Andyne - GQL. Seagate - Crystal Reports. Soft AG - Esperant Oracle - Discoverer Y OLAP IBM - Application System, QMF SQL Server - OLAP Informix - Viewpoint Otros
Herramientas OLAP
Introduccin:
ROLAPs: actuan directamente sobre BD Rel. MOLAPs: trabajan sobre almacenamiento especializado. HOLAP: intentan aplicar ambas estrategias.
Motivaciones:
Representar los datos en forma ms cercana a la intuicin del usuario. Resolver problemas planteados en sistemas relacionales. La informacin se representa como: cuadros de doble o triple entrada. cubos de "n" dimensiones. Una BD-MD incluye varias dimensiones.
Principios generales:
Diseo Conceptual
Motivacin
Modelos de Datos
Proceso de Diseo
Los requerimientos son el universo de informacin. Las bases fuente se relacionarn luego. Aplicable cuando se tienen Bases Fuentes complejas. (Se analizan con los requerimientos en mente). Trabajos: [Car00], [Sap99], [Hus00], [Fra99].
Datos fuentes son el universo de informacin. El DW se obtiene transformando las fuentes. Aplicable cuando los requerimientos estn poco claros. Trabajos: [Gol98a], [Cab98].
Establecer correspondencia entre requerimientos y datos fuentes. Completar jerarquas en las dimensiones. Especificar segundo grupo de medidas (calculadas).
Iterar
Diseo Conceptual
Modelos Multidimensionales
Temas:
Motivacin
Motivacin
Motivacin
Motivacin
Modelos Multidimensionales
El usuario final (gerente) las entiende y maneja habitualmente. Representar los datos en forma cercana a la intuicin del usuario. Resolver problemas planteados en sistemas relacionales.
MMD en la arquitectura
Caractersticas
En los ejes estn los criterios de anlisis. En los cruces estn los valores a analizar. A esta estructura se le llama Cubo o Hipercubo.
Caractersticas
Caractersticas
Estructuras bsicas
Dimensiones:
Medidas
Criterios de anlisis de los datos. Macro-objetos del problema. Variables independientes. Ejes en el hipercubo. Valores o indicadores a analizar. Datos asociados a relaciones entre los objetos del problema. Variables dependientes. Variables en la interseccin de las dimensiones.
Estructuras bsicas
En el ejemplo anterior:
Dimensiones:
Medida:
Cantidad Vendida
Dimensiones
Jerarquas:
Dimensiones
Jerarquas alternativas:
Pueden haber varias jerarquas para una misma dimensin. Por ejemplo:
Dimensiones
Medidas
Propiedades:
Se ubican en la interseccin de algunos valores de las dimensiones. Dado un valor para cada dimensin se puede determinar un valor para la medida.
Medidas
Cubos
Es posible moverse en las jerarquas de las dimensiones y observar de esa forma, diferentes visiones de las medidas.
Caso de Estudio
Operaciones
Operaciones: Slice
Se define un subconjunto del hipercubo especificando sobre qu dimensiones interesa analizar qu medida.
Operaciones: Slice
Operaciones: Dice
Filtrado (DICE)
Operaciones: Rotacin
Rotacin.
Drill-Up o Drill-Down pueden verse como ajuste en las escalas de los ejes. Son agrupamientos y des-agrupamientos.
Operaciones: Roll-up
Consolidacin (Roll-Up).
Calcula las medidas en funcin de agrupamientos. Realiza el re-clculo de la medida de acuerdo a los ajustes de escala.
Salvo en algunos trabajos de investigacin, no se habla de representacin y consulta de datos descriptivos o secundarios. Tampoco se permiten diferentes RollUps por medida.
Entonces:
Resumen:
Permiten describir una realidad en trminos de matrices multidimensionales (Cubos). Desde el punto de Vista del DW, se utilizan para describir Datamarts o el DW Completo. Las Dimensiones pueden tener una o ms jerarquas.
Diseo Conceptual
Modelo CMDM
Objetivos principales:
Representacin directa, expresiva y precisa de esquemas multidimensionales. Basado en conceptos aceptados de MMD. Independiente de las implementaciones. Tesis de maestras [Car00].
Caractersticas:
Modelo CMDM
Estructuras bsicas.
Niveles. Dimensiones.
Cruzamientos especficos.
Modelo CMDM
Dimensiones:
Modelo CMDM
Dimensiones:
Ejemplo:
Modelo CMDM
Niveles:
Modelo CMDM
Niveles:
Ejemplo:
Modelo CMDM
Jerarquas:
Los niveles se organizan en jerarquas. Cada jerarqua est compuesta por uno o varios niveles. En cada jerarqua:
Modelo CMDM
Jerarquas:
Ejemplo
Modelo CMDM
Relaciones Dimensionales:
Representan cruzamientos entre Dimensiones. Las Medidas participan como Dimensiones. Vista como una relacin:
Se tiene un elemento en el conjunto relacin si y solo si hay un cruzamiento. Esto obliga a que las Dimensiones participantes realmente sean cruzables.
Modelo CMDM
Relaciones Dimensionales.
Ejemplo
Modelo CMDM
Est formado por un conjunto de Relaciones Dimensionales. Las Relaciones Dimensionales pueden compartir Dimensiones.
Permite el Drill-Across.
Cubos:
Dada una Relacin Dimensional, un cubo representa un cruzamiento concreto entre niveles determinados de las Jerarquas de la RD.
Modelo CMDM
Cubos: Ejemplo.
Modelo CMDM
Cumpliendo un rol equivalente al del Modelo ER. Los esquemas conceptuales MD luego sern traducidos a esquemas lgicos MD. Mejoras de la herramienta CASE. Un lenguaje de Restricciones de Integridad. Una base formal para el modelo.
Pautas de diseo
Qu es una Dimensin y qu es una Medida? Tiene sentido construir cualquier cruzamiento de niveles? Cundo definir una Dimensin con varias jerarquas o varias Dimensiones? Con qu criterios definir una o varias Relaciones Dimensionales? Dada una relacin dimensional, cualquier operacin de roll-up es correcta? Cmo clasificar las medidas calculadas?
No hay ningn criterio ni mtodo efectivo para tomar la decisin. Pueden haber indicios basados en:
Objetos del problema y/o criterios de anlisis Vs. Indicadores y/o medidas. Inters de totalizar segun Drill-Ups. Identificadores Vs. No Identificadores. Estudio de distribucin de valores. Estudio de independencia de variables.
Ejemplos:
Los vendedores, son un objeto del problema, por lo tanto tienen posibilidades de funcionar bien como una dimensin. El tiempo es tpicamente, un criterio de anlisis. El promedio de autos vendidos por vendedor y por fecha, es casi seguro una medida. Los autos vendidos pueden ser considerados una medida en realidad las cantidades de autos vendidos.
Contraejemplo:
Jerarquas en dimensiones
Definir caminos de navegacin (drill-down/up). Definir agrupamientos naturales de los datos (reportes). Asociar diferentes niveles de clculo de indicadores. Cuidado con el comportamiento de las medidas cuando se hace roll-up.
Atencin !
Jerarquas en dimensiones
Ejemplos:
Los supervisores de ventas estudian las ventas segn la ubicacin geogrfica de los clientes. Los analistas de marketing estudian los clientes segn segmentos de mercado. Se hacen reportes de distribucin geogrfica de los segmentos de mercado. La seccin depsito maneja fechas calendario, en cambio contadura maneja aos fiscales.
Relaciones dimensionales
Tipos de frmulas
Frmulas descriptivas:
Cantidad de unidades en stock. Costo del item Ultimo precio de venta Cantidad de unidades salientes Margen de ganancia Promedio diario de unidades en stock.
Conclusiones
Tcnica de diseo
Diseo Lgico
Diseo de un DW Relacional
Caractersticas del DW
Consultas complejas Se considera solo-lectura. El mantenimiento no se hace va sistema OLTP, sino en forma "batch". Usuario final accede directamente al DW con herramientas de consulta (OLAP)
Diseo de un DW Relacional
donde se guardan las medidas numricas del negocio Interseccin de todas las dimensiones granularidad clave compuesta (la combinacin de las fk) donde se guardan las descripciones textuales de las dimensiones del negocio
1 tabla grande central y un conjunto de tablas mas chicas organizadas alrededor de la tabla de hechos.
Diseo Conceptual
Implementacin en SQL SERVER
Temas:
Service manager.
Diseo Conceptual
Conclusiones
Temas:
Proceso de Diseo
Diseo Conceptual
Establecer correspondencia entre requerimientos y datos fuentes. Completar jerarquas en las dimensiones. Especificar segundo grupo de medidas (calculadas). Implementar en una plataforma los cubos en un diseo relacional de estrella o copo de nieve
iterar
Bibliografa
[Bal98] Ballard, C. Herreman, D. Schau, D. Bell, R. Kim, E. Valncic, A.: Data Modeling Techniques for Data Warehousing. SG24-2238-00. IBM Red Book. 1998. [Cab98] Cabibbo, L. Torlone, R.:"A Logical Approach to Multidimensional Databases", EDBT, 1998. [Car00] Carpani, F.: CMDM: A conceptual multidimensional model for Data Warehouse. Master Thesis. Advisor: Ruggia. InCo - Pedeciba, UdelaR, Uruguay, 2000. [Fra99] Franconi, E. Sattler, U.:"A Data Warehouse Conceptual Data Model for Multidimensional Aggregation", DMDW99, Germany, 1999. [Gol98a] Golfarelli, M. Maio, D. Rizzi, S.:"Conceptual Design of Data Warehouses from E/R Schemes.", HICSS98, IEEE, Hawaii,1998.