Professional Documents
Culture Documents
Diseo Conceptual
Facultad de Ingeniera - In.Co. Sistemas de Data Warehousing 1
Conclusiones.
Facultad de Ingeniera - In.Co. Sistemas de Data Warehousing 2
Diseo Conceptual
Introduccin
Temas:
Motivacin. Proceso de diseo.
Motivacin
Cules son las herramientas que necesita el diseador para poder razonar sobre los datos y presentrselos al usuario ?
Modelos de Datos Conceptuales:
orientados a decidir que datos son los interesantes y cmo se relacionan entre s.
Lgicos:
orientados a expresar manipulaciones en forma abstracta para que sea viable realizar implementaciones sobre los varios tipos de manejadores disponibles.
4
Modelos de Datos
Los niveles en diseo de BDs:
Modelos de Multidimensional Registros - No hay estndares. Ent-Rel Conceptual Objetos y - CMDM (InCo). relaciones Operaciones Relacional - MD especficos. Lgico - Star-Model (Rel). Almacenamiento Propietario Parmetros en Fsico DBMSs servidores MD Enfasis
Proceso de Diseo
implementacin
. l dis
dis
o gic
esq. lg. MD
gi c
. l
refinamiento
di
gi s. l
dis. lgico
carga
Establecer correspondencia entre requerimientos y datos fuentes. Completar jerarquas en las dimensiones. Especificar segundo grupo de medidas (calculadas). iterar
Diseo Conceptual
Modelos Multidimensionales
Temas:
Motivacin. Estructuras en los MMD. Operaciones en los MMD
Motivacin
Copyright Veronika Peralta - Alvaro Illarce 1998
Data Marts
Data Warehouse
Data Warehouse
Integracin
M E T A D A T A
Bedela
Presup.
Asignac.
10
Motivacin
Representacin Tabular
MODELO MINI VAN MINI VAN MINI VAN SPORTS COUPE SPORTS COUPE SPORTS COUPE SEDAN SEDAN SEDAN COLOR BLUE RED WHITE BLUE RED WHITE BLUE RED WHITE VOLUMEN-Ventas 6 5 4 3 5 5 4 3 2
11
Motivacin
Representacin Matricial
M O D E L O
Mini Van
6 3 4
Blue
5 5 3
Red
4 5 2
White
Coupe
Sedan
COLOR
12
Motivacin
13
Modelos Multidimensionales
Qu tienen en comn estas dos ltimas representaciones?
El usuario final (gerente) las entiende y maneja habitualmente.
14
MMD en la arquitectura
Copyright Veronika Peralta - Alvaro Illarce 1998
Data Marts
Data Warehouse
Data Warehouse
Integracin
M E T A D A T A
Bedela
Presup.
Sistemas de Data Warehousing
Asignac.
15
Caractersticas
Se representan los datos como una matriz.
En los ejes estn los criterios de anlisis. En los cruces estn los valores a analizar. A esta estructura se le llama Cubo o Hipercubo.
M O D E L O
Mini Van
6 3 4
Blue
5 5 3
Red
4 5 2
White
Coupe
Sedan
COLOR
16
Caractersticas
Agregando una 3a. dimensin:
M O D E L O
Mini Van Coupe Sedan Blue Red White Carr Gleason Clyde
VENDEDOR
COLOR
17
Caractersticas
Agregando una 4a. dimensin:
M O D E L O
Mini Van
.........
Carr Gleason Clyde
VENDEDOR
Color
Color
Enero
.........
Diciembre
18
Estructuras bsicas
Los Cubos o Hipercubos constan de:
Dimensiones:
Criterios de anlisis de los datos. Macro-objetos del problema. Variables independientes. Ejes en el hipercubo.
Medidas
Valores o indicadores a analizar. Datos asociados a relaciones entre los objetos del problema. Variables dependientes. Variables en la interseccin de las dimensiones.
Facultad de Ingeniera - In.Co. Sistemas de Data Warehousing 19
Estructuras bsicas
En el ejemplo anterior:
Dimensiones:
Modelo Color Vendedor Fecha
Medida:
Cantidad Vendida
20
Dimensiones
Jerarquas:
Los valores se organizan en jerarquas (categoras). Por ejemplo: Dimensin: Vendedores
REGION Chicago Clyde Midwest St. Louis Carr Levi Gary Bolton
CIUDAD VENDEDOR
Gleason
Lucas
21
Dimensiones
Jerarquas alternativas:
Pueden haber varias jerarquas para una misma dimensin. Por ejemplo:
Dimensin Vendedores:
Regin / Ciudad / Vendedor. Sexo / Rango_Edad / Vendedor.
22
Dimensiones
Jerarquas Arbitrariamente Complejas
Vendedor Fecha
Ao Semestre Regin Ciudad Trimestre Mes Vendedor Da
Sistemas de Data Warehousing 23
Medidas
Propiedades:
Se ubican en la interseccin de algunos valores de las dimensiones. Dado un valor para cada dimensin se puede determinar un valor para la medida.
Definicin: Se llama coordenada a una tupla formada por un valor de cada dimensin.
24
Medidas
M O D E L O
Mini Van
Coupe
Sedan
4
Blue
3
Red
2
White
COLOR
25
Cubos
La realidad se modela como un conjunto de cubos.
Cada cubo, esta formado por:
Un conjunto de Dimensiones organizadas en jerarquas. Un conjunto de Medidas asociadas a cada Coordenada.
Es posible moverse en las jerarquas de las dimensiones y observar de esa forma, diferentes visiones de las medidas.
26
Caso de Estudio
Dimensiones
Vendedores Regin Semestre Trimestre Vendedor Mes Fechas Ao Cuatrimestre Bimestre Semana Modelos Modelo Colores Color
Medidas
Ventas Cantidad
Ciudad
Da
27
Operaciones
Principales operaciones en modelos MD:
Slice. Dice. Rotacin. Drill-down. Drill-up. Roll-up. Drill-across. Drill-through.
Facultad de Ingeniera - In.Co. Sistemas de Data Warehousing 28
Operaciones: Slice
Seleccionar Dimensiones (Slice)
Se define un subconjunto del hipercubo especificando sobre qu dimensiones interesa analizar qu medida.
Dimensiones
Vendedores Regin Colores Color Modelos Ciudad Modelo
Medidas
Ventas Cantidad
Vendedor
29
Operaciones: Slice
M O D E L O Blue Red White Color Mini Van Coupe Sedan Carr Gleason Clyde Mini Van ......... Coupe Sedan Blue Red White Color Carr Gleason Clyde VENDEDOR
Enero
.........
Diciembre
M O D E L O
Mini Van Coupe Sedan Blue Red White Carr Gleason Clyde VENDEDOR
COLOR
30
Operaciones: Dice
Filtrado (DICE)
Se fijan valores para algunas dimensiones.
Resultado
Mini Van Coupe Sedan Blue Red White Carr Gleason Clyde Coupe Gleason Clyde Red White
31
Operaciones: Rotacin
Rotacin.
Selecciona el orden de visualizacin de las dimensiones.
M O D
Mini Van Coupe Sedan Blue Red White Carr Gleason Clyde
L O
VENDEDOR
COLOR
V MV E OE DN N ED D E LE D OD O O R R
Mini Van Carr Coupe Gleason Sedan Clyde Blue Red Carr Clyde Gleason White Sedan White Coupe Red Mini Van Blue
COLOR VENDEDOR
32
Mini Van Coupe Sedan Blue Red White Carr Gleason Clyde
Drill-Down en Vendedores.
Dimensin: Vendedores
St.Louis Chicago
33
Drill-Down
Drill-Up
34
Operaciones: Roll-up
Consolidacin (Roll-Up).
Calcula las medidas en funcin de agrupamientos. Realiza el re-clculo de la medida de acuerdo a los ajustes de escala.
10 5 15
Mini Van Coupe Sedan Blue Red White Carr Gleason Clyde
St.Louis Chicago
35
Operaciones: Roll-up
Propiedades:
Se debe especificar cul es la operacin que calcula el nuevo valor de la medida.
Esta operacin puede ser: suma, promedio, etc. Pueden haber medidas con comportamientos diferentes. Por ejemplo:
Cantidades de productos vendidos se acumulan. Notas en exmenes se promedian.
36
Operaciones: Roll-up
En general cualquier operacin de navegacin en un cubo implica un nuevo clculo de la medida.
37
Operaciones: Drill-Across
Drill-Across
Relaciona dos cubos.
Mini Van Coupe Sedan Blue Red White Carr Gleason Clyde Marzo
Ventas Ventas
6 3 4
4 5
Febrero Enero
Marzo
6 3 4
4 5
7 9 3
Carey
Febrero Enero
38
Operaciones: Drill-Through
Drill-Through.
Accede a datos descriptivos.
Mini Van Coupe Sedan Blue Red White Carr Carr Gleason Gleason Clyde Clyde
Ventas Ventas
23 38 29
39
Entonces:
Se deben resolver con otras tcnicas, o Se deben considerar en el diseo.
Facultad de Ingeniera - In.Co. Sistemas de Data Warehousing 40
41
42
Pendientes...
Cmo se describen los aspectos Multidimensionales del DW?
Con qu lenguaje? Con qu criterios se construye esa descripcin?
Respuestas Rpidas...
No hay un lenguaje aceptado. Hay criterios muy generales pero no hay criterios absolutos
Facultad de Ingeniera - In.Co. Sistemas de Data Warehousing 43
Diseo Conceptual
Proceso de Diseo
implementacin
. dis
dis
ic lg
. l
gi c
di
dis. lgico
carga
45
Modelo CMDM
Objetivos principales:
Representacin directa, expresiva y precisa de esquemas multidimensionales.
Caractersticas:
Basado en conceptos aceptados de MMD. Independiente de las implementaciones.
Modelo CMDM
Estructuras bsicas.
Niveles. Dimensiones.
Con Jerarquias, formadas por Niveles. Incluye Medidas (Dimensionalidad Genrica).
47
Modelo CMDM
Dimensiones:
Una dimensin esta formada por:
Dimensin: Vendedores DEPART. CIUDAD VEND. Pando Canelones Las Piedras ...
...
Niveles Nombre
Sistemas de Data Warehousing 48
Modelo CMDM
Dimensiones:
Ejemplo:
Dimensin: Vendedores DEPART. CIUDAD VEND. Pando Canelones Las Piedras ... ...
Dimensin Vendedores
49
Modelo CMDM
Niveles:
Un nivel representa un conjunto de datos.
Dimensin: Vendedores DEPART. CIUDAD VEND. Pando Canelones Las Piedras ... ...
Perez Lopez Miguez Pino ... Nivel: Vendedor Id_vend: 5376 Apellido:Perez Nombre:Juan VEND. Edad: 24 Lopez Id_vend: 376 Apellido:Pino Nombre:Jose Edad: 55
...
50
Modelo CMDM
Niveles:
Ejemplo:
Nivel: Vendedor Id_vend: 5376 Apellido:Perez Nombre:Juan VEND. Edad: 24 Lopez Id_vend: 376 Apellido:Pino Nombre:Jose Edad: 55
...
51
Modelo CMDM
Jerarquias:
Los niveles se organizan en jerarquias. Cada jerarqua est compuesta por uno o varios niveles. En cada jerarqua:
Se tiene una relacin <1-n> entre objetos de nivel superior e inferior.
52
Modelo CMDM
Jerarquas:
Ejemplo:
Dimensin: Vendedores DEPART. CIUDAD VEND. Pando Canelones Las Piedras ... ...
Dimensin Vendedores
Departamentos Nombre: Uruguay Ciudad Nombre: String Vendedor Id_vendedor#: Integer Apellido: String Nombre: String Edad:[18-60]
53
Modelo CMDM
Relaciones Dimensionales:
Representan cruzamientos entre Dimensiones. Las Medidas participan como Dimensiones. Vista como una relacin:
Se tiene un elemento en el conjunto relacin si y solo si hay un cruzamiento. Esto obliga a que las Dimensiones participantes realmente sean cruzables.
54
Modelo CMDM
Relaciones Dimensionales.
Ejemplo.
Vendedores Colores Modelos
Ventas
Cantidad de unidades
55
Modelo CMDM
Esquema Conceptual MD:
Est formado por un conjunto de Relaciones Dimensionales. Las Relaciones Dimensionales pueden compartir Dimensiones.
Permite el Drill-Across.
Cubos:
Dada una Relacin Dimensional, un cubo representa un cruzamiento concreto entre niveles determinados de las Jerarquas de la RD.
Facultad de Ingeniera - In.Co. Sistemas de Data Warehousing 56
Modelo CMDM
Cubos:
Ejemplo.
Mini Van Coupe Sedan Blue Red White Mini Van Coupe Sedan White Red Blue Carr Gleason Clyde
Ventas
Cantidad de unidades
St.Louis Chicago
57
Modelo CMDM
Conclusiones sobre CMDM.
Apunta a dar un modelo de especificacin de esquemas conceptuales Multidimensionales.
Cumpliendo un rol equivalente al del Modelo ER. Los esquemas conceptuales MD luego sern traducidos a esquemas lgicos MD.
58
Pautas de diseo
Preguntas bsicas en diseo:
Qu es una Dimensin y qu es una Medida? Tiene sentido construir cualquier cruzamiento de niveles? Cundo definir una Dimensin con varias jerarquias o varias Dimensiones? Con qu criterios definir una o varias Relaciones Dimensionales? Dada una relacin dimensional, cualquier operacin de roll-up es correcta? Cmo clasificar las medidas calculadas?
Facultad de Ingeniera - In.Co. Sistemas de Data Warehousing 59
Contraejemplo:
Los autos vendidos pueden ser considerados una medida en realidad las cantidades de autos vendidos.
61
62
No debieran existir niveles distintos de la No debieran existir niveles distintos de la misma jerarqua que sean independientes misma jerarqua que sean independientes entre s. entre s.
63
40
Ciudades
Estado
30 20 10 0
0 10 20 30
40
50
60
4
Modelos
10
Ciudad
64
Jerarquas en dimensiones
Criterios para construir jerarquas:
Definir caminos de navegacin (drill-down/up). Definir agrupamientos naturales de los datos (reportes). Asociar diferentes niveles de clculo de indicadores.
Atencin !
Cuidado con el comportamiento de las medidas cuando se hace roll-up.
Facultad de Ingeniera - In.Co. Sistemas de Data Warehousing 65
Jerarquas en dimensiones
Ejemplos:
Los supervisores de ventas estudian zonas, que son conjuntos de departamentos. El pago de comisiones a vendedores depende de su antigedad, cada 5 aos cambian los porcentajes. Los jefes de seccin deben presentar informes trimestrales y anuales de ventas. Cada cliente puede realizar compras en diferentes ciudades del pas.
Facultad de Ingeniera - In.Co. Sistemas de Data Warehousing 66
Jerarquas en dimensiones
Disyuntiva:
Definir dimensiones complejas o simples.
67
Jerarquas en dimensiones
Ejemplos:
Los supervisores de ventas estudian las ventas segn la ubicacin geogrfica de los clientes. Los analistas de marketing estudian los clientes segn segmentos de mercado. Se hacen reportes de distribucin geogrfica de los segmentos de mercado. La seccin depsito maneja fechas calendario, en cambio contadura maneja aos fiscales.
68
Relaciones dimensionales
Disyuntiva:
Definir una o varias Relaciones Dimensionales
69
Relaciones dimensionales
Ejemplos:
Clientes Fechas Productos Fechas Vendedores Productos
Ventas
Importe Venta
Stock
Clientes Unidades Stock Fechas
Vendedores Productos
Gastos
Importe Gasto
70
Funciones Roll-Up
Dada una Relacin Dimensional y una medida:
Cualquier funcin de roll-up es vlida?
NO !
En particular no siempre se puede sumar valores.
71
Aditividad
1 5 2 3
Ventas Ventas
12
7 3 2 3
21/02/97 14/02/97 7/02/97 30/01/97 23/01/97 19/01/97 12/01/97 Carr Gleason Clyde
02/97 01/97
72
Aditividad
Para Ralph Kimball, The Data Warehouse Toolkit. [Kim96] The most useful facts in a fact table are numeric and
ADDITIVE. Additivity is crucial because data warehouse applications almost never retrieve a single fact table record .. And the only useful thing to do with so many records is to add them up
Para Lenz & Shoshani, Summarizability in OLAP and Statistical Data Bases. [Len97]
El resumen es una propiedad importante. Un resumen incorrecto puede llevar a anlisis, conclusiones y decisiones errneas. Principales avances en el tema de aditividad : Provienen de las Bases de Datos Estadsticas.
Facultad de Ingeniera - In.Co. Sistemas de Data Warehousing 73
Problema: Disjuntez
Medida: Cantidad de vendedores Medida: Cantidad de vendedores diferentes que vendieron determinado diferentes que vendieron determinado modelo en determinada fecha. modelo en determinada fecha.
2 0 1
9 1/ 7
0 2 1
2 3 0
2 0 1
9 1/ 7
1 1 2
1 1 1
1 1 1
3 3 4
/9 7
Coupe
5 3
01 /9 7
Sedan
12
/0
97 97 1/ 1/ /0 /0 19 23
30
/0
7 97 97 /9 2/ 2/ 02 /0 /0 7/ 14 21
02
74
Problema: Disjuntez
Si no hay disjuntez por ninguna dimensin:
Dimensiones: materias, fechas, institutos. Medida: cantidad de aprobados.
Un alumno puede dar examenes en varias fechas, de varias materias, de varios institutos.
75
Problema: Disjuntez
Si la disjuntez es slo para algunas dimensiones:
Dimensiones: fechas, geografia, rubro, producto. Medida: cantidad de clientes que compraron.
Es disjunta para las dimensiones que clasifican a los clientes. Hay interseccin para las otras dimensiones. Un cliente slo puede estar en un rubro y un lugar geogrfico, pero puede comprar varios productos en varias fechas.
76
Problema: Disjuntez
Si la disjuntez se da para algunos niveles de las dimensiones:
Dimensiones: vendedores, fechas, productos (rama, producto). Medida: cantidad de vendedores distintos.
Cada vendedor se especializa en una sola rama.
77
Problema: Disjuntez
Debemos estudiar:
Cmo se cuentan los objetos respecto a las dimensiones?
Si slo puede estar en una rama jerrquica. Si puede haber intersecciones: en toda la dimensin o en algunos niveles.
78
Problema: Clculos
Medida: Indice de venta por vendedor Medida: Indice de venta por vendedor Definicin: Cantidad vendida //Cantidad de vendedores Definicin: Cantidad vendida Cantidad de vendedores
1 0 3
1 2 4
4 1 0
1 0 3
2 4 3
1 1 1
1 1 1
4 6 5
7 /9 02
Coupe
3 10
7 /9 01
Sedan
97 1/ /0 12
97 97 97 1/ 1/ 1/ /0 /0 /0 19 23 30
7 97 97 /9 2/ 2/ 02 /0 /0 7/ 14 21
79
Problema: Clculos
Cundo hacer el roll-up
Qu debo hacer?
Aplicar el roll-up a cada medida y luego el clculo. Hacer el clculo y luego aplicar algn roll-up.
80
Problema: Clculos
Ejemplo:
Nota Promedio= suma notas / total materias
1o (matematicas 3, fisica 5). Prom=4. 2o (programacion 10). Prom=10. Cantidad=3, Suma=18, Prom=6. Prom=7
Caudal promedio
Me interesa promediar los promedios de cada dia, no importando la cantidad de muestras. Lunes (10,11,12,11,11), martes (15,15), miercoles(14,14). Prom=13,3. Cantidad=9, Suma=113, Prom=12,6.
Facultad de Ingeniera - In.Co. Sistemas de Data Warehousing
81
Tipos de Medidas
Flow o aditivas
Conserva la semntica al aplicar la suma como RollUp, realizando DrillUp por cualquier dimensin que la defina. Refieren a un evento o periodo, y son registradas al final del mismo. Ejemplos:
$ en una factura, cantidad de nacimientos por mes, expedientes procesados en una semana, cantidad de ventas en el da.
Facultad de Ingeniera - In.Co. Sistemas de Data Warehousing 82
Tipos de Medidas
Stock o semi_aditivas
Conserva la semntica al aplicar la suma como RollUp, al realizar DrillUp, en todas las dimensiones menos el tiempo. Son registradas en un punto especfico del tiempo y refieren a ese instante. Ejemplos:
Inventarios (de cualquier tipo). Saldos de cuentas. Censos de ciudadanos.
Facultad de Ingeniera - In.Co. Sistemas de Data Warehousing 83
Tipos de medidas
Value_per_unit o no aditivas
No conserva la semntica al aplicar la suma como RollUp, al realizar DrillUp, en varias o ninguna dimensin. Son determinados en un momento dado pero su unidad de medida las diferencia de stock. Ejemplos:
Precio por tem, tasa de cambio, edades, notas. Mediciones: temperaturas, caudales. Anomalas de disjuntez.
Facultad de Ingeniera - In.Co. Sistemas de Data Warehousing 84
No Temporal
Stock Flow Vpu Min Max Sum Avg Ok Ok Ok Ok Ok Ok Ok Ok Ok Ok Ok No ok Ok Ok
No ok Ok Ok Ok Ok
Range Ok
Range Ok
86
Medidas Calculadas
Tipos de frmulas [Tho97]:
Segn el rol en el anlisis:
Descriptivas, Explicativas, Predictoras, Prescriptivas.
Problemas tcnicos:
Tener en cuenta precedencia de operadores. Evaluar la materializacin de clculos.
Facultad de Ingeniera - In.Co. Sistemas de Data Warehousing 87
Tipos de frmulas
Frmulas descriptivas:
Datos fuentes o agregacin de datos fuentes. Ej:
Cantidad de unidades en stock. Costo del item Ultimo precio de venta Cantidad de unidades salientes Margen de ganancia Promedio diario de unidades en stock.
88
Tipos de frmulas
Frmulas explicativas:
Relaciones entre datos fuentes (o agregaciones). Ejemplo:
Rotacin (stock) = Total de unidades salientes Promedio diario de unidades % de ganancia = ltimo precio venta - costo ltimo precio venta retorno (inventario) = rotacin * % de ganancia
89
Tipos de frmulas
Frmulas predictoras:
Prediccin sobre valores que an no han sido medidos (por pertenecer al futuro). Es la combinacin de una relacin conocida con una extrapolacin. Ejemplo:
Predecir variaciones sobre las ventas (y/o ganancias) a partir del retorno de inventario. Si el margen de retorno del inventario es x las ventas tendrn una variacin futura de y = f(x)
90
Tipos de frmulas
Frmulas prescriptivas:
Indican acciones a tomar. Son como recetas que se calculan con frmulas complejas, a partir de los valores medidos. Ejemplo:
Cuntas unidades debo producir de cada producto? A qu precio debo vender? En cunto debo reducir los costos para mejorar ganancias / competencia?
Facultad de Ingeniera - In.Co. Sistemas de Data Warehousing 91
Ejemplo
Siguiendo las etapas de diseo:
Definir un esqueleto de esquema:
Primer grupo de dimensiones medidas.
Establecer correspondencia entre requerimientos y datos fuentes. Completar jerarquas en las dimensiones. Especificar segundo grupo de medidas (calculadas). iterar
92
Ejemplo (cont.)
Se desea analizar la actividad de los obreros de una empresa constructora. Primer esquema MD:
Dimensiones:
Obras. Fechas. Obreros.
Obras Obreros
Ventas
Trabajado
Medidas:
Cantidad de horas trabajadas. Das Trabajados.
Facultad de Ingeniera - In.Co. Sistemas de Data Warehousing
Fechas
93
Ejemplo (cont.)
Das Trabajados 20
190
Horas Trabajadas
Correspondencia con datos fuentes
O b r a s
C B A
3241 1254 4323
07/97 06/97 05/97 04/97 03/97 02/97 01/97
Fechas
Obreros Fechas Obra 3241 01/97 1254 01/97 4323 01/97 Horas A 115 A 92 C 190 Dias 18 20 20 Obra A A C
Obreros
94
Ejemplo (cont.)
Dimensiones
Fechas Ao Zona Semestre Obra Mes Categora Obrero Obras Obreros Tipo Clasificacin
Medidas
Trabajado Cantidad horas das
95
Ejemplo (cont.)
Se agregan medidas calculadas:
Nivel de Actividad = Horas/Das*9.6.
Das Trabajados
Trabajado Cantidad horas das nivel actividad
Nivel de actividad
20 .99 190
Horas Trabajadas
O b r a s
C B A
3241 1254 4323
07/97 06/97 05/97 04/97 03/97 02/97 01/97
Fechas
Obreros
Facultad de Ingeniera - In.Co. Sistemas de Data Warehousing 96
Prctico
Se siguen las etapas de diseo:
Definir un esqueleto de esquema:
Primer grupo de dimensiones medidas.
Establecer correspondencia entre requerimientos y datos fuentes. Completar jerarquas en las dimensiones. Especificar segundo grupo de medidas (calculadas). iterar
97
Surgen de:
Visin general del negocio y los requerimientos.
Documentacin:
Descripcin de objetos del negocio. Formalizacin de los requerimientos. Primer versin del esquema conceptual.
Facultad de Ingeniera - In.Co. Sistemas de Data Warehousing 98
99
Requerimientos
Dimensiones y medidas involucradas en cada requerimiento. Referencia: [Bal98]
100
101
Correspondencias
Correspondencias entre:
Esquema conceptual. Bases fuentes.
Objetivo:
Ubicar en las fuentes los objetos conceptuales. Verificar que los datos existen.
Documentacin:
Cuadros de correspondencias.
Parejas: item de un nivel, atributo de una tabla o clculo.
Facultad de Ingeniera - In.Co. Sistemas de Data Warehousing 102
Restricciones de integridad.
Documentacin:
Esquema conceptual. Cuadros de roll-up.
Facultad de Ingeniera - In.Co. Sistemas de Data Warehousing 103
Estudio de Aditividad
Cuadros de Roll-Up.
fecha rendimiento avance #materias + PR estudiante + + NA NA + departam + materia +
104
Conclusiones
Tcnica de diseo
Guiada por los requerimientos de informacin. Aparecen tareas de mapping.
Perspectivas
Pautas de buen diseo:
Tema en investigacin. Formas Normales MD. Criterios de BD Estadsticas. Trabajo en el InCo - CSI.
Herramientas CASE:
Sistemas comerciales orientados a diseo lgico. Carencias en nivel conceptual. Trabajo en el InCo - CSI.
Facultad de Ingeniera - In.Co. Sistemas de Data Warehousing 106
Diseo Conceptual
107
Problemtica
Principios
Un diseo conceptual es una actividad necesaria
buena documentacin cumplimiento de los requerimientos
Sin embargo,
No hay demasiados trabajos sobre cmo realizar un diseo conceptual de un dw. El modelo ER no es un modelo conceptual aceptado como adecuado para dw.
Facultad de Ingeniera - In.Co. Sistemas de Data Warehousing 108
Enfoque de la solucin
Proponer un modelo conceptual para dws. Proponer una metodologa semi-automtica:
bd operacional descripta por un esquema ER modelo conceptual de un dw
La metodologia puede tambin aplicarse a partir de un esquema de bd relacional con info. sobre las FKs.
Facultad de Ingeniera - In.Co. Sistemas de Data Warehousing 109
El modelo conceptual DF
Modelo conceptual de un dw [Gol98a]
= { esquema hecho }
110
DF / Hecho
Hecho
Corresponde a eventos que ocurren dinmicamente asociados a aquello que se desea analizar. Ejemplos:
En un comercio: venta de productos En un hospital: admision de pacientes En un operador telefnico: llamada telefnica
111
DF / Dimensiones Jerarquas
Dimensiones
Una dimensin define la granularidad elegida para representar hechos.
Jerarquas
Una jerarqua define la manera relevante para el proceso de toma de decisiones en que las instancias hecho pueden ser seleccionadas y agrupadas (aggregates).
112
DF / Representacin grfica
Un esquema hecho se estructura como un "rbol". La raz es un hecho
Puede contener atributos hecho o medidas
Atributos numricos que "miden" el hecho
113
DF / Representacin grfica
Atributo dimensional Jerarquia fabricante Dimension Hecho categoria tipo tamao producto Relacin opcional gerente almacen ciudad direccion depto Atributo no dimensional
Venta
mes semana cant. vendida ganancia
Atributo hecho
Facultad de Ingeniera - In.Co. Sistemas de Data Warehousing 114
DF / Representacin grfica
Nodo crculo representa atributo dimensin. Nodo directamente conectado al hecho representa una dimensin.
Un hecho representa una relacin N:N entre las dimensiones.
DF / Representacin grfica
Atributos no dimensionales
Representa info. adicional sobre un atributo de una jerarqua. No pueden ser utilizados para agrupar Se representan con una lnea
Relaciones de opcionalidad
Entre pares de atributos Se representan con arcos con una marca
116
Aditividad de medidas
Patrn de consultas tpicas en olap
Buscar datos resumidos/agrupados para llenar un reporte estructurado para ser analizado con propsitos estadsticos o de toma de decisiones.
2. un operador para combinar los valores de medidas de cada instancia hecho en valores de cada grupo.
Facultad de Ingeniera - In.Co. Sistemas de Data Warehousing 117
Aditividad de medidas
No todas las combinaciones entre criterios de agrupamiento y operadores resultan en resumenes "consistentes". Algunas causas de combinaciones problemticas:
Significado de la medida Cardinalidad de la relacin entre el hecho y una dimensin
118
Aditividad de medidas
Cardinalidad de la relacin entre los correspondientes en oltp al hecho y a una dimensin
E.g. Cant. de clientes (estimada contando la cantidad de tickets)
Dimensiones: Producto, Almacen, Fecha
1 Fabricante n Producto n n Ticket Venta n 1 Fecha n 1 Almacen
Aditividad de medidas
Producto Almacen p1 p2 a1 a1 Fecha d1 d1 CantClientes 2 3 Fabricante f1
Producto
p1
p2
Para f1, 5 tickets puede ser inconsistente ya que el "2" y el "3" pueden ser el resultado de contar ms de una vez 1 ticket de venta con los productos p1 y p2.
t1 p1 t2 f1 p2 t3 5
Facultad de Ingeniera - In.Co. Sistemas de Data Warehousing
Aditividad de medidas
Aditiva
Una medida es aditiva si el operador sum puede ser aplicado para resumir sobre todas las jerarquias. E.g. cant. vendida
Semi-aditiva
Una medida es semi-aditiva si no es aditiva para una o ms dimensiones. E.g. nivel de inventario
No aditiva
E.g. temperatura
Las medidas semi-aditivas y no-aditivas podran ser resumidas usando otros operadores (e.g. avg, min).
Facultad de Ingeniera - In.Co. Sistemas de Data Warehousing 121
DF / Aditividad
DF permite especificar la aditividad de las medidas.
Por defecto, los medidas son aditivas. Se incorporan elementos grficos para representar las semi-aditivas y no-aditivas
122
DF / Aditividad
tipo categoria tamao producto gerente almacen ciudad depto
fabricante
mes
semana
Venta
cant. vendida ganancia cant. Trans. Vta nivel inventario
AVG
direccion
123
Construccin rbol de atributos (AA) AA Refinamiento del rbol de atributos AA Definicin de dimensiones Esquema hecho Definicin de medidas Esquema hecho + glosario Definicin de jerarquas Esquema hecho 1
Facultad de Ingeniera - In.Co. Sistemas de Data Warehousing
...
Esquema hecho n
124
E/R de partida
Puede contener jerarquias de generalizacin
Se consideran equivalentes a relaciones 1:1 entre la super-entidad y cada sub-entidad.
Atributos simples.
125
Ejemplo / ER de partida
tipo categoria (1,1) (1,n) gerente
Tipo
Categoria
Gerente
(1,n)
(0,n) tamao (1,1) (0,n) (1,n) Linea Producto Ticket precioUnit fecha
Almacen
Ciudad
Compra
fabricante producto cant nroTicket almacen direccion ciudad
126
Definicin de hechos
Un hecho
es un concepto de inters para el proceso de toma de decisiones, corresponde a eventos que ocurren dinmicamente en el negocio de la empresa
Definicin de hechos
Gua general
Entidades o relaciones que representan registros actualizados frecuentemente son buenos candidatos (e.g. Linea de Venta). Aquellos representando propiedades estticas del dominio no lo son (e.g. Producto). Nota: Esta guas son independientes de los req. del usuario.
tamao (0,n)
cant (1,1)
Producto
fabricante producto
Linea Venta
Ticket Compra
nroTicket
129
130
132
Se proponen 2 operaciones:
Podar (prunning) Injertar (grafting)
Se aplica cuando a pesar de que un nodo del rbol contenga info. no relevante, los descendientes se deben mantener.
E.g. 1 - interesa agrupar por categoria pero no por tipo de productos. E.g. 2 - no interesa el detalle a nivel de ticket
Facultad de Ingeniera - In.Co. Sistemas de Data Warehousing 134
producto + nroTicket producto cant precioUnit categoria tamao fabricante fecha gerente direccion almacen
ciudad
depto
135
Consecuencias de Injertar
Injertar en un nodo hijo h de la raz de un esquema hecho, corresponde a "disminuir" el nivel de granularidad de las instancias hecho.
Si el nodo h tiene ms de un hijo, injertar aumenta la cantidad de dimensiones del esquema hecho.
Cuando el nodo donde injertar tiene una relacin de opcionalidad, todos sus hijos heredan la relacin de opcionalidad
Facultad de Ingeniera - In.Co. Sistemas de Data Warehousing 136
Definicin de dimensiones
La eleccin de las dimensiones es crucial en el diseo de un dw ya que determinan la granularidad de las instancias hecho.
Necesidad de informacin a partir de requerim.
Las dimensiones determinan la manera en que las instancias hecho pueden ser resumidas (aggregated) en el proceso de toma de decisiones.
137
Dimensiones / Ejemplo
Asumamos que los anlisis ms detallados son por semanas. Las dimensiones sern:
Producto Almacn Semana
producto cant precioUnit categoria tamao fabricante
Facultad de Ingeniera - In.Co. Sistemas de Data Warehousing
Definicin de medidas
Ejemplos de medidas:
contar la cantidad de instancias de una entidad F representando a un hecho. sum/avg/min/max de expresiones sobre atributos del AA no dimensiones. un hecho puede no tener medidas.
140
Ejemplos
cantVendida = sum(LineaV.cant) ganTotal = sum(LineaV.cant * LineaV.precioUnit) cantTransVenta = count(LineaV)
Estos operadores se interpretan como aplicados sobre todas las instancias de la entidad LineaV del E/R que relacionan la misma semana, almacen y producto
Facultad de Ingeniera - In.Co. Sistemas de Data Warehousing 141
Definicin de medidas
Podar atributos numricos no relevantes y sin sentido.
E.g. cant y precioUnit
producto + nroTicket producto semana categoria tamao fabricante gerente direccion almacen
142
Definicin de jerarquas
El AA muestra posibles jerarquas. El AA puede ser refinado.
Podar e injertar para eliminar detalles no relevantes.
E.g. relaciones 1:1.
Agregar nuevos niveles de resumen definiendo rangos para los atributos numricos.
E.g. en la dimensin semana, agregar el atributo mes.
143
Definicin de jerarquas
Identificar los atributos no dimensionales
No usados para resumir sino informativos E.g. direccin, tamao
144
mes
semana
VentaRes
cantVendida ganTotal cantTransVenta
direccion
Metodologa / Resumen
ER
Req. usuario
Definicin hechos hecho 1 Construccin rbol de atributos AA Refinamiento del rbol de atributos AA Definicin de dimensiones Esquema hecho Definicin de atributos hecho Esquema hecho + glosario Definicin de jerarquas ... ... hecho n . . .
Esquema hecho n
Esquema hecho 1
Facultad de Ingeniera - In.Co. Sistemas de Data Warehousing 146
DF / Sobreposicin de esquemas hecho En DF, hechos diferentes son representados por esquemas hecho diferentes. Consultas "drill accross"
E.g. comparar medidas de esquemas distintos pero relacionados.
Propuesta:
Esquemas hecho compatibles
Comparten al menos una dimensin.
DF / Sobreposicin
cargo AVG ao semana Empleados MAX ciudad depto AVG ao cargo MAX TodosEmpleados ciudad
MAX
ao zafra
ciudad depto
cant. empleados depto salario max. MAX cant. emp extr MAX MAX
AVG
rango edad
Sistemas de Data Warehousing 148
Resumen
Metodologa de diseo conceptual
Req. Usuario + Meta-info. DW
fact schemes Metodologa de diseo lgico DW lgico (relacional, multidimensional)
BDs Operacionales
ER
149
Diseo Conceptual
Conclusiones
Temas:
Proceso de diseo. Enfoques de diseo conceptual. Bibliografa.
150
Proceso de Diseo
implementacin
. dis
dis
ic lg
. l
gi c
di
dis. lgico
carga
151
152
Diseo Conceptual
Las principales etapas son:
Definir un esqueleto de esquema:
Primer grupo de dimensiones medidas.
Establecer correspondencia entre requerimientos y datos fuentes. Completar jerarquas en las dimensiones. Especificar segundo grupo de medidas (calculadas).
iterar
153
Bibliografa
[Bal98] Ballard, C. Herreman, D. Schau, D. Bell, R. Kim, E. Valncic, A.: Data Modeling Techniques for Data Warehousing. SG24-2238-00. IBM Red Book. 1998. [Cab98] Cabibbo, L. Torlone, R.:"A Logical Approach to Multidimensional Databases", EDBT, 1998. [Car00] Carpani, F.: CMDM: A conceptual multidimensional model for Data Warehouse. Master Thesis. Advisor: Ruggia. InCo - Pedeciba, UdelaR, Uruguay, 2000. [Fra99] Franconi, E. Sattler, U.:"A Data Warehouse Conceptual Data Model for Multidimensional Aggregation", DMDW99, Germany, 1999. [Gol98a] Golfarelli, M. Maio, D. Rizzi, S.:"Conceptual Design of Data Warehouses from E/R Schemes.", HICSS98, IEEE, Hawaii,1998.
154
Bibliografa
[Hus00] Hsemann, B. Lechtenbrger, J. Vossen, G.:"Conceptual Data Warehouse Design". DMDW00, Sweden, 2000. [Ken96] Kenan Technologies:"An Introduction to Multidimensional Databases". White Paper, Kenan Technologies, 1996. [Kim96] Kimball, R.:" The Datawarehouse Toolkit ". John Wiley & Son, Inc., 1996. [Pic00] Picerno, A. Fontan, M.: Un editor para CMDM. Undergraduate Project. Advisor: Carpani. InCo, UdelaR, Uruguay. 2000. [Sap99] Sapia, C. Blaschka, M. Hfling, G. Dinter, B.: "Extending the E/R Model for the Multidimensional Paradigm. DWDM98, Singapure, 1998. [Tho97] Thomsen, E.:"OLAP Solutions. Building Multidimensional Information". John Wiley & Sons, Inc. 1997.
155