Professional Documents
Culture Documents
CIENCIAS E
INGENIERÍA
-
INGENIERÍA INDUSTRIAL
Henry Ford
2
BUSINESS INTELLIGENCE (BI)
3
Inteligencia de Negocios
• “Conjunto de actividades involucradas en la obtención, gestión, y
análisis de datos para producir información a ser distribuida a los
miembros de una organización, para mejorar su toma de
decisiones” - Brackett, 1999
4
Necesidades de Información
Alta Dirección
Estratégica
Gerentes
Táctica
Todos
Operacional
5
El proceso de la toma de Decisiones
Información Gerencial
OLAP
Herramientas para el
Estrategia
apoyo al análisis y toma
de decisiones
OLTP
Herramientas para el
manejo Día a Día
transaccional de la
información
Información Operativa
6
Situación a resolver con BI
Fuente de Usuarios de
información negocios
O
P
E G
R E
A S
C T
I I
O O
N N
A
L
8
Situación a resolver con BI
Frustración de los ejecutivos debido a ...
• Inconsistencia de la Información
Desafíos:
• Escalabilidad (Volumen de datos, número de usuarios)
• Rendimiento
• Flexibilidad
• Fuentes de datos heterogéneas
10
Esquema General de una solución BI
Ventas
Datos Externos
C
(Excel, Word, o
etc.)
n Finanzas
v
Data
e Warehouse
r
Recursos
s Humanos
Aplicaciones
(Sql Server,
i
Oracle, ó
ERP, GGHH,
Etc.) n Produc-
ción
Ambiente Data
Operacional Mart 11
Esquema Técnico General de una solución BI
Datawarehouse
Extracción,
Limpieza y
carga de datos
Ventas Proyectos
Obras Consultas,
Reportes,
Análisis.
Datos Otros Compras
Operacionales
y Externos
12
Conceptos de Bases de Datos y DW
13
Bases de Datos y su uso
OBJETIVO:
Uso de Datos para el Soporte en la Toma de
Decisiones de la empresa.
14
Bases de Datos y su uso …
Las propias bases de datos de trabajo se pueden utilizar para
extraer conocimiento actual e histórico.
15
Problema con las Bases de Datos
Relacionales
Sin embargo… el uso de consultas complejas perturba el trabajo
transaccional diario de los sistemas de información originales (“killer
queries”).
16
Bodegas de Datos
NACE EL DATAWAREHOUSING!
17
¿Que es DataWarehousing?
… Es una colección
de tecnologías de
apoyo a las
decisiones, cuyo
objetivo es habilitar al
trabajador con
conocimientos para la
toma de mejores y
más rápidas
decisiones…
18
DataWarehouse es :
19
Información Relevante
PAÍS GAMA
CURSO ... ...
...
VENTA Información
...
REUNION
... PRODUCTO
Necesaria
PROTOTIPO ...
...
20
Integración
Fuente de Fuente de
Datos 1 Datos 3 Fuente de
texto
HTML
Datos 2
Base de Datos
Transaccional 1
Fuentes
Externas
Fuentes
Internas
Base de Datos
Transaccional 2
Bodega de Datos
21
Temporalidad
Tiempo Datos
01/2003 Datos de Enero
Carga
INSERT READ
READ
UPDATE
DELETE
El período de tiempo cubierto por un DW
varía entre 2 y 10 años.
23
Ventajas
Bodegas de Datos
ventajas para las
organizaciones
24
Problemas
Bodegas de Datos
Problemas para
Las Organizaciones
privacidad de
los datos
Sub-valoración
del esfuerzo
necesario para incremento
su diseño y continuo de los
creación Sub-valoración de los requisitos de
recursos necesarios los usuarios
para la captura, carga y
almacenamiento de los
datos 25
OLTP (Transaccionales) vs. OLAP (DW o
Analíticas)
Sistema Operacional (OLTP) Almacén de datos (OLAP o DW)
- almacena datos actuales - almacena datos históricos
- almacena datos de detalle - almacena datos de detalle y datos agregados
a distintos niveles
- bases de datos medianas - bases de datos grandes
(100Gb) (500Gb-20Tb)
- los datos son dinámicos (actualizables) - los datos son estáticos
- los procesos (transacciones) son repetitivos - los procesos no son previsibles
- el número de transacciones es elevado - el número de transacciones es bajo o medio
- tiempo de respuesta pequeño (segundos) - tiempo de respuesta variable (segundos-horas)
- dedicado al procesamiento de transacciones - dedicado al análisis de datos
- orientado a los procesos de la organización - orientado a la información relevante
- soporta decisiones diarias cotidianas - soporta decisiones estratégicas
- sirve a muchos usuarios (administrativos) - sirve a técnicos de dirección, analistas
26
Arquitectura genérica de un DW
La Arquitectura de un DW viene determinada por su situación
central como fuente de información para las herramientas de
análisis.
Fuentes Herramientas
Internas de consultas e
informes
Base de Datos
Transaccional
Herramientas
Sistemas de
Bodega Interfaz y Información
ETL Opera-
de Datos
Fuente de dores
Datos 1 (DW)
Herramientas
texto
Fuente de OLAP
Datos 3
HTML
Copias de
Fuente de Seguridad
Datos Fuentes Herramientas de
Externas Minería de Datos
27
Diseño de DW: Modelo Multidimensional
• En un esquema multidimensional se representa una actividad que
es objeto de análisis (hecho) y las dimensiones que caracterizan la
actividad (dimensiones).
• La información relevante sobre el hecho (actividad) se representa
por un conjunto de indicadores (medidas o atributos de hecho).
• La información descriptiva de cada dimensión se representa por un
conjunto de atributos (de dimensión).
28
Usando cubos para ver el modelo
multidimensional
• El valor de una determinada métrica por un conjunto de Dimensiones
se hallaría en la intersección de los ejes de las mismas.
• Aunque hablamos de cubo no estamos restringidos a 3 Dimensiones,
en la práctica puede haber muchas más.
Producto1 Producto1
Producto2 Producto2
Producto 3 Producto 3
Ventas Ventas
Muestra las ventas del producto 2, en Muestra las ventas durante 2004 de
29
el año 2005 en Surco todos los productos en todos los
distritos
Tipo de Modelos Multidimensionales
30
Modelo en Estrella Lineal
Producto Local
Ventas
Cantidad I
Valor I
Durante
Día
Día
Local Numero <pi> I <M>
Mes VA20 <M>
Año I <M>
Numero <pi> 31
Modelo en Estrella Jerárquico
• En este caso existen dimensiones que poseen jerarquía en su
representación.
• Se enfoca en resolver la problemática referida a como representar
el concepto temporal (día – semana - mes – año y dia – tipo de día).
• Las jerarquías agregan capacidad de análisis en el uso de los
datos, pero agregan costo de manipulación.
32
Categoria
Comuna
ID_Categoria <pi> I <M>
ID_Comuna <pi> I <M>
NombreCategoria VA40
NombreComuna VA30
ID_Categoria <pi>
ID_Comuna <pi>
Agrupa Pertenece
Modelo en Producto
ID_Local
Local
<pi> I <M>
Estrella ID_Producto
NombreProducto
ID_Producto <pi>
<pi> I
VA20
<M> Dirección
ID_Local <pi>
VA30
Ventas
Cantidad I
T ipoDia
jerarquías ID_Mes
Mes
<pi> I <M>
ID_T ipoDia <pi> I <M>
NombreT ipoDia VA30
Nombre VA30
ID_T ipoDia <pi>
ID_Mes <pi>
Compone
Año 33
NumeroAño <pi> I <M>
NumeroAño <pi>
Modelo Constelación de Hechos
34
Pasos en el diseño de un DW
35
Paso 1. Elegir un “proceso” de la organización
para modelar
Proceso: actividad de la organización que requiere de análisis y
toma de decisiones, y que puede ser soportada por un OLTP del cual
se puede extraer información con el propósito de construir la bodega
de datos.
Pedidos (de clientes)
Compras (a suministradores)
Facturación
Envíos
Ventas
Inventario
…
36
Ejemplo: Cadena de supermercados
37
Paso 2. Decidir el nivel de detalle de
representación
Granularidad: es el nivel de detalle al que se desea almacenar
información sobre la actividad a modelar.
Define el nivel atómico de datos en el almacén de datos.
Determina el significado de los registros en las diferentes
tablas.
Determina las dimensiones básicas del esquema
• transacción en el OLTP
• información diaria
• información semanal
• información mensual. ....
38
Ejemplo: Cadena de supermercados
Granularidad: “se desea almacenar información sobre las ventas
diarias de cada producto en cada local de la cadena”.
Gránulo:
define el significado de las tuplas de valores a almacenar
(ventas diarias).
determina las dimensiones de análisis del esquema.
producto
día
local
ventas
39
Ejemplo: Definición de la Granularidad
• Gránulo inferior: no se almacena información a nivel de línea de
ticket (item) porque no se puede identificar siempre al cliente de la
venta lo que permitiría hacer análisis del comportamiento (hábitos
de compra) del cliente.
• Gránulo superior: no se almacena información a nivel semanal o
mensual porque se perderían opciones de análisis interesantes:
ventas en días previos a vacaciones, ventas en fin de semana,
ventas en fin de mes, ....
41
Ejemplo: Cadena de supermercados
tiempo
definición de dimensiones producto
granularidad básicas
local
42
Dimensión Tiempo
• Dimensión presente en todo DW porque contiene información
histórica sobre la organización.
• Atributos frecuentes:
• Número de día, semana, año: valores absolutos del calendario
que permiten hacer ciertos cálculos aritméticos.
• Día de la semana (lunes, martes, miércoles,...): permite hacer
análisis sobre días de la semana concretos (ej. ventas en
sábado, ventas en lunes,..).
• Día del mes (1..31): permite hacer comparaciones sobre el
mismo día en meses distintos (ventas el 1º de mes).
• Marca de fin de mes, marca de fin de semana: permite hacer
comparaciones sobre el último día del mes o días de fin de
semana en distintos meses. 43
Dimensión Tiempo
• Atributos frecuentes:
• Trimestre del año (1..4): permite hacer análisis sobre un trimestre
concreto en distintos años.
• Marca de día festivo: permite hacer análisis sobre los días
contiguos a un día festivo.
• Estación (primavera, verano..)
• Evento especial: permite marcar días de eventos especiales (final
de fútbol, elecciones, concierto...)
• Jerarquía natural:
• día - mes - trimestre -año
44
Dimensión Producto
47
Ejemplo: Cadena de supermercados
48
Diseño de un DW: Otras orientaciones de diseño
• Evitar normalizar:
Si se define una tabla de dimensión para cada dimensión
identificada en el análisis, es frecuente que entre el conjunto de
atributos de la tabla aparezcan dependencias funcionales que
hacen que la tabla no esté en 3ª F.N. El ahorro de espacio no es
significativo.
49
Diseño de un DW: Otras orientaciones de diseño
51