You are on page 1of 34

Modelamiento Dimensional

Aplicaciones de Ayuda a las


Decisiones
Datawarehouse

El Modelo Dimensional

Anlisis de Datos:
OLAP

Minera de Datos
Introduccin

Las aplicaciones de base de datos


se pueden clasificar en trminos
generales como:

Aplicaciones de procesamiento de
transacciones (OLTP).
Aplicaciones de ayuda a las
decisiones
Introduccin

... los paales y la cerveza ...


Un supermercado en EEUU descubri un
patrn inesperado: exista una alta
correlacin entre la venta de paales y
cerveza los das jueves de 6 a 10 p.m.
Acomodaron ambos juntos y la venta se
increment significativamente

Eso es minera de datos !!


Aplicaciones de Ayuda a las
Decisiones

El principal objetivo de un datawarehouse es


transformar data operacional en conocimiento
til acerca del negocio.
El anlisis orientado a la identificacin de reglas
y pautas de comportamiento de los clientes para
la toma de decisiones se realiza con
herramientas como On Line Analytical Process
(OLAP) y Datamining.
Aplicaciones de Ayuda a las
Decisiones
La recuperacin de datos desde las bases de datos
operacionales con esta orientacin genera varios
problemas:

Muchas consultas no pueden expresarse en lenguaje


SQL, o hacerlo es extremadamente complicado.
Los lenguajes de consulta de base de datos no son
adecuados para anlisis estadsticos detallados.
Arquitectura tpica de un datawarehouse

Origen de datos
1

Origen de datos Cargadore


2 s
..
.
de datos

Origen de datos DBM


n S Herramienta
s de anlisis
Almacn de Datos y de
consulta
OLTP vs. DW

Base de Datos OLTP Repositorio de un DW


Pobladas por usuarios finales. Poblado por herramientas de
programacin.

Se optimizan en funcin a Se optimiza por la recuperacin y


procesos transaccionales consulta.

Se actualizan constantemente. Luego de creada, no se modifica

Coexisten con varias BD OLTP en Se almacena en servidores


uno o varios servidores. dedicados.
OLTP vs. DW

Base de Datos OLTP Repositorio de un DW


Altamente normalizadas Usualmente estn desnormalizados

Incrementan el nmero de joins en Decrece el nmero de joins en las


las consultas consultas

Contienen mucha informacin de Contienen informacin sumarizada


detalle. (dependiendo del nivel de
granularidad requerido por la
empresa).
El diseo de la BD puede llegar a Diseo simple que es muy
ser complejo fcilmente entendido por los
usuarios
Modelo Dimensional

Es el esquema usado para modelar un Data


Warehouse (DW).
Es un nuevo nombre para una vieja tcnica que
consiste en visualizar la base de datos como un
"cubo" de tres, cuatro, cinco o mas dimensiones
(hipercubo).
Es un modelo orientado al usuario que tiene la
visin global del negocio.
La alta gerencia describe el negocio de la
compaa en los trminos siguientes:
"Vendemos productos en diferentes
mercados y medimos nuestro desempeo
en funcin del tiempo"

O
P
E
M Con este
I
T modelamiento el
M usuario analtico
E
R puede "rebanar" y
C
A
"picar" el cubo al
D interior de sus
O
PRODUCTO dimensiones.
El Modelo Dimensional
Dos tipos de tablas:
Una tabla central, larga y dependiente de muchas otras
tablas. Se le denomina la tabla de hechos o datos (fact
table) y es donde se almacenan las mediciones numricas
del negocio.
El otro tipo de tabla es independiente y se conecta
nicamente con las tablas de hechos. Se le domina la tabla
de dimensin (dimension table). Es donde se almacena
una serie de textos descriptivos de las dimensiones u
objetos del negocio, usados como fuente de restricciones
y criterios de bsqueda.
El Modelo Dimensional
D_TIEMPO D_PRODUCTO
Llave_Tiempo Llave_Producto
Da_Semana F_VENTA Descripcin
Ano Llave_Tiempo Categora
Mes Llave_Producto Marca
Da Llave_Tienda Modelo
Quincena Ventas_Dlares
Feriado Ventas_Soles D_TIENDA
Unidades_Vendidas Llave_Tienda
MODELO Costo_Dlares Nombre
ESTRELLA Costo_Soles Ciudad
SIMPLE Regin
El Modelo Estrella y sus Variaciones

El modelo estrella tiene una estructura muy simple


compuesta de pocas tablas (de dimensin y hecho) con
relaciones de dependencia bien definidas.
El esquema estrella simple consta de una tabla de hechos y
varias tablas de dimensin.
El esquema estrella complejo, tambin llamado
Constelacin de hechos consta de mltiples tablas de
hechos que comparten una o ms dimensiones.
El Modelo Estrella y sus Variaciones
D_TIEMPO F_VENTA_REGIONAL D_TIENDA
Llave_Tiempo Llave_Tiempo Llave_Tienda
Da_Semana Llave_Producto Nombre
Ano Llave_Regin Ciudad
Mes Ventas_Dlares Llave_Regin
Da Unidades_Vendidas Nombre_Regin
Quincena Costo_Dlares
Feriado D_PRODUCTO
F_VENTA_LOCAL
MODELO Llave_Tiempo Llave_Producto
ESTRELLA Llave_Producto Descripcin
Llave_Tienda Categora
COMPLEJO
Ventas_Dlares Marca
(Constelacin Modelo
Unidades_Vendidas
de hechos)
Costo_Dlares
El Modelo Copo de Nieve
Es una extensin del esquema estrella en donde cada
punto de la estrella se divide en ms puntos.
Las tablas de dimensin dependen de otras tablas
denominadas "fuera de borda" o "de normas (outtrigger
tables).
El Modelo Copo de Nieve
D_PRODUCTO N_MARCA

D_TIEMPO ID_Producto ID_Marca


Descripcin
ID_Tiempo Descripcin
Da_Semana F_VENTA ID_Categora
Ano ID_Marca
ID_Tiempo
Mes Modelo
ID_Producto
Da N_CATEGORIA
ID_Tienda
Quincena Ventas_Dlares ID_Categora
Feriado D_TIENDA Descripcin
Ventas_Soles
Unidades_Vendidas ID_Tienda
MODELO Costo_Dlares Nombre N_REGION
COPO DE Costo_Soles Ciudad ID_Regin
NIEVE ID_Regin Descripcin
Consideraciones para crear un
datawarehouse

Momento y manera de recoger los


datos:
Puede ser de manera continuada o
peridicamente (cada noche).
Qu grado de actualidad deben tener los
datos?
Puede quedarse off-line, y cunto tiempo?

Tiempo de carga: limpieza, formateo, copia,


transmisin, reconstruccin de ndices
Consideraciones para crear un
datawarehouse

El esquema o modelo de datos que debe


usarse:
Cada origen de datos puede tener un modelo distinto.
Debe disearse un modelo para el datawarehouse, y
convertir los datos a este modelo.
La propagacin de las actualizaciones.
Los datos que se debe resumir.
Las polticas de depuracin y eliminacin de
datos del datawarehouse
Anlisis de Datos - Fases

Extraccin de datos
Limpieza de datos
Transformacin y consolidacin
Carga
OLAP / Minera de datos
Presentacin / Visualizacin
Construccin de un DW

Salvado de datos limpios


(backflushing)

OLAP
Limpieza Reformateo DSS
Bases de datos DATOS
Minera de
Datos

Otras entradas de datos


Anlisis de Datos - OLAP

OLAP es una tcnica diseada para responder


eficientemente consultas ad-hoc de anlisis sobre
data organizada en un modelo dimensional.

OLAP organiza la data del DW en cubos


multidimensionales, y los preprocesa obteniendo
tiempos de respuesta ptimos en consultas de
sumarizacin sobre sus dimensiones.
Anlisis de Datos - OLAP

OLAP no est diseado para almacenar grandes


cantidades de data de tipo texto o binaria, ni para
soportar transacciones de actualizacin.

La estabilidad y consistencia de la data histrica del


DW permite a OLAP obtener ptimo rendimiento en
consultas analticas de sumarizacin.
Anlisis de Datos Minera de Datos

Se refiere a la bsqueda de informacin de importancia, o


descubrimiento del conocimiento entre grandes volmenes
de datos.
La informacin obtenida de las BD puede representarse
mediante un conjunto de reglas.
Las mujeres profesionales con ingresos anuales superiores a
$20,000 son las personas con mayores probabilidades de
desarrollar un comportamiento de crdito excelente
Anlisis de Datos Minera de Datos

Aplica sofisticados algoritmos (rboles de decisin,


clasificacin, regresin lineal, redes neuronales, etc.) para
analizar la data y extraer informacin de inters.

OLAP organiza la data en cubos apropiados para


exploracin y anlisis; Datamining realiza el anlisis de la data
y brinda los resultados al usuario decisor.
Minera de Datos - Tipos de
conocimiento

Reglas de asociacin
Jerarquas de clasificacin
Patrones secuenciales
Patrones en series de tiempo
Representacin de la informacin
mediante Reglas
Las reglas brindan una estructura comn para diferentes tipos
de informacin:
X antecedente consecuente
Donde X es una lista de una o ms variables con rangos
asociados.

transaccin T, compra(T, pan) compra(T, leche)


T es una variable cuyo rango es el conjunto de todas las
transacciones
Representacin de la informacin
mediante Reglas

El Soporte asociado a cada regla es una medida de


la fraccin de la poblacin que satisface tanto el
antecedente como el consecuente.
Si el soporte es bajo, la regla no merece el esfuerzo
de ser analizada en profundidad.
El grado mnimo de soporte que se considera
deseable depende de la aplicacin.
Representacin de la informacin
mediante Reglas
La Confianza es una medida de la frecuencia con
que el consecuente es cierto cuando lo es el
antecedente.
El ejemplo
transaccin T, compra(T, pan) compra(T, leche)
Tiene una confianza del 80% si el 80% de las
transacciones que incluyen pan incluyen tambin la
compra de leche.
Representacin de la informacin
mediante Reglas
Dado que Soporte y Confianza no siempre van
juntas, el objetivo es generar la mayor cantidad de
reglas que superen los umbrales mnimos
especificados por el usuario:
Generar todos los conjuntos de elementos que excedan el
umbral de soporte: conjuntos de elementos grandes (CEG)
Para cada CEG generar todas las reglas con un mnimo de
confianza:
Si X es CEG, Y es subconjunto de X
Sea Z = X Y
Si soporte (X) / soporte (Z) > = confianza mnima
Entonces la regla Z Y es una regla vlida
Anlisis de Datos Minera de Datos

Las reglas de la BD se pueden descubrir


utilizando uno de dos modelos:
El usuario se involucra directamente en el
proceso de descubrimiento de las reglas
El sistema es responsable del descubrimiento
automtico del conocimiento de la BD
mediante la deteccin de pautas y
correlaciones entre los datos.
Minera de Datos Guiada por el Usuario

El usuario plantea hiptesis


El sistema comprueba si se verifica o no
Las hiptesis se pueden ir refinando
La visualizacin grfica de datos ayuda al
usuario a examinar grandes volmenes de
datos
Anlisis de Datos Minera de Datos
Tcnicas ms usadas

Redes Neuronales Artificiales


rboles de decisin
Reglas de Induccin
Empresa Producto Tcnica URL

Angoss Knowledge Seeker Arboles de decisin, http://www.angoss.com/


Estadsticas
SAP Business Miner Redes Neuronales http://www.sap.com/sol
Aprendizaje automtico utions/sapbusinessobject
s
CrossZ Query Object Anlisis estadstico, http://www.crossz.com/
algoritmo de optimizacin
Data Data Surveyor Amplia http://www.ercim.org/p
Distilleries ublication/Ercim_News/e
nw24/dd.html
IBM Intelligent Miner Clasificacin, reglas de http://www-
asociacin, modelos 01.ibm.com/software/da
predictivos ta/iminer/
NCR Management Reglas de asociacin http://sigchi.org/chi97/p
Discovery Tool roceedings/briefing/jfk.h
(MDT) tm

SAS Enterprise Miner Arboles de decisin, reglas http://www.sas.com/tec


de asociacin, redes hnologies/analytics/data
neuronales, regresin, mining/miner/
agrupacin
Anlisis de Datos Minera de Datos
reas de aplicacin de Datamining:

Marketing
Finanzas
Produccin
Sanidad

MINERA DE DATOS = DESEO


SABER .....

You might also like