Professional Documents
Culture Documents
InteligenciadeNegocios
DataMiningDataWareHouseyCubosOlap
cdigo Mm050 MANUAL INTELIGENCIA de NEGOCIOS, DataMining - Data WareHouse - Cubos OLAP
ndice
Definicin.......................................................................................................................................4
Historia...........................................................................................................................................5
Caractersticas..............................................................................................................................5
Niveles de realizacin de BI........................................................................................................6
.........................................................................................................................................................7
Inteligencia de Empresas............................................................................................................7
Proceso........................................................................................................................................17
Protocolo de un proyecto de minera de datos......................................................................18
Negocios de Data Mining......................................................................................................24
Comportamiento en Internet.................................................................................................26
Terrorismo...............................................................................................................................26
Juegos......................................................................................................................................26
Ciencia e Ingeniera...............................................................................................................27
Minera de datos y otras disciplinas anlogas.......................................................................28
De la estadstica.....................................................................................................................28
De la informtica.....................................................................................................................29
Minera de datos basada en teora de la informacin...........................................................30
Tendencias..................................................................................................................................31
Herramientas de software.........................................................................................................32
Data Mart.........................................................................................................................................45
Dependencia de un data mart..................................................................................................46
Conceptos errneos de los Data Marts..................................................................................47
DATA WAREHOUSE VS. DATA MART.............................................................................47
Definicin de ETL.......................................................................................................................55
Proceso de Extraccin con Software ETL..............................................................................55
Proceso de Transformacin con una Herramienta ETL.......................................................56
Proceso de Carga con Software de ETL................................................................................58
Procesamiento en Herramientas ETL.....................................................................................58
Desafos para los procesos y Herramientas de ETL............................................................59
Copyright 2012 [Instituto Gala] Reservados todos los derechos.
cdigo Mm050 MANUAL INTELIGENCIA de NEGOCIOS, DataMining - Data WareHouse - Cubos OLAP
cdigo Mm050 MANUAL INTELIGENCIA de NEGOCIOS, DataMining - Data WareHouse - Cubos OLAP
Business Intelligence
Desafortunadamente, este trmino no tiene nada que ver con el ndice de
inteligencia medio de las personas que trabajan en un determinado negocio. De
hecho, (BI) tiene que ver con los datos y aplicaciones de un negocio para
entenderse mejor.
Semejante a la inteligencia militar, que procura entender al enemigo, la inteligencia
de negocio versa sobre todo alrededor de si mismo.
Especficamente, los sistemas de la inteligencia de negocio se basan en
crear modelos informticos de negocio de modo que pueda funcionar ms
eficientemente.
El almacenamiento de los datos est en la base de los procesos de la inteligencia
de negocio. En el mundo de ETL (Extract Transform Load) , la inteligencia de
negocio se refiere generalmente al espacio entero de los sistemas de la base de
datos, del software, del anlisis, y de la evaluacin del usuario que pretende
entender y evaluar un negocio.
Definicin
El trmino inteligencia empresarial se refiere al uso de datos en una empresa
para facilitar la toma de decisiones. Abarca la comprensin del funcionamiento
actual de la empresa, bien como la anticipacin de acontecimientos futuros, con el
objetivo de ofrecer conocimientos para respaldar las decisiones empresariales.
Las herramientas de inteligencia se basan en la utilizacin de un sistema de
informacin de inteligencia que se forma con distintos datos extrados de los datos
de produccin, con informacin relacionada con la empresa o sus mbitos y con
datos econmicos.
Mediante las herramientas y tcnicas ELT (extraer, cargar y transformar), o
actualmente ETL (extraer, transformar y cargar) se extraen los datos de distintas
fuentes, se depuran y preparan (homogeneizacin de los datos) para luego
cargarlos en un almacn de datos.
La vida o el periodo de xito de un software de inteligencia de negocios depender
nicamente del xito de su uso en beneficio de la empresa; si esta empresa es
capaz de incrementar su nivel financiero, administrativo y sus decisiones mejoran
la actuacin de la empresa, el software de inteligencia de negocios seguir
Copyright 2012 [Instituto Gala] Reservados todos los derechos.
cdigo Mm050 MANUAL INTELIGENCIA de NEGOCIOS, DataMining - Data WareHouse - Cubos OLAP
presente mucho tiempo, en caso contrario ser sustituido por otro que aporte
mejores y ms precisos resultados.
Por ltimo, las herramientas de inteligencia analtica posibilitan el modelado de las
representaciones basadas en consultas para crear un cuadro de mando
integral que sirve de base para la presentacin de informes.
Historia
En un artculo de 1958, el investigador de IBM Hans Peter Luhn utiliza el trmino
Inteligencia de Negocio. Se define la inteligencia como: " La capacidad de
comprender las interrelaciones de los hechos presentados en tal forma como para
orientar la accin hacia una meta deseada".
La inteligencia de negocios, tal como se entiende, hoy en da se dice que ha
evolucionado desde los sistemas de apoyo a las decisiones que se inici en la
dcada de 1960 y desarrollado a lo largo de mediados de los aos 80. DSS se
origin en los modelos por computadora, creado para ayudar en la toma de
decisiones y la planificacin. Desde DSS, data warehouses, sistemas de
informacin ejecutiva, OLAP e inteligencia de negocios entraron en principio
centrndose a finales de los aos 80.
En 1989, Howard Dresner (ms tarde, un analista de Gartner Group) propuso la
"inteligencia de negocios" como un trmino general para describir "los conceptos y
mtodos para mejorar la toma de decisiones empresariales mediante el uso de
sistemas basados en hechos de apoyo". No fue hasta finales de 1990 que este
uso estaba muy extendido.
Caractersticas
Este conjunto de herramientas y metodologas tienen en comn las siguientes
caractersticas:
cdigo Mm050 MANUAL INTELIGENCIA de NEGOCIOS, DataMining - Data WareHouse - Cubos OLAP
Niveles de realizacin de BI
De acuerdo a su nivel de complejidad se pueden clasificar las soluciones de
Business Intelligence en:
Reportes
Reportes predefinidos
Reportes a la medida
Alertas
Anlisis
Anlisis estadstico
Pronsticos ("Forecasting")
Optimizacin
Minera de Procesos
cdigo Mm050 MANUAL INTELIGENCIA de NEGOCIOS, DataMining - Data WareHouse - Cubos OLAP
Inteligencia de Empresas
cdigo Mm050 MANUAL INTELIGENCIA de NEGOCIOS, DataMining - Data WareHouse - Cubos OLAP
cdigo Mm050 MANUAL INTELIGENCIA de NEGOCIOS, DataMining - Data WareHouse - Cubos OLAP
El ecosistema del
vendedor (consultores,
acuerdos, comunidad de desarrolladores).
Graphical User Interface (GUI). Hay que recordar que hablamos de una
herramienta para usuarios finales y si a stos no les gusta, no la utilizarn y
ser dinero tirado.
partners,
cdigo Mm050 MANUAL INTELIGENCIA de NEGOCIOS, DataMining - Data WareHouse - Cubos OLAP
Escasa involucracin de los usuarios finales que les lleva a sentir cierta
frustracin con los resultados obtenidos.
10
cdigo Mm050 MANUAL INTELIGENCIA de NEGOCIOS, DataMining - Data WareHouse - Cubos OLAP
11
cdigo Mm050 MANUAL INTELIGENCIA de NEGOCIOS, DataMining - Data WareHouse - Cubos OLAP
Adems de todo esto, el sistema debe estar dentro de una estrategia de negocio
clara a medio y largo plazo, para evitar soluciones parche y gastos innecesarios.
BI persigue la transformacin de los datos de la compaa en conocimiento para
obtener una ventaja competitiva.
Qu: conjunto de metodologas, aplicaciones y tecnologas.
Cmo: reuniendo, depurando y transformando datos de los sistemas
transaccionales e informacin desestructurada (interna y externa a la compaa)
en informacin estructurada.
Para qu: para su explotacin directa (informes, anlisis OLAP...) o para su
anlisis y conversin en conocimiento soporte a la toma de decisiones sobre el
negocio.
12
cdigo Mm050 MANUAL INTELIGENCIA de NEGOCIOS, DataMining - Data WareHouse - Cubos OLAP
DATAMINING
Descubriendo Informacin Oculta
Data Mining, la extraccin de informacin oculta y predecible de grandes
bases de datos, es una poderosa tecnologa nueva con gran potencial para
ayudar a las compaas a concentrarse en la informacin ms importante de sus
Bases de Informacin (Data Warehouse). Las herramientas de Data Mining
predicen futuras tendencias y comportamientos, permitiendo en los
negocios tomar decisiones proactivas y conducidas por un conocimiento acabado
de la informacin (knowledge-driven). Los anlisis prospectivos automatizados
ofrecidos por un producto as van ms all de los eventos pasados provistos por
herramientas retrospectivas tpicas de sistemas de soporte de decisin. Las
herramientas de Data Mining pueden responder a preguntas de negocios que
tradicionalmente consumen demasiado tiempo para poder ser resueltas y a los
cuales los usuarios de esta informacin casi no estn dispuestos a aceptar. Estas
herramientas exploran las bases de datos en busca de patrones ocultos,
encontrando informacin predecible que un experto no puede llegar a encontrar
porque se encuentra fuera de sus expectativas.
Muchas compaas ya colectan y refinan cantidades masivas de datos.
Las tcnicas de Data Mining pueden ser implementadas rpidamente en
plataformas ya existentes de software y hardware para acrecentar el valor de
las fuentes de informacin existentes y pueden ser integradas con nuevos
Copyright 2012 [Instituto Gala] Reservados todos los derechos.
13
cdigo Mm050 MANUAL INTELIGENCIA de NEGOCIOS, DataMining - Data WareHouse - Cubos OLAP
productos y sistemas pues son tradas en lnea (on-line). Una vez que las
herramientas de Data Mining fueron implementadas en computadoras cliente
servidor de alta performance o de procesamiento paralelo, pueden analizar bases
de datos masivas para brindar respuesta a preguntas tales como,
"Cules clientes tienen ms probabilidad de responder al prximo mailing
promocional, y por qu? y presentar los resultados en formas de tablas, con
grficos, reportes, texto, hipertexto, etc.
Conceptos e Historia
Aunque desde un punto de vista acadmico el trmino data mining es una etapa
dentro de un proceso mayor llamado extraccin de conocimiento en bases de
datos (Knowledge Discovery in Databases o KDD) en el entorno comercial, as
como en este trabajo, ambos trminos se usan de manera indistinta. Lo que en
verdad hace el data mining es reunir las ventajas de varias reas como la
Estadstica, la Inteligencia Artificial, la Computacin Grfica, las Bases de Datos y
el Procesamiento Masivo, principalmente usando como materia prima las bases de
datos. Una definicin tradicional es la siguiente: "Un proceso no trivial de
identificacin vlida, novedosa, potencialmente til y entendible de patrones
comprensibles que se encuentran ocultos en los datos" (Fayyad y otros, 1996).
Desde nuestro punto de vista, lo definimos como "la integracin de un conjunto de
reas que tienen como propsito la identificacin de un conocimiento obtenido a
partir de las bases de datos que aporten un sesgo hacia la toma de decisin"
(Molina y otros, 2001).
La idea de data mining no es nueva. Ya desde los aos sesenta los estadsticos
manejaban trminos como data fishing, data mining o data archaeology con la idea
de encontrar correlaciones sin una hiptesis previa en bases de datos con ruido. A
principios de los aos ochenta, Rakesh Agrawal, Gio Wiederhold, Robert Blum y
Gregory Piatetsky-Shapiro, entre otros, empezaron a consolidar los trminos
de data mining y KDD.[3] A finales de los aos ochenta slo existan un par de
empresas dedicadas a esta tecnologa; en 2002 existen ms de 100 empresas en
el mundo que ofrecen alrededor de 300 soluciones. Las listas de discusin sobre
este tema las forman investigadores de ms de ochenta pases. Esta tecnologa
ha sido un buen punto de encuentro entre personas pertenecientes al mbito
acadmico y al de los negocios.
El data mining es una tecnologa compuesta por etapas que integra varias reas y
que no se debe confundir con un gran software. Durante el desarrollo de un
Copyright 2012 [Instituto Gala] Reservados todos los derechos.
14
cdigo Mm050 MANUAL INTELIGENCIA de NEGOCIOS, DataMining - Data WareHouse - Cubos OLAP
proyecto de este tipo se usan diferentes aplicaciones software en cada etapa que
pueden ser estadsticas, de visualizacin de datos o de inteligencia artificial,
principalmente. Actualmente existen aplicaciones o herramientas comerciales
de data mining muy poderosas que contienen un sinfn de utileras que facilitan el
desarrollo de un proyecto. Sin embargo, casi siempre acaban complementndose
con otra herramienta.
Los Fundamentos del Data Mining
Las
tcnicas
de
Data
Mining
son
el
resultado
de
un
largo proceso de investigacin y desarrollo de productos. Esta evolucin comenz
cuando los datos de negocios fueron almacenados por primera vez en
computadoras, y continu con mejoras en el acceso a los datos, y ms
recientemente con tecnologas generadas para permitir a los usuarios navegar a
travs de los datos en tiempo real. Data Mining toma este proceso de evolucin
ms all del acceso y navegacin retrospectiva de los datos, hacia la entrega de
informacin prospectiva y proactiva. Data Mining est listo para su aplicacin en la
comunidad de negocios porque est soportado por tres tecnologas que ya estn
suficientemente maduras:
15
cdigo Mm050 MANUAL INTELIGENCIA de NEGOCIOS, DataMining - Data WareHouse - Cubos OLAP
16
cdigo Mm050 MANUAL INTELIGENCIA de NEGOCIOS, DataMining - Data WareHouse - Cubos OLAP
Proceso
Un proceso tpico de minera de datos consta de los siguientes pasos generales:
1. Seleccin del conjunto de datos, tanto en lo que se refiere a las variables
objetivo (aquellas que se quiere predecir, calcular o inferir), como a
las variables independientes (las que sirven para hacer el clculo o
proceso), como posiblemente al muestreo de los registros disponibles.
2. Anlisis de las propiedades de los datos, en especial los histogramas,
diagramas de dispersin, presencia de valores atpicos y ausencia de datos
(valores nulos).
3. Transformacin del conjunto de datos de entrada, se realizar de
diversas formas en funcin del anlisis previo, con el objetivo de prepararlo
para aplicar la tcnica de minera de datos que mejor se adapte a los datos
y
al
problema,
a
este
paso
tambin
se
le
conoce
como preprocesamiento de los datos.
4. Seleccionar y aplicar la tcnica de minera de datos, se construye el
modelo predictivo, de clasificacin o segmentacin.
5. Extraccin de conocimiento, mediante una tcnica de minera de datos,
se obtiene un modelo de conocimiento, que representa patrones de
comportamiento observados en los valores de las variables del problema o
relaciones de asociacin entre dichas variables. Tambin pueden usarse
varias tcnicas a la vez para generar distintos modelos, aunque
generalmente cada tcnica obliga a un preprocesado diferente de los
datos.
Copyright 2012 [Instituto Gala] Reservados todos los derechos.
17
cdigo Mm050 MANUAL INTELIGENCIA de NEGOCIOS, DataMining - Data WareHouse - Cubos OLAP
18
cdigo Mm050 MANUAL INTELIGENCIA de NEGOCIOS, DataMining - Data WareHouse - Cubos OLAP
La relacin entre todas estas fases slo es lineal sobre el papel. En realidad, es
mucho ms compleja y esconde toda una jerarqua de subfases. A travs de la
experiencia acumulada en proyectos de minera de datos se han ido
desarrollando metodologas que permiten gestionar esta complejidad de una
manera ms o menos uniforme.
Arboles
de
decisin: estructuras de
forma
de
rbol
que
representan conjuntos de decisiones. Estas decisiones generan reglas para la
clasificacin de un conjunto de datos. Mtodos especficos de rboles de
decisin incluyen Arboles de Clasificacin y Regresin (CART: Classification
And Regression Tree) y Deteccin de Interaccin Automtica de Chi Cuadrado
(CHAI: Chi Square Automatic Interaction Detection)
Mtodo del vecino ms cercano: una tcnica que clasifica cada registro en un
conjunto de datos basado en una combinacin de las clases del/de
Copyright 2012 [Instituto Gala] Reservados todos los derechos.
19
cdigo Mm050 MANUAL INTELIGENCIA de NEGOCIOS, DataMining - Data WareHouse - Cubos OLAP
20
cdigo Mm050 MANUAL INTELIGENCIA de NEGOCIOS, DataMining - Data WareHouse - Cubos OLAP
21
cdigo Mm050 MANUAL INTELIGENCIA de NEGOCIOS, DataMining - Data WareHouse - Cubos OLAP
22
cdigo Mm050 MANUAL INTELIGENCIA de NEGOCIOS, DataMining - Data WareHouse - Cubos OLAP
23
cdigo Mm050 MANUAL INTELIGENCIA de NEGOCIOS, DataMining - Data WareHouse - Cubos OLAP
24
cdigo Mm050 MANUAL INTELIGENCIA de NEGOCIOS, DataMining - Data WareHouse - Cubos OLAP
necesario gestionar las versiones de cada modelo y pasar a una minera de datos
lo ms automatizada posible.
Hbitos de compra en supermercados
El ejemplo clsico de aplicacin de la minera de datos tiene que ver con la
deteccin de hbitos de compra en supermercados. Un estudio muy citado
detect que los viernes haba una cantidad inusualmente elevada de clientes que
adquiran a la vez paales y cerveza. Se detect que se deba a que dicho da
solan acudir al supermercado padres jvenes cuya perspectiva para el fin de
semana consista en quedarse en casa cuidando de su hijo y viendo la televisin
con una cerveza en la mano. El supermercado pudo incrementar sus ventas de
cerveza colocndolas prximas a los paales para fomentar las
ventas compulsivas.
Patrones de fuga
Un ejemplo ms habitual es el de la deteccin de patrones de fuga. En muchas
industrias como la banca, las telecomunicaciones, etc. Existe un comprensible
inters en detectar cuanto antes aquellos clientes que puedan estar pensando en
rescindir sus contratos para, posiblemente, pasarse a la competencia. A estos
clientes y en funcin de su valor se les podran hacer ofertas personalizadas,
ofrecer promociones especiales, etc., con el objetivo ltimo de retenerlos. La
minera de datos ayuda a determinar qu clientes son los ms proclives a darse de
baja estudiando sus patrones de comportamiento y comparndolos con muestras
de clientes que, efectivamente, se dieron de baja en el pasado.
Fraudes
Un caso anlogo es el de la deteccin de transacciones de lavado de dinero o
de fraude en el uso de tarjetas de crdito o de servicios de telefona mvil e,
incluso, en la relacin de los contribuyentes con el fisco. Generalmente, estas
operaciones fraudulentas o ilegales suelen seguir patrones caractersticos que
permiten, con cierto grado de probabilidad, distinguirlas de las legtimas y
desarrollar as mecanismos para tomar medidas rpidas frente a ellas.
Recursos humanos
La minera de datos tambin puede ser til para los departamentos de recursos
humanos en la identificacin de las caractersticas de sus empleados de mayor
Copyright 2012 [Instituto Gala] Reservados todos los derechos.
25
cdigo Mm050 MANUAL INTELIGENCIA de NEGOCIOS, DataMining - Data WareHouse - Cubos OLAP
26
cdigo Mm050 MANUAL INTELIGENCIA de NEGOCIOS, DataMining - Data WareHouse - Cubos OLAP
experimentacin con bases de datos sobre esos finales de juego, combinado con
un estudio intensivo de los propios finales de juego en problemas bien diseados
y con conocimiento de la tcnica (datos previos sobre el final del juego). Ejemplos
notables de investigadores que trabajan en este campo son Berlekamp en el juego
de puntos-y-cajas (o Timbiriche) y John Nunn en finales de ajedrez.
Ciencia e Ingeniera
En los ltimos aos la minera de datos se est utilizando ampliamente en
diversas reas relacionadas con la ciencia y la ingeniera. Algunos ejemplos de
aplicacin en estos campos son:
Gentica
En el estudio de la gentica humana, el objetivo principal es entender la
relacin cartogrfica entre las partes y la variacin individual en las secuencias
del ADN humano y la variabilidad en la susceptibilidad a las enfermedades. En
trminos ms llanos, se trata de saber cmo los cambios en la secuencia de ADN
de un individuo afectan al riesgo de desarrollar enfermedades comunes (como por
ejemplo el cncer). Esto es muy importante para ayudar a mejorar el diagnstico,
prevencin y tratamiento de las enfermedades. La tcnica de minera de datos que
se utiliza para realizar esta tarea se conoce como "reduccin de
dimensionalidad multifactorial".
Ingeniera elctrica
En el mbito de la ingeniera elctrica, las tcnicas minera de datos han sido
ampliamente utilizadas para monitorizar las condiciones de las instalaciones
de alta tensin. La finalidad de esta monitorizacin es obtener informacin valiosa
sobre el estado del aislamiento de los equipos. Para la vigilancia de las
vibraciones o el anlisis de los cambios de carga en transformadores se utilizan
ciertas tcnicas para agrupacin de datos (clustering) tales como los Mapas
Auto-Organizativos (SOM, Self-organizing map). Estos mapas sirven para detectar
condiciones anormales y para estimar la naturaleza de dichas anomalas.
Anlisis de gases
Tambin se han aplicado tcnicas de minera de datos para el anlisis de gases
disueltos (DGA, Dissolved gas analysis) en transformadores elctricos. El anlisis
de gases disueltos se conoce desde hace mucho tiempo como herramienta para
Copyright 2012 [Instituto Gala] Reservados todos los derechos.
27
cdigo Mm050 MANUAL INTELIGENCIA de NEGOCIOS, DataMining - Data WareHouse - Cubos OLAP
28
cdigo Mm050 MANUAL INTELIGENCIA de NEGOCIOS, DataMining - Data WareHouse - Cubos OLAP
los elementos de estos grupos, y por tanto una mejor identificacin de cules
son las variables que definan la pertenencia al grupo.
De la informtica
De la informtica toma las siguientes tcnicas:
Sistemas Expertos: Son sistemas que han sido creados a partir de reglas
prcticas extradas del conocimiento de expertos. Principalmente a base de
inferencias o de causa-efecto.
Sistemas Inteligentes: Son similares a los sistemas expertos, pero con mayor
ventaja ante nuevas situaciones desconocidas para el experto.
29
cdigo Mm050 MANUAL INTELIGENCIA de NEGOCIOS, DataMining - Data WareHouse - Cubos OLAP
con los que tenan que haber salido, basndose en unos datos de prueba,
dando lugar a un proceso de retroalimentacin mediante el cual la red se
reconfigura, hasta obtener un modelo adecuado.
30
cdigo Mm050 MANUAL INTELIGENCIA de NEGOCIOS, DataMining - Data WareHouse - Cubos OLAP
Los tiempos de respuesta. El gran volumen de datos que hay que procesar
en muchos casos para obtener un modelo vlido es un inconveniente; esto
Copyright 2012 [Instituto Gala] Reservados todos los derechos.
31
cdigo Mm050 MANUAL INTELIGENCIA de NEGOCIOS, DataMining - Data WareHouse - Cubos OLAP
Herramientas de software
Existen muchas herramientas de software para el desarrollo de modelos de
minera de datos tanto libres como comerciales como, por ejemplo:
dVelox
Powerhouse
KXEN
Quiterian
KNIME
RapidMiner
Orange
SPSS Clementine
32
cdigo Mm050 MANUAL INTELIGENCIA de NEGOCIOS, DataMining - Data WareHouse - Cubos OLAP
33
cdigo Mm050 MANUAL INTELIGENCIA de NEGOCIOS, DataMining - Data WareHouse - Cubos OLAP
34
cdigo Mm050 MANUAL INTELIGENCIA de NEGOCIOS, DataMining - Data WareHouse - Cubos OLAP
ventas del mismo con cierta anticipacin. En concreto, se dispone de las cifras de
los ltimos 56 meses.
Con esta informacin, los resultados obtenidos aplicando mtodos de prediccin
tradicionales no son suficientemente precisos. As, tomando como estimacin para
un mes el importe correspondiente al mes anterior, se obtiene un error del 25,6%,
y del 14% si se usa el de ese mes en el ao anterior. La calidad de la prediccin
mejora utilizando medias mviles, pero el error es an del 11,8%. Debido a los
altos porcentajes de error obtenidos, ninguno de estos mtodos satisface las
necesidades de la compaa.
Para mejorar la precisin del modelo y conseguir la exactitud necesaria en las
predicciones, se han aplicado tcnicas de minera de datos.
En primer lugar, se han analizado las caractersticas bsicas de la serie. A simple
vista, se observa que las ventas presentan una tendencia creciente en el tiempo
que puede modelarse con medias mviles. Tambin se observan oscilaciones
estacionales, aunque estas regularidades no aparecen en todos los meses. Por
ejemplo, si bien los valores de las ventas son siempre bajos en agosto, los de
mayo presentan grandes variaciones. Esto puede significar que la serie incluye
varios factores de influencia con distintos periodos. Estas observaciones se ven
confirmadas por el anlisis del espectro de frecuencia, que muestra varios
mximos.
Las conclusiones de los estudios preliminares sugieren la conveniencia de incluir
en el modelo informacin no slo de los valores de ventas en los meses previos
sino tambin sobre la tendencia de la serie y sobre la temporada en cuestin,
datos todos ellos contenidos en la propia serie.
El sistema desarrollado, basado en una red neuronal, predice las ventas en un
determinado mes partiendo nicamente de caractersticas extradas de la serie de
ventas en funcin del tiempo, sin indicadores adicionales. En concreto, los datos
de entrada con los que se han obtenido los mejores resultados son:
Valores de las ventas en los tres meses anteriores.
Ventas del mes a predecir en el ao anterior.
Valor medio de las ventas durante los ltimos 12 meses.
Identificador del mes.
35
cdigo Mm050 MANUAL INTELIGENCIA de NEGOCIOS, DataMining - Data WareHouse - Cubos OLAP
36
cdigo Mm050 MANUAL INTELIGENCIA de NEGOCIOS, DataMining - Data WareHouse - Cubos OLAP
37
cdigo Mm050 MANUAL INTELIGENCIA de NEGOCIOS, DataMining - Data WareHouse - Cubos OLAP
38
cdigo Mm050 MANUAL INTELIGENCIA de NEGOCIOS, DataMining - Data WareHouse - Cubos OLAP
39
cdigo Mm050 MANUAL INTELIGENCIA de NEGOCIOS, DataMining - Data WareHouse - Cubos OLAP
40
cdigo Mm050 MANUAL INTELIGENCIA de NEGOCIOS, DataMining - Data WareHouse - Cubos OLAP
41
cdigo Mm050 MANUAL INTELIGENCIA de NEGOCIOS, DataMining - Data WareHouse - Cubos OLAP
CARACTERSTICAS
42
cdigo Mm050 MANUAL INTELIGENCIA de NEGOCIOS, DataMining - Data WareHouse - Cubos OLAP
consolidados en una nica tabla del data warehouse. De esta forma, las peticiones
de informacin sobre clientes sern ms fciles de responder dado que toda la
informacin reside en el mismo lugar.
Histrico: el tiempo es parte implcita de la informacin contenida en un data
warehouse. En los sistemas operacionales, los datos siempre reflejan el estado de
la actividad del negocio en el momento presente. Por el contrario, la informacin
almacenada en el data warehouse sirve, entre otras cosas, para realizar anlisis
de tendencias. Por lo tanto, el data warehouse se carga con los distintos valores
que toma una variable en el tiempo para permitir comparaciones.
Otra caracterstica del data warehouse es que contiene metadatos, es decir, datos
sobre los datos. Los metadatos permiten saber la procedencia de la informacin,
su periodicidad de refresco, su fiabilidad, forma de clculo... etc.
Los metadatos sern los que permiten simplificar y automatizar la obtencin de la
informacin desde los sistemas operacionales a los sistemas informacionales.
43
cdigo Mm050 MANUAL INTELIGENCIA de NEGOCIOS, DataMining - Data WareHouse - Cubos OLAP
depuracin,
homogenizacin
44
cdigo Mm050 MANUAL INTELIGENCIA de NEGOCIOS, DataMining - Data WareHouse - Cubos OLAP
Data Mart
Un Data mart es una versin especial de almacn de datos (data warehouse).
Son subconjuntos de datos con el propsito de ayudar a que un rea especfica
dentro del negocio pueda tomar mejores decisiones. Los datos existentes en este
contexto pueden ser agrupados, explorados y propagados de mltiples formas
para que diversos grupos de usuarios realicen la explotacin de los mismos de la
forma ms conveniente segn sus necesidades.
El Data mart es un sistema orientado a la consulta, en el que se producen
procesos batch de carga de datos (altas) con una frecuencia baja y conocida. Es
consultado mediante herramientas OLAP (On line Analytical Processing Procesamiento Analtico en Lnea) que ofrecen una visin multidimensional de la
informacin. Sobre estas bases de datos se pueden construir EIS (Executive
Information Systems, Sistemas de Informacin para Directivos) y DSS (Decision
Support Systems, Sistemas de Ayuda a la toma de Decisiones). Por otra parte, se
conoce como Data Mining al proceso no trivial de anlisis de grandes cantidades
de datos con el objetivo de extraer informacin til, por ejemplo para realizar
clasificaciones o predicciones.
Copyright 2012 [Instituto Gala] Reservados todos los derechos.
45
cdigo Mm050 MANUAL INTELIGENCIA de NEGOCIOS, DataMining - Data WareHouse - Cubos OLAP
En sntesis, se puede decir que los data marts son pequeos data
warehouse centrados en un tema o un rea de negocio especfico dentro de una
organizacin.
Dependencia de un data mart
Segn la tendencia marcada por Inmon sobre los data warehouse, un data mart
dependiente es un subconjunto lgico (vista) o un subconjunto fsico (extracto) de
un almacn de datos ms grande, que se ha aislado por alguna de las siguientes
razones:
Segn la escuela Inmon de data warehouse, entre las prdidas inherentes al uso
de data marts estn la escalabilidad limitada, la duplicacin de datos, la
inconsistencia de los datos con respecto a otros almacenes de informacin y la
incapacidad para aprovechar las fuentes de datos de la empresa. As y todo estas
herramientas son de gran importancia.
Copyright 2012 [Instituto Gala] Reservados todos los derechos.
46
cdigo Mm050 MANUAL INTELIGENCIA de NEGOCIOS, DataMining - Data WareHouse - Cubos OLAP
47
cdigo Mm050 MANUAL INTELIGENCIA de NEGOCIOS, DataMining - Data WareHouse - Cubos OLAP
48
cdigo Mm050 MANUAL INTELIGENCIA de NEGOCIOS, DataMining - Data WareHouse - Cubos OLAP
49
cdigo Mm050 MANUAL INTELIGENCIA de NEGOCIOS, DataMining - Data WareHouse - Cubos OLAP
50
cdigo Mm050 MANUAL INTELIGENCIA de NEGOCIOS, DataMining - Data WareHouse - Cubos OLAP
OLTP
OLTP (On Line Transaction Processing) es un tipo de procesamiento de
transacciones a travs de una red de computadoras. Algunos tipos de
aplicaciones OLTP pueden ser banca electrnica, procesamiento de pedidos o
comercio electrnico. Es un programa que facilita y administra aplicaciones
transaccionales, usualmente para data entry y transacciones en empresas,
incluyendo bancos, aerolneas, etc. Los nuevos paquetes de Software para OLTP
se basa en la arquitectura cliente-servidor ya que suelen ser utilizados por
empresas que no se encuentran 100% en el mismo medio fsico, sino expandidas
geogrficamente.
OLAP
OLAP es el acrnimo en ingls de procesamiento analtico en lnea (OnLine Analytical Processing). Es una solucin utilizada en el campo de
la Inteligencia de Negocios (Business Intelligence), la cual consiste en
consultas a estructuras multidimensionales (o Cubos OLAP) que contienen
datos resumidos de grandes Bases de Datos o Sistemas Transaccionales
(OLTP). Se usa en informes de negocios de ventas, mrketing, informes de
direccin, minera de datos y reas similares.
La razn de usar OLAP para las consultas es la velocidad de respuesta. Una
base de datos relacional almacena entidades en tablas discretas si han sido
normalizadas. Esta estructura es buena en un sistema OLTP pero para las
complejas consultas multitabla es relativamente lenta. Un modelo mejor para
bsquedas, aunque peor desde el punto de vista operativo, es una base de
datos multidimensional. La principal caracterstica que potencia a OLAP, es
que es lo ms rpido a la hora de hacer selects, en contraposicin con OLTP
que es la mejor opcin para INSERTS, UPDATES Y DELETES.
Existen algunas clasificaciones entre las implementaciones OLAP. La
clasificacin est hecha sobre la base de en qu tipo de motor son
almacenados los datos:
ROLAP es una implementacin OLAP que almacena los datos en un motor
relacional. Tpicamente, los datos son detallados, evitando las agregaciones y
las tablas se encuentran normalizadas. Los esquemas ms comunes sobre
los que se trabaja son estrella copo de nieve, aunque es posible trabajar
sobre cualquier base de datos relacional. La arquitectura est compuesta por
un servidor de banco de datos relacional y el motor OLAP se encuentra en un
servidor dedicado. La principal ventaja de esa arquitectura es que permite el
anlisis de una enorme cantidad de datos.
MOLAP es una implementacin OLAP que almacena los datos en una base
de datos multidimensional. Para optimizar los tiempos de respuesta, el
Copyright 2012 [Instituto Gala] Reservados todos los derechos.
51
cdigo Mm050 MANUAL INTELIGENCIA de NEGOCIOS, DataMining - Data WareHouse - Cubos OLAP
El anlisis multidimensional
Un principio clave del OLAP es que los usuarios debern obtener tiempos de
respuesta consistentes para cada visita de datos que requieran. Dado que la
informacin se colecta en el nivel de detalle solamente, el resumen de la
informacin es usualmente calculado por adelantado. Estos valores pre
calculados son la base de las ganancias del desempeo del OLAP.
Los sistemas OLAP (procesamiento analtico en lnea) incorporan tres criterios
con alto nivel de eficiencia:
1. Proporcionan un modelo de datos intuitivo y conceptual, para que los
usuarios que no tengan experiencia como analistas puedan comprender y
rpidamente relacionar. Este modelo se llama anlisis multidimensional.
2. Son la respuesta para conseguir la experiencia de informacin a la
velocidad del pensamiento. Rpidos tiempos de respuesta permite que los
analistas puedan preguntar y resolver ms situaciones en un corto perodo de
tiempo.
3. Tienen un motor de clculo robusto para manejar las necesidades de clculo
especializado que una estructura multidimensional impone.
52
cdigo Mm050 MANUAL INTELIGENCIA de NEGOCIOS, DataMining - Data WareHouse - Cubos OLAP
Herramientas ETL
Cuando hablbamos de Data Warehousing, pasamos por encima de
las herramientas ETL, considerndolas un elemento fundamental en la
construccin, explotacin y evolucin de nuestro Data Warehouse (DW).
53
cdigo Mm050 MANUAL INTELIGENCIA de NEGOCIOS, DataMining - Data WareHouse - Cubos OLAP
54
cdigo Mm050 MANUAL INTELIGENCIA de NEGOCIOS, DataMining - Data WareHouse - Cubos OLAP
55
cdigo Mm050 MANUAL INTELIGENCIA de NEGOCIOS, DataMining - Data WareHouse - Cubos OLAP
56
cdigo Mm050 MANUAL INTELIGENCIA de NEGOCIOS, DataMining - Data WareHouse - Cubos OLAP
Seleccionar slo ciertas columnas para su carga (por ejemplo, que las
columnas con valores nulos no se carguen).
Traducir cdigos (por ejemplo, si la fuente almacena una H para Hombre y
M para Mujer pero el destino tiene que guardar 1 para Hombre y 2 para
Mujer).
Codificar valores libres (por ejemplo, convertir Hombre en H o Sr en
1).
Obtener nuevos valores calculados (por ejemplo, total_venta = cantidad *
precio).
Unir datos de mltiples fuentes (por ejemplo, bsquedas, combinaciones,
etc.).
Calcular totales de mltiples filas de datos (por ejemplo, ventas totales de
cada regin).
Generacin de campos clave en el destino.
Transponer o pivotar (girando mltiples columnas en filas o viceversa).
Dividir una columna en varias (por ejemplo, columna Nombre: Garca,
Miguel; pasar a dos columnas Nombre: Miguel y Apellido: Garca).
La aplicacin de cualquier forma, simple o compleja, de validacin de
datos, y la consiguiente aplicacin de la accin que en cada caso se
requiera:
o Datos OK: Entregar datos a la siguiente etapa (Carga).
o Datos
errneos:
Ejecutar
polticas
de tratamiento
de
excepciones (por ejemplo, rechazar el registro completo, dar al
campo errneo un valor nulo o un valor centinela).
57
cdigo Mm050 MANUAL INTELIGENCIA de NEGOCIOS, DataMining - Data WareHouse - Cubos OLAP
58
cdigo Mm050 MANUAL INTELIGENCIA de NEGOCIOS, DataMining - Data WareHouse - Cubos OLAP
Estos tres tipos de paralelismo no son excluyentes, sino que pueden ser
combinados para realizar una misma operacin ETL.
Una dificultad adicional es asegurar que los datos que se cargan sean
relativamente consistentes. Las mltiples bases de datos de origen tienen
diferentes ciclos de actualizacin (algunas pueden ser actualizadas cada pocos
minutos, mientras que otras pueden tardar das o semanas). En un sistema de
ETL ser necesario que se puedan detener ciertos datos hasta que todas las
fuentes estn sincronizadas. Del mismo modo, cuando un almacn de datos tiene
que ser actualizado con los contenidos en un sistema de origen, es necesario
establecer puntos de sincronizacin y de actualizacin.
59
cdigo Mm050 MANUAL INTELIGENCIA de NEGOCIOS, DataMining - Data WareHouse - Cubos OLAP
Ab Initio
Benetl
BITool ETL Software
CloverETL
Cognos Decisionstream (IBM)
Data Integrator (herramienta de Sap Business Objects)
ETI*Extract (ahora llamada Eti Solution)
IBM Websphere DataStage (antes Ascential DataStage)
Microsoft Integration Services
Oracle Warehouse Builder
WebFocus-iWay DataMigrator Server
Pervasive
Informtica PowerCenter
Oxio Data Intelligence ETL full web
SmartDB Workbench
Sunopsis (Oracle)
SAS Dataflux
Sybase
Syncsort: DMExpress.
Opentext (antes Genio, Hummingbird).
Desafos
Los procesos ETL pueden ser muy complejos. Un sistema ETL mal diseado
puede provocar importantes problemas operativos.
En un sistema operacional el rango de valores de los datos o la calidad de
stos pueden no coincidir con las expectativas de los diseadores a la hora de
Copyright 2012 [Instituto Gala] Reservados todos los derechos.
60
cdigo Mm050 MANUAL INTELIGENCIA de NEGOCIOS, DataMining - Data WareHouse - Cubos OLAP
61
cdigo Mm050 MANUAL INTELIGENCIA de NEGOCIOS, DataMining - Data WareHouse - Cubos OLAP
Cubo OLAP
62
cdigo Mm050 MANUAL INTELIGENCIA de NEGOCIOS, DataMining - Data WareHouse - Cubos OLAP
Un ejemplo
Un analista financiero podra querer ver los datos de diversas formas, por ejemplo,
visualizndolos en funcin de todas las ciudades (que podran figurar en el eje de
abscisas) y todos los productos (en el eje de ordenadas), y esto podra ser para un
perodo determinado, para la versin y el tipo de gastos. Despus de haber visto
los datos de esta forma particular el analista podra entonces querer ver los datos
de otra manera y poder hacerlo de forma inmediata. El cubo podra adoptar una
nueva orientacin para que los datos aparezcan ahora en funcin de los perodos
y el tipo de coste. Debido a que esta reorientacin implica resumir una cantidad
muy grande de datos, esta nueva vista de los datos se debe generar de manera
eficiente para no malgastar el tiempo del analista, es decir, en cuestin de
Copyright 2012 [Instituto Gala] Reservados todos los derechos.
63
cdigo Mm050 MANUAL INTELIGENCIA de NEGOCIOS, DataMining - Data WareHouse - Cubos OLAP
segundos, en lugar de las horas que seran necesarias en una base de datos
relacional convencional.
Dimensiones y jerarquas
Cada una de las dimensiones de un cubo OLAP puede resumirse mediante una
jerarqua. Por ejemplo si se considera una escala (o dimensin) temporal "Mayo
de 2005" se puede incluir en "Segundo Trimestre de 2005", que a su vez se
incluye en "Ao 2005". De igual manera, otra dimensin de un cubo que refleje
una situacin geogrfica, las ciudades se pueden incluir en regiones, pases o
regiones mundiales; los productos podran clasificarse por categoras, y las
partidas de gastos podran agruparse en tipos de gastos. En cambio, el analista
podra comenzar en un nivel muy resumido, como por ejemplo el total de la
diferencia entre los resultados reales y lo presupuestado, para posteriormente
descender en el cubo (en sus jerarquas) para poder observar con un mayor nivel
de detalle que le permita descubrir en el cubo los lugares en los que se ha
producido esta diferencia, segn los productos y perodos.
Dispersin en cubos OLAP
Vincular o enlazar cubos es un mecanismo para superar la dispersin. sta se
produce cuando no todas las celdas del cubo se rellenan con datos (escasez de
datos o valores nulos). El tiempo de procesamiento es tan valioso que se debe
adoptar la manera ms efectiva de sumar ceros (los valores nulos o no
existentes). Por ejemplo los ingresos pueden estar disponibles para cada cliente y
producto, pero los datos de los costos pueden no estar disponibles con esta
cantidad de anlisis. En lugar de crear un cubo disperso, a veces es mejor crear
otro cubo distinto, pero vinculado, en el que un subconjunto de los datos se puede
64
cdigo Mm050 MANUAL INTELIGENCIA de NEGOCIOS, DataMining - Data WareHouse - Cubos OLAP
analizar con gran detalle. La vinculacin asegura que los datos de los dos cubos
mantengan una coherencia.
Acceso y clculo de un cubo OLAP
Los datos de los cubos pueden ser actualizados de vez en cuando, tal vez por
personas diferentes de forma concurrente. Para solventar este problema a
menudo es necesario bloquear partes de un cubo mientras otro usuario est
escribiendo, para volver a calcular los totales en el cubo. Otras implementaciones
aaden la posibilidad de mostrar una alerta que indique que los totales calculados
previamente ya no son vlidos tras los nuevos datos. Tambin hay algunos
productos que calculan los totales cuando se les necesita con los ltimos datos
producidos en el sistema.
Definicin tcnica
En teora de bases de datos, un cubo OLAP es una representacin abstracta de
la proyeccin de una relacin de un RDBMS (Sistema administrador de bases de
datos relacionales). Dada una relacin de orden N, se considera la posibilidad de
una proyeccin que dispone de los campos X, Y, Z como clave de la relacin y
de W como atributo residual. Categorizando esto como una funcin se tiene que:
W : (X,Y,Z) W
Los atributos X, Y, Z se corresponden con los ejes del cubo, mientras que el
valor de W devuelto por cada tripleta (X, Y, Z) se corresponde con el dato o
elemento que se rellena en cada celda del cubo.
Debido a que los dispositivos de salida (monitores, impresoras, ...) slo
cuentan con dos dimensiones, no pueden caracterizar fcilmente cuatro
dimensiones, es ms prctico proyectar "rebanadas" o secciones de los datos
del cubo (se dice proyectar en el sentido clsico vector analtico de reduccin
dimensional, no en el sentido de SQL, aunque los dos conceptos son
claramente anlogos), tales como la expresin:
W : (X,Y) W
Aunque no se conserve la clave del cubo (al faltar el parmetro Z), puede
tener algn significado semntico, sin embargo, tambin puede que una
65
cdigo Mm050 MANUAL INTELIGENCIA de NEGOCIOS, DataMining - Data WareHouse - Cubos OLAP
66
cdigo Mm050 MANUAL INTELIGENCIA de NEGOCIOS, DataMining - Data WareHouse - Cubos OLAP
Funcionalidad
En la base de cualquier sistema OLAP se encuentra el concepto de cubo
OLAP (tambin llamado cubo multidimensional o hipercubo). Se compone de
hechos numricos llamados medidas que se clasifican por dimensiones. El cubo
de metadatos es tpicamente creado a partir de un esquema en estrella o copo de
nieve, esquema de las tablas en una base de datos relacional. Las medidas se
obtienen de los registros de una tabla de hechos y las dimensiones se derivan de
la dimensin de los cuadros.
ROLAP
Implementacin OLAP que almacena los datos en un motor relacional.
Tpicamente, los datos son detallados, evitando las agregaciones y las tablas se
encuentran desnormalizadas Los esquemas ms comunes sobre los que se
trabaja son estrella copo de nieve, aunque es posible trabajar sobre cualquier
base de datos relacional. La arquitectura est compuesta por un servidor de banco
de datos relacional y el motor OLAP se encuentra en un servidor dedicado. La
principal ventaja de esta arquitectura es que permite el anlisis de una enorme
cantidad de datos.
67
cdigo Mm050 MANUAL INTELIGENCIA de NEGOCIOS, DataMining - Data WareHouse - Cubos OLAP
MOLAP
Esta implementacin OLAP almacena los datos en una base de datos
multidimensional. Para optimizar los tiempos de respuesta, el resumen de la
informacin es usualmente calculado por adelantado. Estos valores precalculados
o agregaciones son la base de las ganancias de desempeo de este sistema.
Algunos sistemas utilizan tcnicas de compresin de datos para disminuir el
espacio de almacenamiento en disco debido a los valores precalculados.
HOLAP (Hybrid OLAP)
Almacena algunos datos en un motor relacional y otros en una base de datos
multidimensional.
Comparacin
Cada sistema OLAP tiene ciertos beneficios (aunque existe desacuerdo acerca de
las caractersticas especficas de los beneficios entre los proveedores).
Algunas implementaciones MOLAP son propensas a la "explosin" de la base de
datos; este fenmeno provoca la necesidad de grandes cantidades de espacio de
almacenamiento para el uso de una base de datos MOLAP cuando se dan ciertas
condiciones: elevado nmero de dimensiones, resultados precalculados y escasos
datos multidimensionales. Las tcnicas habituales de atenuacin de la explosin
de la base de datos no son todo lo eficientes que sera deseable.
Por lo general MOLAP ofrece mejor rendimiento debido a la especializada
indexacin y a las optimizaciones de almacenamiento. MOLAP tambin necesita
menos
espacio
de
almacenamiento
en
comparacin
con
los
especializados ROLAP porque su almacenamiento especializado normalmente
incluye tcnicas de compresin.
ROLAP es generalmente ms escalable. Sin embargo, el gran volumen de
preprocesamiento es difcil de implementar eficientemente por lo que con
frecuencia se omite; por tanto, el rendimiento de una consulta ROLAP puede verse
afectado.
Desde la aparicin de ROLAP van apareciendo nuevas versiones de bases de
datos preparadas para realizar clculos, las funciones especializadas que se
pueden utilizar tienen ms limitaciones.
Copyright 2012 [Instituto Gala] Reservados todos los derechos.
68
cdigo Mm050 MANUAL INTELIGENCIA de NEGOCIOS, DataMining - Data WareHouse - Cubos OLAP
A menudo se pensaba que todo lo que los usuarios pueden querer de un sistema
de informacin se podra hacer de una base de datos relacional. No
obstante Codd fue uno de los precursores de las bases de datos relacionales, por
lo que sus opiniones fueron y son respetadas.
69
cdigo Mm050 MANUAL INTELIGENCIA de NEGOCIOS, DataMining - Data WareHouse - Cubos OLAP
Disponer los datos en cubos evita una limitacin de las bases de datos
relacionales, que no son muy adecuadas para el anlisis instantneo de grandes
cantidades de datos.
Para acceder a los datos slo es necesario indexarlos a partir de los valores de las
dimensiones o ejes. El almacenar fsicamente los datos de esta forma tiene sus
pros y sus contras. Por ejemplo, en estas bases de datos las consultas de
seleccin son muy rpidas (de hecho, casi instantneas). Pero uno de los
problemas ms grandes de esta forma de almacenamiento es que una vez
poblada la base de datos sta no puede recibir cambios en su estructura. Para ello
sera necesario redisear el cubo.
70
cdigo Mm050 MANUAL INTELIGENCIA de NEGOCIOS, DataMining - Data WareHouse - Cubos OLAP
mejor
opcin
para
operaciones
de
Cubos Virtuales
Usted puede juntar cubos, dentro de cubos virtuales, muy parecido al proceso de
juntar tablas con vistas en las bases de datos relacionales. Un cubo virtual, provee
acceso a los datos en los cubos combinados, si la necesidad de construir un
nuevo cubo, mientras permite que se mantenga en mejor diseo en cada cubo
individual.
Un cubo podr ser actualizado, procesando solo los datos que han sido aadidos,
71
cdigo Mm050 MANUAL INTELIGENCIA de NEGOCIOS, DataMining - Data WareHouse - Cubos OLAP
Agregaciones
As se le llama al proceso de precalcular sumas de datos, para ayudar a disminuir
los tiempos de respuestas, en los procesos de bsquedas de informacin.
Seguridad
Usando las facilidades de seguridad manejadas por Microsoft SQL Server OLAP
services, usted puede controlar quien accesa los datos y los tipos de operaciones
que los usuarios pueden ejecutar con los datos. OLAP services soporta el sistema
de seguridad integrado que ofrece el sistema operativo Windows NT y permite que
usted asigne permisos de acceso, a la base de datos y al cubo incluyendo a los
cubos virtuales.
72
cdigo Mm050 MANUAL INTELIGENCIA de NEGOCIOS, DataMining - Data WareHouse - Cubos OLAP
Empecemos:
Paso 1:
Paso 2:
Empezaremos haciendo la estructura del cubo. Borre las relaciones de las tablas.
73
cdigo Mm050 MANUAL INTELIGENCIA de NEGOCIOS, DataMining - Data WareHouse - Cubos OLAP
Paso 3:
Seleccionar las tablas que harn la composicin de las dimensiones del cubo. En
este ejemplo se debe seleccionar Pedido, Cliente, Producto, Empleado y
Proveedor. Luego renombre la tabla Pedido como Fact_Pedido y para el resto de
tablas usar el prefijo Dim (Dimensin) por ejemplo: Dim_Cliente, Dim_Producto,
Dim_Categora, as en lo sucesivo.
Paso 4:
Copyright 2012 [Instituto Gala] Reservados todos los derechos.
74
cdigo Mm050 MANUAL INTELIGENCIA de NEGOCIOS, DataMining - Data WareHouse - Cubos OLAP
CONSTRAINT
(
TABLE
[smalldatetime]
[dia]
[mes]
[anio]
[PK_Dim_tiempo]
)WITH (PAD_INDEX
=
IGNORE_DUP_KEY
=
ALLOW_PAGE_LOCKS
) ON [PRIMARY]
[int]
[int]
[int]
PRIMARY
[dbo].[Dim_tiempo](
NOT
NULL,
NULL,
NULL,
NULL,
KEY
CLUSTERED
[idTiempo]
ASC
OFF, STATISTICS_NORECOMPUTE
= OFF,
OFF,
ALLOW_ROW_LOCKS
=
ON,
=
ON)
ON
[PRIMARY]
Paso 5:
Cantidad (int),
Descuento (int),
Subtotal (Money)
Copyright 2012 [Instituto Gala] Reservados todos los derechos.
75
cdigo Mm050 MANUAL INTELIGENCIA de NEGOCIOS, DataMining - Data WareHouse - Cubos OLAP
Cambie
el
nombre
del
campo
Fact_Pedido.Fecha_pedido
por
Fact_Pedido.IdTiempo
y
asocie
el
campo
a
Dim_Tiempo.
Finalmente, Elimine campo Fact_Pedido.Fecha_entrega porque las fechas son
innecesarias en esta tabla.
Ya casi tenemos el cubo.
Paso 6:
En este ejemplo vamos usar una consulta SQL para completar datos que faltan en
la tabla Fact_Pedido y Dim_detalle_pedido calculando Cantidad * Precio y el resto
de
claves
que
falta
asignar.
SELECT
dbo.Fact_Pedido.NroPed,
dbo.Dim_Producto.IdProducto,
dbo.Dim_Producto.IdProveedor,
dbo.Fact_Pedido.idTiempo,
dbo.Fact_Pedido.Id_Cliente,
dbo.Fact_Pedido.IdEmpleado, dbo.Dim_Detalle_pedido.Cantidad,
dbo.Dim_Detalle_pedido.Descuento,
dbo.Dim_Detalle_pedido.Cantidad * dbo.Dim_Producto.PrecioUnit
AS
Subtotal
FROM
dbo.Fact_Pedido
INNER
JOIN
dbo.Dim_Detalle_pedido
ON
dbo.Fact_Pedido.NroPed
=
dbo.Dim_Detalle_pedido.NroPedido
INNER
JOIN
dbo.Dim_Producto ON dbo.Dim_Detalle_pedido.IdProducto =
dbo.Dim_Producto.IdProducto
76
cdigo Mm050 MANUAL INTELIGENCIA de NEGOCIOS, DataMining - Data WareHouse - Cubos OLAP
1
2
3
3
3425
4564
2345
7845
C002
C001
C001
C003
2007-01-25
2007-05-13
2007-08-24
2007-08-24
00:00:00.000
00:00:00.000
00:00:00.000
00:00:00.000
D004
F006
C003
C003
D06
C05
A02
A02
100 15 20,0000
15 11 225,0000
45 19 202,5000
60 15 180,0000
Paso 7:
77
cdigo Mm050 MANUAL INTELIGENCIA de NEGOCIOS, DataMining - Data WareHouse - Cubos OLAP
Paso 9:
Cargar los datos para la tabla Dim_Tiempo. Los datos de Dim_Tiempo son el
resultado de Fact_Pedido.IdTiempo, por tanto, usaremos esta consulta para
extraer
los
datos:
Copyright 2012 [Instituto Gala] Reservados todos los derechos.
78
cdigo Mm050 MANUAL INTELIGENCIA de NEGOCIOS, DataMining - Data WareHouse - Cubos OLAP
Paso 10:
79
cdigo Mm050 MANUAL INTELIGENCIA de NEGOCIOS, DataMining - Data WareHouse - Cubos OLAP
80
cdigo Mm050 MANUAL INTELIGENCIA de NEGOCIOS, DataMining - Data WareHouse - Cubos OLAP
Paso 2:
Abrir
SQL
Server
Business
Intelligence
Development
Studio.
Use la opcin para crear una Nueva base de datos. En "Nombre de la base de
datos" Escriba Northwind_Mart y configure el modo de suplantacin. Para el
ejemplo se usar "Utilizar las credenciales del usuario actual"
81
cdigo Mm050 MANUAL INTELIGENCIA de NEGOCIOS, DataMining - Data WareHouse - Cubos OLAP
Listo. Las bases para las consultas fueron realizadas con xito.
Paso 3:
En Visual Studio crear una nueva solucin para Bussiness Intelligence y conectar
con la base de datos Northwind_Mart. Siga las instrucciones del asistente.
82
cdigo Mm050 MANUAL INTELIGENCIA de NEGOCIOS, DataMining - Data WareHouse - Cubos OLAP
Paso 4:
Seleccionar la tabla que ser el centro de las combinaciones o que tiene las
medidas. Para el ejemplo seleccionamos Sales_Fact.
83
cdigo Mm050 MANUAL INTELIGENCIA de NEGOCIOS, DataMining - Data WareHouse - Cubos OLAP
Paso 5:
84
cdigo Mm050 MANUAL INTELIGENCIA de NEGOCIOS, DataMining - Data WareHouse - Cubos OLAP
85
cdigo Mm050 MANUAL INTELIGENCIA de NEGOCIOS, DataMining - Data WareHouse - Cubos OLAP
86
cdigo Mm050 MANUAL INTELIGENCIA de NEGOCIOS, DataMining - Data WareHouse - Cubos OLAP
Vamos a crear una nueva base de datos con nombre MiDataWarehouse en SQL
Server 2008 R2, la cual ser nuestro DataWarehouse ficticio sin tabla u otro objeto
alguno:
87
cdigo Mm050 MANUAL INTELIGENCIA de NEGOCIOS, DataMining - Data WareHouse - Cubos OLAP
88
cdigo Mm050 MANUAL INTELIGENCIA de NEGOCIOS, DataMining - Data WareHouse - Cubos OLAP
89
cdigo Mm050 MANUAL INTELIGENCIA de NEGOCIOS, DataMining - Data WareHouse - Cubos OLAP
90
cdigo Mm050 MANUAL INTELIGENCIA de NEGOCIOS, DataMining - Data WareHouse - Cubos OLAP
91
cdigo Mm050 MANUAL INTELIGENCIA de NEGOCIOS, DataMining - Data WareHouse - Cubos OLAP
92
cdigo Mm050 MANUAL INTELIGENCIA de NEGOCIOS, DataMining - Data WareHouse - Cubos OLAP
93
cdigo Mm050 MANUAL INTELIGENCIA de NEGOCIOS, DataMining - Data WareHouse - Cubos OLAP
94
cdigo Mm050 MANUAL INTELIGENCIA de NEGOCIOS, DataMining - Data WareHouse - Cubos OLAP
Nos detenemos aqu un momento para explicar las opciones que se muestran:
Use an existing table: Se crear una nueva dimensin en nuestra base de
datos OLAP (SSAS) basada en una tabla pre-existente de nuestro Data Source
View (y por tanto en nuestro DW).
95
cdigo Mm050 MANUAL INTELIGENCIA de NEGOCIOS, DataMining - Data WareHouse - Cubos OLAP
manera nos pide seleccionar cul son los periodos de tiempo que queremos
generar. En mi caso he seleccionado todas las opciones pero es muy probable
que no todos necesiten la opcin de Half Year (semestre) o la de Ten Days (diez
das) por mencionar alguna de las menos comunes. Finalmente, esta pantalla nos
pide indicar cul ser el idioma en que se deben generar los datos de nuestra
dimensin de tiempo y como se muestra a continuacin, no incluye el idioma
Espaol (lo cual es una deficiencia siendo el Espaol el segundo o tercer lenguaje
ms hablado del mundo).
Una
de
las
formas
superar
esta
deficiencia
sera
definiendo
una traduccin (dimension translation) para cada atributo. Nosotros seguiremos
enfocados en cmo SSAS genera la dimensin de tiempo (aunque sea en Ingls)
y las relaciones entre sus atributos.
La siguiente pantalla del asistente, pregunta por los tipos de calendario que
queremos generar en nuestra dimensin. Los ms usados son Regular
calendar (calendario natural) y Fiscal calendar (calendario fiscal) que son las que
seleccionaremos. En el caso del calendario fiscal, es posible indicar cul ser el
da y el mes en que se inicia dicho calendario de acuerdo a nuestra organizacin,
as mismo el nombre del ao fiscal en comparacin con el nombre del ao
calendario:
96
cdigo Mm050 MANUAL INTELIGENCIA de NEGOCIOS, DataMining - Data WareHouse - Cubos OLAP
Esta es toda la informacin que SSAS necesita para generar nuestra dimensin de
tiempo en el lado OLAP (SSAS). Ahora en la pantalla final que se muestra a
continuacin seleccionaremos el checkbox que dice Generate schema now para
que en este mismo momento SSAS nos cree tambin la tabla fsica en nuestro
Data Warehouse y su definicin en nuestro Data Source View.
97
cdigo Mm050 MANUAL INTELIGENCIA de NEGOCIOS, DataMining - Data WareHouse - Cubos OLAP
Ahora aparecer un nuevo asistente que nos guiar a travs del proceso de la
generacin del esquema fsico y lgico que soportarn nuestra dimensin de
tiempo, as como los datos (miembros) que contendr:
98
cdigo Mm050 MANUAL INTELIGENCIA de NEGOCIOS, DataMining - Data WareHouse - Cubos OLAP
La primera pregunta del asistente es acerca del Data Source View (DSV) en que
deseamos crear la definicin de la nueva dimensin. En nuestro caso
seleccionaremos el mismo DSV que ya hemos creado al inicio de esta solucin y
que hasta el momento no contiene elemento alguno:
99
cdigo Mm050 MANUAL INTELIGENCIA de NEGOCIOS, DataMining - Data WareHouse - Cubos OLAP
Ahora vienen las preguntas con respecto a la creacin fsica de la tabla sobre
nuestro Data Warehouse incluyendo si queremos poblar de datos nuestra nueva
tabla:
100
cdigo Mm050 MANUAL INTELIGENCIA de NEGOCIOS, DataMining - Data WareHouse - Cubos OLAP
101
cdigo Mm050 MANUAL INTELIGENCIA de NEGOCIOS, DataMining - Data WareHouse - Cubos OLAP
102
cdigo Mm050 MANUAL INTELIGENCIA de NEGOCIOS, DataMining - Data WareHouse - Cubos OLAP
103
cdigo Mm050 MANUAL INTELIGENCIA de NEGOCIOS, DataMining - Data WareHouse - Cubos OLAP
104
cdigo Mm050 MANUAL INTELIGENCIA de NEGOCIOS, DataMining - Data WareHouse - Cubos OLAP
El asistente tambin nos ha creado una serie de jerarquas naturales. Estas son:
105
cdigo Mm050 MANUAL INTELIGENCIA de NEGOCIOS, DataMining - Data WareHouse - Cubos OLAP
106
cdigo Mm050 MANUAL INTELIGENCIA de NEGOCIOS, DataMining - Data WareHouse - Cubos OLAP
107
cdigo Mm050 MANUAL INTELIGENCIA de NEGOCIOS, DataMining - Data WareHouse - Cubos OLAP
108
cdigo Mm050 MANUAL INTELIGENCIA de NEGOCIOS, DataMining - Data WareHouse - Cubos OLAP
Tambin tenemos jerarquas para el calendario fiscal como Fiscal Year Fiscal
Half Year Fiscal Quarter Fiscal Month Fiscal Day:
109
cdigo Mm050 MANUAL INTELIGENCIA de NEGOCIOS, DataMining - Data WareHouse - Cubos OLAP
110
cdigo Mm050 MANUAL INTELIGENCIA de NEGOCIOS, DataMining - Data WareHouse - Cubos OLAP
Hemos subrayado en color rojo los atributos de la jerarqua Year Half Year
Quarter Month Ten Days Date, para profundizar un poco en los detalles de
sus atributos Clave Primaria y Columna a Mostrar. La propiedad Clave
Primaria (KeyColumns), define cmo SSAS va a diferenciar internamente a cada
uno de los miembros del atributo, los cuales tienen que ser valores nicos.
Debemos usar la propiedad Columna a Mostrar (Display Column), en el caso de
querer mostrar una columna distinta a la usada en la clave primaria o cuando sta
est compuesta de dos o ms columnas. Esto nos ayudar a evitar posibles
errores de navegacin tanto de la dimensin de tiempo como de cualquier otra
dimensin.
En el caso del atributo Year, ste define como su KeyColumn a la
columna Year de nuestra tabla Time; y comoNameColumn a la columna
Year_Name:
111
cdigo Mm050 MANUAL INTELIGENCIA de NEGOCIOS, DataMining - Data WareHouse - Cubos OLAP
Si exploramos los datos que contienen ests dos columnas vemos lo siguiente:
112
cdigo Mm050 MANUAL INTELIGENCIA de NEGOCIOS, DataMining - Data WareHouse - Cubos OLAP
Noten, que la columna Half_Year definida como KeyColumn, tiene sus valores
incluyendo no slo el mes de inicio del semestre (01 enero - 07 - julio), sino
tambin el ao al que pertenece (1950-01-01 y 1950-07-01 para los que se
muestran en la imagen).
Copyright 2012 [Instituto Gala] Reservados todos los derechos.
113
cdigo Mm050 MANUAL INTELIGENCIA de NEGOCIOS, DataMining - Data WareHouse - Cubos OLAP
114
cdigo Mm050 MANUAL INTELIGENCIA de NEGOCIOS, DataMining - Data WareHouse - Cubos OLAP
115
cdigo Mm050 MANUAL INTELIGENCIA de NEGOCIOS, DataMining - Data WareHouse - Cubos OLAP
En este caso Month Of Year slo nos muestra los doce meses del ao sin indicar
a qu ao pertenece. Este tipo de atributo es necesario, para cuando necesitemos
crear algn informe que permita el anlisis comparativo de los mismos meses para
distintos aos, como por ejemplo:
Month 1 Month 2 Month 3
2009
2010
2011
Debido a esto las propiedades del atributo Month of Year han sido definidas como
sigue:
116
cdigo Mm050 MANUAL INTELIGENCIA de NEGOCIOS, DataMining - Data WareHouse - Cubos OLAP
Las
columnas Month_Of_Year y
siguientes valores:
el Month_Of_Year_Name contienen
los
117
cdigo Mm050 MANUAL INTELIGENCIA de NEGOCIOS, DataMining - Data WareHouse - Cubos OLAP
Podemos optar tambin por crear nuestra dimensin de tiempo desde cero
(por ejemplo si la queremos hacer en Espaol) siguiendo las mejores prcticas de
acuerdo a como SSAS crea su dimensin de tiempo.
118