You are on page 1of 118

cdigo Mm050 MANUAL INTELIGENCIA de NEGOCIOS, DataMining - Data WareHouse - Cubos OLAP

InteligenciadeNegocios
DataMiningDataWareHouseyCubosOlap

Copyright 2012 [Instituto Gala] Reservados todos los derechos.

cdigo Mm050 MANUAL INTELIGENCIA de NEGOCIOS, DataMining - Data WareHouse - Cubos OLAP

ndice
Definicin.......................................................................................................................................4
Historia...........................................................................................................................................5
Caractersticas..............................................................................................................................5
Niveles de realizacin de BI........................................................................................................6
.........................................................................................................................................................7
Inteligencia de Empresas............................................................................................................7
Proceso........................................................................................................................................17
Protocolo de un proyecto de minera de datos......................................................................18
Negocios de Data Mining......................................................................................................24
Comportamiento en Internet.................................................................................................26
Terrorismo...............................................................................................................................26
Juegos......................................................................................................................................26
Ciencia e Ingeniera...............................................................................................................27
Minera de datos y otras disciplinas anlogas.......................................................................28
De la estadstica.....................................................................................................................28
De la informtica.....................................................................................................................29
Minera de datos basada en teora de la informacin...........................................................30
Tendencias..................................................................................................................................31
Herramientas de software.........................................................................................................32
Data Mart.........................................................................................................................................45
Dependencia de un data mart..................................................................................................46
Conceptos errneos de los Data Marts..................................................................................47
DATA WAREHOUSE VS. DATA MART.............................................................................47
Definicin de ETL.......................................................................................................................55
Proceso de Extraccin con Software ETL..............................................................................55
Proceso de Transformacin con una Herramienta ETL.......................................................56
Proceso de Carga con Software de ETL................................................................................58
Procesamiento en Herramientas ETL.....................................................................................58
Desafos para los procesos y Herramientas de ETL............................................................59
Copyright 2012 [Instituto Gala] Reservados todos los derechos.

cdigo Mm050 MANUAL INTELIGENCIA de NEGOCIOS, DataMining - Data WareHouse - Cubos OLAP

Algunas Herramientas ETL...................................................................................................60


Desafos.......................................................................................................................................60
Cubo OLAP.....................................................................................................................................62
Un ejemplo...................................................................................................................................63
Dimensiones y jerarquas..........................................................................................................64
Dispersin en cubos OLAP.......................................................................................................64
Acceso y clculo de un cubo OLAP........................................................................................65
Definicin tcnica.......................................................................................................................65
Funcionalidad..............................................................................................................................67
Tipos de sistemas OLAP...........................................................................................................67
ROLAP.....................................................................................................................................67
MOLAP.....................................................................................................................................68
HOLAP (Hybrid OLAP)..........................................................................................................68
Comparacin...........................................................................................................................68
Otros tipos...............................................................................................................................69
Pasos para extraer informacin del cubo OLAP en Analysis Services y SQL Server
Business Intelligence Development Studio............................................................................80
Creando una Dimensin de tiempo en SQL Server Analysis Services.........................86

Copyright 2012 [Instituto Gala] Reservados todos los derechos.

cdigo Mm050 MANUAL INTELIGENCIA de NEGOCIOS, DataMining - Data WareHouse - Cubos OLAP

Business Intelligence
Desafortunadamente, este trmino no tiene nada que ver con el ndice de
inteligencia medio de las personas que trabajan en un determinado negocio. De
hecho, (BI) tiene que ver con los datos y aplicaciones de un negocio para
entenderse mejor.
Semejante a la inteligencia militar, que procura entender al enemigo, la inteligencia
de negocio versa sobre todo alrededor de si mismo.
Especficamente, los sistemas de la inteligencia de negocio se basan en
crear modelos informticos de negocio de modo que pueda funcionar ms
eficientemente.
El almacenamiento de los datos est en la base de los procesos de la inteligencia
de negocio. En el mundo de ETL (Extract Transform Load) , la inteligencia de
negocio se refiere generalmente al espacio entero de los sistemas de la base de
datos, del software, del anlisis, y de la evaluacin del usuario que pretende
entender y evaluar un negocio.
Definicin
El trmino inteligencia empresarial se refiere al uso de datos en una empresa
para facilitar la toma de decisiones. Abarca la comprensin del funcionamiento
actual de la empresa, bien como la anticipacin de acontecimientos futuros, con el
objetivo de ofrecer conocimientos para respaldar las decisiones empresariales.
Las herramientas de inteligencia se basan en la utilizacin de un sistema de
informacin de inteligencia que se forma con distintos datos extrados de los datos
de produccin, con informacin relacionada con la empresa o sus mbitos y con
datos econmicos.
Mediante las herramientas y tcnicas ELT (extraer, cargar y transformar), o
actualmente ETL (extraer, transformar y cargar) se extraen los datos de distintas
fuentes, se depuran y preparan (homogeneizacin de los datos) para luego
cargarlos en un almacn de datos.
La vida o el periodo de xito de un software de inteligencia de negocios depender
nicamente del xito de su uso en beneficio de la empresa; si esta empresa es
capaz de incrementar su nivel financiero, administrativo y sus decisiones mejoran
la actuacin de la empresa, el software de inteligencia de negocios seguir
Copyright 2012 [Instituto Gala] Reservados todos los derechos.

cdigo Mm050 MANUAL INTELIGENCIA de NEGOCIOS, DataMining - Data WareHouse - Cubos OLAP

presente mucho tiempo, en caso contrario ser sustituido por otro que aporte
mejores y ms precisos resultados.
Por ltimo, las herramientas de inteligencia analtica posibilitan el modelado de las
representaciones basadas en consultas para crear un cuadro de mando
integral que sirve de base para la presentacin de informes.

Historia
En un artculo de 1958, el investigador de IBM Hans Peter Luhn utiliza el trmino
Inteligencia de Negocio. Se define la inteligencia como: " La capacidad de
comprender las interrelaciones de los hechos presentados en tal forma como para
orientar la accin hacia una meta deseada".
La inteligencia de negocios, tal como se entiende, hoy en da se dice que ha
evolucionado desde los sistemas de apoyo a las decisiones que se inici en la
dcada de 1960 y desarrollado a lo largo de mediados de los aos 80. DSS se
origin en los modelos por computadora, creado para ayudar en la toma de
decisiones y la planificacin. Desde DSS, data warehouses, sistemas de
informacin ejecutiva, OLAP e inteligencia de negocios entraron en principio
centrndose a finales de los aos 80.
En 1989, Howard Dresner (ms tarde, un analista de Gartner Group) propuso la
"inteligencia de negocios" como un trmino general para describir "los conceptos y
mtodos para mejorar la toma de decisiones empresariales mediante el uso de
sistemas basados en hechos de apoyo". No fue hasta finales de 1990 que este
uso estaba muy extendido.
Caractersticas
Este conjunto de herramientas y metodologas tienen en comn las siguientes
caractersticas:

Accesibilidad a la informacin. Los datos son la fuente principal de este


concepto. Lo primero que deben garantizar este tipo de herramientas y
tcnicas ser el acceso de los usuarios a los datos con independencia de la
procedencia de estos.

Apoyo en la toma de decisiones. Se busca ir ms all en la presentacin de la


informacin, de manera que los usuarios tengan acceso a herramientas de
anlisis que les permitan seleccionar y manipular slo aquellos datos que les
interesen.

Copyright 2012 [Instituto Gala] Reservados todos los derechos.

cdigo Mm050 MANUAL INTELIGENCIA de NEGOCIOS, DataMining - Data WareHouse - Cubos OLAP

Orientacin al usuario final. Se busca independencia entre los conocimientos


tcnicos de los usuarios y su capacidad para utilizar estas herramientas.

Niveles de realizacin de BI
De acuerdo a su nivel de complejidad se pueden clasificar las soluciones de
Business Intelligence en:
Reportes

Reportes predefinidos

Reportes a la medida

Consultas ("Query") / Cubos OLAP (On-Line Analytic Processing).

Alertas

Anlisis

Anlisis estadstico

Pronsticos ("Forecasting")

Modelado Predictivo o Minera de datos ("Data Mining")

Optimizacin

Minera de Procesos

Copyright 2012 [Instituto Gala] Reservados todos los derechos.

cdigo Mm050 MANUAL INTELIGENCIA de NEGOCIOS, DataMining - Data WareHouse - Cubos OLAP

Inteligencia de Empresas

La Inteligencia de Empresas es el concepto ms amplio del uso de la inteligencia


en las organizaciones. Desde distintas perspectivas, la inteligencia de empresas
ha ido emergiendo a partir de la contribucin de muchas reas del conocimiento:
market intelligence (inteligencia de mercados), competitive intelligence
(Inteligencia Competitiva), business intelligence (inteligencia empresarial).
Este concepto ha sido muy utilizado en el mundo de la tecnologa con distintos
significados como inteligencia de negocios, strategic foresight (Inteligencia
Estratgica), corporate intelligence (Inteligencia Corporativa), vigilancia
tecnolgica, prospectiva tecnolgica, etc.
Hay generalmente unos o ms usos analticos del software (por ejemplo, Business
Objects, Cognos, o Microstrategy ).
Copyright 2012 [Instituto Gala] Reservados todos los derechos.

cdigo Mm050 MANUAL INTELIGENCIA de NEGOCIOS, DataMining - Data WareHouse - Cubos OLAP

Los sistemas del BI se diferencian de sistemas operacionales en que estn


optimizados para preguntar y divulgar sobre datos.
Esto significa tpicamente que, en un Datawarehouse, los datos
estn desnormalizados para apoyar preguntas de alto rendimiento, mientras que
los sistemas operacionales generalmente se normalizan completamente para
apoyar integridad de referencia y para insertar datos continuamente.
Los procesos de ETL que cargan sistemas del BI tienen que traducir
del sistema operacional normalizado a desnormalizado.
Y, tpicamente, tienen fallos severos de funcionamiento debido a que no deben
degradar el funcionamiento de los sistemas operacionales, y no deben prohibir el
acceso al almacn.
Por eso surge el Business Intelligence, basado en nuevas estructuras de anlisis,
bsicamente multidimensional, en contraste con el relacional.
Cmo elegir una aplicacin Business Intelligence?
Lo primero que se puede decir es que tenemos que identificar cuales son las
necesidades y el tipo de herramienta que se busca: anlisis, reporting, base de
datos, OLAP, etc...
Los principales factores (sin orden de importancia) a tener en cuenta cuando
elegimos una herramienta Business Intelligence:

La Plataforma: No es lo mismo estar atados a Microsoft, o poder trabajar


en Unix, o tener una estrategia Open Source Linux. Lo mismo aplica al
hardware. Algunos fabricantes son restrictivos.

El Curriculum del vendedor: Es muy til conocer el tipo de


implementaciones que se han hecho, si se han realizado en tiempo, si se
utilizan, la satisfaccin de usuarios, etc...

El tamao del cubo: Es imprescindible hacer un anlisis previo de la


amplitud de la informacin a almacenar. Algunas aplicaciones pueden
'explotar' llegado cierto nivel.

La velocidad de consulta: Los usuarios siempre quieren velocidad en sus


consultas. Y si 20 segundos de espera es mucho, quizs haya que buscar
otra herramienta.

Servicios de soporte y ayuda a nivel mundial: Tenemos que tener


la seguridad de que si algo falla en la aplicacin ( y fallar, esto es seguro)
podamos resolverla en el menor tiempo posible.
Copyright 2012 [Instituto Gala] Reservados todos los derechos.

cdigo Mm050 MANUAL INTELIGENCIA de NEGOCIOS, DataMining - Data WareHouse - Cubos OLAP

Evaluaciones de analistas: Gartner, IDC saben de que hablan... y suelen


ser objetivos. No est de ms fijarse en sus 'cuadrantes'.

El ecosistema del
vendedor (consultores,
acuerdos, comunidad de desarrolladores).

Base instalada de usuarios. Si hay de mi sector mucho mejor. Si puedo


hablar con ellos y ver la herramienta en vivo, todava mejor.

Graphical User Interface (GUI). Hay que recordar que hablamos de una
herramienta para usuarios finales y si a stos no les gusta, no la utilizarn y
ser dinero tirado.

El precio: No tiene por qu ser lo ms importante..... pero... es importante!!!

Integracin con otras herramientas: Ninguna herramienta funciona como


una isla aislada del resto. Lo mismo que una empresa, si creas islas,
crears incomunicacin.

partners,

Por qu fallan muchos proyectos Business Intelligence?


A veces nos sorprende que con el desarrollo al que han llegado muchas
herramientas, el uso de metodologas contrastadas y el mayor nivel
desconocimiento de tcnicos y usuarios, se produzcan tantos desastres en la
implementacin de soluciones Business Intelligence, en trminos de exceso de
coste sobre el previsto, no utilizacin por parte de los usuarios, no cumplir con las
expectativas, informacin errnea, etc...
En base a la experiencia estos son algunos de los principales fallos:

Muchos Data Warehouses crecen en tamao de forma desproporcionada


porque los tcnicos no consiguen decir 'no' a las 'excesivas' demandas de
los usuarios.

Se prefiere realizar el proyecto con gente de la propia empresa, cuando


stos no tienen ni tiempo, ni conocimientos para poder abarcarlo.

Se fijan unas fechas de entrada en produccin del sistema poco realistas,


que provoca nuevas fechas y ms retrasos.

El presupuesto destinado para el proyecto es escaso en comparacin con


el grado de complejidad que se quiere desarrollar.

La seleccin del software y hardware a veces se realiza siguiendo criterios


de acuerdos generales o compromisos, antes que puramente tcnicos.

Antes del proyecto, no se realizan benchmarks o 'pruebas de concepto'


para determinar la viabilidad.
Copyright 2012 [Instituto Gala] Reservados todos los derechos.

cdigo Mm050 MANUAL INTELIGENCIA de NEGOCIOS, DataMining - Data WareHouse - Cubos OLAP

Los datos de origen no estn limpios. Duplicidades, errores, caracteres


errneos.. implican un proceso ETL ms costoso, mayor tamao de la Base
de datos y peor rendimiento.

El sponsor del proyecto no ejerce como tal durante el mismo. No 'baja a


la tierra'.

Mala eleccin de los consultores y excesiva rotacin entre ellos.

Escasa involucracin de los usuarios finales que les lleva a sentir cierta
frustracin con los resultados obtenidos.

Caer en el error de 'en informtica todo se puede hacer' y empezar con


customizaciones, escribir cdigo fuera de las funcionalidades estndar.

No alinear el proyecto dentro de una estrategia de negocio.

Existen muchos ms factores que pueden hacer fallar un proyecto Business


Intelligence, pero stos pueden hacer literalmente 'tumbarlo', no conseguir ms
proyectos para los consultores, mala imagen del producto y riesgos internos para
el director de informtica y otros sponsors.
Los sistemas OLAP. Consejos para su correcto uso.
Vamos a suponer que hemos realizado un anlisis detallado de las
necesidades de la empresa, se ha hablado con todos los interlocutores y
usuarios, hemos identificado las necesidades de reporting y acceso, y finalmente,
tenemos claro el modelo (que variables, formulas, dimensiones..) vamos a incluir.
Es en este momento cuando nos planteamos la pregunta clave: Qu mtodo de
almacenamiento vamos a utilizar?
Podemos tener todos los datos en nuestro sistema transaccional, que permite
montarlo ms rpido, pero puede ser menos eficiente. O podemos precalcular la
informacin para que sta se obtenga de forma rpida y exacta.
Es una decisin muy importante, porque puede implicar mayor coste
de mantenimiento y de licencias.
Es aqu donde conviene aclarar estos acrnimos:
OLAP es online analytical processing.
Se trata de una forma de almacenar la informacin en una Base de Datos que
permita realizar de forma ms efectiva las queries. Es una definicin abreviada,
claro est, la realidad es ms compleja.

Copyright 2012 [Instituto Gala] Reservados todos los derechos.

10

cdigo Mm050 MANUAL INTELIGENCIA de NEGOCIOS, DataMining - Data WareHouse - Cubos OLAP

MOLAP: Multidimensional OLAP. Tanto los datos fuente como los


datos agregados o precalculados residen en el mismo formato multidimensional.
Optimiza las queries, pero requiere ms espacio de disco y diferente software.
El primer punto esta dejando ser un problema: el espacio de disco cada vez es
ms barato.
ROLAP: Relational OLAP. Tanto los datos precalculados y agregados como los
datos fuente residen en la misma base de datos relacional.
Si el DataWarehouse es muy grande o se necesita rapidez por parte de los
usuarios puede ser un problema.
HOLAP: Hybrid OLAP: Es una combinacin de los dos anteriores. Los datos
agregados y precalculados se almacenan en estructuras multidimensionales y los
de menor nivel de detalle en el relacional.
Requiere un buen trabajo de anlisis para identificar cada tipo de dato.
Desde un punto de vista prctico aadiremos algunas otras caractersticas de
un sistema OLAP:
- Debe ser rpido. No debe transcurrir mucho tiempo entre la necesidad de
informacin y el resultado.
- Debe tener un lenguaje funcional y de negocio.
- Debe ser de manejo sencillo, con wizards y templates.
- Debe poder integrar API.
- Debe tener potentes posibilidades grficas.
- Debe utilizar mapas de forma habitual.
- Posibilidad de almacenar y compartir los informes y clculos creados por los
usuarios.
- La administracin la deben llevar los usuarios, no IT.
- El tiempo de implementacin (proyecto) debe ser muy corto.
- Deber generar respuestas medibles para la toma de decisiones.
- Tenemos que ser capaces de obtener ROI con las aplicaciones OLAP.
Como resumen final se puede decir los tres principales aspectos a cuidar son la
eleccin de las personas que usaran las herramientas, de quienes llevan el mando
en el proyecto y de los consultores externos.

Copyright 2012 [Instituto Gala] Reservados todos los derechos.

11

cdigo Mm050 MANUAL INTELIGENCIA de NEGOCIOS, DataMining - Data WareHouse - Cubos OLAP

Adems de todo esto, el sistema debe estar dentro de una estrategia de negocio
clara a medio y largo plazo, para evitar soluciones parche y gastos innecesarios.
BI persigue la transformacin de los datos de la compaa en conocimiento para
obtener una ventaja competitiva.
Qu: conjunto de metodologas, aplicaciones y tecnologas.
Cmo: reuniendo, depurando y transformando datos de los sistemas
transaccionales e informacin desestructurada (interna y externa a la compaa)
en informacin estructurada.
Para qu: para su explotacin directa (informes, anlisis OLAP...) o para su
anlisis y conversin en conocimiento soporte a la toma de decisiones sobre el
negocio.

Copyright 2012 [Instituto Gala] Reservados todos los derechos.

12

cdigo Mm050 MANUAL INTELIGENCIA de NEGOCIOS, DataMining - Data WareHouse - Cubos OLAP

DATAMINING
Descubriendo Informacin Oculta
Data Mining, la extraccin de informacin oculta y predecible de grandes
bases de datos, es una poderosa tecnologa nueva con gran potencial para
ayudar a las compaas a concentrarse en la informacin ms importante de sus
Bases de Informacin (Data Warehouse). Las herramientas de Data Mining
predicen futuras tendencias y comportamientos, permitiendo en los
negocios tomar decisiones proactivas y conducidas por un conocimiento acabado
de la informacin (knowledge-driven). Los anlisis prospectivos automatizados
ofrecidos por un producto as van ms all de los eventos pasados provistos por
herramientas retrospectivas tpicas de sistemas de soporte de decisin. Las
herramientas de Data Mining pueden responder a preguntas de negocios que
tradicionalmente consumen demasiado tiempo para poder ser resueltas y a los
cuales los usuarios de esta informacin casi no estn dispuestos a aceptar. Estas
herramientas exploran las bases de datos en busca de patrones ocultos,
encontrando informacin predecible que un experto no puede llegar a encontrar
porque se encuentra fuera de sus expectativas.
Muchas compaas ya colectan y refinan cantidades masivas de datos.
Las tcnicas de Data Mining pueden ser implementadas rpidamente en
plataformas ya existentes de software y hardware para acrecentar el valor de
las fuentes de informacin existentes y pueden ser integradas con nuevos
Copyright 2012 [Instituto Gala] Reservados todos los derechos.

13

cdigo Mm050 MANUAL INTELIGENCIA de NEGOCIOS, DataMining - Data WareHouse - Cubos OLAP

productos y sistemas pues son tradas en lnea (on-line). Una vez que las
herramientas de Data Mining fueron implementadas en computadoras cliente
servidor de alta performance o de procesamiento paralelo, pueden analizar bases
de datos masivas para brindar respuesta a preguntas tales como,
"Cules clientes tienen ms probabilidad de responder al prximo mailing
promocional, y por qu? y presentar los resultados en formas de tablas, con
grficos, reportes, texto, hipertexto, etc.
Conceptos e Historia
Aunque desde un punto de vista acadmico el trmino data mining es una etapa
dentro de un proceso mayor llamado extraccin de conocimiento en bases de
datos (Knowledge Discovery in Databases o KDD) en el entorno comercial, as
como en este trabajo, ambos trminos se usan de manera indistinta. Lo que en
verdad hace el data mining es reunir las ventajas de varias reas como la
Estadstica, la Inteligencia Artificial, la Computacin Grfica, las Bases de Datos y
el Procesamiento Masivo, principalmente usando como materia prima las bases de
datos. Una definicin tradicional es la siguiente: "Un proceso no trivial de
identificacin vlida, novedosa, potencialmente til y entendible de patrones
comprensibles que se encuentran ocultos en los datos" (Fayyad y otros, 1996).
Desde nuestro punto de vista, lo definimos como "la integracin de un conjunto de
reas que tienen como propsito la identificacin de un conocimiento obtenido a
partir de las bases de datos que aporten un sesgo hacia la toma de decisin"
(Molina y otros, 2001).

La idea de data mining no es nueva. Ya desde los aos sesenta los estadsticos
manejaban trminos como data fishing, data mining o data archaeology con la idea
de encontrar correlaciones sin una hiptesis previa en bases de datos con ruido. A
principios de los aos ochenta, Rakesh Agrawal, Gio Wiederhold, Robert Blum y
Gregory Piatetsky-Shapiro, entre otros, empezaron a consolidar los trminos
de data mining y KDD.[3] A finales de los aos ochenta slo existan un par de
empresas dedicadas a esta tecnologa; en 2002 existen ms de 100 empresas en
el mundo que ofrecen alrededor de 300 soluciones. Las listas de discusin sobre
este tema las forman investigadores de ms de ochenta pases. Esta tecnologa
ha sido un buen punto de encuentro entre personas pertenecientes al mbito
acadmico y al de los negocios.

El data mining es una tecnologa compuesta por etapas que integra varias reas y
que no se debe confundir con un gran software. Durante el desarrollo de un
Copyright 2012 [Instituto Gala] Reservados todos los derechos.

14

cdigo Mm050 MANUAL INTELIGENCIA de NEGOCIOS, DataMining - Data WareHouse - Cubos OLAP

proyecto de este tipo se usan diferentes aplicaciones software en cada etapa que
pueden ser estadsticas, de visualizacin de datos o de inteligencia artificial,
principalmente. Actualmente existen aplicaciones o herramientas comerciales
de data mining muy poderosas que contienen un sinfn de utileras que facilitan el
desarrollo de un proyecto. Sin embargo, casi siempre acaban complementndose
con otra herramienta.
Los Fundamentos del Data Mining
Las
tcnicas
de
Data
Mining
son
el
resultado
de
un
largo proceso de investigacin y desarrollo de productos. Esta evolucin comenz
cuando los datos de negocios fueron almacenados por primera vez en
computadoras, y continu con mejoras en el acceso a los datos, y ms
recientemente con tecnologas generadas para permitir a los usuarios navegar a
travs de los datos en tiempo real. Data Mining toma este proceso de evolucin
ms all del acceso y navegacin retrospectiva de los datos, hacia la entrega de
informacin prospectiva y proactiva. Data Mining est listo para su aplicacin en la
comunidad de negocios porque est soportado por tres tecnologas que ya estn
suficientemente maduras:

Recoleccin masiva de datos


Potentes computadoras con multiprocesadores
Algoritmos de Data Mining

La necesidad paralela de motores computacionales mejorados puede ahora


alcanzarse de forma ms costo - efectiva con tecnologa de computadoras con
multiprocesamiento paralelo. Los algoritmos de Data Mining utilizan tcnicas que
han existido por lo menos desde hace 10 aos, pero que slo han sido
implementadas recientemente como herramientas maduras, confiables,
entendibles que consistentemente son ms performantes que mtodos
estadsticos clsicos.
En la evolucin desde los datos de negocios a informacin de negocios, cada
nuevo paso se basa en el previo. Por ejemplo, el acceso a datos dinmicos es
crtico para las aplicaciones de navegacin de datos (drill through applications), y
la habilidad para almacenar grandes bases de datos es crtica para Data Mining.
Los componentes esenciales de la tecnologa de Data Mining han estado bajo
desarrollo por dcadas, en reas de investigacin como estadsticas,
inteligencia artificial y aprendizaje de mquinas. Hoy, la madurez de estas
tcnicas, junto con los motores de bases de datos relacionales de alta
performance, hicieron que estas tecnologas fueran prcticas para los entornos de
data warehouse actuales.
El Alcance de Data Mining

Copyright 2012 [Instituto Gala] Reservados todos los derechos.

15

cdigo Mm050 MANUAL INTELIGENCIA de NEGOCIOS, DataMining - Data WareHouse - Cubos OLAP

El nombre de Data Mining deriva de las similitudes entre buscar valiosa


informacin de negocios en grandes bases de datos - por ej.: encontrar
informacin de la venta de un producto entre grandes montos de Gigabytes
almacenados - y minar una montaa para encontrar una veta de metales valiosos.
Ambos procesos requieren examinar una inmensa cantidad de material, o
investigar inteligentemente hasta encontrar exactamente donde residen los
valores. Dadas bases de datos de suficiente tamao y calidad, la tecnologa de
Data Mining puede generar nuevas oportunidades de negocios al proveer estas
capacidades:

Prediccin automatizada de tendencias y comportamientos. Data Mining


automatiza el proceso de encontrar informacin predecible en grandes bases
de datos. Preguntas que tradicionalmente requeran un intenso anlisis manual,
ahora pueden ser contestadas directa y rpidamente desde los datos. Un tpico
ejemplo de problema predecible es el marketing apuntado a objetivos (targeted
marketing). Data Mining usa datos en mailing promocionales anteriores para
identificar posibles objetivos para maximizar los resultados de la inversin en
futuros mailing. Otros problemas predecibles incluyen pronsticos de problemas
financieros futuros y otras formas de incumplimiento, e identificar segmentos de
poblacin que probablemente respondan similarmente a eventos dados.

Descubrimiento automatizado de modelos previamente desconocidos. Las


herramientas de Data Mining barren las bases de datos e identifican modelos
previamente escondidos en un slo paso. Otros problemas de descubrimiento
de
modelos
incluye
detectar
transacciones
fraudulentas
de tarjetas de crditos e identificar datos anormales que pueden representar
errores de tipeado en la carga de datos.

Las tcnicas de Data Mining pueden redituar los beneficios de automatizacin en


las plataformas de hardware y software existentes y puede ser implementadas en
sistemas nuevos a medida que las plataformas existentes se actualicen y nuevos
productos sean desarrollados. Cuando las herramientas de Data Mining son
implementadas en sistemas de procesamiento paralelo de alta performance,
pueden analizar bases de datos masivas en minutos. Procesamiento ms rpido
significa que los usuarios pueden automticamente experimentar con
ms modelos para entender datos complejos. Alta velocidad hace que sea prctico
para los usuarios analizar inmensas cantidades de datos. Grandes bases de
datos, a su vez, producen mejores predicciones.
Las bases de datos pueden ser grandes tanto en profundidad como en ancho:

Ms columnas. Los analistas muchas veces deben limitar el nmero


de variables a examinar cuando realizan anlisis manuales debido a
limitaciones de tiempo. Sin embargo, variables que son descartadas porque
Copyright 2012 [Instituto Gala] Reservados todos los derechos.

16

cdigo Mm050 MANUAL INTELIGENCIA de NEGOCIOS, DataMining - Data WareHouse - Cubos OLAP

parecen sin importancia pueden proveer informacin acerca de modelos


desconocidos. Un Data Mining de alto rendimiento permite a los usuarios
explorar toda la base de datos, sin preseleccionar un subconjunto de variables.

Ms filas. Muestras mayores producen menos errores de estimacin y desvos,


y permite a los usuarios hacer inferencias acerca de pequeos pero
importantes segmentos de poblacin.

Proceso
Un proceso tpico de minera de datos consta de los siguientes pasos generales:
1. Seleccin del conjunto de datos, tanto en lo que se refiere a las variables
objetivo (aquellas que se quiere predecir, calcular o inferir), como a
las variables independientes (las que sirven para hacer el clculo o
proceso), como posiblemente al muestreo de los registros disponibles.
2. Anlisis de las propiedades de los datos, en especial los histogramas,
diagramas de dispersin, presencia de valores atpicos y ausencia de datos
(valores nulos).
3. Transformacin del conjunto de datos de entrada, se realizar de
diversas formas en funcin del anlisis previo, con el objetivo de prepararlo
para aplicar la tcnica de minera de datos que mejor se adapte a los datos
y
al
problema,
a
este
paso
tambin
se
le
conoce
como preprocesamiento de los datos.
4. Seleccionar y aplicar la tcnica de minera de datos, se construye el
modelo predictivo, de clasificacin o segmentacin.
5. Extraccin de conocimiento, mediante una tcnica de minera de datos,
se obtiene un modelo de conocimiento, que representa patrones de
comportamiento observados en los valores de las variables del problema o
relaciones de asociacin entre dichas variables. Tambin pueden usarse
varias tcnicas a la vez para generar distintos modelos, aunque
generalmente cada tcnica obliga a un preprocesado diferente de los
datos.
Copyright 2012 [Instituto Gala] Reservados todos los derechos.

17

cdigo Mm050 MANUAL INTELIGENCIA de NEGOCIOS, DataMining - Data WareHouse - Cubos OLAP

6. Interpretacin y evaluacin de datos, una vez obtenido el modelo, se


debe proceder a su validacin comprobando que las conclusiones que
arroja son vlidas y suficientemente satisfactorias. En el caso de haber
obtenido varios modelos mediante el uso de distintas tcnicas, se deben
comparar los modelos en busca de aquel que se ajuste mejor al problema.
Si ninguno de los modelos alcanza los resultados esperados, debe
alterarse alguno de los pasos anteriores para generar nuevos modelos.
Si el modelo final no superara esta evaluacin el proceso se podra repetir desde
el principio o, si el experto lo considera oportuno, a partir de cualquiera de los
pasos anteriores. Esta retroalimentacin se podr repetir cuantas veces se
considere necesario hasta obtener un modelo vlido.
Una vez validado el modelo, si resulta ser aceptable (proporciona salidas
adecuadas y/o con mrgenes de error admisibles) ste ya est listo para su
explotacin. Los modelos obtenidos por tcnicas de minera de datos se aplican
incorporndolos en los sistemas de anlisis de informacin de las organizaciones,
e incluso, en los sistemas transaccionales. En este sentido cabe destacar los
esfuerzos
del Data
Mining
Group,
que
est
estandarizando
el
lenguaje PMML (Predictive Model Markup Language), de manera que los modelos
de minera de datos sean interoperables en distintas plataformas, con
independencia del sistema con el que han sido construidos. Los principales
fabricantes de sistemas de bases de datos y programas de anlisis de la
informacin hacen uso de este estndar.
Tradicionalmente, las tcnicas de minera de datos se aplicaban sobre informacin
contenida en almacenes de datos. De hecho, muchas grandes empresas e
instituciones han creado y alimentan bases de datos especialmente diseadas
para proyectos de minera de datos en las que centralizan informacin
potencialmente til de todas sus reas de negocio. No obstante, actualmente est
cobrando una importancia cada vez mayor la minera de datos desestructurados
como informacin contenida en ficheros de texto, en Internet, etc.
Protocolo de un proyecto de minera de datos
Un proyecto de minera de datos tiene varias fases necesarias que son,
esencialmente:
Copyright 2012 [Instituto Gala] Reservados todos los derechos.

18

cdigo Mm050 MANUAL INTELIGENCIA de NEGOCIOS, DataMining - Data WareHouse - Cubos OLAP

Comprensin del negocio y del problema que se quiere resolver.

Determinacin, obtencin y limpieza de los datos necesarios.

Creacin de modelos matemticos.

Validacin, comunicacin, etc. de los resultados obtenidos.

Integracin, si procede, de los resultados en un sistema transaccional o


similar.

La relacin entre todas estas fases slo es lineal sobre el papel. En realidad, es
mucho ms compleja y esconde toda una jerarqua de subfases. A travs de la
experiencia acumulada en proyectos de minera de datos se han ido
desarrollando metodologas que permiten gestionar esta complejidad de una
manera ms o menos uniforme.

Las tcnicas ms comnmente usadas en Data Mining son:

Redes neuronales artificiales: modelos predecible no-lineales que aprenden a


travs del entrenamiento y semejan la estructura de redneuronal biolgica.

Arboles
de
decisin: estructuras de
forma
de
rbol
que
representan conjuntos de decisiones. Estas decisiones generan reglas para la
clasificacin de un conjunto de datos. Mtodos especficos de rboles de
decisin incluyen Arboles de Clasificacin y Regresin (CART: Classification
And Regression Tree) y Deteccin de Interaccin Automtica de Chi Cuadrado
(CHAI: Chi Square Automatic Interaction Detection)

Algoritmos genticos: tcnicas de optimizacin que usan procesos tales como


combinaciones genticas, mutaciones y seleccin natural en un diseo basado
en los conceptos de evolucin.

Mtodo del vecino ms cercano: una tcnica que clasifica cada registro en un
conjunto de datos basado en una combinacin de las clases del/de
Copyright 2012 [Instituto Gala] Reservados todos los derechos.

19

cdigo Mm050 MANUAL INTELIGENCIA de NEGOCIOS, DataMining - Data WareHouse - Cubos OLAP

los k registro (s) ms similar/es a l en un conjunto de datos histricos


(donde k 1). Algunas veces se llama la tcnica del vecino k-ms cercano.

Regla de induccin: la extraccin de reglas if-then de datos basados en


significado estadstico.

Muchas de estas tecnologas han estado en uso por ms de una dcada en


herramientas de anlisis especializadas que trabajan con volmenes de datos
relativamente pequeos. Estas capacidades estn ahora evolucionando para
integrarse directamente con herramientas OLAP y de Data Warehousing.
Cmo Trabaja el Data Mining?
Cun exactamente es capaz Data Mining de decirle cosas importantes se
desconocen o que van a pasar? La tcnica usada para realizar estas hazaas en
Data Mining se llama Modelado. Modelado es simplemente el acto de construir
un modelo en una situacin donde usted conoce la respuesta y luego la aplica en
otra situacin de la cual desconoce la respuesta. Por ejemplo, si busca un
galen espaol hundido en los mares lo primero que podra hacer es investigar
otros tesoros espaoles que ya fueron encontrados en el pasado. Notara que
esos barcos frecuentemente fueron encontrados fuera de las costas de Bermuda y
que hay ciertas caractersticas respecto de las corrientes ocenicas y ciertas rutas
que probablemente tomara el capitn del barco en esa poca. Usted nota esas
similitudes y arma un modelo que incluye las caractersticas comunes a todos los
sitios de estos tesoros hundidos. Con estos modelos en mano sale a buscar el
tesoro donde el modelo indica que en el pasado hubo ms probabilidad de darse
una situacin similar. Con un poco de esperanza, si tiene un buen modelo,
probablemente encontrar el tesoro.
Este acto de construccin de un modelo es algo que la gente ha estado haciendo
desde hace mucho tiempo, seguramente desde antes del auge de las
computadoras y de la tecnologa de Data Mining. Lo que ocurre en las
computadoras, no es muy diferente de la manera en que la gente construye
modelos. Las computadoras son cargadas con mucha informacin acerca de una
variedad de situaciones donde una respuesta es conocida y luego el software de
Data Mining en la computadora debe correr a travs de los datos y distinguir las
caractersticas de los datos que llevarn al modelo. Una vez que el modelo se
construy, puede ser usado en situaciones similares donde usted no conoce la
respuesta.
Si alguien le dice que tiene un modelo que puede predecir el uso de los clientes,
Cmo puede saber si es realmente un buen modelo? La primera cosa que puede
Copyright 2012 [Instituto Gala] Reservados todos los derechos.

20

cdigo Mm050 MANUAL INTELIGENCIA de NEGOCIOS, DataMining - Data WareHouse - Cubos OLAP

probar es pedirle que aplique el modelo a su base de clientes - donde usted ya


conoce la respuesta. Con Data Mining, la mejor manera para realizar esto es
dejando de lado ciertos datos para aislarlos del proceso de Data Mining. Una vez
que el proceso est completo, los resultados pueden ser testeados contra los
datos excluidos para confirmar la validez del modelo. Si el modelo funciona, las
observaciones deben mantenerse para los datos excluidos.
Una arquitectura para Data Mining
Para aplicar mejor estas tcnicas avanzadas, stas deben estar totalmente
integradas con el data warehouse as como con herramientas flexibles e
interactivas para el anlisis de negocios. Varias herramientas de Data Mining
actualmente operan fuera del warehouse, requiriendo pasos extra para extraer,
importar y analizar los datos. Adems, cuando nuevos conceptos requieren
implementacin operacional, la integracin con el warehouse simplifica la
aplicacin de los resultados desde Data Mining. El Data warehouse analtico
resultante puede ser aplicado para mejorar procesos de negocios en toda
la organizacin, en reas tales como manejo de campaas promocionales,
deteccin de fraudes, lanzamiento de nuevos productos, etc.
El punto de inicio ideal es un data warehouse que contenga una combinacin de
datos de seguimiento interno de todos los clientes junto con datos externos
de mercado acerca de la actividad de los competidores. Informacin histrica
sobre potenciales clientes tambin provee una excelente base para prospecting.
Este warehouse puede ser implementado en una variedad de sistemas de bases
relacionales y debe ser optimizado para un acceso a los datos flexible y rpido.
Un server multidimensional OLAP permite que un modelo de negocios ms
sofisticado pueda ser aplicado cuando se navega por el data warehouse. Las
estructuras multidimensionales permiten que el usuario analice los datos de
acuerdo a como quiera mirar el negocio - resumido por lnea de producto, u otras
perspectivas claves para su negocio. El server de Data Mining debe estar
integrado con el data warehouse y el server OLAP para insertar el anlisis de
negocios directamente en esta infraestructura. Un avanzado, metadata centrado
en procesos define los objetivos del Data Mining para resultados especficos tales
como manejos de campaa, prospecting, y optimizacin de promociones. La
integracin con el data warehouse permite que decisiones operacionales sean
implementadas directamente y monitoreadas. A medida que el data warehouse
crece con nuevas decisiones y resultados, la organizacin puede "minar" las
mejores prcticas y aplicarlas en futuras decisiones.
Este diseo representa una transferencia fundamental desde los sistemas de
soporte de decisin convencionales. Ms que simplemente proveer datos a los
usuarios finales a travs de software de consultas y reportes, el server de Anlisis
Avanzado aplica los modelos de negocios del usuario directamente al warehouse
y devuelve un anlisis proactivo de la informacin ms relevante. Estos resultados
mejoran los metadatos en el server OLAP proveyendo una estrato de metadatos
Copyright 2012 [Instituto Gala] Reservados todos los derechos.

21

cdigo Mm050 MANUAL INTELIGENCIA de NEGOCIOS, DataMining - Data WareHouse - Cubos OLAP

que representa una vista fraccionada de los datos. Generadores de reportes,


visualizadores y otras herramientas de anlisis pueden ser aplicadas para
planificar futuras acciones y confirmar el impacto de esos planes.
Glosario de Trminos de Data Mining

Algoritmos genticos: Tcnicas de optimizacin que usan procesos tales


como combinacin gentica, mutacin y seleccin natural en un diseo basado
en los conceptos de evolucin natural.
Anlisis de series de tiempo (time-series): Anlisis de una secuencia de
medidas hechas a intervalos especficos. El tiempo es usualmente la dimensin
dominante de los datos.
Anlisis prospectivo de datos: Anlisis de datos que predice futuras
tendencias, comportamientos o eventos basado en datos histricos.
Anlisis
exploratorio
de
datos: Uso
de
tcnicas
estadsticas
tanto grficas como descriptivas para aprender acerca de la estructura de un
conjunto de datos.
Anlisis retrospectivo de datos: Anlisis de datos que provee una visin de
las tendencias, comportamientos o eventos basado en datos histricos.
rbol de decisin: Estructura en forma de rbol que representa un conjunto de
decisiones. Estas decisiones generan reglas para la clasificacin de un
conjunto de datos. Ver CART y CHAID.
Base de datos multidimensional: Base de datos diseada para
procesamiento analtico on-line (OLAP). Estructurada como un hipercubo con
un eje por dimensin.
CART rboles de clasificacin y regresin: Una tcnica de rbol de
decisin usada para la clasificacin de un conjunto da datos. Provee un
conjunto de reglas que se pueden aplicar a un nuevo (sin clasificar) conjunto de
datos para predecir cules registros darn un cierto resultado. Segmenta un
conjunto de datos creando 2 divisiones. Requiere menos preparacin de datos
que CHAID.
CHAID Deteccin de interaccin automtica de Chi cuadrado: Una tcnica
de rbol de decisin usada para la clasificacin de un conjunto da datos.
Provee un conjunto de reglas que se pueden aplicar a un nuevo (sin clasificar)
conjunto de datos para predecir cules registros darn un cierto resultado.
Segmenta un conjunto de datos utilizando tests de chi cuadrado para crear
mltiples divisiones. Antecede, y requiere ms preparacin de datos,
que CART.
Clasificacin: Proceso de dividir un conjunto de datos en grupos mutuamente
excluyentes de tal manera que cada miembro de un grupo est lo "ms
cercano" posible a otro, y grupos diferentes estn lo "ms lejos" posible uno del
otro, donde la distancia est medida con respecto a variable(s) especfica(s) las
cuales se estn tratando de predecir. Por ejemplo, un problema tpico de
clasificacin es el de dividir una base de datos de compaas en grupos que
Copyright 2012 [Instituto Gala] Reservados todos los derechos.

22

cdigo Mm050 MANUAL INTELIGENCIA de NEGOCIOS, DataMining - Data WareHouse - Cubos OLAP

son lo ms homogneos posibles con respecto a variables como "posibilidades


de crdito" con valores tales como "Bueno" y "Malo".
Clustering (agrupamiento): Proceso de dividir un conjunto de datos en grupos
mutuamente excluyentes de tal manera que cada miembro de un grupo est lo
"ms cercano" posible a otro, y grupos diferentes estn lo "ms lejos" posible
uno del otro, donde la distancia est medida con respecto a todas las variables
disponibles.
Computadoras con multiprocesadores: Una computadora que incluye
mltiples procesadores conectados por una red. Ver procesamiento paralelo.
Data cleansing: Proceso de asegurar que todos los valores en un conjunto de
datos sean consistentes y correctamente registrados.
Data Mining: La extraccin de informacin predecible escondida en grandes
bases de datos.
Data Warehouse: Sistema para el almacenamiento y distribucin de cantidades
masivas de datos
Datos anormales: Datos que resultan de errores (por ej.: errores en el tipeado
durante la carga) o que representan eventos inusuales.
Dimensin: En una base de datos relacional o plana, cada campo en un
registro representa una dimensin. En una base de datos multidimensional, una
dimensin es un conjunto de entidades similares; por ej.: una base de datos
multidimensional de ventas podra incluir las dimensiones Producto, Tiempo y
Ciudad.
Modelo analtico: Una estructura y proceso para analizar un conjunto de datos.
Por ejemplo, un rbol de decisin es un modelo para la clasificacin de un
conjunto de datos
Modelo lineal: Un modelo analtico que asume relaciones lineales entre una
variable seleccionada (dependiente) y sus predictores (variables
independientes).
Modelo no lineal: Un modelo analtico que no asume una relacin lineal en los
coeficientes de las variables que son estudiadas.
Modelo predictivo: Estructura y proceso para predecir valores de variables
especificadas en un conjunto de datos.
Navegacin de datos: Proceso de visualizar diferentes dimensiones, "fetas" y
niveles de una base de datos multidimensional. Ver OLAP.
OLAP Procesamiento analtico on-line (On Line Analitic procesing): Se
refiere a aplicaciones de bases de datos orientadas a array que permite a los
usuarios ver, navegar, manipular y analizar bases de datos multidimensionales.
Outlier: Un item de datos cuyo valor cae fuera de los lmites que encierran a la
mayora del resto de los valores correspondientes de la muestra. Puede
indicar datos anormales. Deberan ser examinados detenidamente; pueden dar
importante informacin.
Procesamiento paralelo: Uso coordinado de mltiples procesadores para
realizar tareas computacionales. El procesamiento paralelo puede ocurrir en

Copyright 2012 [Instituto Gala] Reservados todos los derechos.

23

cdigo Mm050 MANUAL INTELIGENCIA de NEGOCIOS, DataMining - Data WareHouse - Cubos OLAP

una computadora con mltiples procesadores o en una red de estaciones


de trabajo o PCs.
RAID: Formacin redundante de discos baratos (Redundant Array of
inexpensive disks). Tecnologa para el almacenamiento paralelo eficiente de
datos en sistemas de computadoras de alto rendimiento.
Regresin lineal: Tcnica estadstica utilizada para encontrar la mejor relacin
lineal que encaja entre una variable seleccionada (dependiente) y sus
predicados (variables independientes).
Regresin logstica: Una regresin lineal que predice las proporciones de una
variable seleccionada categrica, tal como Tipo de Consumidor, en una
poblacin.
Vecino ms cercano: Tcnica que clasifica cada registro en un conjunto de
datos basado en una combinacin de las clases del/de los k registro (s) ms
similar/es a l en un conjunto de datos histricos (donde k 1). Algunas veces
se llama la tcnica del vecino k-ms cercano.
SMP Multiprocesador simtrico (Symmetric multiprocessor): Tipo
de computadora con multiprocesadores en la cual la memoria es compartida
entre los procesadores

Negocios de Data Mining


La minera de datos puede contribuir significativamente en las aplicaciones
de administracin empresarial basada en la relacin con el cliente. En lugar de
contactar con el cliente de forma indiscriminada a travs de un centro de llamadas
o enviando cartas, slo se contactar con aquellos que se perciba que tienen una
mayor probabilidad de responder positivamente a una determinada oferta o
promocin.
Por lo general, las empresas que emplean minera de datos ven rpidamente el
retorno de la inversin, pero tambin reconocen que el nmero de modelos
predictivos desarrollados puede crecer muy rpidamente.
En lugar de crear modelos para predecir qu clientes pueden cambiar, la empresa
podra construir modelos separados para cada regin y/o para cada tipo de cliente.
Tambin puede querer determinar qu clientes van a ser rentables durante una
ventana de tiempo (una quincena, un mes) y slo enviar las ofertas a las personas
que es probable que sean rentables. Para mantener esta cantidad de modelos, es
Copyright 2012 [Instituto Gala] Reservados todos los derechos.

24

cdigo Mm050 MANUAL INTELIGENCIA de NEGOCIOS, DataMining - Data WareHouse - Cubos OLAP

necesario gestionar las versiones de cada modelo y pasar a una minera de datos
lo ms automatizada posible.
Hbitos de compra en supermercados
El ejemplo clsico de aplicacin de la minera de datos tiene que ver con la
deteccin de hbitos de compra en supermercados. Un estudio muy citado
detect que los viernes haba una cantidad inusualmente elevada de clientes que
adquiran a la vez paales y cerveza. Se detect que se deba a que dicho da
solan acudir al supermercado padres jvenes cuya perspectiva para el fin de
semana consista en quedarse en casa cuidando de su hijo y viendo la televisin
con una cerveza en la mano. El supermercado pudo incrementar sus ventas de
cerveza colocndolas prximas a los paales para fomentar las
ventas compulsivas.
Patrones de fuga
Un ejemplo ms habitual es el de la deteccin de patrones de fuga. En muchas
industrias como la banca, las telecomunicaciones, etc. Existe un comprensible
inters en detectar cuanto antes aquellos clientes que puedan estar pensando en
rescindir sus contratos para, posiblemente, pasarse a la competencia. A estos
clientes y en funcin de su valor se les podran hacer ofertas personalizadas,
ofrecer promociones especiales, etc., con el objetivo ltimo de retenerlos. La
minera de datos ayuda a determinar qu clientes son los ms proclives a darse de
baja estudiando sus patrones de comportamiento y comparndolos con muestras
de clientes que, efectivamente, se dieron de baja en el pasado.
Fraudes
Un caso anlogo es el de la deteccin de transacciones de lavado de dinero o
de fraude en el uso de tarjetas de crdito o de servicios de telefona mvil e,
incluso, en la relacin de los contribuyentes con el fisco. Generalmente, estas
operaciones fraudulentas o ilegales suelen seguir patrones caractersticos que
permiten, con cierto grado de probabilidad, distinguirlas de las legtimas y
desarrollar as mecanismos para tomar medidas rpidas frente a ellas.
Recursos humanos
La minera de datos tambin puede ser til para los departamentos de recursos
humanos en la identificacin de las caractersticas de sus empleados de mayor
Copyright 2012 [Instituto Gala] Reservados todos los derechos.

25

cdigo Mm050 MANUAL INTELIGENCIA de NEGOCIOS, DataMining - Data WareHouse - Cubos OLAP

xito. La informacin obtenida puede ayudar a la contratacin de personal,


centrndose en los esfuerzos de sus empleados y los resultados obtenidos por
stos. Adems, la ayuda ofrecida por las aplicaciones para Direccin
estratgica en una empresa se traducen en la obtencin de ventajas a nivel
corporativo, tales como mejorar el margen de beneficios o compartir objetivos; y
en la mejora de las decisiones operativas, tales como desarrollo de planes
de produccin o gestin de mano de obra.
Comportamiento en Internet
Tambin es un rea en boga el del anlisis del comportamiento de los visitantes
sobre todo, cuando son clientes potenciales en una pgina de Internet. O la
utilizacin de la informacin obtenida por medios ms o menos legtimos sobre
ellos para ofrecerles propaganda adaptada especficamente a su perfil. O para,
una vez que adquieren un determinado producto, saber inmediatamente qu otro
ofrecerle teniendo en cuenta la informacin histrica disponible acerca de los
clientes que han comprado el primero.
Terrorismo
La minera de datos ha sido citada como el mtodo por el cual la unidad Able
Danger del Ejrcito de los EE. UU. haba identificado al lder de los atentados del
11 de septiembre de 2001, Mohammed Atta, y a otros tres secuestradores del "11S" como posibles miembros de una clula de Al Qaeda que operan en los EE. UU.
Ms de un ao antes del ataque. Se ha sugerido que tanto la Agencia Central de
Inteligencia y su homloga canadiense, Servicio de Inteligencia y Seguridad
Canadiense, tambin han empleado este mtodo.
Juegos
Desde comienzos de la dcada de 1960, con la disponibilidad de orculos para
determinados juegos combinacionales, tambin llamados finales de juego de
tablero (por ejemplo, para las tres en raya o en finales de ajedrez) con cualquier
configuracin de inicio, se ha abierto una nueva rea en la minera de datos que
consiste en la extraccin de estrategias utilizadas por personas para estos
orculos. Los planteamientos actuales sobre reconocimiento de patrones, no
parecen poder aplicarse con xito al funcionamiento de estos orculos. En su
lugar, la produccin de patrones perspicaces se basa en una amplia
Copyright 2012 [Instituto Gala] Reservados todos los derechos.

26

cdigo Mm050 MANUAL INTELIGENCIA de NEGOCIOS, DataMining - Data WareHouse - Cubos OLAP

experimentacin con bases de datos sobre esos finales de juego, combinado con
un estudio intensivo de los propios finales de juego en problemas bien diseados
y con conocimiento de la tcnica (datos previos sobre el final del juego). Ejemplos
notables de investigadores que trabajan en este campo son Berlekamp en el juego
de puntos-y-cajas (o Timbiriche) y John Nunn en finales de ajedrez.
Ciencia e Ingeniera
En los ltimos aos la minera de datos se est utilizando ampliamente en
diversas reas relacionadas con la ciencia y la ingeniera. Algunos ejemplos de
aplicacin en estos campos son:
Gentica
En el estudio de la gentica humana, el objetivo principal es entender la
relacin cartogrfica entre las partes y la variacin individual en las secuencias
del ADN humano y la variabilidad en la susceptibilidad a las enfermedades. En
trminos ms llanos, se trata de saber cmo los cambios en la secuencia de ADN
de un individuo afectan al riesgo de desarrollar enfermedades comunes (como por
ejemplo el cncer). Esto es muy importante para ayudar a mejorar el diagnstico,
prevencin y tratamiento de las enfermedades. La tcnica de minera de datos que
se utiliza para realizar esta tarea se conoce como "reduccin de
dimensionalidad multifactorial".
Ingeniera elctrica
En el mbito de la ingeniera elctrica, las tcnicas minera de datos han sido
ampliamente utilizadas para monitorizar las condiciones de las instalaciones
de alta tensin. La finalidad de esta monitorizacin es obtener informacin valiosa
sobre el estado del aislamiento de los equipos. Para la vigilancia de las
vibraciones o el anlisis de los cambios de carga en transformadores se utilizan
ciertas tcnicas para agrupacin de datos (clustering) tales como los Mapas
Auto-Organizativos (SOM, Self-organizing map). Estos mapas sirven para detectar
condiciones anormales y para estimar la naturaleza de dichas anomalas.
Anlisis de gases
Tambin se han aplicado tcnicas de minera de datos para el anlisis de gases
disueltos (DGA, Dissolved gas analysis) en transformadores elctricos. El anlisis
de gases disueltos se conoce desde hace mucho tiempo como herramienta para
Copyright 2012 [Instituto Gala] Reservados todos los derechos.

27

cdigo Mm050 MANUAL INTELIGENCIA de NEGOCIOS, DataMining - Data WareHouse - Cubos OLAP

diagnosticar transformadores. Los Mapas Auto-Organizativos (SOM) se utilizan


para analizar datos y determinar tendencias que podran pasarse por alto
utilizando las tcnicas clsicas DGA.
Minera de datos y otras disciplinas anlogas
Suscita cierta polmica el definir las fronteras existentes entre la minera de
datos y disciplinas anlogas, como pueden serlo la estadstica, la inteligencia
artificial, etc. Hay quienes sostienen que la minera de datos no es
sino estadstica envuelta en una jerga de negocios que la conviertan en un
producto vendible. Otros, en cambio, encuentran en ella una serie de problemas y
mtodos especficos que la hacen distinta de otras disciplinas.
El hecho es, que en la prctica la totalidad de los modelos y algoritmos de uso
general en minera de datos (redes neuronales, rboles de regresin y
clasificacin, modelos logsticos, anlisis de componentes principales, etc.) gozan
de una tradicin relativamente larga en otros campos.
De la estadstica
Ciertamente, la minera de datos bebe de la estadstica, de la que toma las
siguientes tcnicas:

Anlisis de varianza, mediante el cual se evala la existencia de diferencias


significativas entre las medias de una o ms variables continas en
poblaciones distintas.

Regresin: define la relacin entre una o ms variables y un conjunto de


variables predictoras de las primeras.

Prueba chi-cuadrado: por medio de la cual se realiza el contraste la hiptesis


de dependencia entre variables.

Anlisis de agrupamiento o clustering: permite la clasificacin de una poblacin


de individuos caracterizados por mltiples atributos (binarios, cualitativos o
cuantitativos) en un nmero determinado de grupos, con base en las
semejanzas o diferencias de los individuos.

Anlisis discriminante: permite la clasificacin de individuos en grupos que


previamente se han establecido, permite encontrar la regla de clasificacin de

Copyright 2012 [Instituto Gala] Reservados todos los derechos.

28

cdigo Mm050 MANUAL INTELIGENCIA de NEGOCIOS, DataMining - Data WareHouse - Cubos OLAP

los elementos de estos grupos, y por tanto una mejor identificacin de cules
son las variables que definan la pertenencia al grupo.

Series de tiempo: permite el estudio de la evolucin de una variable a travs


del tiempo para poder realizar predicciones, a partir de ese conocimiento y
bajo el supuesto de que no van a producirse cambios estructurales.

De la informtica
De la informtica toma las siguientes tcnicas:

Algoritmos genticos: Son mtodos numricos de optimizacin, en los que


aquella variable o variables que se pretenden optimizar junto con las variables
de estudio constituyen un segmento de informacin. Aquellas configuraciones
de las variables de anlisis que obtengan mejores valores para la variable de
respuesta, correspondern a segmentos con mayor capacidad reproductiva. A
travs de la reproduccin, los mejores segmentos perduran y su proporcin
crece de generacin en generacin. Se puede adems introducir elementos
aleatorios para la modificacin de las variables (mutaciones). Al cabo de cierto
nmero de iteraciones, la poblacin estar constituida por buenas soluciones
al problema de optimizacin, pues las malas soluciones han ido
descartndose, iteracin tras iteracin.

Inteligencia Artificial: Mediante un sistema informtico que simula un sistema


inteligente, se procede al anlisis de los datos disponibles. Entre los sistemas
de Inteligencia Artificial se encuadraran los Sistemas Expertos y las Redes
Neuronales.

Sistemas Expertos: Son sistemas que han sido creados a partir de reglas
prcticas extradas del conocimiento de expertos. Principalmente a base de
inferencias o de causa-efecto.

Sistemas Inteligentes: Son similares a los sistemas expertos, pero con mayor
ventaja ante nuevas situaciones desconocidas para el experto.

Redes neuronales: Genricamente, son mtodos de proceso numrico en


paralelo, en el que las variables interactan mediante transformaciones
lineales o no lineales, hasta obtener unas salidas. Estas salidas se contrastan
Copyright 2012 [Instituto Gala] Reservados todos los derechos.

29

cdigo Mm050 MANUAL INTELIGENCIA de NEGOCIOS, DataMining - Data WareHouse - Cubos OLAP

con los que tenan que haber salido, basndose en unos datos de prueba,
dando lugar a un proceso de retroalimentacin mediante el cual la red se
reconfigura, hasta obtener un modelo adecuado.

Minera de datos basada en teora de la informacin


Todas las herramientas tradicionales de minera de datos asumen que los datos
que usarn para construir los modelos contienen la informacin necesaria para
lograr el propsito buscado: obtener suficiente conocimiento que pueda ser
aplicado al negocio (o problema) para obtener un beneficio (o solucin).
El inconveniente es que esto no es necesariamente cierto. Adems, existe otro
problema mayor an. Una vez construido el modelo no es posible conocer si el
mismo ha capturado toda la informacin disponible en los datos. Por esta razn la
prctica comn es realizar varios modelos con distintos parmetros para ver si
alguno logra mejores resultados.
Un enfoque relativamente nuevo al anlisis de datos soluciona estos problemas
haciendo que la prctica de la minera de datos se parezca ms a una ciencia que
a un arte.
En 1948 Claude Shannon public un trabajo llamado Una Teora Matemtica de
la Comunicacin. Posteriormente esta pas a llamarse Teora de la informacin y
sent las bases de la comunicacin y la codificacin de la informacin. Shannon
propuso una manera de medir la cantidad de informacin a ser expresada en bits.
En 1999 Dorian Pyle public un libro llamado Data Preparation for Data Mining
en el que propone una manera de usar la Teora de la Informacin para analizar
datos. En este nuevo enfoque, una base de datos es un canal que transmite
informacin. Por un lado est el mundo real que captura datos generados por el
negocio. Por el otro estn todas las situaciones y problemas importantes del
negocio. Y la informacin fluye desde el mundo real y a travs de los datos, hasta
la problemtica del negocio.
Con esta perspectiva y usando la Teora de la informacin, es posible medir la
cantidad de informacin disponible en los datos y qu porcin de la misma podr
utilizarse para resolver la problemtica del negocio. Como un ejemplo prctico,
Copyright 2012 [Instituto Gala] Reservados todos los derechos.

30

cdigo Mm050 MANUAL INTELIGENCIA de NEGOCIOS, DataMining - Data WareHouse - Cubos OLAP

podra encontrarse que los datos contienen un 65% de la informacin necesaria


para predecir qu cliente rescindirn sus contratos. De esta manera, si el modelo
final es capaz de hacer predicciones con un 60% de acierto, se puede asegurar
que la herramienta que gener el modelo hizo un buen trabajo capturando la
informacin disponible. Ahora, si el modelo hubiese tenido un porcentaje de
aciertos de solo el 10%, por ejemplo, entonces intentar otros modelos o incluso
con otras herramientas podra valer la pena.
La capacidad de medir informacin contenida en los datos tiene otras ventajas
importantes.
Al analizar los datos desde esta nueva perspectiva se genera un mapa de
informacin que hace innecesario la preparacin previa de los datos, una tarea
absolutamente imprescindible si se desea buenos resultados, pero que lleva
enorme cantidad de tiempo.
Es posible seleccionar un grupo de variables ptimo que contenga la informacin
necesaria para realizar un modelo de prediccin.
Una vez que las variables son procesadas con el fin de crear el mapa de
informacin y luego seleccionadas aquellas que aportan la mayor informacin, la
eleccin de la herramienta que se usar para crear el modelo deja de tener
importancia, ya que el mayor trabajo fue realizado en los pasos previos.
Tendencias
La Minera de Datos ha sufrido transformaciones en los ltimos aos de acuerdo
con cambios tecnolgicos, de estrategias de marketing, la extensin de los
modelos de compra en lnea, etc. Los ms importantes de ellos son:

La importancia que han cobrado los datos no estructurados (texto, pginas


de Internet, etc.).

La necesidad de integrar los algoritmos y resultados obtenidos en sistemas


operacionales, portales de Internet, etc.

La exigencia de que los procesos funcionen prcticamente en lnea (por


ejemplo, en casos de fraude con una tarjeta de crdito).

Los tiempos de respuesta. El gran volumen de datos que hay que procesar
en muchos casos para obtener un modelo vlido es un inconveniente; esto
Copyright 2012 [Instituto Gala] Reservados todos los derechos.

31

cdigo Mm050 MANUAL INTELIGENCIA de NEGOCIOS, DataMining - Data WareHouse - Cubos OLAP

implica grandes cantidades de tiempo de proceso y hay problemas que


requieren una respuesta en tiempo real.

Herramientas de software
Existen muchas herramientas de software para el desarrollo de modelos de
minera de datos tanto libres como comerciales como, por ejemplo:

dVelox

Powerhouse

KXEN

Quiterian

KNIME

RapidMiner

Orange

SPSS Clementine

Copyright 2012 [Instituto Gala] Reservados todos los derechos.

32

cdigo Mm050 MANUAL INTELIGENCIA de NEGOCIOS, DataMining - Data WareHouse - Cubos OLAP

Copyright 2012 [Instituto Gala] Reservados todos los derechos.

33

cdigo Mm050 MANUAL INTELIGENCIA de NEGOCIOS, DataMining - Data WareHouse - Cubos OLAP

Ejemplo de Data Mining


Predicciones de Venta
DESCRIPCIN:
Uno de los campos de aplicacin tradicionales de la minera de datos es la
prediccin de la evolucin en el futuro de una variable (o conjunto de variables) a
partir de datos histricos sobre su comportamiento en el pasado. Las tcnicas de
minera de datos constituyen una alternativa til y eficaz a las aproximaciones
matemticas tradicionales, especialmente en el caso de variaciones muy
irregulares, complicadas de modelar con los mtodos clsicos.
La empresa Bayer mantiene un registro histrico de diferentes datos, entre ellos
las cifras de ventas. Basndose nicamente en los datos de ventas de uno de sus
productos, sin indicadores adicionales, pretende desarrollar un modelo del
comportamiento de dicho producto en el mercado que le permita predecir las
Copyright 2012 [Instituto Gala] Reservados todos los derechos.

34

cdigo Mm050 MANUAL INTELIGENCIA de NEGOCIOS, DataMining - Data WareHouse - Cubos OLAP

ventas del mismo con cierta anticipacin. En concreto, se dispone de las cifras de
los ltimos 56 meses.
Con esta informacin, los resultados obtenidos aplicando mtodos de prediccin
tradicionales no son suficientemente precisos. As, tomando como estimacin para
un mes el importe correspondiente al mes anterior, se obtiene un error del 25,6%,
y del 14% si se usa el de ese mes en el ao anterior. La calidad de la prediccin
mejora utilizando medias mviles, pero el error es an del 11,8%. Debido a los
altos porcentajes de error obtenidos, ninguno de estos mtodos satisface las
necesidades de la compaa.
Para mejorar la precisin del modelo y conseguir la exactitud necesaria en las
predicciones, se han aplicado tcnicas de minera de datos.
En primer lugar, se han analizado las caractersticas bsicas de la serie. A simple
vista, se observa que las ventas presentan una tendencia creciente en el tiempo
que puede modelarse con medias mviles. Tambin se observan oscilaciones
estacionales, aunque estas regularidades no aparecen en todos los meses. Por
ejemplo, si bien los valores de las ventas son siempre bajos en agosto, los de
mayo presentan grandes variaciones. Esto puede significar que la serie incluye
varios factores de influencia con distintos periodos. Estas observaciones se ven
confirmadas por el anlisis del espectro de frecuencia, que muestra varios
mximos.
Las conclusiones de los estudios preliminares sugieren la conveniencia de incluir
en el modelo informacin no slo de los valores de ventas en los meses previos
sino tambin sobre la tendencia de la serie y sobre la temporada en cuestin,
datos todos ellos contenidos en la propia serie.
El sistema desarrollado, basado en una red neuronal, predice las ventas en un
determinado mes partiendo nicamente de caractersticas extradas de la serie de
ventas en funcin del tiempo, sin indicadores adicionales. En concreto, los datos
de entrada con los que se han obtenido los mejores resultados son:
Valores de las ventas en los tres meses anteriores.
Ventas del mes a predecir en el ao anterior.
Valor medio de las ventas durante los ltimos 12 meses.
Identificador del mes.

Copyright 2012 [Instituto Gala] Reservados todos los derechos.

35

cdigo Mm050 MANUAL INTELIGENCIA de NEGOCIOS, DataMining - Data WareHouse - Cubos OLAP

Las predicciones del modelo obtenido aplicando minera de datos son


notablemente ms precisas, con un error medio del 6,4%, que con las tcnicas
clsicas, debido sin duda a que la serie considerada presenta un comportamiento
altamente voltil, difcil de modelar con los mtodos clsicos.
Data WareHouse
Introduccin
Que es un Data WareHouse?
Es un repositorio de datos de muy fcil acceso, alimentado de numerosas fuentes,
transformadas en grupos de informacin sobre temas especficos de negocios,
para permitir nuevas consultas, anlisis, reporteador y decisiones.
Que es lo que le preocupa a los ejecutivos?
Se tienen montaas de datos en la compaa, pero no podemos llegar a ellos
adecuadamente. Nada enloquece ms a los ejecutivos que dos personas
presentando el mismo resultado de operacin pero con diferentes nmeros y los
ejecutivos lo que buscan es ver la informacin pero desde diferentes ngulos,
mostrando nicamente lo que es importante para tomar una decisin en la
empresa, finalmente los ejecutivos saben que hay datos que nunca sern
confiables, por lo que prefieren que se eviten en los reportes ejecutivos.
Uno de los valores ms importantes de una organizacin es la informacin.
Estos valores normalmente son guardados por la organizacin de dos formas:

Los sistemas operacionales de registros


Y el Data Warehouse

Crudamente hablando, los sistema operacionales de registros es donde los datos


son depositados y el Data WareHouse es de donde se extraen eso datos.
Los objetivos fundamentales de un Data WareHouse son:

Hace que la informacin de la organizacin sea accesible: los contenidos del


Data WareHouse son entendibles y navegables, y el acceso a ellos son
caracterizado por el rpido desempeo. Estos requerimientos no tienen
fronteras y tampoco limites fijos. Cuando hablamos de entendible significa, que
los niveles de la informacin sean correctos y obvios. Y Navegables significa el
reconocer el destino en la pantalla y llegar a donde queramos con solo un clic.
Rpido desempeo significa, cero tiempos de espera. Todo lo dems es un
compromiso y por consiguiente algo que queremos mejorar.

Copyright 2012 [Instituto Gala] Reservados todos los derechos.

36

cdigo Mm050 MANUAL INTELIGENCIA de NEGOCIOS, DataMining - Data WareHouse - Cubos OLAP

Hacer que la informacin de la organizacin sea consistente: la informacin de


una parte de la organizacin puede hacerse coincidir con la informacin de la
otra parte de la organizacin. Si dos medidas de la organizacin tienen el
mismo nombre, entonces deben significar la misma cosa. Y a la inversa, si dos
medidas no significan la misma cosa, entonces son etiquetados diferentes.
Informacin consistente significa, informacin de alta calidad. Significa que toda
la informacin es contabilizada y completada. Todo lo dems es un compromiso
y por consiguiente algo que queremos mejorar.

Es informacin adaptable y elstica: el Data WareHouse est diseado para


cambios continuos. Cuando se le hacen nuevas preguntas al Data WareHouse,
los datos existentes y las tecnologas no cambian ni se corrompen. Cuando se
agregan datos nuevos al Data WareHouse, los datos existentes y las
tecnologas tampoco cambian ni se corrompen. El diseo de Data Marts
separados que hacen al Data WareHouse, deben ser distribuidos e
incrementados. Todo lo dems es un compromiso y por consiguiente algo que
queremos mejorar.

Es un seguro baluarte que protege los valores de la informacin: el Data


WareHouse no solamente controla el acceso efectivo a los datos, si no que da
a los dueos de la informacin gran visibilidad en el uso y abusos de los datos,
an despus de haber dejado el Data WareHouse. Todo lo dems es un
compromiso y por consiguiente algo que queremos mejorar.

Es la fundacin de la toma de decisiones: el Data WareHouse tiene los datos


correctos para soportar la toma de decisiones. Solo hay una salida verdadera
del Data WareHouse: las decisiones que son hechas despus de que el Data
WareHouse haya presentado las evidencias. La original etiqueta que preside el
Data WareHouse sigue siendo la mejor descripcin de lo que queremos
construir: un sistema de soporte a las decisiones.

Los elementos bsicos de un Data WareHouse

Sistema fuente: sistemas operacionales de registros donde sus funciones son


capturar las transacciones del negocio. A los sistemas fuentes tambin se le
conoce como Legacy System.
rea de trfico de datos: es un rea de almacenamiento y grupo de procesos,
que limpian transforman, combinan, remover los duplicados, guardan, archivan
y preparan los datos fuente para ser usados en el Data WareHouse.
Copyright 2012 [Instituto Gala] Reservados todos los derechos.

37

cdigo Mm050 MANUAL INTELIGENCIA de NEGOCIOS, DataMining - Data WareHouse - Cubos OLAP

Servidor de presentacin: la maquina fsica objetivo en donde los datos del


Data WareHouse son organizados y almacenados para queries directos por los
usuarios finales, reportes y otras aplicaciones.
Modelo dimensional: una disciplina especfica para el modelado de datos que
es una alternativa para los modelos de entidad relacin.
Procesos de negocios: un coherente grupo de actividades de negocio que
hacen sentido a los usuarios del negocio del Data WareHouse.
Data Mart: un subgrupo lgico del Data WareHouse completo.
Data WareHouse: bsquedas fuentes de datos de la empresa. Y es la unin de
todos los data marts que la constituyen.
Almacenamiento operacional de datos: es el punto de integracin por los
sistemas operacionales. Es el acceso al soporte de decisiones por los
ejecutivos.
OLAP: actividad general de bsquedas para presentacin de texto y nmeros
del Data WareHouse, tambin un estilo dimensional especifico de bsquedas y
presentacin de informacin y que es ejemplificada por vendedores de OLAP.
ROLAP: un grupo de interfaces de usuarios y aplicaciones que le dan a la base
de datos relacional un estilo dimensional.
MOLAP: un grupo de interfaces de usuarios, aplicaciones y propietarios
de tecnologa de bases de datos que tienen un fuerte estilo dimensional.
Aplicaciones para usuarios finales: una coleccin de herramientas que hacen
los queries, analizan y presentan la informacin objetivo para el soporte de las
necesidades del negocio.
Herramientas de acceso a datos por usuarios finales: un cliente de Data
WareHouse.
Ad Hoc Query Tool: un tipo especfico de herramientas de acceso a datos por
usuarios finales que invita al usuario a formas sus propios queries manipulando
directamente las tablas relacionales y sus uniones.
Modelado de aplicaciones: un sofisticado tipo de cliente de Data WareHouse
con capacidades analticas que transforma o digiere las salidas del Data
WareHouse.
Meta Data: toda la informacin en el ambiente del Data WareHouse que no son
as mismo los datos actuales.

Copyright 2012 [Instituto Gala] Reservados todos los derechos.

38

cdigo Mm050 MANUAL INTELIGENCIA de NEGOCIOS, DataMining - Data WareHouse - Cubos OLAP

Los procesos bsicos del Data WareHouse (ETL)

Extraccin: este es el primer paso de obtener la informacin hacia el ambiente


del Data WareHouse.
Transformacin: una vez que la informacin es extrada hacia el rea de trafico
de datos, hay posibles paso de transformacin como; limpieza de la
informacin, tirar la basura que no nos sirve, seleccionar nicamente los
campos necesarios para el Data WareHouse, combinar fuentes de datos,
hacindolas coincidir por los valores de las llaves, creando nuevas llaves para
cada registro de una dimensin.
Carga: al final del proceso de transformacin, los datos estn en forma para ser
cargados.

Las razones bsicas de porque una organizacin implementa Data WareHouse:


Para realizar tareas en los servidores y discos, asociados a queries y
reportes en servidores y discos que no son utilizados por sistemas de
proceso de transacciones.
Muchas de las empresas quieren instalar sistemas de procesos de transacciones
para que haya una alta probabilidad de que las transacciones sean completadas
en un tiempo razonable. Estos sistemas de procesos de transacciones hacen que
las transacciones y peticiones sean ms rpidas en menores tiempos dado a que
los queries y reportes consumen mucho ms de su lmite permitido en
los recursos de servidores y discos, por tal motivo las empresas han
implementado una arquitectura de Data WareHouse que utiliza sus servidores y
discos por separado para algunos de los queries y reportes.

Copyright 2012 [Instituto Gala] Reservados todos los derechos.

39

cdigo Mm050 MANUAL INTELIGENCIA de NEGOCIOS, DataMining - Data WareHouse - Cubos OLAP

Para utilizar modelos de datos o tecnologas de servidores que agilizan los


queries y reportes, y que no son apropiados para los procesos de
transacciones.
Existen maneras de modelar los datos que usualmente agilizan los queries y
reportes (ejemplo: el esquema del modelo estrella) y que no son apropiados para
los procesos de transacciones porque la tcnica de modelado bajara el
rendimiento y complicara el proceso de transacciones. Tambin existen
tecnologas que aceleran el proceso de queries y reportes pero baja
la velocidad en el proceso de transacciones (ejemplo: la indexacin de bitmaps) y
tecnologa de servidores que incrementan la velocidad en el proceso de
transacciones, pero que disminuyen la velocidad del proceso de queries y reportes
(ejemplo: La tecnologa de recuperacin de transacciones). Todo esto entonces
esta en el cmo se hacen los modelos de datos y que tecnologa se utiliza,
inclusive que productos se adquieren para el impacto de los procesos de queries y
reportes.
Para proveer un ambiente donde relativamente una muy poca cantidad
de conocimiento de los aspectos tcnicos de tecnologa de bases de datos
es requerida para escribir y mantener queries y reportes.
Frecuentemente un Data WareHouse puede ser instalado de manera que los
queries y reportes puedan ser escritos por personal sin tanto conocimiento tcnico,
lo que hace que su mantenimiento y construccin se haga sin ms complejidad.
Para proveer un repositorio del sistema de proceso de transacciones limpio
que puede ser reportado y que no necesariamente requiere que se arregle el
sistema de proceso de transacciones.
El Data WareHouse provee la oportunidad de limpiar los datos sin cambiar los
sistemas de proceso de transacciones, sin embargo algunas implementaciones de
Data WareHouse provee el significado para capturar las correcciones hechas a los
datos del Data WareHouse y alimenta las correcciones hacia el sistema de
proceso de transacciones. Muchas veces hace ms sentido hacer las correcciones
de esta manera que aplicar las correcciones directamente al sistema de proceso
de transacciones.
Para hacer los queries y reportes de datos bsicamente ms fcil de los
mltiples procesos de transacciones y de las fuentes externas y de los datos
que deben ser almacenados solamente para el propsito de hacer queries y
reportes.
Desde hace mucho tiempo que las compaas necesitan reportes con informacin
de mltiples sistemas y han hecho extracciones de datos para despus correrlos
bajo la lgica de bsqueda combinando la informacin de las extracciones con los
reportes generados, lo que en muchas ocasiones es una buena estrategia. Pero
cuando se tienen muchos datos y las bsquedas se vuelven muy pesadas y
despus limpiar la bsqueda, entonces lo apropiado sera un Data WareHouse.
Copyright 2012 [Instituto Gala] Reservados todos los derechos.

40

cdigo Mm050 MANUAL INTELIGENCIA de NEGOCIOS, DataMining - Data WareHouse - Cubos OLAP

En esencia la creacin de un DataWareHouse representa en la mayora de las


ocasiones el primer paso, desde el punto de vista tcnico, para implantar una
solucin
completa
y
fiable
de Business
Intelligence.

Una de las claves del xito en la construccin de un DataWareHouse es el


desarrollo de forma gradual, seleccionando a un departamento usuario como piloto
y expandiendo progresivamente el almacn de datos a los dems usuarios. Por
ello es importante elegir este usuario inicial o piloto, siendo importante que sea un
departamento con pocos usuarios, en el que la necesidad de este tipo de sistemas
es muy alta y se pueda obtener y medir resultados a corto plazo.
La ventaja principal de este tipo de bases de datos radica en las estructuras en las
que se almacena la informacin (modelos de tablas en estrella, en copo de nieve,
cubos relacionales, etc.). Este tipo de persistencia de la informacin es
homognea y fiable, y permite la consulta y el tratamiento jerarquizado de la
misma (siempre en un entorno diferente a los sistemas operacionales).

Copyright 2012 [Instituto Gala] Reservados todos los derechos.

41

cdigo Mm050 MANUAL INTELIGENCIA de NEGOCIOS, DataMining - Data WareHouse - Cubos OLAP

CARACTERSTICAS

No voltil: el almacn de informacin de un data warehouse existe para ser ledo,


pero no modificado. La informacin es por tanto permanente, significando la
actualizacin del data warehouse la incorporacin de los ltimos valores que
tomaron las distintas variables contenidas en l sin ningn tipo de accin sobre lo
que ya exista.
Integrado: los datos almacenados en el data warehouse deben integrarse en una
estructura consistente, por lo que las inconsistencias existentes entre los diversos
sistemas operacionales deben ser eliminadas. La informacin suele estructurarse
tambin en distintos niveles de detalle para adecuarse a las distintas necesidades
de los usuarios.

Temtico: slo los datos necesarios para el proceso de generacin del


conocimiento del negocio se integran desde el entorno operacional. Los datos se
organizan por temas para facilitar su acceso y entendimiento por parte de los
usuarios finales. Por ejemplo, todos los datos sobre clientes pueden ser
Copyright 2012 [Instituto Gala] Reservados todos los derechos.

42

cdigo Mm050 MANUAL INTELIGENCIA de NEGOCIOS, DataMining - Data WareHouse - Cubos OLAP

consolidados en una nica tabla del data warehouse. De esta forma, las peticiones
de informacin sobre clientes sern ms fciles de responder dado que toda la
informacin reside en el mismo lugar.
Histrico: el tiempo es parte implcita de la informacin contenida en un data
warehouse. En los sistemas operacionales, los datos siempre reflejan el estado de
la actividad del negocio en el momento presente. Por el contrario, la informacin
almacenada en el data warehouse sirve, entre otras cosas, para realizar anlisis
de tendencias. Por lo tanto, el data warehouse se carga con los distintos valores
que toma una variable en el tiempo para permitir comparaciones.
Otra caracterstica del data warehouse es que contiene metadatos, es decir, datos
sobre los datos. Los metadatos permiten saber la procedencia de la informacin,
su periodicidad de refresco, su fiabilidad, forma de clculo... etc.
Los metadatos sern los que permiten simplificar y automatizar la obtencin de la
informacin desde los sistemas operacionales a los sistemas informacionales.

Para comprender ntegramente el concepto de data warehouse, es importante


entender cul es el proceso de construccin del mismo, denominado ETL
(Extraccin, Transformacin y Carga), a partir de los sistemas operacionales de
una compaa:

Copyright 2012 [Instituto Gala] Reservados todos los derechos.

43

cdigo Mm050 MANUAL INTELIGENCIA de NEGOCIOS, DataMining - Data WareHouse - Cubos OLAP

Extraccin: obtencin de informacin de las distintas fuentes tanto internas


como externas.

Transformacin: filtrado, limpieza,


agrupacin de la informacin.

Carga: organizacin y actualizacin de los datos y los metadatos en la base


de datos.

depuracin,

homogenizacin

PRINCIPALES APORTACIONES DE UN DATAWAREHOUSE


a. Proporciona una herramienta para la toma de decisiones en cualquier rea
funcional, basndose en informacin integrada y global del negocio.
b. Facilita la aplicacin de tcnicas estadsticas de anlisis y modelizacin
para encontrar relaciones ocultas entre los datos del almacn; obteniendo
un valor aadido para el negocio de dicha informacin.
c. Proporciona la capacidad de aprender de los datos del pasado y de
predecir situaciones futuras en diversos escenarios.
d. Simplifica dentro de la empresa la implantacin de sistemas de gestin
integral de la relacin con el cliente.
e. Supone una optimizacin tecnolgica y econmica en entornos de Centro
de Informacin, estadstica o de generacin de informes con retornos de la
inversin espectaculares.
f. Integrar datos de mltiples sistemas de origen, lo que permite una vista
central de toda la empresa. Este beneficio es siempre valiosa, pero
especialmente cuando la organizacin ha crecido por la fusin.
g. Mejorar la calidad de los datos, al proporcionar los cdigos y descripciones
consistentes, marcar o incluso la fijacin de los datos errneos.
h. Presentar la informacin de la organizacin constantemente.
i. Proporcionar un nico modelo de datos comn para todos los datos de
inters independientemente de la fuente de los datos.

Copyright 2012 [Instituto Gala] Reservados todos los derechos.

44

cdigo Mm050 MANUAL INTELIGENCIA de NEGOCIOS, DataMining - Data WareHouse - Cubos OLAP

j. Agregar valor a las aplicaciones de negocio operativo, en particular la


gestin de relaciones con clientes (CRM).

Data Mart
Un Data mart es una versin especial de almacn de datos (data warehouse).
Son subconjuntos de datos con el propsito de ayudar a que un rea especfica
dentro del negocio pueda tomar mejores decisiones. Los datos existentes en este
contexto pueden ser agrupados, explorados y propagados de mltiples formas
para que diversos grupos de usuarios realicen la explotacin de los mismos de la
forma ms conveniente segn sus necesidades.
El Data mart es un sistema orientado a la consulta, en el que se producen
procesos batch de carga de datos (altas) con una frecuencia baja y conocida. Es
consultado mediante herramientas OLAP (On line Analytical Processing Procesamiento Analtico en Lnea) que ofrecen una visin multidimensional de la
informacin. Sobre estas bases de datos se pueden construir EIS (Executive
Information Systems, Sistemas de Informacin para Directivos) y DSS (Decision
Support Systems, Sistemas de Ayuda a la toma de Decisiones). Por otra parte, se
conoce como Data Mining al proceso no trivial de anlisis de grandes cantidades
de datos con el objetivo de extraer informacin til, por ejemplo para realizar
clasificaciones o predicciones.
Copyright 2012 [Instituto Gala] Reservados todos los derechos.

45

cdigo Mm050 MANUAL INTELIGENCIA de NEGOCIOS, DataMining - Data WareHouse - Cubos OLAP

En sntesis, se puede decir que los data marts son pequeos data
warehouse centrados en un tema o un rea de negocio especfico dentro de una
organizacin.
Dependencia de un data mart
Segn la tendencia marcada por Inmon sobre los data warehouse, un data mart
dependiente es un subconjunto lgico (vista) o un subconjunto fsico (extracto) de
un almacn de datos ms grande, que se ha aislado por alguna de las siguientes
razones:

Se necesita para un esquema o modelo de datos espacial (por ejemplo, para


reestructurar los datos para alguna herramienta OLAP).

Prestaciones: Para descargar el data mart a un ordenador independiente para


mejorar la eficiencia o para obviar las necesidades de gestionar todo el
volumen del data warehouse centralizado.

Seguridad: Para separar un subconjunto de datos de forma selectiva a los que


queremos permitir o restringir el acceso.

Conveniencia: la de poder pasar por alto las autorizaciones y requerimientos


necesarios para poder incorporar una nueva aplicacin en el Data Warehouse
principal de la Empresa.

Demostracin sobre el terreno: para demostrar la viabilidad y el potencial de


una aplicacin antes de migrarla al Data Warehouse de la Empresa.

Poltica: Cuando se decide una estrategia para las TI (Tecnologas de la


informacin) en situaciones en las que un grupo de usuarios tiene ms
influencia, para determinar si se financia dicha estrategia o descubrir si sta no
sera buena para el almacn de datos centralizado.

Poltica: Estrategia para los consumidores de los datos en situaciones en las


que un equipo de almacn de datos no est en condiciones de crear un
almacn de datos utilizable.

Segn la escuela Inmon de data warehouse, entre las prdidas inherentes al uso
de data marts estn la escalabilidad limitada, la duplicacin de datos, la
inconsistencia de los datos con respecto a otros almacenes de informacin y la
incapacidad para aprovechar las fuentes de datos de la empresa. As y todo estas
herramientas son de gran importancia.
Copyright 2012 [Instituto Gala] Reservados todos los derechos.

46

cdigo Mm050 MANUAL INTELIGENCIA de NEGOCIOS, DataMining - Data WareHouse - Cubos OLAP

Conceptos errneos de los Data Marts


Al hablar de los data marts, es inevitable la comparacin con los data warehouse y
al final se acaba diciendo (o entendiendo) que son como estos, pero en pequeo,
y en cierto modo esto es as, pero esta idea suele hacer caer en los siguientes
errores sobre la implementacin y funcionamiento de los data marts:

Son ms simples de implementar que un Data Warehouse: FALSO, la


implementacin es muy similar, ya que debe proporcionar las mismas
funcionalidades.

Son pequeos conjuntos de datos y, en consecuencia, tienen menor necesidad


de recursos: FALSO, una aplicacin corriendo sobre un data mart necesita los
mismos recursos que si corriera sobre un data warehouse.

Las consultas son ms rpidas, dado el menor volumen de datos: FALSO, el


menor volumen de datos se debe a que no se tienen todos los datos de toda la
empresa, pero s se tienen todos los datos de un determinado sector de la
empresa, por lo que una consulta sobre dicho sector tarda lo mismo si se hace
sobre el data mart que si se hace sobre el data warehouse.

En algunos casos aade tiempo al proceso de actualizacin: FALSO,


actualizar el data mart desde el data warehouse cuesta menos (ya que los
formatos de los datos son o suelen ser idnticos) que actualizar el data
warehouse desde sus fuentes de datos primarias, donde es necesario realizar
operaciones de transformacin (ver ETL).

DATA WAREHOUSE VS. DATA MART


La duplicacin en otro entorno de datos es un trmino que suele ser mal
interpretado e incomprendido. As es usado por los fabricantes de SGBD en el
sentido de simple rplica de los datos de un sistema operacional centralizado en
sistemas distribuidos. En un contexto de Data Warehouse, el trmino duplicacin
se refiere a la creacin de Data Marts locales o departamentales basados en
subconjuntos de la informacin contenida en el Data Warehouse central o
maestro.
Segn define Meta Group, "un Data Mart es una aplicacin de Data Warehouse,
construida rpidamente para soportar una lnea de negocio simple". Los Data
Marts, tienen las mismas caractersticas de integracin, no volatilidad, orientacin

Copyright 2012 [Instituto Gala] Reservados todos los derechos.

47

cdigo Mm050 MANUAL INTELIGENCIA de NEGOCIOS, DataMining - Data WareHouse - Cubos OLAP

temtica y no volatilidad que el Data Warehouse. Representan una estrategia de


"divide y vencers" para mbitos muy genricos de un Data Warehouse.
Esta estrategia es particularmente apropiada cuando el Data Warehouse central
crece muy rpidamente y los distintos departamentos requieren slo una pequea
porcin de los datos contenidos en l. La creacin de estos Data Marts requiere
algo ms que una simple rplica de los datos: se necesitarn tanto la
segmentacin como algunos mtodos adicionales de consolidacin.
La primera aproximacin a una arquitectura descentralizada de Data Mart, podra
ser venir originada de una situacin como la descrita a continuacin.

El departamento de Marketing, emprende el primer proyecto de Data Warehouse


como una solucin departamental, creando el primer Data Mart de la empresa.
Visto el xito del proyecto, otros departamentos, como el de Riesgos, o el
Financiero se lanzan a crear sus Data Marts. Marketing, comienza a usar otros
datos que tambin usan los Data Marts de Riesgos y Financiero, y estos hacen lo
propio.
Esto parece ser una decisin normal, puesto que las necesidades de informacin
de todos los Data Marts crecen conforme el tiempo avanza. Cuando esta situacin
evoluciona, el esquema general de integracin entre los Data Marts pasa a ser, la
del grfico de la derecha.
En esta situacin, es fcil observar cmo este esquema de integracin de
informacin de los Data Marts, pasa a convertirse en un rompecabezas en el que
la gestin se ha complicado hasta convertir esta ansia de informacin en un
autntico quebradero de cabeza. No obstante, lo que ha fallado no es la
integracin de Data Marts, sino su forma de integracin.

Copyright 2012 [Instituto Gala] Reservados todos los derechos.

48

cdigo Mm050 MANUAL INTELIGENCIA de NEGOCIOS, DataMining - Data WareHouse - Cubos OLAP

En efecto, un enfoque ms adecuado sera la coordinacin de la gestin de


informacin de todos los Data Marts en un Data Warehouse centralizado.
En esta situacin los Data Marts obtendran la informacin necesaria, ya
previamente cargada y depurada en el Data Warehouse corporativo, simplificando
el crecimiento de una base de conocimientos a nivel de toda la empresa.
Esta simplificacin provendra de la centralizacin de las labores de gestin de los
Data Marts, en el Data Warehouse corporativo, generando economas de escala
en la gestin de los Data Marts implicados.
Segn un estudio de IDC (International Data Corporation) tras analizar 541
empresas, la distribucin de las implantaciones de Data Warehouse y Data Marts
en la actualidad, y sus opiniones respecto a esta distribucin en el futuro, nos
muestra los siguientes datos:
En la grfica, observamos, cmo en la actualidad, de las empresas consultadas,
un 80% de ellas cuentan con implantaciones de Data Warehouse o Data Marts.

Copyright 2012 [Instituto Gala] Reservados todos los derechos.

49

cdigo Mm050 MANUAL INTELIGENCIA de NEGOCIOS, DataMining - Data WareHouse - Cubos OLAP

La proporcin actual de implantaciones de Data Warehouse es casi el doble que el


de Data Mart.
No obstante, seguramente tras la andadura inicial de alguno de estos proyectos de
Data Mart, se ve como ms adecuado para el futuro este enfoque "divide y
vencers", previndose una inversin de estos papeles y duplicando la
implantacin de Data Marts a los Data Warehouse.
Probablemente, el 5% de usuarios que disponen de tecnologa de Data
Warehouse y piensan renunciar a ella en el futuro, no han realizado previamente
un estudio de factores implicados en un Data Warehouse, o han pasado por la
situacin inicial de partida, y no se han planteado una reorganizacin del mismo.

Copyright 2012 [Instituto Gala] Reservados todos los derechos.

50

cdigo Mm050 MANUAL INTELIGENCIA de NEGOCIOS, DataMining - Data WareHouse - Cubos OLAP

OLTP
OLTP (On Line Transaction Processing) es un tipo de procesamiento de
transacciones a travs de una red de computadoras. Algunos tipos de
aplicaciones OLTP pueden ser banca electrnica, procesamiento de pedidos o
comercio electrnico. Es un programa que facilita y administra aplicaciones
transaccionales, usualmente para data entry y transacciones en empresas,
incluyendo bancos, aerolneas, etc. Los nuevos paquetes de Software para OLTP
se basa en la arquitectura cliente-servidor ya que suelen ser utilizados por
empresas que no se encuentran 100% en el mismo medio fsico, sino expandidas
geogrficamente.
OLAP
OLAP es el acrnimo en ingls de procesamiento analtico en lnea (OnLine Analytical Processing). Es una solucin utilizada en el campo de
la Inteligencia de Negocios (Business Intelligence), la cual consiste en
consultas a estructuras multidimensionales (o Cubos OLAP) que contienen
datos resumidos de grandes Bases de Datos o Sistemas Transaccionales
(OLTP). Se usa en informes de negocios de ventas, mrketing, informes de
direccin, minera de datos y reas similares.
La razn de usar OLAP para las consultas es la velocidad de respuesta. Una
base de datos relacional almacena entidades en tablas discretas si han sido
normalizadas. Esta estructura es buena en un sistema OLTP pero para las
complejas consultas multitabla es relativamente lenta. Un modelo mejor para
bsquedas, aunque peor desde el punto de vista operativo, es una base de
datos multidimensional. La principal caracterstica que potencia a OLAP, es
que es lo ms rpido a la hora de hacer selects, en contraposicin con OLTP
que es la mejor opcin para INSERTS, UPDATES Y DELETES.
Existen algunas clasificaciones entre las implementaciones OLAP. La
clasificacin est hecha sobre la base de en qu tipo de motor son
almacenados los datos:
ROLAP es una implementacin OLAP que almacena los datos en un motor
relacional. Tpicamente, los datos son detallados, evitando las agregaciones y
las tablas se encuentran normalizadas. Los esquemas ms comunes sobre
los que se trabaja son estrella copo de nieve, aunque es posible trabajar
sobre cualquier base de datos relacional. La arquitectura est compuesta por
un servidor de banco de datos relacional y el motor OLAP se encuentra en un
servidor dedicado. La principal ventaja de esa arquitectura es que permite el
anlisis de una enorme cantidad de datos.
MOLAP es una implementacin OLAP que almacena los datos en una base
de datos multidimensional. Para optimizar los tiempos de respuesta, el
Copyright 2012 [Instituto Gala] Reservados todos los derechos.

51

cdigo Mm050 MANUAL INTELIGENCIA de NEGOCIOS, DataMining - Data WareHouse - Cubos OLAP

resumen de la informacin es usualmente calculado por adelantado. Estos


valores precalculados o agregaciones son la base de las guanacias de
desempeo de este sistema. Algunos sistemas utilizan tcnicas de
compresin de datos para disminuir el espacio de almacenamiento en disco
debido a los valores precalculados.
HOLAP (Hybrid OLAP) almacena algunos datos en un motor relacional y otros
en una base de datos multidimensional
DOLAP es un OLAP orientado a equipos de escritorio (Desktop OLAP). Trae
toda la informacin que necesita analizar desde la base de datos relacional y
la guarda en el escritorio. Desde ese momento, todas las consultas y anlisis
son hechas contra los datos guardados en el escritorio.

El anlisis multidimensional
Un principio clave del OLAP es que los usuarios debern obtener tiempos de
respuesta consistentes para cada visita de datos que requieran. Dado que la
informacin se colecta en el nivel de detalle solamente, el resumen de la
informacin es usualmente calculado por adelantado. Estos valores pre
calculados son la base de las ganancias del desempeo del OLAP.
Los sistemas OLAP (procesamiento analtico en lnea) incorporan tres criterios
con alto nivel de eficiencia:
1. Proporcionan un modelo de datos intuitivo y conceptual, para que los
usuarios que no tengan experiencia como analistas puedan comprender y
rpidamente relacionar. Este modelo se llama anlisis multidimensional.
2. Son la respuesta para conseguir la experiencia de informacin a la
velocidad del pensamiento. Rpidos tiempos de respuesta permite que los
analistas puedan preguntar y resolver ms situaciones en un corto perodo de
tiempo.
3. Tienen un motor de clculo robusto para manejar las necesidades de clculo
especializado que una estructura multidimensional impone.

Copyright 2012 [Instituto Gala] Reservados todos los derechos.

52

cdigo Mm050 MANUAL INTELIGENCIA de NEGOCIOS, DataMining - Data WareHouse - Cubos OLAP

La potencia de OLAP proviene de la forma en que los datos estructurados


estn alineados, en la forma en la que las personas de forma natural hacemos
anlisis.
Los cubos, las dimensiones y las jerarquas son la esencia de la navegacin
multidimensional de OLAP. Esta organizacin, acompaada por una
herramienta de interface para rotar y anidar dimensiones, permite a los
usuarios visualizar rpidamente valores en detalle, patrones, variaciones y
anomalas en los datos que estaran de otra manera ocultos por un anlisis
dimensional simple. A mayor nmero de dimensiones (dentro de los lmites
razonables), mayor es la profundidad del anlisis.

Herramientas ETL
Cuando hablbamos de Data Warehousing, pasamos por encima de
las herramientas ETL, considerndolas un elemento fundamental en la
construccin, explotacin y evolucin de nuestro Data Warehouse (DW).

Copyright 2012 [Instituto Gala] Reservados todos los derechos.

53

cdigo Mm050 MANUAL INTELIGENCIA de NEGOCIOS, DataMining - Data WareHouse - Cubos OLAP

Esquema Tpico de Herramienta ETL


Decamos que las herramientas ETL, deberan de proporcionar, de forma general,
las siguientes funcionalidades:
Control de la extraccin de los datos y su automatizacin, disminuyendo el
tiempo empleado en el descubrimiento de procesos no documentados,
minimizando el margen de error y permitiendo mayor flexibilidad.
Acceso a diferentes tecnologas, haciendo un uso efectivo del hardware,
software, datos y recursos humanos existentes.

Copyright 2012 [Instituto Gala] Reservados todos los derechos.

54

cdigo Mm050 MANUAL INTELIGENCIA de NEGOCIOS, DataMining - Data WareHouse - Cubos OLAP

Proporcionar la gestin integrada del Data Warehouse y los Data Marts


existentes, integrando la extraccin, transformacin y carga para la
construccin del Data Warehouse corporativo y de los Data Marts.
Uso de la arquitectura de metadatos, facilitando la definicin de los objetos de
negocio y las reglas de consolidacin.
Acceso a una gran variedad de fuentes de datos diferentes.
Manejo de excepciones.
Planificacin, logs, interfaces a schedulers de terceros, que nos permitirn
llevan una gestin de la planificacin de todos los procesos necesarios para la
carga del DW.
Interfaz independiente de hardware.
Soporte en la explotacin del Data Warehouse.
Es hora de ampliar las definiciones y entrar un poco ms a fondo en lo que son
realmente las ETLs:
Definicin de ETL
Si ampliamos las definiciones, en la Wikipedia se dice lo siguiente de
las herramientas ETL:
ETL son las siglas en ingls de Extraer, Transformar y Cargar (Extract,
Transform and Load). Es el proceso que permite a las organizaciones mover datos
desde mltiples fuentes, reformatearlos y limpiarlos, y cargarlos en otra base de
datos, data mart, o data warehouse para analizar, o en otro sistema operacional
para apoyar un proceso de negocio.
Los procesos ETL tambin se pueden utilizar para la integracin con sistemas
heredados (aplicaciones antiguas existentes en las organizaciones que se han de
integrar con los nuevos aplicativos, por ejemplo, ERPs. La tecnologa utilizada en
dichas aplicaciones puede hacer difcil la integracin con los nuevos programas).
Proceso de Extraccin con Software ETL
La primera parte del proceso ETL consiste en extraer los datos desde los
sistemas de origen. La mayora de los proyectos de almacenamiento de datos
fusionan datos provenientes de diferentes sistemas de origen. Cada sistema
separado puede usar una organizacin diferente de los datos o formatos distintos.
Los formatos de las fuentes normalmente se encuentran en bases de datos
relacionales o ficheros planos, pero pueden incluir bases de datos no

Copyright 2012 [Instituto Gala] Reservados todos los derechos.

55

cdigo Mm050 MANUAL INTELIGENCIA de NEGOCIOS, DataMining - Data WareHouse - Cubos OLAP

relacionales u otras estructuras diferentes. La extraccin convierte los datos a


un formato preparado para iniciar el proceso de transformacin.
Una parte intrnseca del proceso de extraccin es la de analizar los datos
extrados, de lo que resulta un chequeo que verifica si los datos cumplen la pauta
o estructura que se esperaba. De no ser as los datos son rechazados.
Un requerimiento importante que se debe exigir a la tarea de extraccin es que
sta cause un impacto mnimo en el sistema origen. Si los datos a extraer son
muchos, el sistema de origen se podra ralentizar e incluso colapsar, provocando
que ste no pueda utilizarse con normalidad para su uso cotidiano. Por esta razn,
en sistemas grandes las operaciones de extraccin suelen programarse en
horarios o das donde este impacto sea nulo o mnimo.

Interfaz Grfico herramienta ETL


Proceso de Transformacin con una Herramienta ETL
La fase de transformacin de un proceso de ETL aplica una serie de reglas de
negocio o funciones sobre los datos extrados para convertirlos en datos que
sern cargados. Algunas fuentes de datos requerirn alguna pequea
manipulacin de los datos. No obstante en otros casos pueden ser necesarias
aplicar algunas de las siguientes transformaciones:

Copyright 2012 [Instituto Gala] Reservados todos los derechos.

56

cdigo Mm050 MANUAL INTELIGENCIA de NEGOCIOS, DataMining - Data WareHouse - Cubos OLAP

Seleccionar slo ciertas columnas para su carga (por ejemplo, que las
columnas con valores nulos no se carguen).
Traducir cdigos (por ejemplo, si la fuente almacena una H para Hombre y
M para Mujer pero el destino tiene que guardar 1 para Hombre y 2 para
Mujer).
Codificar valores libres (por ejemplo, convertir Hombre en H o Sr en
1).
Obtener nuevos valores calculados (por ejemplo, total_venta = cantidad *
precio).
Unir datos de mltiples fuentes (por ejemplo, bsquedas, combinaciones,
etc.).
Calcular totales de mltiples filas de datos (por ejemplo, ventas totales de
cada regin).
Generacin de campos clave en el destino.
Transponer o pivotar (girando mltiples columnas en filas o viceversa).
Dividir una columna en varias (por ejemplo, columna Nombre: Garca,
Miguel; pasar a dos columnas Nombre: Miguel y Apellido: Garca).
La aplicacin de cualquier forma, simple o compleja, de validacin de
datos, y la consiguiente aplicacin de la accin que en cada caso se
requiera:
o Datos OK: Entregar datos a la siguiente etapa (Carga).
o Datos
errneos:
Ejecutar
polticas
de tratamiento
de
excepciones (por ejemplo, rechazar el registro completo, dar al
campo errneo un valor nulo o un valor centinela).

Interfaz Grfico de la herramienta ETL Kettle - Pentaho


Copyright 2012 [Instituto Gala] Reservados todos los derechos.

57

cdigo Mm050 MANUAL INTELIGENCIA de NEGOCIOS, DataMining - Data WareHouse - Cubos OLAP

Proceso de Carga con Software de ETL


La fase de carga es el momento en el cual los datos de la fase anterior
(transformacin) son cargados en el sistema de destino. Dependiendo de los
requerimientos de la organizacin, este proceso puede abarcar una amplia
variedad de acciones diferentes. En algunas bases de datos se sobrescribe la
informacin antigua con nuevos datos. Los data warehouse mantienen un
historial de los registros de manera que se pueda hacer una auditora de los
mismos y disponer de un rastro de toda la historia de un valor a lo largo del
tiempo.
Existen dos formas bsicas de desarrollar el proceso de carga:

Acumulacin simple: La acumulacin simple es la ms sencilla y comn, y


consiste en realizar un resumen de todas las transacciones comprendidas
en el perodo de tiempo seleccionado y transportar el resultado como una
nica transaccin hacia el data warehouse, almacenando un valor calculado
que consistir tpicamente en un sumatorio o un promedio de la magnitud
considerada.
Rolling: El proceso de Rolling por su parte, se aplica en los casos en que
se opta por mantener varios niveles de granularidad. Para ello se almacena
informacin resumida a distintos niveles, correspondientes a distintas
agrupaciones de la unidad de tiempo o diferentes niveles jerrquicos en
alguna o varias de las dimensiones de la magnitud almacenada (por
ejemplo, totales diarios, totales semanales, totales mensuales, etc.).

La fase de carga interacta directamente con la base de datos de destino. Al


realizar esta operacin se aplicarn todas las restricciones y triggers
(disparadores) que se hayan definido en sta (por ejemplo, valores nicos,
integridad referencial, campos obligatorios, rangos de valores). Estas restricciones
y triggers (si estn bien definidos) contribuyen a que se garantice la calidad de los
datos en el proceso ETL, y deben ser tenidos en cuenta.
Procesamiento en Herramientas ETL
Un desarrollo reciente en el software ETL es la aplicacin de procesamiento
paralelo. Esto ha permitido desarrollar una serie de mtodos para mejorar el
rendimiento general de los procesos ETL cuando se trata de grandes volmenes
de datos. Hay 3 tipos principales de paralelismos que se pueden implementar en
las aplicaciones ETL:

De datos: Consiste en dividir un nico archivo secuencial en pequeos


archivos de datos para proporcionar acceso paralelo.
Copyright 2012 [Instituto Gala] Reservados todos los derechos.

58

cdigo Mm050 MANUAL INTELIGENCIA de NEGOCIOS, DataMining - Data WareHouse - Cubos OLAP

De segmentacin (pipeline): Permitir el funcionamiento simultneo de


varios componentes en el mismo flujo de datos. Un ejemplo de ello sera
buscar un valor en el registro nmero 1 a la vez que se suman dos campos
en el registro nmero 2.

De componente: Consiste en el funcionamiento simultneo de


mltiples procesos en diferentes flujos de datos en el mismo puesto de
trabajo.

Estos tres tipos de paralelismo no son excluyentes, sino que pueden ser
combinados para realizar una misma operacin ETL.
Una dificultad adicional es asegurar que los datos que se cargan sean
relativamente consistentes. Las mltiples bases de datos de origen tienen
diferentes ciclos de actualizacin (algunas pueden ser actualizadas cada pocos
minutos, mientras que otras pueden tardar das o semanas). En un sistema de
ETL ser necesario que se puedan detener ciertos datos hasta que todas las
fuentes estn sincronizadas. Del mismo modo, cuando un almacn de datos tiene
que ser actualizado con los contenidos en un sistema de origen, es necesario
establecer puntos de sincronizacin y de actualizacin.

Desafos para los procesos y Herramientas de ETL


Los procesos ETL pueden ser muy complejos. Un sistema ETL mal diseado
puede provocar importantes problemas operativos.
En un sistema operacional el rango de valores de los datos o la calidad de stos
pueden no coincidir con las expectativas de los diseadores a la hora de
especificarse las reglas de validacin o transformacin. Es recomendable realizar
un examen completo de la validez de los datos (Data profiling) del sistema de
origen durante el anlisis para identificar las condiciones necesarias para que los
datos puedan ser tratados adecuadamente por las reglas de transformacin
especificadas. Esto conducir a una modificacin de las reglas de validacin
implementadas en el proceso ETL.
Normalmente los data warehouse son alimentados de manera asncrona desde
distintas fuentes, que sirven a propsitos muy diferentes. El proceso ETL es clave
para lograr que los datos extrados asncronamente de orgenes heterogneos se
integren finalmente en un entorno homogneo.
La escalabilidad de un sistema de ETL durante su vida til tiene que ser
establecida durante el anlisis. Esto incluye la comprensin de los volmenes de
datos que tendrn que ser procesados segn los acuerdos de nivel de servicio
(SLA:Service level agreement). El tiempo disponible para realizar la extraccin
de los sistemas de origen podra cambiar, lo que implicara que la misma cantidad
de datos tendra que ser procesada en menos tiempo. Algunos sistemas ETL son
Copyright 2012 [Instituto Gala] Reservados todos los derechos.

59

cdigo Mm050 MANUAL INTELIGENCIA de NEGOCIOS, DataMining - Data WareHouse - Cubos OLAP

escalados para procesar varios terabytes de datos para actualizar un data


warehouse que puede contener decenas de terabytes de datos. El aumento de los
volmenes de datos que pueden requerir estos sistemas pueden hacer que
los lotes que se procesaban a diario pasen a procesarse en micro-lotes (varios al
da) o incluso a la integracin con colas de mensajes o a la captura de datos
modificados (CDC: change data capture) en tiempo real para una transformacin
y actualizacin continua.

Algunas Herramientas ETL

Ab Initio
Benetl
BITool ETL Software
CloverETL
Cognos Decisionstream (IBM)
Data Integrator (herramienta de Sap Business Objects)
ETI*Extract (ahora llamada Eti Solution)
IBM Websphere DataStage (antes Ascential DataStage)
Microsoft Integration Services
Oracle Warehouse Builder
WebFocus-iWay DataMigrator Server
Pervasive
Informtica PowerCenter
Oxio Data Intelligence ETL full web
SmartDB Workbench
Sunopsis (Oracle)
SAS Dataflux
Sybase
Syncsort: DMExpress.
Opentext (antes Genio, Hummingbird).

Desafos
Los procesos ETL pueden ser muy complejos. Un sistema ETL mal diseado
puede provocar importantes problemas operativos.
En un sistema operacional el rango de valores de los datos o la calidad de
stos pueden no coincidir con las expectativas de los diseadores a la hora de
Copyright 2012 [Instituto Gala] Reservados todos los derechos.

60

cdigo Mm050 MANUAL INTELIGENCIA de NEGOCIOS, DataMining - Data WareHouse - Cubos OLAP

especificarse las reglas de validacin o transformacin. Es recomendable


realizar un examen completo de la validez de los datos (Data profiling) del
sistema de origen durante el anlisis para identificar las condiciones
necesarias para que los datos puedan ser tratados adecuadamente por las
reglas de transformacin especificadas. Esto conducir a una modificacin de
las reglas de validacin implementadas en el proceso ETL.
Normalmente los data warehouse son alimentados de manera asncrona
desde distintas fuentes, que sirven a propsitos muy diferentes. El proceso
ETL es clave para lograr que los datos extrados asncronamente de orgenes
heterogneos se integren finalmente en un entorno homogneo.
La escalabilidad de un sistema de ETL durante su vida til tiene que ser
establecida durante el anlisis. Esto incluye la comprensin de los volmenes
de datos que tendrn que ser procesados segn los acuerdos de nivel de
servicio (SLA: Service level agreement). El tiempo disponible para realizar la
extraccin de los sistemas de origen podra cambiar, lo que implicara que la
misma cantidad de datos tendra que ser procesada en menos tiempo. Algunos
sistemas ETL son escalados para procesar varios terabytes de datos para
actualizar un data warehouse que puede contener decenas de terabytes de
datos. El aumento de los volmenes de datos que pueden requerir estos
sistemas pueden hacer que los lotes que se procesaban a diario pasen a
procesarse en micro-lotes (varios al da) o incluso a la integracin con colas de
mensajes o a la captura de datos modificados (CDC:change data capture) en
tiempo real para una transformacin y actualizacin continua.

Copyright 2012 [Instituto Gala] Reservados todos los derechos.

61

cdigo Mm050 MANUAL INTELIGENCIA de NEGOCIOS, DataMining - Data WareHouse - Cubos OLAP

Cubo OLAP

Cubo OLAP de tres dimensiones (Ciudades, Productos y Tiempo).


Un cubo OLAP, OnLine Analytical Processing o procesamiento Analtico En
Lnea, trmino acuado por Edgar Frank Codd de EF Codd & Associates,
encargado por Arbor Software (en la actualidad Hyperion Solutions), es una base
de datos multidimensional, en la cual el almacenamiento fsico de los datos se
realiza en un vector multidimensional. Los cubos OLAP se pueden considerar
como una ampliacin de las dos dimensiones de una hoja de clculo.
A menudo se pensaba que todo lo que los usuarios pueden querer de un sistema
de informacin se podra hacer de una base de datos relacional. No
obstante Codd fue uno de los precursores de las bases de datos relacionales, por
lo que sus opiniones fueron y son respetadas.
La propuesta de Codd consista en realizar una disposicin de los datos
en vectores para permitir un anlisis rpido. Estos vectores son llamados cubos.
Disponer los datos en cubos evita una limitacin de las bases de datos
relacionales, que no son muy adecuadas para el anlisis instantneo de grandes
Copyright 2012 [Instituto Gala] Reservados todos los derechos.

62

cdigo Mm050 MANUAL INTELIGENCIA de NEGOCIOS, DataMining - Data WareHouse - Cubos OLAP

cantidades de datos. Las bases de datos relacionales son ms adecuadas para


registrar datos provenientes de transacciones (conocido como OLTP o
procesamiento de transacciones en lnea). Aunque existen muchas herramientas
de generacin de informes para bases de datos relacionales, stas son lentas
cuando debe explorarse toda la base de datos.
Por ejemplo, una empresa podra analizar algunos datos financieros por producto,
por perodo, por ciudad, por tipo de ingresos y de gastos, y mediante la
comparacin de los datos reales con un presupuesto. Estos parmetros en funcin
de los cuales se analizan los datos se conocen como dimensiones. Para acceder
a los datos slo es necesario indexarlos a partir de los valores de las dimensiones
o ejes.
El almacenar fsicamente los datos de esta forma tiene sus pros y sus contras. Por
ejemplo, en estas bases de datos las consultas de seleccin son muy rpidas (de
hecho, casi instantneas). Pero uno de los problemas ms grandes de esta forma
de almacenamiento es que una vez poblada la base de datos sta no puede
recibir cambios en su estructura. Para ello sera necesario redisear el cubo.
En un sistema OLAP puede haber ms de tres dimensiones, por lo que a
los cubos OLAP tambin reciben el nombre de hipercubos. Las herramientas
comerciales OLAP tienen diferentes mtodos de creacin y vinculacin de estos
cubos o hipercubos (vase Tipos de OLAP en el artculo sobre OLAP).

Un ejemplo
Un analista financiero podra querer ver los datos de diversas formas, por ejemplo,
visualizndolos en funcin de todas las ciudades (que podran figurar en el eje de
abscisas) y todos los productos (en el eje de ordenadas), y esto podra ser para un
perodo determinado, para la versin y el tipo de gastos. Despus de haber visto
los datos de esta forma particular el analista podra entonces querer ver los datos
de otra manera y poder hacerlo de forma inmediata. El cubo podra adoptar una
nueva orientacin para que los datos aparezcan ahora en funcin de los perodos
y el tipo de coste. Debido a que esta reorientacin implica resumir una cantidad
muy grande de datos, esta nueva vista de los datos se debe generar de manera
eficiente para no malgastar el tiempo del analista, es decir, en cuestin de
Copyright 2012 [Instituto Gala] Reservados todos los derechos.

63

cdigo Mm050 MANUAL INTELIGENCIA de NEGOCIOS, DataMining - Data WareHouse - Cubos OLAP

segundos, en lugar de las horas que seran necesarias en una base de datos
relacional convencional.

Dimensiones y jerarquas
Cada una de las dimensiones de un cubo OLAP puede resumirse mediante una
jerarqua. Por ejemplo si se considera una escala (o dimensin) temporal "Mayo
de 2005" se puede incluir en "Segundo Trimestre de 2005", que a su vez se
incluye en "Ao 2005". De igual manera, otra dimensin de un cubo que refleje
una situacin geogrfica, las ciudades se pueden incluir en regiones, pases o
regiones mundiales; los productos podran clasificarse por categoras, y las
partidas de gastos podran agruparse en tipos de gastos. En cambio, el analista
podra comenzar en un nivel muy resumido, como por ejemplo el total de la
diferencia entre los resultados reales y lo presupuestado, para posteriormente
descender en el cubo (en sus jerarquas) para poder observar con un mayor nivel
de detalle que le permita descubrir en el cubo los lugares en los que se ha
producido esta diferencia, segn los productos y perodos.
Dispersin en cubos OLAP
Vincular o enlazar cubos es un mecanismo para superar la dispersin. sta se
produce cuando no todas las celdas del cubo se rellenan con datos (escasez de
datos o valores nulos). El tiempo de procesamiento es tan valioso que se debe
adoptar la manera ms efectiva de sumar ceros (los valores nulos o no
existentes). Por ejemplo los ingresos pueden estar disponibles para cada cliente y
producto, pero los datos de los costos pueden no estar disponibles con esta
cantidad de anlisis. En lugar de crear un cubo disperso, a veces es mejor crear
otro cubo distinto, pero vinculado, en el que un subconjunto de los datos se puede

Copyright 2012 [Instituto Gala] Reservados todos los derechos.

64

cdigo Mm050 MANUAL INTELIGENCIA de NEGOCIOS, DataMining - Data WareHouse - Cubos OLAP

analizar con gran detalle. La vinculacin asegura que los datos de los dos cubos
mantengan una coherencia.
Acceso y clculo de un cubo OLAP
Los datos de los cubos pueden ser actualizados de vez en cuando, tal vez por
personas diferentes de forma concurrente. Para solventar este problema a
menudo es necesario bloquear partes de un cubo mientras otro usuario est
escribiendo, para volver a calcular los totales en el cubo. Otras implementaciones
aaden la posibilidad de mostrar una alerta que indique que los totales calculados
previamente ya no son vlidos tras los nuevos datos. Tambin hay algunos
productos que calculan los totales cuando se les necesita con los ltimos datos
producidos en el sistema.
Definicin tcnica
En teora de bases de datos, un cubo OLAP es una representacin abstracta de
la proyeccin de una relacin de un RDBMS (Sistema administrador de bases de
datos relacionales). Dada una relacin de orden N, se considera la posibilidad de
una proyeccin que dispone de los campos X, Y, Z como clave de la relacin y
de W como atributo residual. Categorizando esto como una funcin se tiene que:
W : (X,Y,Z) W
Los atributos X, Y, Z se corresponden con los ejes del cubo, mientras que el
valor de W devuelto por cada tripleta (X, Y, Z) se corresponde con el dato o
elemento que se rellena en cada celda del cubo.
Debido a que los dispositivos de salida (monitores, impresoras, ...) slo
cuentan con dos dimensiones, no pueden caracterizar fcilmente cuatro
dimensiones, es ms prctico proyectar "rebanadas" o secciones de los datos
del cubo (se dice proyectar en el sentido clsico vector analtico de reduccin
dimensional, no en el sentido de SQL, aunque los dos conceptos son
claramente anlogos), tales como la expresin:
W : (X,Y) W
Aunque no se conserve la clave del cubo (al faltar el parmetro Z), puede
tener algn significado semntico, sin embargo, tambin puede que una

Copyright 2012 [Instituto Gala] Reservados todos los derechos.

65

cdigo Mm050 MANUAL INTELIGENCIA de NEGOCIOS, DataMining - Data WareHouse - Cubos OLAP

seccin de la representacin funcional con tres parmetros para un


determinado valor de Z tambin resulte de inters.
La motivacin que hay tras OLAP vuelve a mostrar de nuevo el paradigma
de los informes de tablas cruzadas de los sistemas de gestin de base de
datos de los 80. Se puede desear una visualizacin al estilo de una hoja de
clculo, donde los valores de X se encuentran en la fila $1, los valores
de Y aparecen en la columna $A, y los valores de W: (X, Y) W se
encuentran en las celdas individuales a partir de la celda $B2 y desde ah,
hacia abajo y hacia la derecha. Si bien se puede utilizar el Lenguaje de
Manipulacin de Datos (o DML) de SQL para mostrar las tuplas (X,Y,W),
este formato de salida no es tan deseable como la alternativa de tablas
cruzadas. El primer mtodo requiere que se realice una bsqueda lineal
para cada par (X,Y) dado, para determinar el correspondiente valor de W,
mientras que el segundo permite realizar una bsqueda ms
convenientemente permitiendo localizar el valor W en la interseccin de la
columna X apropiada con la fila Y correspondiente.
Se
ha
desarrollado
el
lenguaje MDX (MultiDimensional
eXpressions o expresiones multidimensionales) para poder expresar
problemas OLAP de forma fcil. Aunque es posible traducir algunas sus
sentencias a SQL tradicional, con frecuencia se requieren expresiones SQL
poco claras incluso para las sentencias ms simples del MDX. Este
lenguaje ha sido acogido por la gran mayora de los proveedores de OLAP
y se ha convertido en norma de hecho para estos sistemas.
La razn de usar OLAP para las consultas es la rapidez de respuesta. Una base
de datos relacional almacena entidades en tablas discretas si han sido
normalizadas. Esta estructura es buena en un sistema OLTP pero para las
complejas consultas multitabla es relativamente lenta. Un modelo mejor para
bsquedas (aunque peor desde el punto de vista operativo) es una base de datos
multidimensional.
La principal caracterstica que potencia a OLAP, es que es lo ms rpido a la hora
de ejecutar sentencias SQL de tipo SELECT, en contraposicin con OLTP que es
la mejor opcin para operaciones de tipo INSERT, UPDATE Y DELETE

Copyright 2012 [Instituto Gala] Reservados todos los derechos.

66

cdigo Mm050 MANUAL INTELIGENCIA de NEGOCIOS, DataMining - Data WareHouse - Cubos OLAP

Funcionalidad
En la base de cualquier sistema OLAP se encuentra el concepto de cubo
OLAP (tambin llamado cubo multidimensional o hipercubo). Se compone de
hechos numricos llamados medidas que se clasifican por dimensiones. El cubo
de metadatos es tpicamente creado a partir de un esquema en estrella o copo de
nieve, esquema de las tablas en una base de datos relacional. Las medidas se
obtienen de los registros de una tabla de hechos y las dimensiones se derivan de
la dimensin de los cuadros.

Tipos de sistemas OLAP


Tradicionalmente, los sistemas OLAP se clasifican segn las siguientes
categoras:

ROLAP
Implementacin OLAP que almacena los datos en un motor relacional.
Tpicamente, los datos son detallados, evitando las agregaciones y las tablas se
encuentran desnormalizadas Los esquemas ms comunes sobre los que se
trabaja son estrella copo de nieve, aunque es posible trabajar sobre cualquier
base de datos relacional. La arquitectura est compuesta por un servidor de banco
de datos relacional y el motor OLAP se encuentra en un servidor dedicado. La
principal ventaja de esta arquitectura es que permite el anlisis de una enorme
cantidad de datos.

Copyright 2012 [Instituto Gala] Reservados todos los derechos.

67

cdigo Mm050 MANUAL INTELIGENCIA de NEGOCIOS, DataMining - Data WareHouse - Cubos OLAP

MOLAP
Esta implementacin OLAP almacena los datos en una base de datos
multidimensional. Para optimizar los tiempos de respuesta, el resumen de la
informacin es usualmente calculado por adelantado. Estos valores precalculados
o agregaciones son la base de las ganancias de desempeo de este sistema.
Algunos sistemas utilizan tcnicas de compresin de datos para disminuir el
espacio de almacenamiento en disco debido a los valores precalculados.
HOLAP (Hybrid OLAP)
Almacena algunos datos en un motor relacional y otros en una base de datos
multidimensional.
Comparacin
Cada sistema OLAP tiene ciertos beneficios (aunque existe desacuerdo acerca de
las caractersticas especficas de los beneficios entre los proveedores).
Algunas implementaciones MOLAP son propensas a la "explosin" de la base de
datos; este fenmeno provoca la necesidad de grandes cantidades de espacio de
almacenamiento para el uso de una base de datos MOLAP cuando se dan ciertas
condiciones: elevado nmero de dimensiones, resultados precalculados y escasos
datos multidimensionales. Las tcnicas habituales de atenuacin de la explosin
de la base de datos no son todo lo eficientes que sera deseable.
Por lo general MOLAP ofrece mejor rendimiento debido a la especializada
indexacin y a las optimizaciones de almacenamiento. MOLAP tambin necesita
menos
espacio
de
almacenamiento
en
comparacin
con
los
especializados ROLAP porque su almacenamiento especializado normalmente
incluye tcnicas de compresin.
ROLAP es generalmente ms escalable. Sin embargo, el gran volumen de
preprocesamiento es difcil de implementar eficientemente por lo que con
frecuencia se omite; por tanto, el rendimiento de una consulta ROLAP puede verse
afectado.
Desde la aparicin de ROLAP van apareciendo nuevas versiones de bases de
datos preparadas para realizar clculos, las funciones especializadas que se
pueden utilizar tienen ms limitaciones.
Copyright 2012 [Instituto Gala] Reservados todos los derechos.

68

cdigo Mm050 MANUAL INTELIGENCIA de NEGOCIOS, DataMining - Data WareHouse - Cubos OLAP

HOLAP (OLAP Hbrido) engloba un conjunto de tcnicas que tratan de


combinar MOLAP y ROLAP de la mejor forma posible. Generalmente puede preprocesar rpidamente, escala bien, y proporciona una buena funcin de apoyo.
Otros tipos
Los siguientes acrnimos a veces tambin se utilizan, aunque no son sistemas tan
generalizados como los anteriores:

WOLAP o Web OLAP: OLAP basado u orientado para la web.

DOLAP o Desktop OLAP: OLAP de escritorio

RTOLAP o Real Time OLAP: OLAP en tiempo real

SOLAP o Spatial OLAP: OLAP espacial

A menudo se pensaba que todo lo que los usuarios pueden querer de un sistema
de informacin se podra hacer de una base de datos relacional. No
obstante Codd fue uno de los precursores de las bases de datos relacionales, por
lo que sus opiniones fueron y son respetadas.

Diseo en copo de nieve de un Cubo OLAP


La propuesta de Codd consista en realizar una disposicin de los datos en
vectores para permitir un anlisis rpido. Estos vectores son llamados cubos.
Copyright 2012 [Instituto Gala] Reservados todos los derechos.

69

cdigo Mm050 MANUAL INTELIGENCIA de NEGOCIOS, DataMining - Data WareHouse - Cubos OLAP

Disponer los datos en cubos evita una limitacin de las bases de datos
relacionales, que no son muy adecuadas para el anlisis instantneo de grandes
cantidades de datos.

Las bases de datos relacionales son ms adecuadas para registrar datos


provenientes de transacciones (conocido como OLTP o procesamiento de
transacciones en lnea). Aunque existen muchas herramientas de generacin de
informes para bases de datos relacionales, stas son lentas cuando debe
explorarse toda la base de datos. Por ejemplo, una empresa podra analizar
algunos datos financieros por producto, por perodo, por ciudad, por tipo de
ingresos y de gastos, y mediante la comparacin de los datos reales con un
presupuesto. Estos parmetros en funcin de los cuales se analizan los datos se
conocen como dimensiones.

Para acceder a los datos slo es necesario indexarlos a partir de los valores de las
dimensiones o ejes. El almacenar fsicamente los datos de esta forma tiene sus
pros y sus contras. Por ejemplo, en estas bases de datos las consultas de
seleccin son muy rpidas (de hecho, casi instantneas). Pero uno de los
problemas ms grandes de esta forma de almacenamiento es que una vez
poblada la base de datos sta no puede recibir cambios en su estructura. Para ello
sera necesario redisear el cubo.

Copyright 2012 [Instituto Gala] Reservados todos los derechos.

70

cdigo Mm050 MANUAL INTELIGENCIA de NEGOCIOS, DataMining - Data WareHouse - Cubos OLAP

En un sistema OLAP puede haber ms de tres dimensiones, por lo que a los


cubos OLAP tambin reciben el nombre de hipercubos. Las herramientas
comerciales OLAP tienen diferentes mtodos de creacin y vinculacin de estos
cubos o hipercubos (vase Tipos de OLAP en el artculo sobre OLAP).

La principal caracterstica que potencia a OLAP, es que es lo ms rpido a la hora


de ejecutar sentencias SQL de tipo SELECT, en contraposicin con OLTP que es
la

mejor

opcin

para

operaciones

de

tipo INSERT, UPDATE Y DELETE.

Cubos Virtuales

Usted puede juntar cubos, dentro de cubos virtuales, muy parecido al proceso de
juntar tablas con vistas en las bases de datos relacionales. Un cubo virtual, provee
acceso a los datos en los cubos combinados, si la necesidad de construir un
nuevo cubo, mientras permite que se mantenga en mejor diseo en cada cubo
individual.
Un cubo podr ser actualizado, procesando solo los datos que han sido aadidos,

Copyright 2012 [Instituto Gala] Reservados todos los derechos.

71

cdigo Mm050 MANUAL INTELIGENCIA de NEGOCIOS, DataMining - Data WareHouse - Cubos OLAP

en vez de hacerlo con el cubo entero, se puede usar la actualizacin incremental


para actualizar un cubo mientras se est usando.

Agregaciones
As se le llama al proceso de precalcular sumas de datos, para ayudar a disminuir
los tiempos de respuestas, en los procesos de bsquedas de informacin.

Seguridad
Usando las facilidades de seguridad manejadas por Microsoft SQL Server OLAP
services, usted puede controlar quien accesa los datos y los tipos de operaciones
que los usuarios pueden ejecutar con los datos. OLAP services soporta el sistema
de seguridad integrado que ofrece el sistema operativo Windows NT y permite que
usted asigne permisos de acceso, a la base de datos y al cubo incluyendo a los
cubos virtuales.

La seguridad es manejada va los derechos de control de acceso que son


manejados por los Roles, estos determinan el tipo de acceso a los datos. Los
Roles definen, categoras de usuarios con los mismos controles de acceso.
Modos de Almacenaje
En esta ocasin se muestra un pequeo tutorial para hacer la transformacin de
una Base de datos Transaccional a un Cubo para anlisis OLAP. Un cubo es una
unidad de consulta multimensional, el problema que resuelvo consiste en construir
el cubo a partir de la base de datos transaccional de ejemplo usando SQL Server.
El proceso consiste en tres pasos: Ubicar la tabla Fact o tabla que incluya todos
los requerimientos, a continuacin se debe modificar las relaciones de la base de
datos y finalmente, cargar los datos en la nueva relacin o Cubo OLTP.
El archivo de inicio y la solucin se pueden descargar a continuacin. Para revisar
el ejemplo necesita SQL Server 2008 estndar o mayor.

Copyright 2012 [Instituto Gala] Reservados todos los derechos.

72

cdigo Mm050 MANUAL INTELIGENCIA de NEGOCIOS, DataMining - Data WareHouse - Cubos OLAP

Empecemos:
Paso 1:

Observe el esquema de la base de datos transaccional. Aprecie las relaciones de


la base de datos de nombre OLTP_Ventas.
Note que la tabla candidato a FACT es Matrcula porque relaciona las dimensiones
Cliente, Producto, Empleado, etc.

Paso 2:

Empezaremos haciendo la estructura del cubo. Borre las relaciones de las tablas.

Copyright 2012 [Instituto Gala] Reservados todos los derechos.

73

cdigo Mm050 MANUAL INTELIGENCIA de NEGOCIOS, DataMining - Data WareHouse - Cubos OLAP

Paso 3:

Seleccionar las tablas que harn la composicin de las dimensiones del cubo. En
este ejemplo se debe seleccionar Pedido, Cliente, Producto, Empleado y
Proveedor. Luego renombre la tabla Pedido como Fact_Pedido y para el resto de
tablas usar el prefijo Dim (Dimensin) por ejemplo: Dim_Cliente, Dim_Producto,
Dim_Categora, as en lo sucesivo.

Paso 4:
Copyright 2012 [Instituto Gala] Reservados todos los derechos.

74

cdigo Mm050 MANUAL INTELIGENCIA de NEGOCIOS, DataMining - Data WareHouse - Cubos OLAP

Crear la tabla Dim_Tiempo. La tabla dimensin tiempo es fundamental en todo


cubo y organiza el resto de dimensiones en funcin del tiempo.
CREATE
[idTiempo]

CONSTRAINT
(

TABLE
[smalldatetime]

[dia]
[mes]
[anio]
[PK_Dim_tiempo]

)WITH (PAD_INDEX
=
IGNORE_DUP_KEY
=
ALLOW_PAGE_LOCKS
) ON [PRIMARY]

[int]
[int]
[int]
PRIMARY

[dbo].[Dim_tiempo](
NOT
NULL,
NULL,
NULL,
NULL,
KEY
CLUSTERED

[idTiempo]
ASC
OFF, STATISTICS_NORECOMPUTE
= OFF,
OFF,
ALLOW_ROW_LOCKS
=
ON,
=
ON)
ON
[PRIMARY]

Paso 5:

Agregue "Claves Primarias" en la tabla Fact_Pedido (que es la tabla central del


cubo) con el objetivo de unir las entidades Cliente, Producto, Empleado y
Proveedor en la tabla Fact_Pedido.
En este ejemplo se agrega los siguientes campos:
IdProducto
IdProveedor
Tambin debe agregar "Campos de Mtrica" o que guardan clculos (Totales,
subtotals). Para este ejemplo agregaremos:

Cantidad (int),
Descuento (int),
Subtotal (Money)
Copyright 2012 [Instituto Gala] Reservados todos los derechos.

75

cdigo Mm050 MANUAL INTELIGENCIA de NEGOCIOS, DataMining - Data WareHouse - Cubos OLAP

Cambie
el
nombre
del
campo
Fact_Pedido.Fecha_pedido
por
Fact_Pedido.IdTiempo
y
asocie
el
campo
a
Dim_Tiempo.
Finalmente, Elimine campo Fact_Pedido.Fecha_entrega porque las fechas son
innecesarias en esta tabla.
Ya casi tenemos el cubo.

Paso 6:

Para que el cubo se complete es necesario cargar datos a las tablas o


dimensiones.
Es importante notar que los nuevos campos recin creados: IdProducto,
IdProveedor, Cantidad y Subtotal recin agregados a la tabla Fact_Pedido no
tienen valores o son NULL. Note que Subtotal es un caso especial, porque es
producto del clculo de Cantidad * Precio. Ud. debe imaginar una manera prctica
para cargar datos.

En este ejemplo vamos usar una consulta SQL para completar datos que faltan en
la tabla Fact_Pedido y Dim_detalle_pedido calculando Cantidad * Precio y el resto
de
claves
que
falta
asignar.
SELECT
dbo.Fact_Pedido.NroPed,
dbo.Dim_Producto.IdProducto,
dbo.Dim_Producto.IdProveedor,
dbo.Fact_Pedido.idTiempo,
dbo.Fact_Pedido.Id_Cliente,
dbo.Fact_Pedido.IdEmpleado, dbo.Dim_Detalle_pedido.Cantidad,
dbo.Dim_Detalle_pedido.Descuento,
dbo.Dim_Detalle_pedido.Cantidad * dbo.Dim_Producto.PrecioUnit
AS
Subtotal
FROM
dbo.Fact_Pedido
INNER
JOIN
dbo.Dim_Detalle_pedido
ON
dbo.Fact_Pedido.NroPed
=
dbo.Dim_Detalle_pedido.NroPedido
INNER
JOIN
dbo.Dim_Producto ON dbo.Dim_Detalle_pedido.IdProducto =
dbo.Dim_Producto.IdProducto

Copyright 2012 [Instituto Gala] Reservados todos los derechos.

76

cdigo Mm050 MANUAL INTELIGENCIA de NEGOCIOS, DataMining - Data WareHouse - Cubos OLAP

Guarde esta salida de la consulta en un archivo de texto. Servir a posterior para


llenar la tabla Fact_Pedido:

1
2
3
3

3425
4564
2345
7845

C002
C001
C001
C003

2007-01-25
2007-05-13
2007-08-24
2007-08-24

00:00:00.000
00:00:00.000
00:00:00.000
00:00:00.000

D004
F006
C003
C003

D06
C05
A02
A02

100 15 20,0000
15 11 225,0000
45 19 202,5000
60 15 180,0000

Paso 7:

Borre los registros (filas) de la tabla Fact_Pedido. Edite Fact_Pedido quitando


"Clave Primaria" de NroPed. Registre estas nuevas columnas como Clave
Primaria:
IdProducto
IdProveedor
idTiempo
Id_Cliente
IdEmpleado
La tabla debera quedar as:

Copyright 2012 [Instituto Gala] Reservados todos los derechos.

77

cdigo Mm050 MANUAL INTELIGENCIA de NEGOCIOS, DataMining - Data WareHouse - Cubos OLAP

Importante: Solo se debe conservar Llaves Primarias y Campos creados con


objetivo de guardar resultado de clculos en la tabla Fact_Pedido.
Paso 8:
Ahora toca cargar los datos desde el archivo de texto descrito en Paso 6 sobre la
tabla Fact_Pedido. La tabla se llenar, ya no da lugar a campos nulos.

Paso 9:

Cargar los datos para la tabla Dim_Tiempo. Los datos de Dim_Tiempo son el
resultado de Fact_Pedido.IdTiempo, por tanto, usaremos esta consulta para
extraer
los
datos:
Copyright 2012 [Instituto Gala] Reservados todos los derechos.

78

cdigo Mm050 MANUAL INTELIGENCIA de NEGOCIOS, DataMining - Data WareHouse - Cubos OLAP

SELECT DISTINCT idTiempo, DAY(idTiempo) AS dia, MONTH(idTiempo) AS


mes,
YEAR(idTiempo)
AS
anio
FROM
dbo.Fact_Pedido

Paso 10:

Finamente (ahora s...) relacionar Fact_Pedido con el resto de tablas o


dimensiones usando las relaciones. Debera quedar as:

Copyright 2012 [Instituto Gala] Reservados todos los derechos.

79

cdigo Mm050 MANUAL INTELIGENCIA de NEGOCIOS, DataMining - Data WareHouse - Cubos OLAP

El 'cubo' est listo.

Es hora de hacer consultas al cubo


Pasos para extraer informacin del cubo OLAP en Analysis Services y
SQL Server Business Intelligence Development Studio
Descomprima en una ubicacin sencilla el archivo *.bak, compruebe que tiene
instalado en el servidor y equipo cliente Analysis Services y SQL Server Business
Intelligence Development Studio. De ser correcto siga las instrucciones:
Paso 1:
Conectarse al Motor de base de datos y restaure la base de datos

Copyright 2012 [Instituto Gala] Reservados todos los derechos.

80

cdigo Mm050 MANUAL INTELIGENCIA de NEGOCIOS, DataMining - Data WareHouse - Cubos OLAP

NorthWind_OLAP. Mire el diagrama de relaciones. En el ejemplo, la base de datos


tiene 5 dimensiones y Sales_Fact es la tabla central.

Paso 2:
Abrir
SQL
Server
Business
Intelligence
Development
Studio.
Use la opcin para crear una Nueva base de datos. En "Nombre de la base de
datos" Escriba Northwind_Mart y configure el modo de suplantacin. Para el
ejemplo se usar "Utilizar las credenciales del usuario actual"

Copyright 2012 [Instituto Gala] Reservados todos los derechos.

81

cdigo Mm050 MANUAL INTELIGENCIA de NEGOCIOS, DataMining - Data WareHouse - Cubos OLAP

Listo. Las bases para las consultas fueron realizadas con xito.
Paso 3:
En Visual Studio crear una nueva solucin para Bussiness Intelligence y conectar
con la base de datos Northwind_Mart. Siga las instrucciones del asistente.

Copyright 2012 [Instituto Gala] Reservados todos los derechos.

82

cdigo Mm050 MANUAL INTELIGENCIA de NEGOCIOS, DataMining - Data WareHouse - Cubos OLAP

Paso 4:

Como resultado del paso anterior obtenemos un esquema de la base de datos. Es


necesario definir las dimensiones. En el Explorador de soluciones encontrar el
nodo Dimensiones y crear una nueva dimension usando el men contextual en el
nodo.

Seleccionar los elementos o campos que estarn presentes en las dimensiones.

Seleccionar la tabla que ser el centro de las combinaciones o que tiene las
medidas. Para el ejemplo seleccionamos Sales_Fact.

Copyright 2012 [Instituto Gala] Reservados todos los derechos.

83

cdigo Mm050 MANUAL INTELIGENCIA de NEGOCIOS, DataMining - Data WareHouse - Cubos OLAP

Seguir agregando las dimensiones hasta completar todo el esquema de base de


datos.

Paso 5:

Terminada la configuracin de dimensiones es necesario procesar el cubo. En el


nodo Cubo del Explorador de soluciones usar el men contextual para iniciar la
comprobacin.

Copyright 2012 [Instituto Gala] Reservados todos los derechos.

84

cdigo Mm050 MANUAL INTELIGENCIA de NEGOCIOS, DataMining - Data WareHouse - Cubos OLAP

"Procesar Cubo" verifica si la configuracin de la base de datos Northwind_OLAP


es adecuada para las consultas de cubo. Si aparece un error, reconfigurar el cubo
usando las descripciones de error que aparecen en el log.
Paso 6
Si el paso 6 termin con xito, solo queda conectar al cubo para obtener el
resultado de la consulta.
En las pestaa Examinador arrastrar las dimensiones al espacio de consulta y ver
el resultado.

Copyright 2012 [Instituto Gala] Reservados todos los derechos.

85

cdigo Mm050 MANUAL INTELIGENCIA de NEGOCIOS, DataMining - Data WareHouse - Cubos OLAP

La calidad de la informacin recibida depender del manejo de las dimensiones y


del correcto diseo del cubo.
Creando una Dimensin de tiempo en SQL Server Analysis Services
Si queremos comenzar a crear un cubo para anlisis de datos en SQL Server
Analysis Services (SSAS) versiones 2005, 2008 y 2008 R2, en lo primero que
debemos pensar es en la dimensin de tiempo. Y es que no tiene sentido crear un
cubo para analizar nuestras ventas, inventario, datos de salud, o cualquier otro
hecho, sin tener la perspectiva del tiempo que le d sentido a dichos datos.
Una dimensin de tiempo define adems la granularidad en que nuestros datos en
las tablas de hechos han sido generados, ya sea a nivel de ao, semestre,
trimestre, mes, da, hora, minuto, segundo, por nombrar algunas escalas. Si bien
es cierto que a pesar de que nuestros datos en las tablas de hechos estn
guardados a un nivel granular de tiempo en especfico, por decir ventas a nivel de
mes, ventas a nivel de da, etc.; es una buena prctica crear una dimensin de
tiempo que incluya todos los niveles de granularidad que podran usarse no slo
en las tablas de hechos (fact tables) que se vayan a crear ahora requieran, sino
tambin las que se puedan tener a lo largo de la vida de nuestra solucin. Por
tanto es recomendable por lo menos crear una dimensin de tiempo con los
niveles: ao>semestre>trimestre>mes>da.
En otro caso, si la industria en la que estn trabajando lo requiere, se podran
considerar otros niveles de tiempo menores a da, como hora>minuto>segundo,
pero la estrategia de implementacin de ese nivel de granularidad puede ser muy
distinta a la que vamos a ver hoy en este artculo para el caso de da como mnimo
nivel granular.
Una de las facilidades que nos brinda SSAS con respecto a la dimensin de
tiempo, es que l mismo la genere por nosotros incluso sin tener una tabla fsica
de tiempo pre-existente en nuestro data warehouse. Este es el escenario que
vamos a explorar en esta oportunidad, hablaremos de las otras opciones que tiene
SSAS ms adelante.
El propsito de este artculo es entender cmo SSAS nos facilita la vida en
trminos de generar nuestra propia dimensin de tiempo, que luego adems
podremos personalizar a nuestro gusto. El segundo propsito es que podamos
aprender cmo SSAS hace el trabajo y entender su funcionamiento, de modo que
nosotros podamos crear nuestra propia dimensin de tiempo desde cero si algo no
nos gusta. Comencemos!
Creando el Data Warehouse
Copyright 2012 [Instituto Gala] Reservados todos los derechos.

86

cdigo Mm050 MANUAL INTELIGENCIA de NEGOCIOS, DataMining - Data WareHouse - Cubos OLAP

Vamos a crear una nueva base de datos con nombre MiDataWarehouse en SQL
Server 2008 R2, la cual ser nuestro DataWarehouse ficticio sin tabla u otro objeto
alguno:

Creando el proyecto de Analysis Services


Ahora crearemos un nuevo proyecto de SSAS en el Business Intelligence
Development Studio (BIDS) de la versin de SQL Server 2008R2:

Copyright 2012 [Instituto Gala] Reservados todos los derechos.

87

cdigo Mm050 MANUAL INTELIGENCIA de NEGOCIOS, DataMining - Data WareHouse - Cubos OLAP

Creando el Data Source


Creamos un nuevo Data Source que apunte hacia nuestra base de
datos MiDataWarehouse:

Copyright 2012 [Instituto Gala] Reservados todos los derechos.

88

cdigo Mm050 MANUAL INTELIGENCIA de NEGOCIOS, DataMining - Data WareHouse - Cubos OLAP

Copyright 2012 [Instituto Gala] Reservados todos los derechos.

89

cdigo Mm050 MANUAL INTELIGENCIA de NEGOCIOS, DataMining - Data WareHouse - Cubos OLAP

Creando el Data Source View

Copyright 2012 [Instituto Gala] Reservados todos los derechos.

90

cdigo Mm050 MANUAL INTELIGENCIA de NEGOCIOS, DataMining - Data WareHouse - Cubos OLAP

Ahora procedemos a crear nuestro Data Source View, en donde posteriormente


SSAS generar la definicin de nuestra dimensin de tiempo de manera
automtica:

Copyright 2012 [Instituto Gala] Reservados todos los derechos.

91

cdigo Mm050 MANUAL INTELIGENCIA de NEGOCIOS, DataMining - Data WareHouse - Cubos OLAP

Como mencion anteriormente, no tenemos tabla alguna en nuestra base de


datos, as que no tenemos nada que agregar al Data Source View:

Copyright 2012 [Instituto Gala] Reservados todos los derechos.

92

cdigo Mm050 MANUAL INTELIGENCIA de NEGOCIOS, DataMining - Data WareHouse - Cubos OLAP

Creando la dimensin de tiempo


Ahora procedemos a crear nuestra dimensin de tiempo en SSAS:

Copyright 2012 [Instituto Gala] Reservados todos los derechos.

93

cdigo Mm050 MANUAL INTELIGENCIA de NEGOCIOS, DataMining - Data WareHouse - Cubos OLAP

La pantalla que se muestra a continuacin es clave, ya que nos permite indicar a


SSAS, de qu forma generaremos nuestra nueva dimensin, en este caso la
dimensin de tiempo:

Copyright 2012 [Instituto Gala] Reservados todos los derechos.

94

cdigo Mm050 MANUAL INTELIGENCIA de NEGOCIOS, DataMining - Data WareHouse - Cubos OLAP

Nos detenemos aqu un momento para explicar las opciones que se muestran:
Use an existing table: Se crear una nueva dimensin en nuestra base de
datos OLAP (SSAS) basada en una tabla pre-existente de nuestro Data Source
View (y por tanto en nuestro DW).

Generate a time table in the data source: Se crear una dimensin de


tiempo en nuestro DW, su respectiva definicin en el Data Source View y la
dimensin de tiempo en nuestra base de datos OLAP.

Generate a time table on the server: Se crear la dimensin de tiempo en


nuestra base de datos OLAP similar a la opcin anterior. La posible desventaja de
esta opcin es que no nos crear nada en nuestro Data Source View que
podamos modificar si as lo deseamos. Tampoco necesita de una dimensin
existente en nuestro Data Warehouse.

Generate a non-time table in the data source: Se crear una dimensin


distinta a una dimensin de tiempo en nuestro DW, su respectiva definicin en el
Data Source View y la dimensin correspondiente en nuestra base de datos
OLAP.

Como se muestra en la imagen anterior, seleccionamos la opcin Generate a time


table in the data source para que SSAS sea el que se encargue de todo el trabajo.
La siguiente pantalla del asistente (Dimension Wizard) nos pide el rango de fechas
para los cuales queremos generar datos en nueva dimensin de tiempo. De igual
Copyright 2012 [Instituto Gala] Reservados todos los derechos.

95

cdigo Mm050 MANUAL INTELIGENCIA de NEGOCIOS, DataMining - Data WareHouse - Cubos OLAP

manera nos pide seleccionar cul son los periodos de tiempo que queremos
generar. En mi caso he seleccionado todas las opciones pero es muy probable
que no todos necesiten la opcin de Half Year (semestre) o la de Ten Days (diez
das) por mencionar alguna de las menos comunes. Finalmente, esta pantalla nos
pide indicar cul ser el idioma en que se deben generar los datos de nuestra
dimensin de tiempo y como se muestra a continuacin, no incluye el idioma
Espaol (lo cual es una deficiencia siendo el Espaol el segundo o tercer lenguaje
ms hablado del mundo).
Una
de
las
formas
superar
esta
deficiencia
sera
definiendo
una traduccin (dimension translation) para cada atributo. Nosotros seguiremos
enfocados en cmo SSAS genera la dimensin de tiempo (aunque sea en Ingls)
y las relaciones entre sus atributos.

La siguiente pantalla del asistente, pregunta por los tipos de calendario que
queremos generar en nuestra dimensin. Los ms usados son Regular
calendar (calendario natural) y Fiscal calendar (calendario fiscal) que son las que
seleccionaremos. En el caso del calendario fiscal, es posible indicar cul ser el
da y el mes en que se inicia dicho calendario de acuerdo a nuestra organizacin,
as mismo el nombre del ao fiscal en comparacin con el nombre del ao
calendario:

Copyright 2012 [Instituto Gala] Reservados todos los derechos.

96

cdigo Mm050 MANUAL INTELIGENCIA de NEGOCIOS, DataMining - Data WareHouse - Cubos OLAP

Esta es toda la informacin que SSAS necesita para generar nuestra dimensin de
tiempo en el lado OLAP (SSAS). Ahora en la pantalla final que se muestra a
continuacin seleccionaremos el checkbox que dice Generate schema now para
que en este mismo momento SSAS nos cree tambin la tabla fsica en nuestro
Data Warehouse y su definicin en nuestro Data Source View.

Copyright 2012 [Instituto Gala] Reservados todos los derechos.

97

cdigo Mm050 MANUAL INTELIGENCIA de NEGOCIOS, DataMining - Data WareHouse - Cubos OLAP

Ahora aparecer un nuevo asistente que nos guiar a travs del proceso de la
generacin del esquema fsico y lgico que soportarn nuestra dimensin de
tiempo, as como los datos (miembros) que contendr:

Copyright 2012 [Instituto Gala] Reservados todos los derechos.

98

cdigo Mm050 MANUAL INTELIGENCIA de NEGOCIOS, DataMining - Data WareHouse - Cubos OLAP

La primera pregunta del asistente es acerca del Data Source View (DSV) en que
deseamos crear la definicin de la nueva dimensin. En nuestro caso
seleccionaremos el mismo DSV que ya hemos creado al inicio de esta solucin y
que hasta el momento no contiene elemento alguno:

Copyright 2012 [Instituto Gala] Reservados todos los derechos.

99

cdigo Mm050 MANUAL INTELIGENCIA de NEGOCIOS, DataMining - Data WareHouse - Cubos OLAP

Ahora vienen las preguntas con respecto a la creacin fsica de la tabla sobre
nuestro Data Warehouse incluyendo si queremos poblar de datos nuestra nueva
tabla:

Copyright 2012 [Instituto Gala] Reservados todos los derechos.

100

cdigo Mm050 MANUAL INTELIGENCIA de NEGOCIOS, DataMining - Data WareHouse - Cubos OLAP

Una pantalla ms antes de terminar y esta se refiere a la convencin de nombres


o estndares a usar en las columnas de la nueva tabla:

Copyright 2012 [Instituto Gala] Reservados todos los derechos.

101

cdigo Mm050 MANUAL INTELIGENCIA de NEGOCIOS, DataMining - Data WareHouse - Cubos OLAP

Una vez finalizado el asistente, se inicia el proceso de generacin del esquema y


de la tabla fsica, el cual puede ser examinado en detalle en la siguiente pantalla:

Analizando la estructura de la nueva dimensin de tiempo


Ya tenemos nuestro nuevo esquema y estamos listos para ver la magia detrs del
espectculo, comenzando por la nueva tabla dbo.Time creada en nuestra base de
datos MiDataWareHouse.
Noten que el asistente ha creado columnas para cada uno de los periodos de
tiempo siguiendo las convenciones de nombre seleccionadas:

Copyright 2012 [Instituto Gala] Reservados todos los derechos.

102

cdigo Mm050 MANUAL INTELIGENCIA de NEGOCIOS, DataMining - Data WareHouse - Cubos OLAP

Si hacemos una consulta a la tabla generada, veremos que tambin se han


generado los datos apropiados para cada una de las columnas en el rango de
fechas indicado:

Copyright 2012 [Instituto Gala] Reservados todos los derechos.

103

cdigo Mm050 MANUAL INTELIGENCIA de NEGOCIOS, DataMining - Data WareHouse - Cubos OLAP

Cmo mencionamos anteriormente en este artculo, adems de la tabla fsica en


nuestro DW, se ha creado la definicin de nuestra dimensin y la dimensin en s
dentro de nuestro proyecto de SSAS. Nuestro Data Source View ahora tiene la
tabla Time:

Los atributos de nuestra flamante y nueva dimensin de tiempo se muestran a


continuacin:

Copyright 2012 [Instituto Gala] Reservados todos los derechos.

104

cdigo Mm050 MANUAL INTELIGENCIA de NEGOCIOS, DataMining - Data WareHouse - Cubos OLAP

El asistente tambin nos ha creado una serie de jerarquas naturales. Estas son:

Copyright 2012 [Instituto Gala] Reservados todos los derechos.

105

cdigo Mm050 MANUAL INTELIGENCIA de NEGOCIOS, DataMining - Data WareHouse - Cubos OLAP

Despus de identificar los componentes bsicos de nuestra dimensin, ya


estamos listos para explorar los resultados de nuestra nueva dimensin de tiempo
pero no sin antes procesar la misma:

Copyright 2012 [Instituto Gala] Reservados todos los derechos.

106

cdigo Mm050 MANUAL INTELIGENCIA de NEGOCIOS, DataMining - Data WareHouse - Cubos OLAP

Explorando los datos de la nueva dimensin de tiempo


Finalmente, ya podemos explorar los resultados de nuestra nueva dimensin de
tiempo. Si se posicionan en la pestaa Browser, pueden seleccionar cada uno de
los atributos de la dimensin o una de las jerarquas. En nuestro caso,
seleccionamos la jerarqua Year Trimester Month - Ten Days Date:

Copyright 2012 [Instituto Gala] Reservados todos los derechos.

107

cdigo Mm050 MANUAL INTELIGENCIA de NEGOCIOS, DataMining - Data WareHouse - Cubos OLAP

Los resultados se muestran como esperbamos, de igual manera para la


jerarqua Year Half Year Quarter Month Ten Days - Date:

Copyright 2012 [Instituto Gala] Reservados todos los derechos.

108

cdigo Mm050 MANUAL INTELIGENCIA de NEGOCIOS, DataMining - Data WareHouse - Cubos OLAP

Tambin tenemos jerarquas para el calendario fiscal como Fiscal Year Fiscal
Half Year Fiscal Quarter Fiscal Month Fiscal Day:

Copyright 2012 [Instituto Gala] Reservados todos los derechos.

109

cdigo Mm050 MANUAL INTELIGENCIA de NEGOCIOS, DataMining - Data WareHouse - Cubos OLAP

Factores claves en el diseo de una dimensin de tiempo


De acuerdo a mi experiencia, mucho sucede que cuando construimos una
dimensin de tiempo por nuestros propios medios, la navegacin de las jerarquas
creadas no funciona como nosotros esperamos, con los miembros de datos
asignados al padre incorrecto (por ejemplo una fecha dentro del mes incorrecto, o
un trimestre dentro del ao incorrecto). Debido a esto, debemos tener claro que
una de las claves de xito de cualquier dimensin de SSAS es la definicin de
relaciones entre sus atributos. De esto depende que nuestras jerarquas funcionen
correctamente y por otro lado tienen un gran impacto en los tiempos de respuesta
cuando el usuario navegue sobre el cubo al que pertenezca la dimensin.

Copyright 2012 [Instituto Gala] Reservados todos los derechos.

110

cdigo Mm050 MANUAL INTELIGENCIA de NEGOCIOS, DataMining - Data WareHouse - Cubos OLAP

La dimensin de tiempo generada ha sido definida con las siguientes relaciones


entre sus atributos:

Hemos subrayado en color rojo los atributos de la jerarqua Year Half Year
Quarter Month Ten Days Date, para profundizar un poco en los detalles de
sus atributos Clave Primaria y Columna a Mostrar. La propiedad Clave
Primaria (KeyColumns), define cmo SSAS va a diferenciar internamente a cada
uno de los miembros del atributo, los cuales tienen que ser valores nicos.
Debemos usar la propiedad Columna a Mostrar (Display Column), en el caso de
querer mostrar una columna distinta a la usada en la clave primaria o cuando sta
est compuesta de dos o ms columnas. Esto nos ayudar a evitar posibles
errores de navegacin tanto de la dimensin de tiempo como de cualquier otra
dimensin.
En el caso del atributo Year, ste define como su KeyColumn a la
columna Year de nuestra tabla Time; y comoNameColumn a la columna
Year_Name:

Copyright 2012 [Instituto Gala] Reservados todos los derechos.

111

cdigo Mm050 MANUAL INTELIGENCIA de NEGOCIOS, DataMining - Data WareHouse - Cubos OLAP

Si exploramos los datos que contienen ests dos columnas vemos lo siguiente:

Hacemos nfasis nuevamente sobre la importancia de la propiedad KeyColumn de


un atributo, el cual debe contener un valor nico para cada miembro de datos
incluyendo a las jerarquas a donde est asignado. En el caso del atributo Year, no
se tiene mayores problemas ya que no es posible confundir un ao con otro, ya
que el valor del ao en s es su identificador nico.
En cambio, con un atributo como Half Year (semestre) deberamos tener un poco
ms de cuidado, ya que si revisan su relacin con el atributo Year en la imagen
del Dimension Usage, esta es de varios-a-uno, es decir, varios (dos) semestres en
un ao. Por tanto, en este contexto un semestre no vive por s solo, sino que le
pertenece a un ao en especfico. Es decir, si nos piden el semestre 1, nos tienen
que decir siempre el ao al que se estn refiriendo. Por ejemplo: semestre 1 del
2010, semestre 2 del 2010, etc.
Por tanto el KeyColumn para HalfYear debe de identificar nicamente a cada
semestre dentro de un ao. En el caso de nuestra dimensin, las
propiedades KeyColumn y NameColumn estn definidas de la siguiente manera:

Copyright 2012 [Instituto Gala] Reservados todos los derechos.

112

cdigo Mm050 MANUAL INTELIGENCIA de NEGOCIOS, DataMining - Data WareHouse - Cubos OLAP

Los datos que almacenan dichas columnas se muestran a continuacin:

Noten, que la columna Half_Year definida como KeyColumn, tiene sus valores
incluyendo no slo el mes de inicio del semestre (01 enero - 07 - julio), sino
tambin el ao al que pertenece (1950-01-01 y 1950-07-01 para los que se
muestran en la imagen).
Copyright 2012 [Instituto Gala] Reservados todos los derechos.

113

cdigo Mm050 MANUAL INTELIGENCIA de NEGOCIOS, DataMining - Data WareHouse - Cubos OLAP

MUY IMPORTANTE: Si la columna Half_Year slo tuviera el semestre y no el ao


(por ejemplo: Semestre 1, Semestre 2), habra la necesidad de definir un
KeyColumn compuesto que no slo incluya la columna Half-Year sino tambin la
columna Year, ya que ambas en su combinacin, haran nico a cada miembro de
datos.
El comportamiento de Half-Year es similar al de Trimester y Month de nuestra
jerarqua. Es decir, requiere que la columna que se use como KeyColumn, incluya
en su definicin, el ao al que pertenece y no solamente el nombre del periodo. En
el caso del atributo Date, ste se comporta de manera similar a Year, ya que cada
fecha por s misma es auto-suficiente para no ser confundida con otra fecha del
calendario.
As se ve el atributo Month (mes) de nuestra dimensin:

Copyright 2012 [Instituto Gala] Reservados todos los derechos.

114

cdigo Mm050 MANUAL INTELIGENCIA de NEGOCIOS, DataMining - Data WareHouse - Cubos OLAP

Ahora veamos sus propiedades:

Como vimos, la definicin de Month es idntica a la de Half-Year. Pero ahora


veamos cmo se ven los datos del atributo Month Of Year, el cul no pertenece a
ninguna jerarqua sino como atributo independiente de nuestra dimensin de
tiempo:
Copyright 2012 [Instituto Gala] Reservados todos los derechos.

115

cdigo Mm050 MANUAL INTELIGENCIA de NEGOCIOS, DataMining - Data WareHouse - Cubos OLAP

En este caso Month Of Year slo nos muestra los doce meses del ao sin indicar
a qu ao pertenece. Este tipo de atributo es necesario, para cuando necesitemos
crear algn informe que permita el anlisis comparativo de los mismos meses para
distintos aos, como por ejemplo:
Month 1 Month 2 Month 3
2009
2010
2011
Debido a esto las propiedades del atributo Month of Year han sido definidas como
sigue:

Copyright 2012 [Instituto Gala] Reservados todos los derechos.

116

cdigo Mm050 MANUAL INTELIGENCIA de NEGOCIOS, DataMining - Data WareHouse - Cubos OLAP

Las
columnas Month_Of_Year y
siguientes valores:

el Month_Of_Year_Name contienen

los

Como se muestra en la ltima imagen, a diferencia de la


columna Month, Month_Of_Year no contiene el ao como parte de sus valores,
Copyright 2012 [Instituto Gala] Reservados todos los derechos.

117

cdigo Mm050 MANUAL INTELIGENCIA de NEGOCIOS, DataMining - Data WareHouse - Cubos OLAP

solamente el periodo de tiempo al que pertenece, en este caso el mes. Esto


permite que todos los meses de Enero (Month 1) de cualquier ao o trimestre,
aparezca como si fuese uno solo. Lo mismo para todos los dems meses del ao.
El cierre
Como resumir, podemos sealar lo siguiente:
SQL Server Analysis Services, nos puede ahorrar mucho el trabajo de crear
una dimensin de tiempo para nuestra solucin OLAP incluso sin tener
previamente la dimensin creada en nuestro Data Warehouse relacional.

Podemos crear una dimensin de tiempo y su tabla en nuestro Data


Warehouse usando el asistente para la creacin de dimensiones de SSAS, y luego
personalizar la misma para dejarla a nuestro gusto como borrar algn atributo o
modificar alguna jerarqua.

Podemos optar tambin por crear nuestra dimensin de tiempo desde cero
(por ejemplo si la queremos hacer en Espaol) siguiendo las mejores prcticas de
acuerdo a como SSAS crea su dimensin de tiempo.

El asistente para la creacin de la dimensin de SSAS no soporta el idioma


Espaol. Una forma para tener nuestra dimensin de tiempo en este idioma, es
crearla por ejemplo en Ingls y modificarla para usar la capacin de Translations
de SSAS.

A diferencia de una base de datos relacional en donde el centro de todo son


las relaciones entre tablas. La definicin de relaciones entre atributos es la parte
nuclear que define el comportamiento e influye en los tiempos de respuesta de
nuestro cubo.

Otro aspecto clave para obtener el comportamiento deseado de nuestras


jerarquas y atributos es la definicin de las claves. Debemos indicar en la
propiedad KeyColumn, la columna que haga a nuestro atributo nico de acuerdo al
contexto en donde se vaya a usar, ya sea como parte de una jerarqua o como
atributo independiente.

Ya con nuestra nueva dimensin de tiempo, estamos listos para agregando


las dems dimensiones a nuestra solucin OLAP y posteriormente el o los cubos
que sean necesarios.

Copyright 2012 [Instituto Gala] Reservados todos los derechos.

118

You might also like