You are on page 1of 36

Instituto Tecnolgico Superior de la Montaa

Inteligencia de Negocios
1. INTRODUCCIN A LA INTELIGENCIA DE NEGOCIOS
1.1 Conceptos Bsicos
1.1.1 Datawarehouse

En el contexto de la informtica, un almacn de datos (del ingls


datawarehouse) es una coleccin de datos orientada a un determinado
mbito (empresa, organizacin, etc.), integrado, no voltil y variable en el
tiempo, que ayuda a la toma de decisiones en la entidad en la que se
utiliza. Se trata, sobre todo, de un expediente completo de una
organizacin, ms all de la informacin transaccional y operacional,
almacenado en una base de datos diseada para favorecer el anlisis y
la divulgacin eficiente de datos (especialmente OLAP, procesamiento
analtico en lnea). El almacenamiento de los datos no debe usarse con
datos de uso actual. Los almacenes de datos contienen a menudo
grandes cantidades de informacin que se subdividen a veces en
unidades lgicas ms pequeas dependiendo del subsistema de la
entidad del que procedan o para el que sea necesario.

M. T. I. Francisco Castro Hurtado

Instituto Tecnolgico Superior de la Montaa


Inteligencia de Negocios
Definicin de Bill Inmon

Bill Inmon1 fue uno de los primeros autores en escribir sobre el tema de
los almacenes de datos, define un data warehouse (almacn de datos) en
trminos de las caractersticas del repositorio de datos:

Orientado a temas: Los datos en la base de datos estn


organizados de manera que todos los elementos de datos relativos
al mismo evento u objeto del mundo real queden unidos entre s.

Variante en el tiempo: Los cambios producidos en los datos a lo


largo del tiempo quedan registrados para que los informes que se
puedan generar reflejen esas variaciones.

No voltil: La informacin no se modifica ni se elimina, una vez


almacenado un dato, ste se convierte en informacin de slo
lectura, y se mantiene para futuras consultas.

Integrado: La base de datos contiene los datos de todos los


sistemas operacionales de la organizacin, y dichos datos deben
ser consistentes.

Inmon defiende una metodologa descendente (top-down) a la hora de


disear un almacn de datos, ya que de esta forma se considerarn mejor
todos los datos corporativos. En esta metodologa los Data marts se
crearn despus de haber terminado el data warehouse completo de la
organizacin.

M. T. I. Francisco Castro Hurtado

Instituto Tecnolgico Superior de la Montaa


Inteligencia de Negocios
Definicin de Ralph Kimball

Ralph Kimball es otro conocido autor en el tema de los datawarehouse,


define un almacn de datos como: "una copia de las transacciones de
datos especficamente estructurada para la consulta y el anlisis.
Tambin fue Kimball quien determin que un data warehouse no era ms
que: "la unin de todos los Data marts de una entidad". Defiende por tanto
una metodologa ascendente (bottom-up) a la hora de disear un almacn
de datos.

Una definicin ms amplia de almacn de datos

Las definiciones anteriores se centran en los datos en s mismos. Sin


embargo, los medios para obtener esos datos, para extraerlos,
transformarlos y cargarlos, las tcnicas para analizarlos y generar
informacin, as como las diferentes formas para realizar la gestin de
datos son componentes esenciales de un almacn de datos. Muchas
referencias a un almacn de datos utilizan esta definicin ms amplia. Por
lo tanto, en esta definicin se incluyen herramientas para extraer,
transformar y cargar datos, herramientas para el anlisis (inteligencia
empresarial) y herramientas para gestionar y recuperar los metadatos.

M. T. I. Francisco Castro Hurtado

Instituto Tecnolgico Superior de la Montaa


Inteligencia de Negocios
Funcin de un almacn de datos

En un almacn de datos lo que se quiere es contener datos que son


necesarios o tiles para una organizacin, es decir, que se utiliza como
un repositorio de datos para posteriormente

transformarlos en

informacin til para el usuario. Un almacn de datos debe entregar la


informacin correcta a la gente indicada en el momento ptimo y en el
formato adecuado. El almacn de datos da respuesta a las necesidades
de usuarios expertos, utilizando Sistemas de Soporte a Decisiones (DSS),
Sistemas de informacin ejecutiva (EIS) o herramientas para hacer
consultas o informes. Los usuarios finales pueden hacer fcilmente
consultas sobre sus almacenes de datos sin tocar o afectar la operacin
del sistema.

En el funcionamiento de un almacn de datos son muy importantes las


siguientes ideas:

Integracin de los datos provenientes de bases de datos distribuidas por


las diferentes unidades de la organizacin y que con frecuencia tendrn
diferentes estructuras (fuentes heterogneas). Se debe facilitar una
descripcin global y un anlisis comprensivo de toda la organizacin en
el almacn de datos.

Separacin de los datos usados en operaciones diarias de los datos


usados en el almacn de datos para los propsitos de divulgacin, de
ayuda en la toma de decisiones, para el anlisis y para operaciones de
control. Ambos tipos de datos no deben coincidir en la misma base de
datos, ya que obedecen a objetivos muy distintos y podran entorpecerse
entre s.

M. T. I. Francisco Castro Hurtado

Instituto Tecnolgico Superior de la Montaa


Inteligencia de Negocios
Peridicamente, se importan datos al almacn de datos de los distintos
sistemas de planeamiento de recursos de la entidad (ERP) y de otros
sistemas de software relacionados con el negocio para la transformacin
posterior. Es prctica comn normalizar los datos antes de combinarlos
en el almacn de datos mediante herramientas de extraccin,
transformacin y carga (ETL). Estas herramientas leen los datos
primarios (a menudo bases de datos OLTP de un negocio), realizan el
proceso de transformacin al almacn de datos (filtracin, adaptacin,
cambios de formato, etc.) y escriben en el almacn.

1.1.2 Data mart

Un Data mart es una versin especial de almacn de datos (data


warehouse). Son subconjuntos de datos con el propsito de ayudar a que
un rea especfica dentro del negocio pueda tomar mejores decisiones.
Los datos existentes en este contexto pueden ser agrupados, explorados
y propagados de mltiples formas para que diversos grupos de usuarios
realicen la explotacin de los mismos de la forma ms conveniente segn
sus necesidades.

El Data mart es un sistema orientado a la consulta, en el que se producen


procesos batch de carga de datos (altas) con una frecuencia baja y
conocida. Es consultado mediante herramientas OLAP (On line Analytical
Processing - Procesamiento Analtico en Lnea) que ofrecen una visin
multidimensional de la informacin. Sobre estas bases de datos se
pueden construir EIS (Executive Information Systems, Sistemas de
Informacin para Directivos) y DSS (Decision Support Systems, Sistemas
de Ayuda a la toma de Decisiones).

M. T. I. Francisco Castro Hurtado

Instituto Tecnolgico Superior de la Montaa


Inteligencia de Negocios
En sntesis, se puede decir que los data marts son pequeos data
warehouse centrados en un tema o un rea de negocio especfico dentro
de una organizacin.

Dependencia de un data mart

Segn la tendencia marcada por Inmon sobre los data warehouse, un


data mart dependiente es un subconjunto lgico (vista) o un subconjunto
fsico (extracto) de un almacn de datos ms grande, que se ha aislado
por alguna de las siguientes razones:

Se necesita para un esquema o modelo de datos espacial (por


ejemplo, para reestructurar los datos para alguna herramienta
OLAP).

Prestaciones: Para descargar el data mart a un ordenador


independiente para mejorar la eficiencia o para obviar las
necesidades de gestionar todo el volumen del data warehouse
centralizado.

Seguridad: Para separar un subconjunto de datos de forma


selectiva a los que queremos permitir o restringir el acceso.

Conveniencia: la de poder pasar por alto las autorizaciones y


requerimientos necesarios para poder incorporar una nueva
aplicacin en el Data Warehouse principal de la Empresa.

Demostracin sobre el terreno: para demostrar la viabilidad y el


potencial de una aplicacin antes de migrarla al Data Warehouse
de la Empresa.

Poltica: Razones internas de la organizacin para hacer esta


divisin o separacin de los datos del almacn de datos, por
ejemplo:

M. T. I. Francisco Castro Hurtado

Instituto Tecnolgico Superior de la Montaa


Inteligencia de Negocios
o Cuando se decide una estrategia para las TI (Tecnologas de
la informacin) en situaciones en las que un grupo de usuarios
tiene ms influencia, para determinar si se financia dicha
estrategia o descubrir si sta no sera buena para el almacn
de datos centralizado.
o Estrategia para los consumidores de los datos en situaciones
en las que un equipo de almacn de datos no est en
condiciones de crear un almacn de datos utilizable.

Segn la escuela Inmon de data warehouse, entre las prdidas inherentes


al uso de data marts estn la escalabilidad limitada, la duplicacin de
datos, la inconsistencia de los datos con respecto a otros almacenes de
informacin y la incapacidad para aprovechar las fuentes de datos de la
empresa. As y todas estas herramientas son de gran importancia.

Conceptos errneos de los Data Marts

Al hablar de los data marts, es inevitable la comparacin con los data


warehouse y al final se acaba diciendo (o entendiendo) que son como
estos, pero en pequeo, y en cierto modo esto es as, pero esta idea suele
hacer caer en los siguientes errores sobre la implementacin y
funcionamiento de los data marts:

Son ms simples de implementar que un Data Warehouse:


FALSO, la implementacin es muy similar, ya que debe
proporcionar las mismas funcionalidades.

Son pequeos conjuntos de datos y, en consecuencia, tienen


menor necesidad de recursos: FALSO, una aplicacin corriendo
sobre un data mart necesita los mismos recursos que si corriera
sobre un data warehouse.

M. T. I. Francisco Castro Hurtado

Instituto Tecnolgico Superior de la Montaa


Inteligencia de Negocios

Las consultas son ms rpidas, dado el menor volumen de datos:


FALSO, el menor volumen de datos se debe a que no se tienen
todos los datos de toda la empresa, pero s se tienen todos los
datos de un determinado sector de la empresa, por lo que una
consulta sobre dicho sector tarda lo mismo si se hace sobre el data
mart que si se hace sobre el data warehouse.

En algunos casos aade tiempo al proceso de actualizacin:


FALSO, actualizar el data mart desde el data warehouse cuesta
menos (ya que los formatos de los datos son o suelen ser
idnticos) que actualizar el data warehouse desde sus fuentes de
datos primarias, donde es necesario realizar operaciones de
transformacin.

1.1.3 Tipos de sistemas de informacin

Un sistema de

de informacin tienen como propsito perfeccionar las

actividades llevadas a cabo en una organizacin, y as alcanzar ventajas


competitivas.

Siguiendo esta lnea, y de acuerdo a su funcin se distinguen cuatro tipos


de sistemas de informacin:

SISTEMA DE PROCESAMIENTO DE TRANSACCIONES: Cuando un


sistema recopila, almacena y altera la informacin creada a partir de
transacciones llevadas a cabo dentro de una organizacin se denomina
sistema de procesamiento de transacciones. Tiene como finalidad
procesar las transacciones diarias de una empresa, acumulando toda la
informacin recibida en una base de datos para su posterior consulta.

M. T. I. Francisco Castro Hurtado

Instituto Tecnolgico Superior de la Montaa


Inteligencia de Negocios
SISTEMA DE INFORMACIN GERENCIAL: Un sistema de informacin
gerencial es aquel utilizado por la empresa para solventar inconvenientes
en la misma. Es decir, el objetivo del mismo es la suministracin de
informacin para la resolucin de problemas a travs de la interaccin
entre tecnologas y personas.

Los datos aportados por el sistema deben disponer de cuatro cualidades


elementales: Calidad, oportunidad, Cantidad y Relevancia.

SISTEMA DE SOPORTE A DECISIONES: Este sistema se basa en el


estudio y la comparacin entre un conjunto de variables con el objeto de
contribuir a la toma de decisiones dentro de una empresa. El apoyo dado
por el sistema involucra la estimacin, valoracin y balance entre
alternativas. Al igual que el sistema de informacin gerencial, esta
tecnologa interacciona con personas en el filtrado de informacin que
permite optar por la decisin ms acertada.

SISTEMA DE INFORMACION EJECUTIVA: Esta tecnologa es utilizada


por los gerentes de una empresa, ya que permite acceder a la informacin
interna y externa de la misma, disponiendo de los datos que puedan llegar
a afectar su buen rendimiento.
De esta manera, el ejecutivo podr conocer el estado de todos los
indicadores, incluso aquellos que no cumplan con las expectativas y a
partir de esto, tomar las medidas que considere adecuadas.

M. T. I. Francisco Castro Hurtado

Instituto Tecnolgico Superior de la Montaa


Inteligencia de Negocios
1.1.4 Variables de medicin

Las variables de medicin son aquellas que representan la medicin


matemtica de un aspecto del negocio.

Se utilizan para medir la productividad, las prdidas, las ganancias, entre


otros aspectos que les pueden definir un sin nmero de indicadores que
le permitir a un ejecutivo tomar decisiones operativas o estratgicas.

Un ejemplo prctico es que si una empresa vende refrescos las variables


de medicin le ayudan a saber y a poder graficar cuantos refrescos se
venden al da, cual es el ms consumido, a qu tipo de personas les gusta
el refresco, entre otras cosas se pueden aplicar las variables de medicin.

1.1.5 Variables de Anlisis

Las variables de anlisis son aquellas que se incluyen en el proceso


estadstico, son aquellas variables que realizan estudios analticos sobre
las variables de medicin.

M. T. I. Francisco Castro Hurtado

Instituto Tecnolgico Superior de la Montaa


Inteligencia de Negocios
Las variables de anlisis se utilizan principalmente para realizar estudios
estadsticos como factores de riesgo, permanencia del producto en el
mercado, entre otras cosas.

Un ejemplo prctico es que se utilizan dentro de la empresa para poder


determinar los diversos riesgos, la permanencia del producto o el servicio
dentro del mercado, local, nacional e internacional y tambin se obtienen
fortalezas y debilidades de la empresa.

1.2 Componentes de la inteligencia de negocios


1.2.1 Minera de datos

La minera de datos o exploracin de datos (es la etapa de anlisis de


"Knowledge Discovery in Databases" o KDD) es un campo de las ciencias
de la computacin referido al proceso que intenta descubrir patrones en
grandes volmenes de conjuntos de datos. Utiliza los mtodos de la
inteligencia artificial, aprendizaje automtico, estadstica y sistemas de
bases de datos. El objetivo general del proceso de minera de datos
consiste en extraer informacin de un conjunto de datos y transformarla
en una estructura comprensible para su uso posterior. Adems de la
etapa de anlisis en bruto, que involucra aspectos de bases de datos y
de gestin de datos, de procesamiento de datos, del modelo y de las
consideraciones

de

inferencia,

de

mtricas

de

Intereses,

de

consideraciones de la Teora de la complejidad computacional, de postprocesamiento de las estructuras descubiertas, de la visualizacin y de la


actualizacin en lnea.

M. T. I. Francisco Castro Hurtado

Instituto Tecnolgico Superior de la Montaa


Inteligencia de Negocios
El trmino es una palabra de moda, y es frecuentemente mal utilizado
para referirse a cualquier forma de datos a gran escala o procesamiento
de la informacin (recoleccin, extraccin, almacenamiento, anlisis y
estadsticas), pero tambin se ha generalizado a cualquier tipo de sistema
de apoyo informtico decisin, incluyendo la inteligencia artificial,
aprendizaje automtico y la inteligencia empresarial. En el uso de la
palabra, el trmino clave es el descubrimiento, comnmente se define
como "la deteccin de algo nuevo". Incluso el popular libro "La minera de
datos: sistema de prcticas herramientas de aprendizaje y tcnicas con
Java" (que cubre todo el material de aprendizaje automtico)
originalmente iba a ser llamado simplemente "la mquina de aprendizaje
prctico", y el trmino "minera de datos" se aadi por razones de
marketing. A menudo, los trminos ms generales "(gran escala) el
anlisis de datos", o "anlisis" -. O cuando se refiere a los mtodos
actuales, la inteligencia artificial y aprendizaje automtico, son ms
apropiados.

La tarea de minera de datos real es el anlisis automtico o semiautomtico de grandes cantidades de datos para extraer patrones
interesantes hasta ahora desconocidos, como los grupos de registros de
datos (anlisis clster), registros poco usuales (la deteccin de
anomalas) y dependencias (minera por reglas de asociacin). Esto
generalmente implica el uso de tcnicas de bases de datos como los
ndices espaciales. Estos patrones pueden entonces ser vistos como una
especie de resumen de los datos de entrada, y pueden ser utilizados en
el anlisis adicional o, por ejemplo, en la mquina de aprendizaje y
anlisis predictivo. Por ejemplo, el paso de minera de datos podra
identificar varios grupos en los datos, que luego pueden ser utilizados
para obtener resultados ms precisos de prediccin por un sistema de

M. T. I. Francisco Castro Hurtado

Instituto Tecnolgico Superior de la Montaa


Inteligencia de Negocios
soporte de decisiones. Ni la recoleccin de datos, preparacin de datos,
ni la interpretacin de los resultados y la informacin son parte de la etapa
de minera de datos, pero que pertenecen a todo el proceso KDD como
pasos adicionales.

Los trminos relacionados con la obtencin de datos, la pesca de datos y


espionaje de los datos se refieren a la utilizacin de mtodos de minera
de datos a las partes de la muestra de un conjunto de datos de poblacin
ms grandes establecidas que son (o pueden ser) demasiado pequeas
para las inferencias estadsticas fiables que se hizo acerca de la validez
de cualquier patrn descubierto. Estos mtodos pueden, sin embargo, ser
utilizados en la creacin de nuevas hiptesis que se prueban contra
poblaciones de datos ms grandes.

Proceso

Un proceso tpico de minera de datos consta de los siguientes pasos


generales:

A. Seleccin del conjunto de datos, tanto en lo que se refiere a las


variables objetivo (aquellas que se quiere predecir, calcular o
inferir), como a las variables independientes (las que sirven para
hacer el clculo o proceso), como posiblemente al muestreo de los
registros disponibles.
B. Anlisis de las propiedades de los datos, en especial los
histogramas, diagramas de dispersin, presencia de valores
atpicos y ausencia de datos (valores nulos).

M. T. I. Francisco Castro Hurtado

Instituto Tecnolgico Superior de la Montaa


Inteligencia de Negocios
C. Transformacin del conjunto de datos de entrada, se realizar de
diversas formas en funcin del anlisis previo, con el objetivo de
prepararlo para aplicar la tcnica de minera de datos que mejor se
adapte a los datos y al problema, a este paso tambin se le conoce
como pre procesamiento de los datos.
D. Seleccionar y aplicar la tcnica de minera de datos, se construye
el modelo predictivo, de clasificacin o segmentacin.
E. Extraccin de conocimiento, mediante una tcnica de minera de
datos, se obtiene un modelo de conocimiento, que representa
patrones de comportamiento observados en los valores de las
variables del problema o relaciones de asociacin entre dichas
variables. Tambin pueden usarse varias tcnicas a la vez para
generar distintos modelos, aunque generalmente cada tcnica
obliga a un pre procesado diferente de los datos.
F. Interpretacin y evaluacin de datos, una vez obtenido el modelo,
se debe proceder a su validacin comprobando que las
conclusiones

que

arroja

son

vlidas

suficientemente

satisfactorias. En el caso de haber obtenido varios modelos


mediante el uso de distintas tcnicas, se deben comparar los
modelos en busca de aquel que se ajuste mejor al problema. Si
ninguno de los modelos alcanza los resultados esperados, debe
alterarse alguno de los pasos anteriores para generar nuevos
modelos.

Si el modelo final no superara esta evaluacin el proceso se podra repetir


desde el principio o, si el experto lo considera oportuno, a partir de
cualquiera de los pasos anteriores. Esta retroalimentacin se podr
repetir cuantas veces se considere necesario hasta obtener un modelo
vlido.

M. T. I. Francisco Castro Hurtado

Instituto Tecnolgico Superior de la Montaa


Inteligencia de Negocios
Una vez validado el modelo, si resulta ser aceptable (proporciona salidas
adecuadas y/o con mrgenes de error admisibles) ste ya est listo para
su explotacin. Los modelos obtenidos por tcnicas de minera de datos
se aplican incorporndolos en los sistemas de anlisis de informacin de
las organizaciones, e incluso, en los sistemas transaccionales. En este
sentido cabe destacar los esfuerzos del Data Mining Group, que est
estandarizando el lenguaje PMML (Predictive Model Markup Language),
de manera que los modelos de minera de datos sean interoperables en
distintas plataformas, con independencia del sistema con el que han sido
construidos. Los principales fabricantes de sistemas de bases de datos y
programas de anlisis de la informacin hacen uso de este estndar.

Tradicionalmente, las tcnicas de minera de datos se aplicaban sobre


informacin contenida en almacenes de datos. De hecho, muchas
grandes empresas e instituciones han creado y alimentan bases de datos
especialmente diseadas para proyectos de minera de datos en las que
centralizan informacin potencialmente til de todas sus reas de
negocio. No obstante, actualmente est cobrando una importancia cada
vez mayor la minera de datos desestructurados como informacin
contenida en ficheros de texto, en Internet, entre otros.

Protocolo de un proyecto de minera de datos

Un proyecto de minera de datos tiene varias fases necesarias que son,


esencialmente:

Comprensin: del negocio y del problema que se quiere resolver.

Determinacin, obtencin y limpieza: de los datos necesarios.

Creacin de modelos matemticos.

M. T. I. Francisco Castro Hurtado

Instituto Tecnolgico Superior de la Montaa


Inteligencia de Negocios

Validacin, comunicacin: de los resultados obtenidos.

Integracin: si procede, de los resultados en un sistema


transaccional o similar.

La relacin entre todas estas fases slo es lineal sobre el papel. En


realidad, es mucho ms compleja y esconde toda una jerarqua de sub
fases. A travs de la experiencia acumulada en proyectos de minera de
datos se han ido desarrollando metodologas que permiten gestionar esta
complejidad de una manera ms o menos uniforme.

Tcnicas de minera de datos

Como ya se ha comentado, las tcnicas de la minera de datos provienen


de la inteligencia artificial y de la estadstica, dichas tcnicas, no son ms
que algoritmos, ms o menos sofisticados que se aplican sobre un
conjunto de datos para obtener unos resultados.

Las tcnicas ms representativas son:

Redes neuronales: Son un paradigma de aprendizaje y procesamiento


automtico inspirado en la forma en que funciona el sistema nervioso de
los animales. Se trata de un sistema de interconexin de neuronas en una
red que colabora para producir un estmulo de salida. Algunos ejemplos
de red neuronal son:

El perceptrn.

El perceptrn multicapa.

Los mapas autoorganizados, tambin conocidos como redes de


Kohonen.

M. T. I. Francisco Castro Hurtado

Instituto Tecnolgico Superior de la Montaa


Inteligencia de Negocios
Regresin lineal: Es la ms utilizada para formar relaciones entre datos.
Rpida y eficaz pero insuficiente en espacios multidimensionales donde
puedan relacionarse ms de 2 variables.

rboles de decisin: Un rbol de decisin es un modelo de prediccin


utilizado en el mbito de la inteligencia artificial, dada una base de datos
se construyen estos diagramas de construcciones lgicas, muy similares
a los sistemas de prediccin basados en reglas, que sirven para
representar y categorizar una serie de condiciones que suceden de forma
sucesiva, para la resolucin de un problema. Ejemplos:

Algoritmo ID3.

Algoritmo C4.5.

Modelos estadsticos: Es una expresin simblica en forma de igualdad


o ecuacin que se emplea en todos los diseos experimentales y en la
regresin para indicar los diferentes factores que modifican la variable de
respuesta.

Agrupamiento o Clustering: Es un procedimiento de agrupacin de una


serie de vectores segn criterios habitualmente de distancia; se tratar de
disponer los vectores de entrada de forma que estn ms cercanos
aquellos que tengan caractersticas comunes. Ejemplos:

Algoritmo K-means.

Algoritmo K-medoids.

Reglas de asociacin: Se utilizan para descubrir hechos que ocurren en


comn dentro de un determinado conjunto de datos.

M. T. I. Francisco Castro Hurtado

Instituto Tecnolgico Superior de la Montaa


Inteligencia de Negocios
Segn el objetivo del anlisis de los datos, los algoritmos utilizados se
clasifican en supervisados y no supervisados (Weiss y Indurkhya, 1998):

Algoritmos supervisados (o predictivos): predicen un dato (o un


conjunto de ellos) desconocido a priori, a partir de otros conocidos.

Algoritmos

no

supervisados

(o

del

descubrimiento

del

conocimiento): se descubren patrones y tendencias en los datos.


Ejemplos de uso de la minera de datos

Negocios
La minera de datos puede contribuir significativamente en las
aplicaciones de administracin empresarial basada en la relacin con el
cliente. En lugar de contactar con el cliente de forma indiscriminada a
travs de un centro de llamadas o enviando cartas, slo se contactar
con aquellos que se perciba que tienen una mayor probabilidad de
responder positivamente a una determinada oferta o promocin.

Por lo general, las empresas que emplean minera de datos ven


rpidamente el retorno de la inversin, pero tambin reconocen que el
nmero de modelos predictivos desarrollados puede crecer muy
rpidamente.

En lugar de crear modelos para predecir qu clientes pueden cambiar, la


empresa podra construir modelos separados para cada regin y/o para
cada tipo de cliente.

M. T. I. Francisco Castro Hurtado

Instituto Tecnolgico Superior de la Montaa


Inteligencia de Negocios
Tambin puede querer determinar qu clientes van a ser rentables
durante una ventana de tiempo (una quincena, un mes) y slo enviar las
ofertas a las personas que es probable que sean rentables. Para
mantener esta cantidad de modelos, es necesario gestionar las versiones
de cada modelo y pasar a una minera de datos lo ms automatizada
posible.

Anlisis de la cesta de la compra


El ejemplo clsico de aplicacin de la minera de datos tiene que ver con
la deteccin de hbitos de compra en supermercados. Un estudio muy
citado detect que los viernes haba una cantidad inusualmente elevada
de clientes que adquiran a la vez paales y cerveza. Se detect que se
deba a que dicho da solan acudir al supermercado padres jvenes cuya
perspectiva para el fin de semana consista en quedarse en casa
cuidando de su hijo y viendo la televisin con una cerveza en la mano. El
supermercado pudo incrementar sus ventas de cerveza colocndolas
prximas a los paales para fomentar las ventas compulsivas.

Patrones de fuga
Un ejemplo ms habitual es el de la deteccin de patrones de fuga. En
muchas industrias como la banca, las telecomunicaciones, etc.
existe un comprensible inters en detectar cuanto antes aquellos clientes
que puedan estar pensando en rescindir sus contratos para,
posiblemente, pasarse a la competencia. A estos clientes y en funcin
de su valor se les podran hacer ofertas personalizadas, ofrecer
promociones especiales, etc., con el objetivo ltimo de retenerlos. La
minera de datos ayuda a determinar qu clientes son los ms proclives
a darse de baja estudiando sus patrones de comportamiento y

M. T. I. Francisco Castro Hurtado

Instituto Tecnolgico Superior de la Montaa


Inteligencia de Negocios
comparndolos con muestras de clientes que, efectivamente, se dieron
de baja en el pasado.
Fraudes
Un caso anlogo es el de la deteccin de transacciones de lavado de
dinero o de fraude en el uso de tarjetas de crdito o de servicios de
telefona mvil e, incluso, en la relacin de los contribuyentes con el fisco.
Generalmente, estas operaciones fraudulentas o ilegales suelen seguir
patrones caractersticos que permiten, con cierto grado de probabilidad,
distinguirlas de las legtimas y desarrollar as mecanismos para tomar
medidas rpidas frente a ellas.

Recursos humanos
La minera de datos tambin puede ser til para los departamentos de
recursos humanos en la identificacin de las caractersticas de sus
empleados de mayor xito. La informacin obtenida puede ayudar a la
contratacin de personal, centrndose en los esfuerzos de sus
empleados y los resultados obtenidos por stos. Adems, la ayuda
ofrecida por las aplicaciones para Direccin estratgica en una empresa
se traducen en la obtencin de ventajas a nivel corporativo, tales como
mejorar el margen de beneficios o compartir objetivos; y en la mejora de
las decisiones operativas, tales como desarrollo de planes de produccin
o gestin de mano de obra.

Comportamiento en Internet
Tambin es un rea en boga el del anlisis del comportamiento de los
visitantes sobre todo, cuando son clientes potenciales en una pgina
de Internet. O la utilizacin de la informacin obtenida por medios ms

M. T. I. Francisco Castro Hurtado

Instituto Tecnolgico Superior de la Montaa


Inteligencia de Negocios
o menos legtimos sobre ellos para ofrecerles propaganda adaptada
especficamente a su perfil. O para, una vez que adquieren un
determinado producto, saber inmediatamente qu otro ofrecerle teniendo
en cuenta la informacin histrica disponible acerca de los clientes que
han comprado el primero.

Terrorismo
La minera de datos ha sido citada como el mtodo por el cual la unidad
Able Danger del Ejrcito de los EE. UU. haba identificado al lder de los
atentados del 11 de septiembre de 2001, Mohammed Atta, y a otros tres
secuestradores del "11-S" como posibles miembros de una clula de Al
Qaeda que operan en los EE. UU. ms de un ao antes del ataque. Se
ha sugerido que tanto la Agencia Central de Inteligencia y su homloga
canadiense, Servicio de Inteligencia y Seguridad Canadiense, tambin
han empleado este mtodo.2

Juegos
Desde comienzos de la dcada de 1960, con la disponibilidad de orculos
para determinados juegos combinacionales, tambin llamados finales de
juego de tablero (por ejemplo, para las tres en raya o en finales de
ajedrez) con cualquier configuracin de inicio, se ha abierto una nueva
rea en la minera de datos que consiste en la extraccin de estrategias
utilizadas por personas para estos orculos. Los planteamientos actuales
sobre reconocimiento de patrones, no parecen poder aplicarse con xito
al funcionamiento de estos orculos. En su lugar, la produccin de
patrones perspicaces se basa en una amplia experimentacin con bases
de datos sobre esos finales de juego, combinado con un estudio intensivo
de los propios finales de juego en problemas bien diseados y con

M. T. I. Francisco Castro Hurtado

Instituto Tecnolgico Superior de la Montaa


Inteligencia de Negocios
conocimiento de la tcnica (datos previos sobre el final del juego).
Ejemplos notables de investigadores que trabajan en este campo son
Berlekamp en el juego de puntos-y-cajas (o Timbiriche) y John Nunn en
finales de ajedrez.

Ciencia e Ingeniera
En los ltimos aos la minera de datos se est utilizando ampliamente
en diversas reas relacionadas con la ciencia y la ingeniera. Algunos
ejemplos de aplicacin en estos campos son:

Gentica
En el estudio de la gentica humana, el objetivo principal es entender la
relacin cartogrfica entre las partes y la variacin individual en las
secuencias del ADN humano y la variabilidad en la susceptibilidad a las
enfermedades. En trminos ms llanos, se trata de saber cmo los
cambios en la secuencia de ADN de un individuo afectan al riesgo de
desarrollar enfermedades comunes (como por ejemplo el cncer). Esto
es muy importante para ayudar a mejorar el diagnstico, prevencin y
tratamiento de las enfermedades. La tcnica de minera de datos que se
utiliza para realizar esta tarea se conoce como "reduccin de
dimensionalidad multifactorial".3

Ingeniera elctrica
En el mbito de la ingeniera elctrica, las tcnicas de minera de datos
han sido ampliamente utilizadas para monitorizar las condiciones de las
instalaciones de alta tensin. La finalidad de esta monitorizacin es
obtener informacin valiosa sobre el estado del aislamiento de los

M. T. I. Francisco Castro Hurtado

Instituto Tecnolgico Superior de la Montaa


Inteligencia de Negocios
equipos. Para la vigilancia de las vibraciones o el anlisis de los cambios
de carga en transformadores se utilizan ciertas tcnicas para agrupacin
de datos (clustering) tales como los mapas auto-organizativos (SOM:
Self-organizing map). Estos mapas sirven para detectar condiciones
anormales y para estimar la naturaleza de dichas anomalas.4
Anlisis de gases
Tambin se han aplicado tcnicas de minera de datos para el anlisis de
gases disueltos (DGA: Dissolved gas analysis) en transformadores
elctricos. El anlisis de gases disueltos se conoce desde hace mucho
tiempo como la herramienta para diagnosticar transformadores. Los
mapas auto-organizativos (SOM) se utilizan para analizar datos y
determinar tendencias que podran pasarse por alto utilizando las
tcnicas clsicas (DGA).

Tendencias
La Minera de Datos ha sufrido transformaciones en los ltimos aos de
acuerdo con cambios tecnolgicos, de estrategias de marketing, la
extensin de los modelos de compra en lnea, etc. Los ms importantes
de ellos son:

La importancia que han cobrado los datos no estructurados (texto,


pginas de Internet, etc.).

La necesidad de integrar los algoritmos y resultados obtenidos en


sistemas operacionales, portales de Internet, etc.

La exigencia de que los procesos funcionen prcticamente en


lnea (por ejemplo, en casos de fraude con una tarjeta de crdito).

Los tiempos de respuesta. El gran volumen de datos que hay que


procesar en muchos casos para obtener un modelo vlido es un
inconveniente; esto implica grandes cantidades de tiempo de

M. T. I. Francisco Castro Hurtado

Instituto Tecnolgico Superior de la Montaa


Inteligencia de Negocios
proceso y hay problemas que requieren una respuesta en tiempo
real.
Herramientas de software
Existen muchas herramientas de software para el desarrollo de modelos
de minera de datos tanto libres como comerciales como, por ejemplo:

dVelox de APARA

KXEN

KNIME

Neural Designer

OpenNN

Orange

Powerhouse

Quiterian

RapidMiner

SPSS Clementine

SAS Enterprise Miner

STATISTICA Data Miner

Weka

KEEL

Cuestionario:
1. Qu es la minera de datos?
2. Qu intenta descubrir la minera de datos?
3. Cules son los mtodos que utiliza la minera de datos?
4. Cul es el objetivo general del proceso de minera de datos?
5. Cul es la tarea real de la minera de datos?
6. Menciona los pasos de un proceso tpico de minera de datos
7. Cules son las fases necesarias de un proyecto de minera de datos?
8. Explica brevemente las tcnicas de mineras de datos.
9. Menciona ejemplos de uso de la minera de datos.
10. Menciona por lo menos tres herramientas de software para el desarrollo de
modelos de minera de datos.

M. T. I. Francisco Castro Hurtado

Instituto Tecnolgico Superior de la Montaa


Inteligencia de Negocios
1.2.2 Administracin del conocimiento
La

administracin

del

conocimiento

implica

la

conversin

del

conocimiento tcito (el que sabe un trabajador especfico) en explcito


(conocimiento documentado y replicable) para convertirlo en un activo
estratgico de la organizacin.

Dicho en otras palabras implica la adecuada utilizacin de datos e


informacin para transformarlos en conocimiento y entendimiento.

El conocimiento responde a preguntas que empiezan con Cmo?, es


decir, todo aquello que generalmente slo algunos miembros de la
organizacin saben y lo tienen en su cabeza pero no ha sido transformado
en un conocimiento explcito.

Los procesos y Subprocesos clave de la Administracin de Conocimiento


definidos por el CSC (Centro de Sistemas de Conocimiento) son los
siguientes:

Contexto
Alineacin y consolidacin
Estratgica de capitales

Acto de
conocimiento
Sujeto
Capital Agente

M. T. I. Francisco Castro Hurtado

Objeto
Capital instrumental

Instituto Tecnolgico Superior de la Montaa


Inteligencia de Negocios
1. Alineacin y consolidacin estratgica de capitales:
a) Definicin de Sistemas Referenciales
b) Estructuracin y Operacionalizacin de Capitales
c) Estrategia de Administracin del Conocimiento y Desarrollo de Capitales
Articuladores
2. Administracin del Capital Agente
a) Administracin del Aprendizaje Organizacional
b) Desarrollo de Prcticas de Valor
c) Desarrollo de Competencias Claves
3. Administracin del Capital Instrumental
a) Mtodos y Herramientas para instrumentar las estratgicas de
Administracin del Conocimiento
b) Seleccin e Implementacin de Plataformas Tecnolgicas para la
Administracin del Conocimiento
c) Desarrollo de la Base de Conocimiento

Con el fin de ampliar ms este concepto, se presentan diferentes enfoques desde


el punto de vista de una organizacin:

M. T. I. Francisco Castro Hurtado

Instituto Tecnolgico Superior de la Montaa


Inteligencia de Negocios

1.2.3 Aplicaciones analticas


Segun Gartner el mercado mundial de Business Intelligence crecio un
13% en 2007 respecto al 2006, esto representa un valor de mercado que
exedio los 5,1 billones de dolares en comparacion con los 4,5 billones
registrados en el periodo 2006, los proveedores mas grandes del
mercado: Bussines Objects, Cognos e Hyperion fueron adquiridos por las
corporaciones SAP, IBM y Oracle respectivamente, esto hace preveer la
presencia cada vez mayor de soluciones de Business Intelligence en
nuestro dia a dia por lo que presentamos este articulo que intenta dar
ejemplos de las aplicaciones analticas ms comunes disponibles hoy en
el mercado del business intelligence.

Desgraciadamente muchas empresas se limitan a un sistema de anlisis


y

reporting

sobre

su

data

warehouse,

M. T. I. Francisco Castro Hurtado

desaprovechando

las

Instituto Tecnolgico Superior de la Montaa


Inteligencia de Negocios
oportunidades que ofrecen otras aplicaciones que se basan en la misma
arquitectura.

Simulacin y Forecasting. Son aplicaciones para simular


escenarios y predecir tendencias en el futuro. Si el precio de la
materia prima crece un 5% a lo largo del ao y en tres meses el
dlar sube 10%, cmo afecta a nuestra venta al final del ao? Si
invertimos 10% ms en esta lnea de productos,cmo cambia
nuestra productividad y ROI?

Activity-Based Costing. La determinacin de los costes basados


en actividades descubre los costes reales de los productos,
servicios o clientes ms all de la contabilidad tradicional y desvela
que por ejemplo dos clientes aparentemente igual de rentables
segn sus compras, en realidad causan costes muy diferentes, o
que 25% de la actividad de la empresa causa80% de los costes.

Minera de Datos. Sistemas basados en algoritmos matemticos


para descubrir tendencias escondidas entre grandes volmenes de
datos. Aplicada desde la deteccin de fraude hasta el anlisis de
cesta de compra.

Balanced Scorecard/Cuadro de Mando Integral. Un concepto de


gestin de la estratgica empresarial desarrollado por Norton y

M. T. I. Francisco Castro Hurtado

Instituto Tecnolgico Superior de la Montaa


Inteligencia de Negocios
Kaplan. Permite ver la empresa no slo bajo la perspectiva
financiera, sino tambin bajo otras como clientes, procesos o
potenciales. Los objetivos estratgicos de las empresas se definen
y su alcance se mide constantemente con datos reales.

Gestin de riesgo. Especialmente las entidades financieras y las


aseguradoras, pero tambin otras empresas, necesitan calcular
riesgos y simular escenarios. Las aplicaciones BI proporcionan
todo el proceso.

Alertas y vigilancia. Ya no es necesario leer cada maana


muchas pginas de informes o mirar cada hora una pantalla para
detectar si existe una situacin crtica en algn lugar de la
empresa. Se pueden vigilar automticamente los indicadores de la
actividad empresarial y generar avisos por email o SMS si un
indicador est fuera de su rango normal, a cualquier ritmo y hora
del da.

Fidelizacin de Clientes. Las aplicaciones ayudan a identificar


que son los mejores o ms rentables clientes y porque clientes
abandonan la empresa. Proporcionan los datos para campaas y
evalan las respuestas y el impacto.

Consolidacin. Automatizacin de consolidaciones contables


entre empresas de un mismo grupo o entre sucursales. Tambin
se aplican en fusiones de empresas y adquisiciones.

Como hemos visto, existen numerosas aplicaciones verticales o analticas


que se pueden instalar sobre un data warehouse existente. Si se
aprovecha esta base de infraestructura, la inversin es pequea en
relacin con el potencial empresarial de las aplicaciones.

M. T. I. Francisco Castro Hurtado

Instituto Tecnolgico Superior de la Montaa


Inteligencia de Negocios
1.2.4 Sistemas de reportes
Los sistemas de reportes tienen como objetivo principal mostrar una
visin general de la situacin de la empresa. Consecuentemente, estos
muestran la situacin de las operaciones regulares de la empresa para
que los directivos puedan controlar, organizar, planear y dirigir. Los
reportes se pueden visualizar, exportar a otros formatos como PDF,
HTML, XML, etc. y tambin se pueden imprimir en papel.
El Jasper Report es una librera para la generacin de informes. Est
escrita en java y es libre. http://jasperforge.org/ El funcionamiento
consiste en escribir un xml donde se recogen las particularidades del
informe. Este xml lo tratan las clases del Jasper para obtener una salida.
Esta salida puede ser un PDF, XML, HTML, CSV, XLS, RTF, TXT. Otra
ventaja de utilizar Jasper Report es que se integra perfectamente con el
JFreeChart que es una librera libre para la generacin de todo tipo de
graficas.

Para generar el xml lo recomendable es bajarse la herramienta iReport


que es un editor grfico que est implementado en java y se integra
perfectamente con el Jasper Report.

M. T. I. Francisco Castro Hurtado

Instituto Tecnolgico Superior de la Montaa


Inteligencia de Negocios

M. T. I. Francisco Castro Hurtado

Instituto Tecnolgico Superior de la Montaa


Inteligencia de Negocios

El sistema de reportes jasper reports ofrece muchas herramientas que


son de gran utilidad proporciona todo lo necesario para disear informes
de una complejidad media, y la curva de aprendizaje para comenzar a
tener resultados productivos no es muy elevada. Adems los informes se
pueden realizar directamente sobre los xml descriptores o podemos
utilizar la herramienta ireport para disearlo grficamente.

Un ejemplo bsico:
Para generar un reporte con jasper report debemos seguir los siguientes
pasos:

Generar un fichero .jrxml en el que se configura cmo queremos el


informe.

Compilar el fichero .jrxml para obtener un fichero .jasper.

Rellenar los datos del informe. Esto generar un fichero .jrprint.

Exportar el fichero .jrprint al formato que deseemos (pdf, etc). Esto


generar el fichero en cuestin.

M. T. I. Francisco Castro Hurtado

Instituto Tecnolgico Superior de la Montaa


Inteligencia de Negocios
Generar el fichero .jrxml

El fichero .jrxml se puede generar a mano con este DTD y esta referencia
de atributos. De todas formas, una opcin mejor es usar la herramienta
iReport, que permite generar el fichero .jrxml de forma visual y ms fcil.

En este fichero tambin se configura cual va a ser la fuente de datos (si


es una base de datos, un fichero, etc). Incluso si es base de datos, en
este fichero se pone el SELECT que devuelve los datos que queremos
para el informe.

Compilado del fichero .jrxml

Para compilar el fichero .jrxml y generar el fichero .jasper, desde cdigo


podemos poner algo como esto:

JasperReport

report=

JasperCompileManager.compileReport("C:\\informesJAsper\\JRXML\\Inf
ormeMySql.jrxml");

Rellenar el informe con datos

Ahora hay que rellenar el informe con datos. Desde cdigo se hace con
algo como esto

JasperPrint print = JasperFillManager.fillReport(report, parameters,


conn);

M. T. I. Francisco Castro Hurtado

Instituto Tecnolgico Superior de la Montaa


Inteligencia de Negocios
Donde conn es la conexin con la base de datos. No es necesario indicar
el select ni nada similar, puesto que esta informacin est incluida en el
.jrxml.

Obtener el pdf (o el que sea)

Finalmente, para obtener el fichero .pdf, la lnea es algo como esto

JasperExportManager.exportReportToPdfFile(print,

"C:\\informes

JAsper\\PDF's\\InformePaisesMySQL.pdf");
Donde el parmetro es el fichero de salida que deseamos.

1.2.5 Multidimensionalidad

La multidimensionalidad dentro de la inteligencia de negocios ayuda a


representar los datos en forma cercana a la intuicin del usuario y al
mismo tiempo resolver problemas planteados en sistemas relacionales.

La informacin multidimensional se puede encontrar en hojas de clculo,


bases de datos, etc. Es una herramienta de B.I. que es capaz de reunir
informacin dispersa en toda la empresa e incluso en diferentes fuentes
para as proporcionar a los departamentos la accesibilidad, poder y
flexibilidad que necesitan para analizar la informacin. Por ejemplo, un
pronstico de ventas de un nuevo producto en varias regiones no est
completo si no se toma en cuenta tambin el comportamiento histrico de
las ventas de cada regin y la forma en que la introduccin de nuevos
productos se ha desarrollado en cada regin en cuestin.

Se representan los datos como una matriz.

En los ejes estn los criterios de anlisis.

M. T. I. Francisco Castro Hurtado

Instituto Tecnolgico Superior de la Montaa


Inteligencia de Negocios

En los cruces estn los valores a analizar.

A esta estructura se le llama Cubo o Hipercubo.

Los Cubos o Hipercubos constan de:

Dimensiones:
o Criterios de anlisis de los datos.
o Macro-objetos del problema.
o Variables independientes.
o Ejes en el hipercubo.

Medidas:
o Valores o indicadores a analizar.
o Datos asociados a relaciones entre los objetos
o Problema.
o Variables dependientes.
o Variables en la interseccin de las dimensiones.

Las bases de datos multidimensionales se utilizan principalmente para


crear aplicaciones OLAP y pueden verse como bases de datos de una sola
tabla, su peculiaridad es que por cada dimensin tienen un campo (o
columna), y otro campo por cada mtrica o hecho.

M. T. I. Francisco Castro Hurtado

Instituto Tecnolgico Superior de la Montaa


Inteligencia de Negocios

1.3 Principales herramientas de la inteligencia de negocios

Las herramientas de negocio son:

Cuadro de mando integral tambin llamados Dashboard.

Digital Dashboards o paneles de Control Digital - Tambin


conocidos como Business Intelligence Dashboards, o Dashboards
Ejecutivos, Son resmenes visuales de informacin del negocio,
que muestran de una mirada la comprensin del global de las
condiciones del negocio mediante mtricas e Indicadores Clave de
Desempeo (KPIs). Esta es una Herramienta de Inteligencia de
Negocios muy popular desde hace unos pocos aos.

OLAP (Procesamiento Analtico en lnea por sus siglas en Ingls)


(incluido HOLAP, ROLAP and MOLAP)- Es la capacidad de algunos
sistemas de soporte de decisiones gerenciales que permiten
examinar de manera interactiva grandes volmenes de informacin
desde varias perspectivas.

Aplicaciones de Informes, genera vistas de datos agregadas para


mantener a la gerencia informada sobre el estado de su negocio.

Minera de datos - Extraccin de informacin de las bases de datos


acerca del consumidor, mediante la utilizacin de aplicaciones que
pueden aislar e identificar patrones o tendencias del consumidor en
un alto volumen de datos. Hay una gran variedad de tcnicas de
minera de datos que revelan distintos tipos de patrones. Algunas
de las tcnicas son mtodos estadsticos (Particularmente
Estadstica de Negocios) y Redes Neurales como formas altamente
avanzadas de anlisis de datos.

M. T. I. Francisco Castro Hurtado

You might also like