You are on page 1of 12

1.

-Herramientas para generacin de cubos OLAP


OLAP

OLAP o Proceso analtico en lnea es el nombre formal para el anlisis de cubos multidimensionales - una forma ms intuitiva de ver la informacin empresarial. Con OLAP se puede ver un conjunto de datos de su negocio de muchas y diversas formas sin mucho esfuerzo. Los archivos OLAP o cubos modelan los datos en dimensiones . Una dimensin es una clasificacin de alguna actividad en una organizacin por la cual se p uede medir su xito. Por ejemplo, puede monitorear sus ventas contra los productos o clientes en un periodo de tiempo. Hay dos clases de dimensiones que se pueden utilizar, dimensiones regulares y dimensin de medida.
Dimensiones regulares son aquellos datos que se quieren medir, por ejemplo,

si desea seguir el control de sus ventas, puede utilizar: Clientes: Quienes son los mejores, donde se encuentran, que es lo que compran? Productos: Con respecto a los clientes, quien los compra? Que productos se estn vendiendo? Tiempo: Como voy ahora con respecto al ultimo ao o ltimo mes? En otro tipo de aplicaciones, por ejemplo cuentas por cobrar, se pueden utilizar dimensiones como el Tiempo para llevar control del vencimiento de sus documentos. En contabilidad, una dimensin podra ser su catalogo de cuentas, etc. Estas dimensiones se conforman de elementos que estn dispuestos en niveles jerrquicos o simplemente niveles. Los niveles pueden ser por ejemplo, pas, estado, ciudad. Se puede navegar a travs d e esta jerarqua a travs de los niveles o a travs de sus elementos.

Dimensin de medida son los nmeros que aparecen en el anlisis

dependiendo de los elementos seleccionados en las dimensiones regulares. Por ejemplo, en un cubo de ventas, podramos esco ger ver las ventas, el nmero de artculos vendidos, ganancia, costo, etc. Una vez que se tienen estos datos, se pueden poner en una estructura de datos altamente sofisticada que se llama cubo multidimensional . Este cubo puede residir en una base de datos sofisticada como Microsoft Analysis Services o en archivos independientes. Este cubo le permitir analizar su informacin de la manera que desee. Usted podr cruzar todas las dimensiones para obtener nueva informacin que responder a las preguntas que hace y le permitir tomar mejores decisiones. Hay dos operaciones bsicas que se pueden realizar en un cubo OLAP:
Rotar y Rebanar: Usted puede cambiar las dimensiones del cubo que esta

viendo y obtener una nueva vista de informacin. Por ejemplo, 'Ventas p or producto' puede cambiarse fcilmente a 'Ventas por vendedor'. Rebanar es cambiar el valor de una dimensin por otro valor, por ejemplo, de las ventas de Enero a las ventas de Febrero. ROtar es aventar el cubo como si fuera un dado para obtener una nueva cara del cubo.>
Taladrar o Drilling : Los datos de las dimensiones se pueden abrir para

obtener mas detalle. Una especie de taladro que se hunde mas en la informacin. Si usted ve informacin geogrfica, puede pasar de un continente a un pas y luego a un a ciudad en particular. Con esta simple combinacin de cosas, se puede abrir la informacin generada por un negocio o informacin corporativa para todos el personal tomador de decisiones en formas que antes no era posible realizarlo.

2. Herramientas de minera de datos

Un proceso tpico de minera de datos consta de los siguientes pasos generales: 1. Seleccin del conjunto de datos , tanto en lo que se refiere a las variables objetivo (aquellas que se quiere predecir, calcular o inferir), como a las variables independientes (las que sirven para hacer el clculo o proceso), como posiblemente al muestreo de los registros disponibles. 2. Anlisis de las propiedades de los datos , en especial los histogramas, diagramas de dispersin, presencia de valores atpicos y ausencia de datos (valores nulos). 3. Transformacin del conjunto de datos de entrada , se realizar de diversas formas en funcin del anlisis previo, con el objetivo de prepararlo para aplicar la tcnica de minera de datos que mejor se adapte a los datos y al problema, a este paso tambin se le conoce como reprocesamiento de los datos. 4. Seleccionar y aplicar la tcnica de minera de datos , se construye el modelo predictivo, de clasificacin o segmentacin. 5. Extraccin de conocimiento, mediante una tcnica de minera de datos, se obtiene un modelo de conocimiento, que representa patrones de comportamiento observados en los valores de las variables del problema o relaciones de asociacin entre dichas variables. Tambin pueden usarse varias tcnicas a la vez para generar distintos modelos, aunque generalmente cada tcnica obliga a un preprocesado diferente de los datos. 6. Interpretacin y evaluacin de datos , una vez obtenido el modelo, se debe proceder a su validacin comprobando qu e las conclusiones que arroja son vlidas y suficientemente satisfactorias. En el caso de haber obtenido varios modelos mediante el uso de distintas tcnicas, se deben comparar los modelos en busca de aquel que se ajuste mejor al problema. Si ninguno de lo s modelos alcanza los resultados esperados, debe alterarse alguno de los pasos anteriores para generar nuevos modelos.

Si el modelo final no superara esta evaluacin el proceso se podra repetir desde el principio o, si el experto lo considera oportuno, a partir de cualquiera de los pasos anteriores. Esta retroalimentacin se podr repetir cuantas veces se considere necesario hasta obtener un modelo vlido. Una vez validado el modelo, si resulta ser aceptable (proporciona salidas adecuadas y/o con mrgenes de error admisibles) ste ya est listo para su explotacin. Los modelos obtenidos por tcnicas de minera de datos se aplican incorporndolos en los sistemas de anlisis de informacin de las organizaciones, e incluso, en los sistemas transaccionales. En este sentido cabe destacar los esfuerzos del Data Mining Group, que est estandarizando el lenguaje PMML (Predictive Model Markup Language), de manera que los modelos de minera de datos sean interoperables en distintas plataformas, con independencia del sistema con el que han sido construidos. Los principales fabricantes de sistemas de bases de datos y programas de anlisis de la informacin hacen uso de este estndar. Tradicionalmente, las tcnicas de minera de datos se aplicaban sobre informacin contenida en almacenes de datos. De hecho, muchas grandes empresas e instituciones han creado y alimentan bases de datos

especialmente diseadas para proyectos de minera de datos en las que centralizan informacin potencialmente til de todas sus reas de negocio. No obstante, actualmente est cobrando una importancia cada vez mayor la minera de datos desestructurados como informacin contenida en ficheros de texto, en Internet, etc.
Protocolo de un proyecto de minera de datos

Un proyecto de minera de datos tiene varias fases necesarias que son, esencialmente:
y y y y

Comprensin del negocio y del problema que se quiere resolver. Determinacin, obtencin y limpieza d e los datos necesarios. Creacin de modelos matemticos. Validacin, comunicacin, etc. de los resultados obtenidos.

Integracin , si procede, de los resultados en un sistema transaccional o

similar. La relacin entre todas estas fases slo es lineal sobre el papel. En realidad, es mucho ms compleja y esconde toda una jerarqua de subfases. A travs de la experiencia acumulada en proyectos de minera de datos se han ido desarrollando metodologas que permiten gestionar esta complejidad de una manera ms o menos uniforme.
tcnicas de minera de datos

Como ya se ha comentado, las tcnicas de la minera de datos provienen de la Inteligencia artificial y de la estadstica, dichas tcnicas, no son ms que algoritmos, ms o menos sofisticados que se aplican sobre un conjunto de datos para obtener unos resultados. Las tcnicas ms representativas son:
y

Redes neuronales .- Son un paradigma de aprendizaje y procesamiento

automtico inspirado en la forma en que funciona el sistema nervioso de los animales. Se trata de un sistema de interconexin de neuronas en una red que colabora para producir un estmulo de salida. Algunos ejemplos de red neuronal son:
o o o

El Perceptrn. El Perceptrn multicapa. Los Mapas Autoorganizados, tambin conocidos como redes de Kohonen.

Regresin lineal .- Es la ms utilizada para formar relaciones entre

datos. Rpida y eficaz pero insuficiente en espacios multi dimensionales donde puedan relacionarse ms de 2 variables.
y

rboles de decisin .- Un rbol de decisin es un modelo de prediccin

utilizado en el mbito de la inteligencia artificial, dada una base de datos se construyen estos diagramas de construcciones lgicas, muy similares a los sistemas de prediccin basados en reg las, que sirven para

representar y categorizar una serie de condiciones que suceden de forma sucesiva, para la resolucin de un problema. Ejemplos:
o o

Algoritmo ID3. Algoritmo C4.5.

Modelos estadsticos .- Es una expresin simblica en forma de

igualdad o ecuacin que se emplea en todos los diseos experimentales y en la regresin para indicar los diferentes factores que modifican la variable de respuesta.
y

Agrupamiento o Clustering.- Es un procedimiento de agrupacin de

una serie de vectores segn criterios habitualmente de distancia; se tratar de disponer los vectores de entrada de forma que estn ms cercanos aquellos que tengan caractersticas comunes. Ejemplos:
o o

Algoritmo K-means. Algoritmo K-medoids.

Segn el objetivo del anlisis de los datos, los algoritmos utilizados se clasifican en supervisados y no supervisados (Weiss y Indurkhya, 1998):
y

Algoritmos supervisados (o predictivos): predicen un dato (o un conjunto de ellos) desconocido a priori, a partir de otros conocidos.

Algoritmos no supervisados (o del descubrimiento del conocimiento): se descubren patrones y tendencias en los datos.

Ejemplos de uso de la minera de datos Negocios

La minera de datos puede contribuir significativamente en las aplicaciones de administracin empresarial basada en la relacin con el cliente . En lugar de contactar con el cliente de forma indiscriminada a travs de un centro de llamadas o enviando cartas, slo se contactar con aquellos que se perciba que tienen una mayor probabilidad de responder positivamente a una determinada oferta o promocin. Por lo general, las empresas que emplean minera de datos ven rpidamente el retorno de la inversin, pero tambin reconocen que el nmero de modelos predictivos desarrollados puede crecer muy rpidamente.

En lugar de crear modelos para predecir qu clientes pueden cambiar, la empresa podra construir modelos separados para cada regin y/o para cada tipo de cliente. Tambin puede querer determinar qu clientes van a ser rentables durante una ventana de tiempo (una quincena, un mes, ...) y slo enviar las ofertas a las personas que es probable que sean rentables. Para mantener esta cantidad de modelos, es necesario gestionar las versiones de cada modelo y pasar a una minera de datos lo ms automatizada posible .

3.-Aplicar el modelo OLAP a una base de datos multifuncional para procesar informacin para la toma de decisiones Qu es una BDM?
Es un conjunto de datos que pertenecen a un mismo grupo, para que despussean ingresados y utilizados segn sea el caso. Las bases de datos multidimensionales se utilizan para las aplicaciones olap

TIPOS DE OLAP MULTIDIMENSIONAL MOLAP: Nos permite elegir datos jerrquicamente.

Se pueden visualizar los atributos del sujeto, pudindolos: Rotar, bajar, detallar, expandir y colapsar a la informacin.

Este modelo maneja matrices multidimensionales conformado por:




hipercubos: consisten en un conjunto de celdas, cada una se identifica por un valor de combinacin.

 Hecho: es el objeto a analizar, posee atributos llamados de hechos o de sntesis, y son de tipo cuantitativo.  Dimensiones: representan cada uno de los lados en un espacio multidimensional o cubo. Suministran el contexto en el que se obtienen las medidas de un hecho.  Jerarquas: de mayor a menor o en orden.

Ejemplo:

Ejemplo: se muestra un modelo multidimensional, donde de hechos es la tabla ventas y las dimensiones son almacn, producto y tiempo.

RELACIONAL ROLAP: Su espacio de almacenamiento es escalable -No es necesario que los datos se manden 2 veces. -Es ms fcil el acceso, manejo y obtencin de los datos. -Tiene buen rendimiento y usa cubos dentro de cubos.

HIBRIDO OLAP : Puede escalar de versiones ms fcilmente -Su proceso de la informacin es rpido. -los datos los guarda de manera secuencial y no aleatoriamente.

En el mundo de las soluciones para Business Intelligence, una de las herramientas ms utilizadas por las empresas son las aplicaciones OLAP, ya que las misma han sido creadas en funcin a bases de datos

multidimensionales, que permiten procesar grandes volmenes de informacin, en campos bien definidos, y con un acceso inmediato a los datos para su consulta y posterior anlisis. Como hemos mencionado en un artculo anterior, las herramientas OLAP proporcionan a las compaas un sistema confiable para procesar datos que luego sern utilizados para llevar a cabo anlisis e informes que permitan mejorar las operaciones productivas, tomar decisiones inteligentes y optim izar la competitividad en el mercado. Para funcionar, las aplicaciones OLAP utilizan un tipo de base de datos que posee la peculiaridad de ser multidimensional, denominada comnmente Cubo OLAP.

Bsicamente, el Cubo OLAP, que acua su nombre por su carac terstica multidimensional, es una base de datos que posee diversas dimensiones, ampliando las posibilidades que hasta el momento ofrecan las conocidas hojas de clculo.

Hasta la llegada del trmino Cubo OLAP, que naci de la mano de Edgar F. Codd, de la compaa EF Codd & Associates, slo se utilizaban bases de datos relacionales para el proceso de la informacin, con sistemas tales como el ROLAP.

Gracias a la incorporacin de las bases de datos de tipo multidimensional, y el nacimiento del nuevo concepto Cubo OLAP, las herramientas de soluciones para sistemas Business Intelligence han avanzado notablemente en cuanto a las prestaciones que estas aplicaciones brindan a las empresas, donde la informacin confiable, precisa y en el momento oportuno, son un o de los bienes ms preciados.

Cabe destacar que los Cubos OLAP son vectores en los cuales se dispone la informacin, y gracias a esta ordenada jerarqua es posible llevar a cabo un anlisis rpido de los datos. Mediante la incorporacin de estos vectores o cubos, se han ampliado las posibilidades de las bases de datos relacionales, permitiendo el procesamiento de importantes volmenes de informacin, que de lo contrario sera imposible realizar.

Cada una de las dimensiones que posee la base de datos incorpora un campo determinado para un tipo de dato especfico, que luego podr ser comparado con la informacin contenida en el resto de dimensiones, para hacer posible la evaluacin y posteriores informes de la inf ormacin realmente relevante para una compaa. Una base de datos multidimensional puede contener varios cubos o vectores que extendern las posibilidades del sistema OLAP con el cual se trabaja.

Por ello, si bien en general los sistemas OLAP suelen est ar compuestos por tres dimensiones, lo cierto es que existe la posibilidad de que el sistema OLAP albergue ms de tres dimensiones mediante la utilizacin de estos Cubos OLAP.

A pesar de las grandes ventajas que presenta este tipo de base de datos multidimensional que incluye Cubos OLAP, la cual permite obtener mayor rapidez en las consultas y en el procesamiento de la informacin, lo cierto es que su gran falla reside en la imposibilidad de realizar cambios en su estructura.

Debido a su forma de funcio namiento y almacenamiento de la informacin, cuando los usuarios requieren realizar modificaciones en la estructura de este tipo de base de datos, deben redisear el Cubo OLAP, sin posibilidades de poder utilizar la estructura en la que se trabaj hasta el momento.