You are on page 1of 8

Laboratorio de Tecnologas de la Informacin

Sesin

Pagina: 10

Almacenes de Datos
Datawarehouse

I
OBJETIVOS
 Analizar la estructura de un Datamart/Datawarehouse para una institucin
 Aplicar a travs del diseo de un Datamart/Datawarehouse los conocimientos
adquiridos en el diseo de base de datos de las instituciones para su retroalimentacin.
 Preparar ambientes de explotacin de datos relevantes y estructurados

II
TEMAS A TRATAR
~
~
~
~
~

Modelamiento Dimensional
Servicios de un Web site
Dimensionamiento
Administracin del Almacenamiento y la Optimizacin
Explotacin de la informacin

III
MARCO TEORICO
Funcin de un datawarehouse Baluarte (2003)
La funcin de un datawarehouse es la de seleccionar, resumir, analizar y filtrar los datos
de las bases de datos operativas y crear las bases de datos necesarias para que en base a
los datos histricos y de las fuentes externas se obtenga informacin valiosa para la toma
de decisiones diaria y de futuro.
Esta informacin crtica que se coloque al ejecutivo o administrador tiene las
caractersticas de:
Orientada hacia la informacin relevante de la organizacin
Ser resumida a diferentes niveles
Dr. Ing. Csar Baluarte Araya

Laboratorio de Tecnologas de la Informacin

Pagina: 11

De obtencin rpida
Sencilla de obtener y de manipular

Algunos problemas para crear un datawarehouse


Se pueden presentar un sin nmero de problemas al momento de crear un datawarehouse,
sin embargo podremos citar aquellos que considero ms importantes.
Podemos mencionar:
Estructura de los datos no adecuada y preparada
La dispersin de los datos en diferentes plataformas
El uso de la empresa de diferentes sistemas operativos
Software de desarrollo diferente
Software de manipulacin y explotacin de datos diferente

Porque un Proyecto de Datatawarehouse falla?


Un proyecto de datawarehouse falla entre otras cosas por:
Planificacin de ingreso a su uso
Tecnologa instalada de acuerdo a necesidades del negocio
Tratando al datawarehouse como un destino instalado de una jornada o trabajo extra
Incapacidad de proveer respuestas a preguntas significativas
Para ello se requiere que se implemente:
Arquitectura de datos empresarial
Estndares de generacin de datos
Infraestructura de red que soporte al data warehouse
Obtener y Guardar los datos que sirven
Purificacin de datos e ir a una calidad de su gestin
Seleccin y Adiestramiento en herramientas de usuario final
Objeto de un datawarehouse
Podemos ver que se trata de diferentes apreciaciones con puntos de vista en comn, de los
cuales tenemos:
Como objeto es tener una visin nica de los datos para toda la empresa, que proceden de
diversas fuentes (internas y externas), en un nico depsito para ser utilizado en consultas
y anlisis. Segn Matilde Celma El objetivo ltimo de un almacn de datos es
integrar datos corporativos, residentes en bases de datos operacionales de la organizacin,
en un nico repositorio sobre el cual los usuarios puedan realizar consultas o informes y
hacer anlisis de datos.

Dr. Ing. Csar Baluarte Araya

Laboratorio de Tecnologas de la Informacin

Pagina: 12

Fuente: William H. Inmon Olap y Datawarehouse, 2000, Billinmon.com

DATA MART
A raiz de que la construccin de un datawarehouse es una labor titnica y de utilizacin
de muchos recursos, donde se incluye la inversin, es que surgi la necesidad de hacer
almacenes de datos departamentales que sirvan a un rea o funcin que resuelva sus
requerimientos especficos. As tenemos por citar algunas definiciones:
William Inmon (05) lo defineUn data mart es una coleccin de reas organizadas y
subordinadas para decisiones de soporte basadas en la necesidad de un departamento
especifico. As explica que Finanzas tiene su data mart, as como marketing, ventas y
otros.
Dr. Ing. Csar Baluarte Araya

Laboratorio de Tecnologas de la Informacin

Pagina: 13

Las soluciones de Data Marts, requieren una arquitectura de 3 capas: Los Data
Warehouses son la primera capa (opcional), los Data Marts son la segunda capa, y las
estaciones de trabajo de usuarios son la tercera.
DATA WAREHOUSE
DATA MART
Construido para satisfacer las necesidades de Construido para satisfacer las
informacin de toda la empresa.
necesidades de una funcin o unidad
comercial especfica.
Diseado para optimizar la integracin y la Diseado para optimizar la entrega de
administracin de los datos fuente.
informacin de soporte a decisiones.
Administra grandes cantidades de historia a Primordialmente se concentra en
nivel atmico.
administrar resmenes y/o datos de
muestreo.
Pertenece a, y se administra por, las
Puede ser propiedad de, y administrado
organizaciones de Sistemas de Informacin por, el grupo de Sistema de Informacin
(IS) de la empresa.
(IS) en la Lnea del Negocio.

FIGURA: Nueva arquitectura de Datawarehouse


Aspectos de la Administracin del Datawarehouse
Actualizacin y duplicacin de datos
Sincronizacin de fuentes de datos
Recuperacin de desastres
Controles de acceso y seguridad
Administracin del crecimiento de datos
Administracin del desempeo de bases de datos
Mejoras y ampliacin del DW
Dr. Ing. Csar Baluarte Araya

Laboratorio de Tecnologas de la Informacin

Pagina: 14

El Modelo Dimensional
El modelado dimensional (ver la siguiente figura) es una tcnica de diseo lgico que busca
presentar la informacin en un marco estndar e intuitivo que permita un acceso de alto
rendimiento. Este tipo de modelado es independiente de las tecnologas y permite el empleo de
cualquier base de datos, ya sea relacional -denominadas ROLAP, cuando se aplica el modelo
dimensional a una base de datos relacional-, dimensional, -MOLAP, modelo dimensional sobre
base de datos dimensional-, de objetos, etc. Cada modelo dimensional est compuesto de una
tabla con una clave primaria compuesta, denominada tabla de hechos, y un conjunto de tablas
ms pequeas denominadas tablas de dimensiones. Cada una de las tablas de dimensin tiene
una clave primaria que corresponde exactamente con uno de los componentes de la clave
compuesta de la tabla de hechos. Esta estructura que asemeja una estrella una gran tabla
central o tabla de hechos conectada con un conjunto de tablas menores dispuestas de manera
radial alrededor de esta tabla central- recibe a menudo el nombre de star join o modelado en
estrella.

Figura 1. Modelo dimensional

Una tabla de hechos, debido a su clave primaria compuesta de dos o ms claves ajenas, siempre
expresa una relacin muchos a muchos. las tablas de hechos, adems de sus campos clave,
contienen una o ms medidas numricas o hechos, que se dan para la combinacin de las
claves que definen cada registro. En el ejemplo, las mtricas son el valor de venta y el nmero de
unidades vendidas. Los indicadores ms tiles en una tabla de hechos son numricos y aditivos.
La aditividad es crucial porque las aplicaciones de Data Warehouse casi nunca recuperan un solo
registro de la tabla de hechos; en su lugar, acceden a cientos, miles o incluso millones de
registros a la vez y, por tanto, lo nico eficaz que se puede hacer con ellos es sumarlos.
Las tablas de dimensiones, por el contrario, contienen informacin textual descriptiva. Los
atributos de las dimensiones se emplean como fuente de las restricciones en las consultas al
DataWarehouse
El modelado en estrella es altamente desnormalizado. Con ello se logra minimizar el nmero de
uniones y, por consiguiente, incrementar el rendimiento de las consultas una tabla de hechos
est relacionada con numerosas tablas de dimensiones-. Una variante del modelo en estrella es
Dr. Ing. Csar Baluarte Araya

Laboratorio de Tecnologas de la Informacin

Pagina: 15

el modelo en copo de nieve o snowflake. En este modelado se normalizan las dimensiones


creando as jerarquas en las mismas y conservando lo esencial del modelo en estrella: las tablas
de hechos.
La manera ms habitual de visualizar un modelo dimensional es a travs de la imagen de un
cubo (ver figura siguiente), en el que es posible representar un modelo de tres dimensiones
mediante un cubo. Normalmente, un modelo dimensional est formado por ms de tres
dimensiones y en este caso se denomina hipercubo, sin embargo, un hipercubo es difcil de
visualizar por lo que el cubo es el trmino ms utilizado.

Figura 2. Visualizacin del modelo dimensional mediante representacin en cubo.

En la figura anterior el hecho, indicador o mtrica corresponde al nmero de unidades vendidas y


est determinado por la combinacin de tres dimensiones: mercado, producto y tiempo (las
dimensiones de mercado y producto tienen dos niveles de jerarqua). Como ejemplo, se
representa que en el ao 2001 se vendieron 17 unidades del producto vino rosado en Alcorcn
(Madrid).
Una de las ventajas del modelo dimensional es que el marco predecible del esquema star join
resiste a los cambios inesperados en el comportamiento del usuario. Cada dimensin es
equivalente y todas las dimensiones pueden ser concebidas como puntos de entrada,
simtricamente iguales a la tabla de hechos. El diseo lgico puede realizarse
independientemente de los patrones de consulta esperados, siendo simtricas tanto las
interfaces de usuario como las estrategias de consulta, as como el SQL generado contra el
modelo dimensional.
Otra de las fortalezas del modelo dimensional es el hecho de que los nuevos elementos de datos
y las nuevas decisiones de diseo son fcilmente adaptables. Todas las tablas hechos y
dimensiones- pueden modificarse, simplemente agregando nuevos registros de datos a la tabla
por ejemplo, aadiendo nuevas mtricas a la tabla de hechos- o con una sentencia SQL para
incluir nuevas dimensiones al modelo-. Los datos no se deberan volver a cargar, ya que no es
Dr. Ing. Csar Baluarte Araya

Laboratorio de Tecnologas de la Informacin

Pagina: 16

necesario volver a programar las herramientas de consulta o de reportes para adaptarse a los
cambios, y la ejecucin de las aplicaciones existentes continuar dando los mismos resultados.
(Fuente: http://www.tid.es)

(La prctica tiene una duracin de 12 horas)

IV
ACTIVIDADES

01. Encienda su computador.


02. Cargue a su carpeta de trabajo el software a trabajar.
03. A travs de la ayuda correspondiente seguir los pasos del trabajo de creacin de
datamarts/datawarehouse.
04. Seguir las pautas generales de creacin de datamarts/datawarehouse a partir del
Tutorial de SQL Server Analisys Services que contiene: (ver direcciones)
http://msdn.microsoft.com/es-es/library/bb418432(SQL.10).aspx
http://msdn.microsoft.com/es-es/library/ms170208.aspx
Leccin 1: Definir una vista de origen de datos en un proyecto de Analysis Services
En esta leccin, debe definir una vista de origen de datos en un proyecto de Analysis Services
utilizando BI Development Studio.
Leccin 2: Definir e implementar un cubo
En esta leccin, debe definir un cubo y sus dimensiones utilizando el Asistente para cubos y luego
implementar el cubo en la instancia local de Analysis Services.
Leccin 3: Modificar medidas, atributos y jerarquas
En esta leccin, debe mejorar la facilidad de uso del cubo e implementar de forma incremental los
cambios relacionados, procesando el cubo y sus dimensiones segn sea necesario.
Leccin 4: Definir propiedades de dimensiones y de atributos avanzados
En esta leccin, debe definir una relacin de dimensin referenciada, ordenar miembros de
atributo mediante claves compuestas y definir el control de errores personalizado.
Leccin 5: Definir relaciones entre dimensiones y grupos de medida
En esta leccin, debe definir una relacin de hechos para una dimensin degenerada y definir una
relacin de varios a varios.
Leccin 6: Definir clculos
En esta leccin, debe definir miembros calculados, conjuntos con nombre y secuencias de
comandos.
Leccin 7: Definir indicadores clave de rendimiento (KPI)
En esta leccin, debe definir indicadores clave de rendimiento (KPI).
Leccin 8: Definir acciones

Dr. Ing. Csar Baluarte Araya

Laboratorio de Tecnologas de la Informacin

Pagina: 17

En esta leccin, debe definir acciones.


Leccin 9: Definir perspectivas y traducciones
En esta leccin, debe definir vistas de un cubo y traducciones de metadatos.
Leccin 10: Definir funciones administrativas
En esta leccin, debe definir funciones administrativas y de usuario.

Instalar el Software necesario de acuerdo a indicaciones del Tutorial


Estudiar las funcionabilidades del DW en el SQL
05. Busque en el site de Microsoft, lo relacionado a los temas a tratar; como ejemplos
06. Tomar como informacin fuente conceptual adicional el material de Datawarehouse
Almacenes de Datos de Matilde Celma Jimnez, y considerarbel ejemplo que en el
se da para crear un Datawarehousert
07. Prepare el tema de su exposicin de cada avance para cada sesin de aprendizaje.

V
CUESTIONARIO
1.
2.
3.
4.
5.

6.

Qu es el modelamiento dimensional?
Cules son los modelos para crear o tratar un datamart/datawarehouse?
Realice la comparacin entre un datamart y un data warehouse
Explique el proceso ETL para un data warehouse
Cules seran las dimensiones para un datamart acadmico que contemple datos
referidos a la universidad, regin, departamento, facultad, programa profesional,
alumno y nota final, nota mnima, nota mxima?
Complemente lo aprendido anteriormente siguiendo el Tutorial del INEI sobre
creacin de Datawarehouse

Dr. Ing. Csar Baluarte Araya

You might also like