You are on page 1of 30

Data Warehouse (Almacenes de Datos) Bases de Datos 1

Casales Cabrera Maria Evel ia



Data Warehouse (Almacen de Datos)

• Un Alrnacen de Datos (0 Data Warehouse) es una gran colecci6n de datos que recoge informaci6n de multiples sistemas fuentes u operacionales dispersos, y cuya actividad se centra en la "Toma de Decisiones" .

• Una vez reunidos los datos de los sistemas fuentes se guardan durante mucho tiempo, 10 que permite el acceso a datos hist6ricos; asi los Almacenes de Datos proporcionan al usuario una interfaz consolidada unlca para los datos, 10 que hace mas facll escribir las consultas para la Toma de Decisiones.

Diferencias entre Base de Datos y Almacen de Datos

Base de Datos Alrnacen de Datos
Operacional
Datos Operacionales Datos del negocio para
Informacion
Orientado a aplicaclon Orientado al sujeto
Actual Actual + Hlstorico
Detallada Detallada + Resumida
Cambia Estable
continuamente Caracteristicas del Almacen de Datos

• Organizado en torno a temas. La informacion se clasifica en base a los aspectos que son de lnteres para la empresa.

• Integrado. Es el aspecto mas importante. La lnteqraclen de datos consiste en convenciones de nombres, codificaciones consistentes, medida uniforme de variables, etc.

• Dependiente del tiempo. Esta dependencia aparece de tres formas: - La informacion representa los datos sobre un horizonte largo de tiempo.

- Cada estructura clave contiene (implicita 0 explicitamente) un elemento de tiempo

(dia, semana, mes, etc.).

- La informacion, una vez registrada correctamente, no puede ser actualizada.

• No vola til. EI Almacen de Datos solo permite cargar nuevos datos y acceder a los ya almacenados, pero no permite ni borrar ni modificar los datos.

Data Warehousing

• Data Warehousing es el proceso que facilita la creaci6n y explotaci6n de un Alrnacen de Datos. Los Sistemas de Data Warehousing incluyen funcionalidades como:

~ lnteqraclon de bases de datos heteroqeneas (relacionales, documentales, geograficas, archivos, etc.)

~ Ejecuclon de consultas complejas no predefinidas visualizando el resultado en

forma grafica y en diferentes niveles de agrupamiento y totalizaclon de datos.

~ Agrupamiento y desagrupamiento de datos en forma interactiva.

~ Analisls del problema en terminos de dimensiones.

~ Control de calidad de datos.

Etapas de Dlsefio del Almacen de Datos

• Origen (Source): Define los origenes de datos del Alrnacen de Datos, como los sistemas de Procesamiento de Transacciones en Linea (OnLine Transaction Processing, OL TP), las fuentes de datos externas (datos sindicados, datos censales), etc.

• Integracion (Integration): Define el mapeo entre los origenes de datos y el propio Alrnacen de Datos.

• Almacen de Datos (Data Warehouse): Define la estructura del Alrnacen de Datos.

• Adaptacion (Customization): Define el mapeo entre el Alrnacen de Datos y las estructuras empleadas por el cliente.

• Cliente (Client): Define las estructuras concretas que son empleadas por los clientes para acceder al Alrnacen de Datos, como Data Marts 0

Niveles por Etapa del Dlsefio del Almacen de Datos

Cada etapa se analiza desde tres niveles 0 perspectivas que se crean en el siguiente orden:

• Conceptual: Define el Alrnacen de Datos desde un punto de vista conceptual, es decir, desde el mayor nivel de abstracclon y contiene unlcarnente los objetos y relaciones mas importantes.

• L6gico: Abarca aspectos loqlcos del disefio del Alrnacen de Datos, como la definicion de las tablas y claves, la definicion de los procesos Ell, etc.

• Fisico: Define los aspectos fisicos del Alrnacen de Datos, como el almacenamiento de las estructuras loqlcas en diferentes discos 0 la confiquracion de los servidores de bases de datos que mantienen el alrnacen de datos.

Diagramas de Formalizaci6n

• Cada etapa 0 nivel necesita formalismos de modelado diferentes.

Una aproximaci6n es la siguiente, donde el dlsefiador del Almacen de Datos no necesita definir todos los diagramas que se especifican:

source (S)

Integ ratiiol1l

Data 'lPi'all'ehouse ,(DW)

Customllallol1l

Client (C)

Conceptuall

SCS Class diagrlllm Sliilndar(/ UML

OM

Class diagram Data .Mapplng Ptotile

owes

Class diagram $!i:mdard UMi MuUld/mens/ofJlll Prorlie

DM

CfOlSS diagram Data M'appiiJg Protile

ccs

Crass diagram SJ'and'a.rd UM{_ MtJI.rtdJ'mooMona/ ProtNe

L..oglcal

SlS

CIM"; dia.gram DI!felenr daia modellllg profl'fes

ETl r;>rooess Clas.') dieg:ram ETLProltl19

IblWlS

CIi1iM diagram Df!ferenr dais modeling profl'les

Exporting P,oc~s ClaM dileg:ram HLProme

o!!.s

erae$ diagram Dlffe~ell1 data modeling proiNes

Physica'i

SPS

COJl1p. & deploy'. di'ag,ram!'i Dalab85'e D~.lOrmtmr Pr;Ofl:/e

Transportalicn D~agram IDeployment dlagl8,m .Database 'Deployment Profile·

DINPS

COI!liIp. & d.ep,loy. ,diaglams D<ll.~base Oeploymenl .Ptol~e

'TiraJlnlspo:rtalion IOla.gram DElployment: di:ag ram Dalabase· Deplbyme-Il! Protlle

CPS

comp, & deploy .. dlagleUlls llill~e Oeploymei:ll Pra/ile

LiEG'END: CS: Conoep.tual Schema, LS: Logioal Soll;()ma, PS; P~ysuoal SO~J;)m<'l, Comp.& deptoy: corepcnem and rjJ;)ploymem

Arquitectura de un Almacen de Datos

EIS DSS

E.xplotacion

Arquitectura de un Almacen de Datos

;;i E P O$Iiif:o:,:;m~ DE 1l'.'1ii"02

"fJ_~ IA A W -":"' bdEJbd

r;.~~ru~ !l,jlititliolii.li:i::oJl

H:E,:;:;;i1ilii!lEIXJiM Ill", ,i\.ClD"'::;D 1i'l';Fil'i.

Arquitectura de un DW - Repositorio de Datos

• EI repositorio de datos operacionales es la fuente donde se encuentran los datos prlmltlvos, actuales e integrados, por 10 tanto es el encargado de suministrar datos al sistema, estos datos operacionales pueden ser:

~ Mayoritariamente precedentes de sistemas mainframe. ~ Datos de estaciones de trabajo 0 servidores privados.

~ Sistemas externos como las bases de datos comerciales, de proveedores 0 clientes, 0 incluso de Internet.

~ Datos departamentales almacenados en Sistemas Propietario.

Arquitectura de un OW - Gestor de Carga

• Tamblan conocido como Sistema Ell (Extraction, Transformation, Load), es el encargado de realizar las funciones de extracci6n de las fuentes de datos (transaccionales 0 externas), transformaci6n (Iimpieza, consolldaclon principalmente) y la carga del Almacen de Datos, tamblsn hace el refresco del almacen (operaclon perledlca que propaga los cambios de las fuentes externas al alrnacen de datos).

Arquitectura de un OW - Gestor del Alrnacen de Datos

• Realiza las operaciones relacionadas con la gestion de los datos dentro del Alrnacen utilizando herramientas especificas que realizan operaciones como la transformaclon de datos para la tncorporaclen de estos en las tablas del Almacen de Datos, la creaclon de indices y vistas de las tablas base, craaclon de copias de seguridad y archivado de datos, adernas del anal isis de los datos para garantizar la coherencia de los mismos.

Arquitectura de un DW - Tipos de Datos (1)

• Datos Deta//ados. Son los que se obtienen directamente del procesado de los datos, no se encuentran almacenados en linea, sino que se puede acceder a ellos con un nivel mas bajo de detalle. Se almacenan en disco ocupando mucho espacio, sin embargo asl se facilita el acceso.

Arquitectura de un OW - Tipos de Datos (2)

• Datos Poco Resumidos y Muy Resumidos. Contienen los datos que el gestor del Almacen de Datos ha establecido como resumenes predefinidos, con el proposlto de acelerar las consultas. Pueden verse modificados constantemente con el fin de responder a las variaciones de las consultas. Los datos poco resumidos corresponden al primer nivel de agregacion de los datos detallados actualmente, 0 10 que es 10 mismo a las consultas que se realizan habitualmente, siendo estos almacenados en disco. Mientras que los muy resumidos corresponden con el nivel mas alto de agregacion, o 10 que es 10 mismo a las consultas que se realizan muy a menudo y que se deben obtener muy rapldarnente.

Arquitectura de un OW - Tipos de Datos (3)

• Datos de Archivol Copia de seguridad. Es el area donde se guardan los datos detallados y resumidos con el fin de mantener un archivo y copias de seguridad de los datos.

• Metadatos. Describen la estructura de los datos que se contienen en el Almacen y pueden ser utilizados por los gestores de carga del Alrnacen de Datos y de consultas.

Arquitectura de un OW - Sistema Gestor de Bases de Datos (SGBD)

EI principal problema que se encuentra al utilizar almacenes de datos es el tamaiio del mismo, por tanto es de gran importancia una buena elecci6n de un SGBD que debe cumplir con requisitos tales como:

• Una buena velocidad de carga

• EI Procesamiento de carga

• La gesti6n de la calidad de los datos

• La velocidad de las consultas

• Escalabilidad en el nurnero de usuarios

• Administraci6n del alrnacen

• Anallsls dimensional integrado

• La funcionalidad avanzada de consultas

Arquitectura de un OW - Gestor de Consultas

• Es el encargado en gestionar las operaciones asociadas a las consultas que realizan los usuarios, dirigiendo las consultas a las tablas apropiadas y planificar la ejecucion de las mismas.

• La complejidad del gestor viene determinada por la funcionalidad de la base de datos y las herramientas de acceso de los usuarios finales.

Arquitectura de un OW - Herramientas de Acceso para Usuarios (1)

• EI objetivo es proporcionar una herramienta de acceso para los usuarios en la cual se puedan tomar decisiones estrateglcas, Por tanto la comunicaci6n entre el Almacen de Datos y la herramienta sera mediante consultas de tloo ad-hoc.

Source

Systems (Legacy)

Dat.iI Design Area

storage:

Flat files (fastest); RDElMS;

other

Processing:

Clean; Prune; Combine;

Re move duplicate; Household; stanelardize; Conform eli menslons; Achwe;

Export to data marts

"The Data WareHouse" Presentation Server

End User Data Access

Ad Hoc Query Tools

Dat.iI Mart tt-1:

OlAP (ROlAP andor MOlA P) query services; Dimensional!

Subject oriented;

locally imple merited; User group driven;

May store atomic data; Ma be frequer1:1y Refreshed; Conforms TO dw bUS

ReportlAtiters

End user Applications

Popul1lle,'--------,-----,---------_j Replic1!le,

Models Forecasting; Scoring; Allocating; Data mining

other downstream Systems;

other parameters; Specila UI

Arquitectura de un OW - Herramientas de Acceso para Usuarios (2)

• En el mercado podemos encontrar herramientas que pueden ser clasificadas en los cinco grupos siguientes:

- Herramientas de consulta y generacion de informes, soportan instrucciones Sal, con la facilidad de que el usuario no tiene porque saber como es la estructura de estas instrucciones ni de la estructura de la base de datos, adernas, se utilizan para generar informes periodlcos de caracter operacional 0 para soportar altos volurnenes de tareas.

- Herramientas de desarrollo de aplicaciones personalizadas utilizando herramientas graficas de acceso a los datos en entornos cliente-servidor.

- Sistemas de informacion ejecutiva, que dan soporte a todos los niveles de gestion de una orqanlzaclon, proporcionando una vision de los datos que contiene y un acceso a fuentes de datos externa.

- Herramientas de Procesamiento analitico en linea (OLAP), agiliza las consultas de grandes cantidades de datos utilizando bases de datos multidimensionales. Se utilizan en generacion de informes de ventas, marketing, etc.

Arquitectura de un Almacen de Datos

HER,RAM:IEHT ASU,S'UARtOS OECONSULTA

Y A!'4AUSIS

Data Marts (Mercados de Datos)

• Es un subconjunto de datos de un Almacen relativos a los requisitos de un departamento 0 area de negocio concretos. Este subconjunto de datos puede funcionar de forma aut6noma, 0 bien enlazado al Almacen de Datos. EI motivo por el cual se crean mercados de datos es el crecimiento que tiene el Alrnacen y asl facilitar su construcci6n y utilizaci6n. Las caracteristicas de los Mercados de Datos son:

- Se centran en los requisitos de los usuarios asociados a un departamento 0 area de negocio concretos.

- Como diferencia con los Almacenes de Datos, los mercados no contienen datos operacionales detallados.

- Son mas sencillos a la hora de utilizarlos y comprender sus datos, debido a que la cantidad de informacion que contienen es mucho menor que en los Almacenes de Datos.

Flujo de Datos

RlElF(]8rncRK1lilE IIl"ro<Il

HERRi'!HIENliJ',111,3 DE

.... >DCE8CO PI!RIL IIJ8;UARJ08

FIp.t'iLE8

Q,

-,~

~[]

Flujo de Entrada

Es el proceso de extracci6n y carga de los sistemas de origen de datos al alrnacen a traves del repositorio de datos, aunque es necesario reconstruir los datos antes de introducirlos en el alrnacen, realizando la limpieza, la reestructuraci6n para conseguir los requisitos del alrnacen y conseguir la coherencia entre sf y los ya existentes.

Flujo de Datos

RlElF(]8rncRK1lilE IIl"ro<Il

HERRi'!HIENliJ',111,3 DE

.... >DCE8CO PI!RIL IIJ8;UARJ08

FIp.t'iLE8

Q,

-,~

~[]

Flujo Ascendente

Es el proceso de resumen, empaquetamiento y distribuci6n con el fin de ariadlr valor a los datos. Donde el resumen agrupa los datos con el fin de hacerlos mas c6modos y utiles para el usuario final. EI empaquetamiento convierte los datos de detalle 0 resumen a otros formatos mas utlles, La distribuci6n de los datos a los usuarios apropiados.

Flujo de Datos

RlElF(]8rncRK1lilE IIl"ro<Il

HERRi'!HIENliJ',111,3 DE

.... >DCE8CO PI!RIL IIJ8;UARJ08

FIp.t'iLE8

Q,

-,~

~[]

Flujo Descendente

Es el proceso de archivado y creaclon de copias de seguridad de los datos, donde el archivado es importante para el mantenimiento, efectividad y las prestaciones del alrnacen, ya que los datos antiguos con menor valor son transferidos a un archivo permanente. Otro de los fines es garantizar la reconstrucclon del alrnacen en el estado actual en caso de producirse una perdida de datos 0 fallo.

Flujo de Datos

RlElF(]8rncRK1lilE IIl"ro<Il

HERRi'!HIENliJ',111,3 DE

.... >DCE8CO PI!RIL IIJ8;UARJ08

FIp.t'iLE8

Q,

-,~

~[]

Flujo de Salida

Es el proceso de disponibilidad de los datos a los usuarios finales a traves de las herramientas. Es el flujo que mas influye en cuesti6n de obtener una ventaja competitiva, 0 10 que es 10 mismo obtener el maximo beneficio al alrnacen mediante la actividad de Acceso, la solicitud del usuario en obtener los datos intentando que la herramienta de consulta para acceder al origen de datos sea la mas apropiada y efectiva. Y la actividad de Suministro que intenta suministrar informaci6n a las estaciones de trabajo de los usuarios.

Flujo de Datos

RlElF(]8rncRK1lilE IIl"ro<Il

HERRi'!HIENliJ',111,3 DE

.... >DCE8CO PI!RIL IIJ8;UARJ08

FIp.t'iLE8

Q,

-,~

~[]

Metaflujo

Es el proceso de gestion de transferencia de los metadatos. Debido a los constantes cambios producidos en el entorno de la orqanizaclon, los metadatos deben actualizarse continuamente para que reflejen estes cambios.

Uso del Data Warehouse

Uso de Bases de Datos Uso de Data Warehouse
Operacionales
Muchos usuarios concurrentes Pocos usuarios concurrentes
Consultas prefinidas y Consultas complejas, frecuentemente
actualizables no anticipadas
Cantidades pequerias de Cantidades grandes de datos
datos detallados detallados
Requerimientos de respuesta Requerimientos de respuesta no
inmediata criticos Ventajas del Uso de Data Warehouse

• La inversion que realiza una orqanlzacion para una correcta lmplantacion de un sistema de Alrnacen de Datos conlleva un coste muy elevado, sin embargo el retorno de la inversion es garantizado en gran medida.

• Como consecuencia de la ventaja anterior se pueden conseguir una ventaja competitiva debido a una buena toma de decisiones gracias al Alrnacen de Datos implantado.

• Mejoran la productividad de los responsables en la toma de decisiones de la orqanizaclon debido a que:

- Los Almacenes de Datos hacen mas facil el acceso a una gran variedad de datos.

- Se obtiene una base de datos clasificada por temas e hlstorica.

- lnteqraclon de informacion procedente de multiples sistemas eternos.

Desventajas del Uso de Data Warehouse

• La subestimaclon del tiempo requerido para extraer, limpiar y cargar los

datos en el Alrnacen.

• Problemas con los sistemas de origen de los datos.

• Los datos obtenidos no son suficientes.

• Pueden suponer altos gastos, adernas de los gastos de mantenimiento que son muy elevados

• Pueden quedarse obsoletos relativamente pronto si los usuarios incrementan sus necesidades.

• En Almacenes de Datos de considerable tamatio puede que la homoqeneizaclon de los datos disminuya su valor.

• Debido a que estan estrechamente relacionadas con los sistemas operativos se han de tener en cuenta cuales son las funcionalidades que pueden aprovecharse. Como por ejemplo, la utilizacion de gran cantidad de espacio en disco.

• La construcclon de un Alrnacen de Datos puede requerir de mucho tiempo.

• La lnteqraclon de las herramientas de Alrnacen de Datos, para conseguir un beneficio en la orqanlzaclon, es muy compleja.

You might also like