You are on page 1of 37

DATAWAREHOUSE

Datawarehouse

Construccin de un Data Warehouse


Fundamentos
CARRERA DE

INGENIERA DE SISTEMAS

Agenda

DATAWAREHOUSE

Diseo de un almacen de datos. Pasos para el diseo de un almacen de datos

Modelamiento multidimensional.

CARRERA DE

INGENIERA DE SISTEMAS

Diseo de un Almacn de Datos


Recogida y anlisis de requisitos

DATAWAREHOUSE

Diseo conceptual

Diseo lgico especfico

Diseo fsico

Implementacin

CARRERA DE

INGENIERA DE SISTEMAS

Diseo de un Almacn de Datos


Recogida y anlisis de requisitos

DATAWAREHOUSE

Anlisis

Diseo conceptual

Diseo lgico

Diseo fsico

Discernimiento de las fuentes necesarias del sistema de informacin de la organi acin !"#$P% y e&ternas

Re uisitos de usuario !consultas de anlisis necesarias' ni(el de agregacin' )%

Implementacin

Diseo -onceptual
p.e*. +ntidad,Relacin

CARRERA DE

INGENIERA DE SISTEMAS

Diseo de un Almacn de Datos


Recogida y anlisis de requisitos

DATAWAREHOUSE

Diseo #gico

Diseo conceptual

Diseo lgico

Modelado multidimensional !MR%

Diseo fsico

+squemas estrella

Implementacin
CARRERA DE

INGENIERA DE SISTEMAS

Diseo de un Almacn de Datos


Recogida y anlisis de requisitos

DATAWAREHOUSE

Diseo Fsico

Diseo conceptual

Diseo lgico

Definicin del esquema R"#AP o M"#AP

Diseo fsico

Implementacin
CARRERA DE

Diseo del +$#

INGENIERA DE SISTEMAS

Diseo de un Almacn de Datos


Recogida y anlisis de requisitos

DATAWAREHOUSE

Implementacin

Diseo conceptual

Diseo lgico

-arga del AD !+$#% Preparacin de las (istas de usuario !.erramienta "#AP%

Diseo fsico

Implementacin

CARRERA DE

INGENIERA DE SISTEMAS

Diseo de un Almacn de Datos


Detallemos ms ahora el Diseo Lgico...
Recogida y anlisis de requisitos

DATAWAREHOUSE

Diseo conceptual

#a !isi"n mu#ti$imensiona# seguida por las .erramientas de e&plotacin de almacenes de datos !"#AP% .a inspirado los mo$e#os % meto$o#o&'as de diseo de este tipo de sistemas.

Diseo lgico

Diseo fsico

+n la literatura se .a/la de 01ases de Datos Multidimensionales2 y de 0Diseo Multidimensional2

Implementacin
CARRERA DE

INGENIERA DE SISTEMAS

Modelamiento multidimensional

DATAWAREHOUSE

+n un esquema multidimensional se representa una acti(idad que es o/*eto de anlisis (hecho) y las dimensiones que caracteri an la acti(idad ($imensiones). #a informacin rele(ante so/re el hecho !acti(idad% se representa por un con*unto de indicadores !me$i$as o atri*utos $e hecho%. #a informacin descripti(a de cada $imensi"n se representa por un con*unto de atri/utos !atri*utos $e $imensi"n%.

CARRERA DE

INGENIERA DE SISTEMAS

Modelamiento multidimensional

DATAWAREHOUSE

+l mo$e#a$o mu#ti$imensiona# se puede aplicar utili ando distintos modelos de datos !conce+tua#es o #"&icos%. #a representacin grfica del es uema mu#ti$imensiona# depender del modelo de datos utili ado !re#aciona#, ER, UM-, OO, ...%.

CARRERA DE

INGENIERA DE SISTEMAS

Diseo de un Almacn de Datos


+l desarrollo de la tecno#o&'a $e a#macenes $e $atos se .a caracteri ado por3
, un temprano $esarro##o in$ustria# pro(ocado por las $eman$as $e #os usuarios.

DATAWAREHOUSE

, el uso de meto$o#o&'as $e $ise/o centradas principalmente en los ni!e#es #"&ico e interno. !la atencin
se .a centrado en me0orar #a eficiencia en #a e0ecuci"n $e consu#tas%

Metodologa de diseo /asada en el modelo relacional3 Modelo multidimensional de 4im/all


No es muy congruente usar modelos para diseo conceptual.

CARRERA DE

INGENIERA DE SISTEMAS

Pasos en el diseo del almacn de datos:


DATAWAREHOUSE

Paso 5. +legir un 0proceso2 de la organi acin para modelar. Paso 6. Decidir el grnulo !ni(el de detalle% de representacin del proceso. Paso 7. Identificar las dimensiones que caracteri an el proceso. Paso 8. Decidir la informacin a almacenar so/re el proceso.

CARRERA DE

INGENIERA DE SISTEMAS

Pasos en el diseo del almacn de datos:

DATAWAREHOUSE

Paso 5. +legir un 0proceso2 de la organi acin para modelar.

1roceso2 acti!i$a$ $e #a or&ani3aci"n soportada por un "#$P del cual se puede e4traer informaci"n con el propsito de construir el almac9n de datos.

Pedidos !de clientes% -ompras !a suministradores% Facturacin +n(os :entas In(entario

CARRERA DE

INGENIERA DE SISTEMAS

Pasos en el diseo del almacn de datos:

DATAWAREHOUSE

E0em+#o2 Ca$ena $e su+ermerca$os.

-adena de supermercados con 7;; almacenes en la que se e&penden unos 7;.;;; productos distintos.

Acti!i$a$2 5entas.

#a acti(idad a modelar son las (entas de productos en los almacenes de la cadena.

CARRERA DE

INGENIERA DE SISTEMAS

Paso 6. Decidir el grnulo !ni(el de detalle% de representacin.


Grnulo3 es el ni!e# $e $eta##e al que se desea a#macenar informaci"n so*re #a acti!i$a$ a modelar. +l grnulo define el ni(el atmico de datos en el almac9n de datos. +l grnulo determina el significado de las tuplas de la ta/la de .ec.os. +l grnulo determina las dimensiones /sicas del esquema < transaccin en el OLTP < informacin diaria < informacin semanal < informacin mensual. ....
CARRERA DE

Pasos en el diseo del almacn de datos:

DATAWAREHOUSE

INGENIERA DE SISTEMAS

Pasos en el diseo del almacn de datos:


ta/la Dimensin 5 ta/la de .ec.os
m5 i D

DATAWAREHOUSE

id=dim5 id=dim6 id=dim7

m7 i D

ta/la Dimensin 7

ta/la Dimensin 6

m6 i D

... id=dim n .... !.ec.os%


mn i D

ta/la Dimensin n

CARRERA DE

INGENIERA DE SISTEMAS

Pasos en el diseo del almacn de datos:


+*emplo3 -adena de supermercados.

DATAWAREHOUSE

Grnulo3 0se $esea a#macenar informaci"n so*re #as !entas $iarias $e ca$a +ro$ucto en ca$a a#mac6n $e #a ca$ena2. Grnulo3 define el significado de las tuplas de la ta/la de .ec.os. determina las dimensiones /sicas del esquema.
pro c du to

producto da almac9n

ac m l a
CARRERA DE

9n

entas

INGENIERA DE SISTEMAS

Pasos en el diseo del almacn de datos:

DATAWAREHOUSE

< Gr7nu#o inferior2 no se almacena informacin a ni(el de #'nea $e tic8et porque no se +ue$e i$entificar siempre al c#iente de la (enta lo que permitira .acer anlisis del comportamiento !./itos de compra% del cliente. < Gr7nu#o su+erior2 no se almacena informacin a ni(el semana# o mensua# porque se +er$er'an o+ciones $e an7#isis interesantes3 (entas en das pre(ios a (acaciones' (entas en fin de semana' (entas en fin de mes' ....
+n un almac9n de datos se a#macena informaci"n a un ni!e# $e $eta##e (&r7nu#o) fino no porque se (aya a interrogar el almac9n a ese ni(el sino porque ello +ermite c#asificar % estu$iar (ana#i3ar) #a informaci"n desde muc.os puntos de (ista.
CARRERA DE

INGENIERA DE SISTEMAS

Pasos en el diseo del almacn de datos:


p u rod c to

DATAWAREHOUSE

producto da almac9n

ac m l a

9n

entas

ta/la de .ec.os

id=producto id=fec.a id=almac9n ..... ..... ......

la cla(e primaria!>% est formada por los identificadores de las dimensiones /sicas.

datos !medidas% so/re las (entas diarias de un producto en un almac9n.

!>% pueden e&istir e&cepciones a esta regla general


CARRERA DE

INGENIERA DE SISTEMAS

Pasos en el diseo del almacn de datos: Paso 7. Identificar las dimensiones que caracteri an el proceso.
Tiempo !dimensin temporal" #cundo se produce la acti idad$% Producto !dimensin #cul es el o&'eto de la acti idad$% (lmac)n !dimensin geogrfica" #dnde se produce la acti idad$% *liente

DATAWAREHOUSE

Dimensiones3 dimensiones que caracteri3an #a acti!i$a$ a# ni!e# $e $eta##e (&r7nu#o) que se .a elegido.

!dimensin #+ui)n es el destinatario de la acti idad$%

De cada dimensin se de/e $eci$ir #os atri*utos (+ro+ie$a$es) rele(antes para el anlisis de la acti(idad. +ntre los atri*utos $e una $imensi"n e4isten 0erar u'as natura#es que de/en ser identificadas !da,mes,ao%
CARRERA DE

INGENIERA DE SISTEMAS

Pasos en el diseo del almacn de datos:


ta/la Dimensin 5
id=dim5 ....

DATAWAREHOUSE

CARRERA DE

INGENIERA DE SISTEMAS

Pasos en el diseo del almacn de datos:


+*emplo3 -adena de supermercados. tiempo definicin de grnulo dimensiones /sicas producto

DATAWAREHOUSE

esta/lecimiento

?ota3 +n las aplicaciones reales el n@mero de dimensiones suele (ariar entre 9 % :; $imensiones.
CARRERA DE

INGENIERA DE SISTEMAS

Pasos en el diseo del almacn de datos: Dimensin $iempo3


Aunque el lengua*e AB# ofrece funciones de tipo DA$+' una dimensin $iempo +ermite re+resentar otros atri*utos tem+ora#es no ca#cu#a*#es en AB#. Ae puede calcular de antemano Atri/utos frecuentes3

DATAWAREHOUSE

Dimensin +resente en to$o AD porque el AD contiene informacin .istrica so/re la organi acin.

C nro. de da' nro. de semana' nro. de ao3 (alores a/solutos del calendario *uliano que permiten .acer ciertos clculos aritm9ticos. C da de la semana !lunes' martes' mi9rcoles'...%3 permite .acer anlisis so/re das de la semana concretos !e*. (entas en s/ado' (entas en lunes'..%.

CARRERA DE

INGENIERA DE SISTEMAS

Pasos en el diseo del almacn de datos: Dimensin $iempo3 atri/utos frecuentes3

DATAWAREHOUSE

D $'a $e# mes (:..9:)3 permite .acer comparaciones so/re el mismo da en meses distintos !(entas el 5E de mes%. D marca $e fin $e mes, marca $e fin $e semana 3 permite .acer comparaciones so/re el @ltimo da del mes o das de fin de semana en distintos meses. D trimestre $e# a/o (:..<)3 permite .acer anlisis so/re un trimestre concreto en distintos aos. D marca $e $'a festi!o3 permite .acer anlisis so/re los das contiguos a un da festi(o. D estaci"n !prima(era' (erano..% D e!ento es+ecia#3 permite marcar das de e(entos especiales !final de fut/ol' elecciones...% *erarqua natural3
CARRERA DE

da , mes , trimestre ,ao

INGENIERA DE SISTEMAS

Pasos en el diseo del almacn de datos: Dimensin Producto3

DATAWAREHOUSE

la dimensin Producto se $efine a +artir $e# fichero maestro de productos del sistema "#$P. las actua#i3aciones $e# fichero maestro de productos de/en ref#e0arse en #a $imensi"n Producto !FcmoG%. la dimensin Producto de/e contener el ma%or n=mero +osi*#e $e atri*utos $escri+ti!os que permitan un anlisis fle&i/le. Hn n@mero frecuente es de I; atri/utos. atri*utos frecuentes3 identificador !cdigo estndar%' descripcin' tamao del en(ase' marca' categora' departamento' tipo de en(ase' producto diet9tico' peso' unidades de peso' unidades por en(ase' frmula' ... 0erar u'as3 producto,categora,departamento
CARRERA DE

INGENIERA DE SISTEMAS

Pasos en el diseo del almacn de datos: Dimensin +sta/lecimiento !store% 3

DATAWAREHOUSE

la dimensin Almac9n representa la informaci"n &eo&r7fica /sica. esta dimensin suele ser crea$a e4+#'citamente reco+i#an$o informaci"n externa que slo tiene sentido en el A.D y que no la tiene en un "#$P !n@mero de .a/itantes de la ciudad del esta/lecimiento' caracteri acin del tipo de po/lacin del distrito' ...% atri*utos frecuentes3 identificador !cdigo interno%' nom/re' direccin' distrito' regin' ciudad' pas' director' tel9fono' fa&' tipo de almac9n' superficie' fec.a de apertura' fec.a de la @ltima remodelacin' superficie para congelados' superficie para productos frescos' datos de la po/lacin del distrito' ona de (entas' ... 0erar u'as3
C esta/lecimiento , distrito , ciudad , regin , pas !*erarqua geogrfica% C esta/lecimiento , ona=(entas , regin=(entas !*erarqua de (entas%
CARRERA DE

INGENIERA DE SISTEMAS

Pasos en el diseo del almacn de datos:


Tiem+o
i$>fecha da semana mes ao da=semana da=mes trimestre festi(o ....

DATAWAREHOUSE

Esta*#ecimiento
i$>esta*#ec nro=esta/lec nom/re direccin distrito ciudad pas tlfno fa& superficie tipo=almac9n ...

1ro$ucto
i$>+ro$ucto nro=producto descripcin marca su/categora categora departamento peso unidades=peso tipo=en(ase diet9tico ...

CARRERA DE

INGENIERA DE SISTEMAS

Pasos en el diseo del almacn de datos:


Tiem+o
da i$>fecha semana

DATAWAREHOUSE

Esta*#ecimiento
i$>esta*#ec nro=esta/lec nom/re direccin distrito ciudad pas tlfno

1ro$ucto
i$>+ro$ucto nro=producto descripcin marca su/categora categora departamento peso unidades=peso tipo=en(ase diet9tico ...

mes ao da=semana da=mes trimestre festi(o ....

5entas
i$>fecha i$>+ro$ucto i$>esta*#ec ... ... ...

fa& superficie tipo=almac9n ...

CARRERA DE

INGENIERA DE SISTEMAS

Paso 8. Decidir la informacin a almacenar so/re el proceso. ,echos3 informacin !so/re la acti(idad% que se desea a#macenar en ca$a tu+#a $e #a ta*#a $e hechos y que ser el o/*eto del anlisis. Precio -nidades .mporte
?ota3.... algunos datos que en el "#$P coinci$ir'an con !a#ores $e atri*utos $e $imensiones' en el almac9n de datos pueden representar .ec.os. !+*emplo3 el precio de (enta de un producto%.
CARRERA DE

Pasos en el diseo del almacn de datos:

DATAWAREHOUSE

INGENIERA DE SISTEMAS

Pasos en el diseo del almacn de datos:


+*emplo3 -adena de supermercados.

DATAWAREHOUSE

Grnulo3 0se $esea a#macenar informaci"n so*re #as !entas $iarias $e ca$a +ro$ucto en ca$a esta*#ecimiento $e #a ca$ena2.
C importe total de las (entas del producto en el da C n@mero total de unidades (endidas del producto en el da C n@mero total de clientes distintos que .an comprado el producto en el da.
CARRERA DE

INGENIERA DE SISTEMAS

Pasos en el diseo del almacn de datos:


Tiem+o
da i$>fecha semana

DATAWAREHOUSE

Esta*#ecimiento
i$>esta*#ec nro=esta/lec nom/re direccin distrito ciudad pas tlfno

1ro$ucto
i$>+ro$ucto nro=producto descripcin marca su/categora categora departamento peso unidades=peso tipo=en(ase diet9tico ...

mes ao da=semana da=mes trimestre festi(o ....

5entas
i$>fecha i$>+ro$ucto i$>esta*#ec importe unidades nro=clientes

fa& superficie tipo=almac9n ...

CARRERA DE

INGENIERA DE SISTEMAS

Pasos en el diseo del almacn de datos:


"tras orientaciones de diseo3 usar cla(es sin significado. e(itar normali ar. incluir la dimensin $iempo. dimensiones 0que cam/ian2. definicin de agregados.
CARRERA DE

DATAWAREHOUSE

INGENIERA DE SISTEMAS

Pasos en el diseo del almacn de datos:


"tras orientaciones de diseo3 uso de cla(es sin significado.

DATAWAREHOUSE

C en un almac9n de datos de/e e!itarse e# uso $e #as c#a!es del sistema operacional. C las c#a!es $e #as $imensiones de/en ser &enera$as artificia#mente3 cla(es de tipo entero !8 /ytes% son suficiente para dimensiones de cualquier tamao !676 (alores distintos%. C la dimensin $I+MP" de/e tener tam/i9n una cla(e artificial.
Incon(enientes del uso de las cla(es del sistema operacional3 en el O-T1 se puede decidir reuti#i3ar !a#ores de la cla(e no utili ados actualmente. en el O-T1 se puede decidir cam*iar #a co$ificaci"n de las cla(es.
CARRERA DE

INGENIERA DE SISTEMAS

Pasos en el diseo del almacn de datos:


"tras "rientaciones de diseo3 e(itar normali ar.

DATAWAREHOUSE

Ai se define una ta*#a $e $imensi"n +ara ca$a $imensi"n identificada en el anlisis' es frecuente que entre el con*unto de atri*utos $e #a ta*#a a+are3can $e+en$encias funciona#es que .acen que la ta/la no est9 en 7J F.?. +(itar normali ar3 el a.orro de espacio no es significati(o se multiplican los K"I? durante las consultas.
CARRERA DE

INGENIERA DE SISTEMAS

Pasos en el diseo del almacn de datos:


"tras "rientaciones de diseo3 siempre introducir la dimensin $iempo.

DATAWAREHOUSE

+n un almac9n de Datos muc.as consultas son restringidas y +arametri3a$as por criterios relati(os a +erio$os $e tiem+o !@ltimo mes' este ao' ...%.

CARRERA DE

INGENIERA DE SISTEMAS

Pasos en el diseo del almacn de datos:


"tras orientaciones de diseo3 dimensiones 0que cam/ian2.

DATAWAREHOUSE

Ae considera rele(ante el caso en que' en el mundo real' para un !a#or $e una $imensi"n, cam*ia e# !a#or $e un atri*uto que es significati(o para el anlisis sin cam/iar el (alor de su cla(e.
+*emplo3 +n un A.D e&iste la dimensin -#I+?$+. +n la ta/la correspondiente un registro representa la informacin so/re el cliente 0Mara Larca2 cuyo estado ci(il cam/ia el 5I,;5,5MM8 de soltera a casada. +l estado ci(il del cliente es utili ado con frecuencia en el anlisis de la informacin.

+&isten tres estrategias para el tratamiento $e #os cam*ios en #as $imensiones2 $ipo 53 Reali ar la modificacin. $ipo 63 -rear un nue(o registro. $ipo 73 -rear un nue(o atri/uto.
CARRERA DE

INGENIERA DE SISTEMAS

Pasos en el diseo del almacn de datos:


"tras orientaciones de diseo3 definicin de agregados. N+n un almac9n de datos es usual consultar informacin agregadaO

DATAWAREHOUSE

+l a#macenamiento $e $atos a&re&a$os por distintos criterios de agregacin en la ta/la de .ec.os me0ora #a eficiencia del AD.
+strategias de almacenamiento de datos agregados3
+strategia 53 $efinir nue!as ta*#as $e hechos !resp. de dimensiones% para a#macenar #a informaci"n a&re&a$a !resp. la descripcin de los ni(eles de agregacin%. +strategia 63 insertar en #a ta*#a $e hechos !resp. dimensiones% tu+#as ue re+resentan #a informaci"n a&re&a$a !resp. los ni(eles de agregacin%.
CARRERA DE

INGENIERA DE SISTEMAS

You might also like