You are on page 1of 13

23/2/2017 3.

4Datawarehousemanager|ManualDataprixTI

Quienessomos ParaProfesionalesIT Publicidadyservicios Login Contacto


Crearcontenido

Buscar

BusinessIntelligence BigData DataScience BasesdeDatos ERP Centroderecursos

Comparadordesoftware RecursosTIC Blogs Forosprofesionales DirectoriodeEmpresasIT TablndeEmpresas DataPlanet Microsites


Informacinyrecursossobresoftwareempresarial
DataWarehousingymetodologaHefesto
IDataWarehousing:InvestigacinySistematizacindeConceptos
3.ArquitecturadelDataWarehousing

3.4Datawarehousemanager

Submittedbybernabeu_darioon6May,200917:09 arquitectura atributos datawarehouse dw indicadores MOLAP Multidimensional rolap rolap Acercadebernabeu_dario
vsmolap

3.4DataWarehouseManager
3.4.1Basededatosmultidimensional
3.4.2TablasdeDimensiones
3.4.2.1TabladeDimensinTiempo
3.4.3TablasdeHechos Nombrecompleto
3.4.3.1Tablasdehechosagregadasypreagregadas Ing.BernabeuR.Dario
3.4.4CuboMultidimensional:introduccin
3.4.4.1Indicadores Presentacin
3.4.4.2Atributos CoordinadordelaRedOpenBI
3.4.4.3Jerarquas
RedOpenBI:
3.4.4.4a)Relacin
http://www.redopenbi.com/profile/BernabeuRDario
3.4.4.5b)Granularidad
3.4.5TiposdemodelamientodeunDW Blog:
3.4.5.1EsquemaenEstrella
3.4.5.2EsquemaCopodeNieve
3.4.5.3EsquemaConstelacin
3.4.6OLTPvsDW
3.4.7TiposdeimplementacindeunDW
3.4.7.1ROLAP
3.4.7.2MOLAP
3.4.7.3HOLAP
3.4.7.4ROLAPvsMOLAP RedesSociales:
3.4.8CuboMultidimensional:produndizacin
3.4.9Metadatos
3.4.9.1Mapping

3.4.DataWarehouseManager


Especialidad
BusinessIntelligence

DataWarehousingymetodologa
Hefesto
IDataWarehousing:Investigaciny
SistematizacindeConceptos
RESUMEN1raparte
1.BusinessIntelligence
2.DataWarehousing&DataWarehouse
3.ArquitecturadelDataWarehousing
Figura3.9:DataWarehouseManager.
3.1Introduccin

3.2OLTP
3.3Loadmanager
ElDWManagerpresentalassiguientescaractersticasyfuncionesprincipales: 3.4Datawarehousemanager
SeconstituyetpicamentealcombinarunSGBDconsoftwareyaplicacionesdedicadas. 3.5QueryManager
Almacenalosdatosdeformamultidimensional,esdecir,atravsdetablasdehechosytablasdedimensiones. 3.6HerramientasdeConsultayAnlisis
GestionalasdiferentesestructurasdedatosqueseconstruyanodescribansobreelDW,comoCubosMultidimensionales,Business 3.7Usuari@s
Models,etc. 4.ConceptosComplementarios
Gestionaymantienemetadatos.
Estesitiowebutilizacookiesparamejorarlafuncionalidad,recopilar
IIHEFESTO:MetodologiaparalaConstruccion
estadsticasannimasdenavegacineintegrarcontenidodeotrosservicios.
Adems,elDWManagerseencargade: deunDataWarehouse
Sicontinaconlanavegacinentendemosqueaceptasuuso. B.LicenciadeDocumentacionLibredeGNU
Transformareintegrarlosdatosfuentesydelalmacenamientointermedioenunmodeloadecuadoparalatomadedecisiones.

http://www.dataprix.com/datawarehousemanager#x1500003.4.5.1 1/13
23/2/2017 3.4Datawarehousemanager|ManualDataprixTI
Realizartodaslasfuncionesdedefinicinymanipulacindeldepsitodedatos,parapodersoportartodoslosprocesosdegestin Bibliografia
delmismo.
Ejecutarydefinirlaspolticasdeparticionamiento.Elobjetivoderealizaresto,esconseguirunamayoreficienciayperformanceen
lasconsultasalnotenerquemanejartodoelgruesodelosdatos.Estapolticadebeaplicarsesobrelatabladehechosque,como
seexplicarmsadelante,esenlaquesealmacenatodalainformacinqueseranalizada.
RealizarcopiasderesguardoincrementalesototalesdelosdatosdelDW.

3.4.1.Basededatosmultidimensional

Una base de datos multidimensional es una base de datos en donde su informacin se almacena en forma multidimensional, es decir, a
travsdetablasdehechosytablasdedimensiones.
Proveen una estructura que permite, a travs de la creacin y consulta a una estructura de datos determinada (cubo multidimensional,
BusinessModel,etc),teneraccesoflexiblealosdatos,paraexploraryanalizarsusrelaciones,yconsiguientesresultados.
Las bases de datos multidimensionales implican tres variantes posibles de modelamiento, que permiten realizar consultas de soporte de
decisin:

EsquemaenEstrella(StarScheme).
EsquemaCopodeNieve(SnowflakeScheme).
EsquemaConstelacinocopodeestrellas(StarflakeScheme). Enestemomentohay0usuariosy73invitados
lnea.
Los mencionados esquemas pueden ser implementados de diversas maneras, que, independientemente al tipo de arquitectura, requieren
quetodalaestructuradedatosestedesnormalizadaosemidesnormalizada,paraevitardesarrollaruniones(Join)complejasparaaccedera
lainformacin,conelfindeagilizarlaejecucindeconsultas.Losdiferentestiposdeimplementacinsonlossiguientes:

RelacionalROLAP.
MultidimensionalMOLAP.
HbridoHOLAP.

3.4.2.TablasdeDimensiones

Lastablasdedimensionesdefinencomoestnlosdatosorganizadoslgicamenteyproveenelmedioparaanalizarelcontextodelnegocio.
Contienendatoscualitativos.
Representanlosaspectosdeinters,medianteloscualesl@susuari@spodrnfiltrarymanipularlainformacinalmacenadaenlatablade
hechos.
Enlasiguientefigurasepuedenapreciaralgunosejemplos:


Figura3.10:TablasdeDimensiones.

Comosepuedeobservar,cadatablaposeeunidentificadornicoyalmenosuncampoodatodereferenciaquedescribeloscriteriosde
anlisisrelevantesparalaorganizacin,estossonporlogeneraldetipotexto.
Losdatosdentrodeestastablas,queproveeninformacindelnegociooquedescribenalgunadesuscaractersticas,sonllamadosdatos
dereferencia.
Msdetalladamente,cadatabladedimensinpodrcontenerlossiguientescampos:

Claveprincipaloidentificadornico.
Claveforneas.
Datosdereferenciaprimarios:datosqueidentificanladimensin.Porejemplo:nombredelcliente.
Datos de referencia secundarios: datos que complementan la descripcin de la dimensin. Por ejemplo: email del cliente, fax del
cliente,etc.

Usualmentelacantidaddetablasdedimensiones,aplicadasauntemadeintersenparticular,varanentretresyquince.
Debetenerseencuenta,quenosiemprelaclaveprimariadelOLTP,secorrespondeconlaclaveprimariadelatabladedimensin
relacionada.EsrecomendablemanejarunsistemadeclavesenelDW(ClavesSubrogadas)totalmentediferentealdelosOLTP,ya
quesiestosltimossonrecodificados,elalmacnquedarainconsistenteydeberaserpobladonuevamenteensutotalidad.

3.4.2.1.TabladeDimensinTiempo

EnunDW,lacreacinyelmantenimientodeunatabladedimensinTiempoesobligatoria,yladefinicindegranularidadyestructuracin
delamismadependedeladinmicadelnegocioqueseesteanalizando.Todalainformacindentrodeldepsito,comoyasehaexplicado,
poseesupropiosellodetiempoquedeterminalaocurrenciadeunhechoespecfico,representandodeestamaneradiferentesversionesde
unamismasituacin.
Es importante tener en cuenta que la dimensin tiempo no es sola una secuencia cronolgica representada de forma numrica, sino que
mantienenivelesjerrquicosespecialesqueincidennotablementeenlasactividadesdelaorganizacin.Estosedebeaquel@susuari@s
podrnporejemploanalizarlasventasrealizadasteniendoencuentaeldadelasemanaenqueseprodujeron,quincena,mes,trimestre,
semestre,ao,estacin,etc.
Existen muchas maneras de disear esta tabla, y en adicin a ello no es una tarea sencilla de llevar a cabo. Por estas razones se
consideraunabuenaprcticaevaluarconcuidadolatemporalidaddelosdatos,laformaenquetrabajalaorganizacin,losresultadosque
seesperanobtenerdelalmacndedatosrelacionadosconunaunidaddetiempoylaflexibilidadquesedeseaobtenerdedichatabla.
Asmismo,siserequiereanalizarlosdatosporFecha(ao,mes,da,etc)yporHora(hora,minuto,segundo,etc),lomsrecomendable
Estesitiowebutilizacookiesparamejorarlafuncionalidad,recopilar
esconfeccionardostablasdedimensinTiempounacontendrlosdatosreferidosalaFechaylaotralosreferidosalaHora.
estadsticasannimasdenavegacineintegrarcontenidodeotrosservicios.
Sibien,ellenguajeSQLofrecefuncionesdeltipoDATE,enlatabladedimensinTiempo,semodelanypresentandatostemporalesqueno
Sicontinaconlanavegacinentendemosqueaceptasuuso.
puedencalcularseatravsdeconsultasSQL,locualleaadeunaventajams.

http://www.dataprix.com/datawarehousemanager#x1500003.4.5.1 2/13
23/2/2017 3.4Datawarehousemanager|ManualDataprixTI
Es conveniente mantener en la tabla de dimensin Tiempo un campo que se refiera al da Juliano. El da juliano se representa a
travs de un nmero secuencial e identifica unvocamente cada da. Mantener este campo permitir la posibilidad de realizar
consultasqueinvolucrencondicionesdefiltradodefechasdesdehasta,mayorque,menorque,etc,demanerasencillaeintuitiva
yaquesiporejemploapartirdetalfechasedeseaanalizarlosdatosdelos81dassiguientes,elvalor"desde"seraeldaJuliano
delafechaencuestinyelvalor"hasta"seraiguala"desde"ms81.

3.4.3.TablasdeHechos

Las tablas de hechos contienen, precisamente, los hechos que sern utilizados por l@s analistas de negocio para apoyar el proceso de
tomadedecisiones.Contienendatoscuantitativos.
Loshechossondatosinstantneoseneltiempo,quesonfiltrados,agrupadosyexploradosatravsdecondicionesdefinidasenlastablas
dedimensiones.
Los datos presentes en las tablas de hechos constituyen el volumen de la bodega, y pueden estar compuestos por millones de registros
dependiendodesugranularidadyantigedaddelaorganizacin.Losmsimportantessonlosdetiponumrico.
El registro del hecho posee una clave primaria que est compuesta por las claves primarias de las tablas de dimensiones relacionadas a
este.
Enlasiguienteimagensepuedeapreciarunejemplodeloantesmencionado:


Figura3.11:TablasdeHechos.

Comosemuestraenlafiguraanterior,latabladehechosVENTASseubicaenelcentro,eirradiandodeellaseencuentranlastablasde
dimensiones CLIENTES, PRODUCTOS y FECHAS, que estn conectadas mediante sus claves primarias. Es por ello que la clave
primariadelatabladehechoseslacombinacindelasclavesprimariasdesusdimensiones.LoshechosenestecasosonImporteTotal
yUtilidad.
Acontinuacin,seentrarmsendetallesobreladefinicindeunhecho,tambinllamadodatoagregado:

Los hechos son aquellos datos que residen en una tabla de hechos y que son utilizados para crear indicadores, a travs de
sumarizaciones preestablecidas al momento de crear un cubo multidimensional, Business Model, etc. Debido a que una tabla de
hechos se encuentra interrelacionada con sus respectivas tablas de dimensiones, permite que los hechos puedan ser accedidos,
filtradosyexploradosporlosvaloresdeloscamposdeestastablasdedimensiones,obteniendodeestemodounagrancapacidad
analtica.

Las sumarizaciones no estn referidas solo a sumas, sino tambin a promedios, mnimos, mximos, totales por sector, porcentajes,
frmulaspredefinidas,etc,dependiendodelosrequerimientosdeinformacindelnegocio.
Paraejemplificarestenuevoconceptodehechos,seenumerarnalgunosquesonmuytpicosyfcilesdecomprender:

ImporteTotal=precioProducto*cantidadVendida
Rentabilidad=utilidad/PN
CantidadVentas=cantidad
PromedioGeneral=AVG(notasFinales)

AlaizquierdadelaigualdadseencuentranloshechosaladerechaloscamposdelosOLTPquesonutilizadospararepresentarlos.
Enelltimoejemploserealizaunpreclculoparaestablecerelhecho.
Existen dos tipos de hechos, los bsicos y los derivados, a continuacin se detallar cada uno de ellos, teniendo en cuenta para su
ejemplificacinlasiguientetabladehechos:


Estesitiowebutilizacookiesparamejorarlafuncionalidad,recopilar
Figura3.12:Hechosbsicosyderivados.
estadsticasannimasdenavegacineintegrarcontenidodeotrosservicios.
Sicontinaconlanavegacinentendemosqueaceptasuuso.

http://www.dataprix.com/datawarehousemanager#x1500003.4.5.1 3/13
23/2/2017 3.4Datawarehousemanager|ManualDataprixTI
Hechosbsicos:sonlosqueseencuentranrepresentadosporuncampodeunatabladehechos.Loscamposprecioycantidad
delatablaanteriorsonhechosbsicos.
Hechosderivados:sonlosqueseformanalcombinarunoomshechosconalgunaoperacinmatemticaolgicayquetambin
residenenunatabladehechos.Estosposeenlaventajadealmacenarsepreviamentecalculados,porlocualpuedenseraccedidos
a travs de consultas SQL sencillas y devolver resultados rpidamente, pero requieren ms espacio fsico en el DW, adems de
necesitarmstiempodeprocesoenlosETLqueloscalculan.Elcampototaldelatablaanteriorenunhechoderivado,yaquese
conformadelasiguientemanera:
total=precio*cantidad

Los campos precio y cantidad, tambin pertenecen a la tabla HECHOS. Cabe resaltar, que no es necesario que los
hechosderivadossecompongannicamenteconhechospertenecientesaunamismatabla.
Los hechos son gestionados con el principal objetivo de que se construyan indicadores basados en ellos, a travs de la creacin de un
cubomultidimensional,BusinessModel,uotraestructuradedatos.

3.4.3.1.Tablasdehechosagregadasypreagregadas

Las tablas de hechos agregadas y preagregadas se utilizan para almacenar un resumen de los datos, es decir, se guardan los datos en
nivelesdegranularidadsuperioralosqueinicialmentefueronobtenidosy/ogestionados.
Paraobtenertablasagregadasopreagregadas,esnecesarioestableceruncriterioporelcualrealizarelresumen.Porejemplo,estoocurre
cuandosedeseaobtenerinformacindeventassumarizadaspormes.
Cadavezqueserequierequelosdatosenunaconsultasepresentenenunniveldegranularidadsuperioralqueseencuentranalojadosen
elDataWarehouse,sedebellevaracabounprocesodeagregacin.
El objetivo general de las tablas de hechos agregadas y preagregadas es similar, pero cada una de ellas tiene una manera de operar
diferente:

Tablasdehechosagregadas:segeneranluegodequeseprocesalaconsultacorrespondientealatabladehechosqueseresumir.
Engeneral,laagregacinseproducedinmicamenteatravsdeunainstruccinSQLqueincluyasumarizaciones.
Tablas de hechos preagregadas: se generan antes de que se procese la consulta correspondiente a la tabla de hechos que se
resumir. De esta manera, la consulta se realiza contra una tabla que ya fue previamente sumarizada. Habitualmente, estas
sumarizacionessecalculanatravsdeprocesosETL.

Lastablasdehechospreagregadascuentanconlossiguientesbeneficios:

Reducelautilizacinderecursosdehardwarequenormalmentesonincurridosenelclculodelassumarizaciones.
Reduceelnmeroderegistrosquesernanalizadosporl@susuari@s.
Reduceeltiempoutilizadoenlageneracindeconsultasporpartedel@susuari@s.

Lastablasdehechospreagregadassonmuytilesenlossiguientescasosgenerales:

Cuandolosdatosaniveldetalle(menornivelgranular)soninnecesariosy/onosonrequeridos.
Cuandounaconsultasumarizadaadeterminadoniveldegranularidadessolicitadoconmuchafrecuencia.
Cuandolosdatossonmuyabundantes,ylasconsultasdemoranenserprocesadasdemasiadotiempo.

Comocontrapartida,lastablasdehechospreagregadaspresentanunaseriededesventajas:

RequierenquesemantenganygestionennuevosprocesosETL.
Demandanespaciodealmacenamientoextraeneldepsitodedatos.


3.4.4.CuboMultidimensional:introduccin

Si bien existen diversas estructuras de datos, a travs de las cuales se puede representar los datos del DW, solamente se entrar en
detalle acerca de los cubos multidimensionales, por considerarse que esta estructura de datos es una de las ms utilizadas y cuyo
funcionamientoeselmscomplejodeentender.
Uncubomultidimensionalohipercubo,representaoconviertelosdatosplanosqueseencuentranenfilasycolumnas,enunamatrizdeN
dimensiones.
Losobjetosmsimportantesquesepuedenincluirenuncubomultidimensional,sonlossiguientes:

Indicadores: sumarizaciones que se efectan sobre algn hecho o expresiones basadas en sumarizaciones, pertenecientes a una
tabladehechos.
Atributos:camposocriteriosdeanlisis,pertenecientesatablasdedimensiones.
Jerarquas:representaunarelacinlgicaentredosomsatributos.

Deestamaneraenuncubomultidimensional,losatributosexistenalolargodevariosejesodimensiones,ylainterseccindelasmismas
representaelvalorquetomarelindicadorqueseestevaluando.
Enlasiguienterepresentacinmatricialsepuedevermsclaramenteloqueseacabadedecir:

Estesitiowebutilizacookiesparamejorarlafuncionalidad,recopilar
estadsticasannimasdenavegacineintegrarcontenidodeotrosservicios.
Sicontinaconlanavegacinentendemosqueaceptasuuso.

http://www.dataprix.com/datawarehousemanager#x1500003.4.5.1 4/13
23/2/2017 3.4Datawarehousemanager|ManualDataprixTI


Figura3.13:Cubomultidimensional.

Paralacreacindelcubodelafiguraanterior,sedefinierontresAtributos(Atributo1,Atributo2yAtributo3)ysedefiniunIndicador
(Indicador1).Entonceselcuboquedocompuestopor3dimensionesoejes(unaporcadaAtributo),cadaunaconsusrespectivosvalores
asociados. Tambin, se ha seleccionado una interseccin al azar para demostrar la correspondencia con los valores de las Atributos. En
este caso, el indicador Indicador 1, representa el cruce del Valor 5 de Atributo 1, con el Valor 4 de Atributo 2 y con el Valor 3 de
Atributo3.
Se puede observar, que el resultado del anlisis est dado por los cruces matriciales de acuerdo a los valores de las dimensiones
seleccionadas.
Ms especficamente, para acceder a los datos del DW, se pueden ejecutar consultas sobre algn cubo multidimensional previamente
definido. Dicho cubo debe incluir entre otros objetos: indicadores, atributos, jerarquas, etc, basados en los campos de las tablas de
dimensionesydehechos,quesedeseenanalizar.Deestamanera,lasconsultassonrespondidascongranperformance,minimizandoal
mximoeltiempoquesehubieseincurridoenrealizardichaconsultasobreunabasededatostransaccional.

3.4.4.1.Indicadores

Losindicadoressonsumarizacionesefectuadassobrealgnhechooexpresionesbasadasensumarizaciones,quesernincluidosenalgn
cubo multidimensional, con el fin de analizar los datos almacenados en el DW. El valor que estos adopten estar condicionado por los
atributos/jerarquasqueseutilicenparaanalizarlos.
Los indicadores, adems de hechos, pueden estar compuestos por otros indicadores, pero no ambos simultneamente. Pueden
utilizarse para su creacin funciones de sumarizacin (suma, conteo, promedio, etc), funciones matemticas, estadsticas,
operadoresmatemticosylgicos.

3.4.4.2.Atributos

Los atributos constituyen los criterios de anlisis que se utilizarn para analizar los indicadores dentro de un cubo multidimensional. Los
mismossebasan,ensugranmayora,enloscamposdelastablasdedimensionesy/oexpresiones.
Dentrodeuncubomultidimensional,losatributossonlosejesdelmismo.

3.4.4.3.Jerarquas

Unajerarquarepresentaunarelacinlgicaentredosomsatributospertenecientesauncubomultidimensionalsiempreycuandoposean
sucorrespondienterelacinpadreho.
Lasjerarquasposeenlassiguientescaractersticas:

Puedenexistirvariasenunmismocubo.
Estncompuestaspordosomsniveles.
Setieneunarelacin1nopadrehoentreatributosconsecutivosdeunnivelsuperioryunoinferior.

Porlogeneral,lasjerarquaspuedenidentificarsefcilmente,debidoaqueexistenrelaciones1nopadrehoentrelospropiosatributos
deuncubo.
Laprincipalventajademanejarjerarquas,resideenpoderanalizarlosdatosdesdesunivelmsgeneralalmsdetalladoyviceversa,al
desplazarseporlosdiferentesniveles.
Lasiguientefiguramuestraunpequeoejemplodelorecinexpuesto:

Estesitiowebutilizacookiesparamejorarlafuncionalidad,recopilar
estadsticasannimasdenavegacineintegrarcontenidodeotrosservicios.
Sicontinaconlanavegacinentendemosqueaceptasuuso.

http://www.dataprix.com/datawarehousemanager#x1500003.4.5.1 5/13
23/2/2017 3.4Datawarehousemanager|ManualDataprixTI


Figura3.14:JerarquaFechas.

Aqu,sepuedeapreciarclaramentecomoseconstruyeunajerarqua:

1.Secrearondosatributos,FECHAAoyFECHAMes,loscualesestnconstituidosdelasiguientemanera:
FECHAAo=FECHA.Ao
FECHAMes=FECHA.Mes
A la izquierda de la igualdad se encuentra el nombre del atributo a la derecha el nombre del campo de la tabla de dimensin
FECHA.
2.Se cre la jerarqua llamada Jerarqua Fechas, en la cual se coloc el atributo ms general en la cabecera y se comenz a
disgregarlosniveleshaciaabajo.Enestecaso,lafiguraseexplicacomosigue:
Unmesdelaopertenecesoloaunao.Unaopuedeposeerunoomsmesesdelao.

3.4.4.4.a)Relacin

Unarelacinrepresentalaformaenquedosatributosinteractandentrodeunajerarqua.Existenbsicamentedostiposderelaciones:

Explcitas:sonlasmscomunesysepuedenmodelarapartirdeatributosdirectosyestnenlneacontinua de una jerarqua, por


ejemplo,unpasposeeunaomsprovinciasyunaprovinciapertenecesoloaunpas.
Implcitas: son las que ocurren en la vida real, pero su relacin no es de vista directa, por ejemplo, una provincia tiene uno o ms
ros,perounroperteneceaunaomsprovincias.Comosepuedeobservar,estecasosetratadeunarelacinmuchosamuchos.

3.4.4.5.b)Granularidad

La granularidad representa el nivel de detalle al que se desea almacenar la informacin sobre el negocio que se est analizando. Por
ejemplo, los datos referentes a ventas o compras realizadas por una empresa, pueden registrarse da a da, en cambio, los datos
pertinentesapagosdesueldosocuotasdesocios,podrnalmacenarseaniveldemes.
Mientrasmayorseaelniveldedetalledelosdatos,setendrnmayoresposibilidadesanalticas,yaquelosmismospodrnserresumidos
o sumarizados. Es decir, los datos que posean granularidad fina (nivel de detalle) podrn ser resumidos hasta obtener una granularidad
media o gruesa. No sucede lo mismo en sentido contrario, ya que por ejemplo, los datos almacenados con granularidad media podrn
resumirse,peronotendrnlafacultaddeseranalizadosaniveldedetalle.Osea,silagranularidadconqueseguardanlosregistrosesa
nivel de da, estos datos podrn sumarizarse por semana, mes, semestre y ao, en cambio, si estos registros se almacenan a nivel de
mes,podrnsumarizarseporsemestreyao,peronolopodrnhacerpordaysemana.

3.4.5.TiposdemodelamientodeunDW

3.4.5.1.EsquemaenEstrella

El esquema en estrella, consta de una tabla de hechos central y de varias tablas de dimensiones relacionadas a esta, a travs de sus
respectivasclaves.Enlasiguientefigurasepuedeapreciarunesquemaenestrellaestndar:


Figura3.15:EsquemaenEstrella.


El modelo ejemplificado cuando se abordo el tema de las tablas de hechos, es un esquema en estrella, por lo cual se lo volver a
mencionarparaexplicarsuscualidades.

Estesitiowebutilizacookiesparamejorarlafuncionalidad,recopilar
estadsticasannimasdenavegacineintegrarcontenidodeotrosservicios.
Sicontinaconlanavegacinentendemosqueaceptasuuso.

http://www.dataprix.com/datawarehousemanager#x1500003.4.5.1 6/13
23/2/2017 3.4Datawarehousemanager|ManualDataprixTI


Figura3.16:EsquemaenEstrella,ejemplo.


Estemodelodebeestartotalmentedesnormalizado,esdecirquenopuedepresentarseenterceraformanormal(3raFN),esporelloquepor
ejemplo, la tabla de dimensin PRODUCTOS contiene los campos Rubro, Tipo y NombreProducto. Si se normaliza esta tabla, se
obtendrelsiguienteresultado:


Figura3.17:Desnormalizacin.

Cuando se normaliza, se pretende eliminar la redundancia, la repeticin de datos y que las claves sean independientes de las columnas,
peroenestetipodemodelosserequierenoevitarprecisamenteesto.
Las ventajas que trae aparejada la desnormalizacin, son las de obviar uniones (Join) entre las tablas cuando se realizan consultas,
procurandoasunmejortiempoderespuestayunamayorsencillezconrespectoasuutilizacin.Elpuntoencontra,esquesegeneraun
ciertogradoderedundancia,peroelahorrodeespacionoessignificativo.
El esquema en estrella es el ms simple de interpretar y optimiza los tiempos de respuesta ante las consultas de l@s usuari@s. Este
modelo es soportado por casi todas las herramientas de consulta y anlisis, y los metadatos son fciles de documentar y mantener, sin
embargoeselmenosrobustoparalacargayeselmslentodeconstruir.
Acontinuacinsedestacarnalgunascaractersticasdeestemodelo,queayudarnacomprendermejorelporqudesusventajas:

Poseelosmejorestiemposderespuesta.
Sudiseoesfcilmentemodificable.
Existeparalelismoentresudiseoylaformaenquel@susuari@svisualizanymanipulanlosdatos.
Simplificaelanlisis.
Facilitalainteraccinconherramientasdeconsultayanlisis.

3.4.5.2.EsquemaCopodeNieve

Este esquema representa una extensin del modelo en estrella cuando las tablas de dimensiones se organizan en jerarquas de
dimensiones.

Estesitiowebutilizacookiesparamejorarlafuncionalidad,recopilar

estadsticasannimasdenavegacineintegrarcontenidodeotrosservicios.
Figura3.18:EsquemaCopodeNieve.
Sicontinaconlanavegacinentendemosqueaceptasuuso.

http://www.dataprix.com/datawarehousemanager#x1500003.4.5.1 7/13
23/2/2017 3.4Datawarehousemanager|ManualDataprixTI
Como se puede apreciar en la figura anterior, existe una tabla de hechos central que est relacionada con una o ms tablas de
dimensiones,quienesasuvezpuedenestarrelacionadasonoconunaomstablasdedimensiones.
Este modelo es ms cercano a un modelo de entidad relacin, que al modelo en estrella, debido a que sus tablas de dimensiones estn
normalizadas.
Una de los motivos principales de utilizar este tipo de modelo, es la posibilidad de segregar los datos de las tablas de dimensiones y
proveerunesquemaquesustentelosrequerimientosdediseo.Otraraznesqueesmuyflexibleypuedeimplementarsedespusdeque
sehayadesarrolladounesquemaenestrella.
Sepuedendefinirlassiguientescaractersticasdeestetipodemodelo:

Poseemayorcomplejidadensuestructura.
Haceunamejorutilizacindelespacio.
Esmuytilentablasdedimensionesdemuchastuplas.
Lastablasdedimensionesestnnormalizadas,porloquerequieremenosesfuerzodediseo.
Puededesarrollarclasesdejerarquasfueradelastablasdedimensiones,quepermitenrealizaranlisisdelogeneralalodetallado
yviceversa.

A pesar de todas las caractersticas y ventajas que trae aparejada la implementacin del esquema copo de nieve, existen dos grandes
inconvenientesdeello:

Si se poseen mltiples tablas de dimensiones, cada una de ellas con varias jerarquas, se crear un nmero de tablas bastante
considerable,quepuedenllegaralpuntodeserinmanejables.
Alexistirmuchasunionesyrelacionesentretablas,eldesempeopuedeversereducido.

Las existencia de las diferentes jerarquas de dimensiones debe estar bien fundamentada, ya que de otro modo las consultas
demorarnmstiempoendevolverlosresultados,debidoaquesedebenrealizarlasunionesentrelastablas.

3.4.5.3.EsquemaConstelacin

Estemodeloestcompuestoporunaseriedeesquemasenestrella,ytalcomosepuedeapreciarenlasiguientefigura,estformadopor
una tabla de hechos principal (HECHOS_A) y por una o ms tablas de hechos auxiliares (HECHOS_B), las cuales pueden ser
sumarizaciones de la principal. Dichas tablas yacen en el centro del modelo y estn relacionadas con sus respectivas tablas de
dimensiones.
Noesnecesarioquelasdiferentestablasdehechoscompartanlasmismastablasdedimensiones,yaque,lastablasdehechosauxiliares
puedenvincularseconsoloalgunasdelastablasdedimensionesasignadasalatabladehechosprincipal,ytambinpuedenhacerlocon
nuevastablasdedimensiones.


Figura3.19:EsquemaConstelacin.

Su diseo y cualidades son muy similares a las del esquema en estrella, pero posee una serie de diferencias con el mismo, que son
precisamentelasquelodestacanycaracterizan.Entreellassepuedenmencionar:

Permitetenermsdeunatabladehechos,porlocualsepodrnanalizarmsaspectosclavesdelnegocioconunmnimoesfuerzo
adicionaldediseo.
Contribuyealareutilizacindelastablasdedimensiones,yaqueunamismatabladedimensinpuedeutilizarseparavariastablas
dehechos.
Noessoportadoportodaslasherramientasdeconsultayanlisis.

3.4.6.OLTPvsDW

Debido a que, ya se han explicado y caracterizado los distintos tipos de esquemas del DW, se proceder a exponer las razones de su
utilizacin,comoastambinlascausasdeporqunoseempleansimplementelasestructurasdelasbasesdedatostradicionales:

LosOLTPsondiseadosparasoportarelprocesamientodeinformacindiariadelasempresas,yelnfasisrecaeenmaximizarla
capacidad transaccional de sus datos. Su estructura es altamente normalizada, para brindar mayor eficiencia a sistemas con
muchas transacciones que acceden a un pequeo nmero de registros y estn fuertemente condicionadas por los procesos
operacionalesquedebensoportar,paralaptimaactualizacindesusdatos.Estaestructuraesidealparallevaracaboelproceso
transaccionaldiario, brindar consultas sobre los datos cargados y tomar decisiones diarias, en cambio los esquemas de DW estn
diseadosparapoderllevaracaboprocesosdeconsultayanlisisparaluegotomardecisionesestratgicasytcticasdealtonivel.
Estesitiowebutilizacookiesparamejorarlafuncionalidad,recopilar
estadsticasannimasdenavegacineintegrarcontenidodeotrosservicios.
Acontinuacinsepresentarunatablacomparativaentrelosdosambientes,queresumesusprincipalesdiferencias:
Sicontinaconlanavegacinentendemosqueaceptasuuso.

http://www.dataprix.com/datawarehousemanager#x1500003.4.5.1 8/13
23/2/2017 3.4Datawarehousemanager|ManualDataprixTI


Figura3.20:OLTPvsDataWarehouse.

3.4.7.TiposdeimplementacindeunDW

3.4.7.1.ROLAP

Este tipo de organizacin fsica se implementa sobre tecnologa relacional, pero disponen de algunas facilidades para mejorar el
rendimiento.
Es decir, ROLAP (Relational On Line Analytic Processing) cuenta con todos los beneficios de una SGBD Relacional a los cuales se les
proveeextensionesyherramientasparapoderutilizarlocomounSistemaGestordeDW.
EnlossistemasROLAP,loscubosmultidimensionalessegenerandinmicamentealinstantederealizarlasdiferentesconsultas,haciendo
deestamaneraelmanejodecubostransparentel@susuari@s.Esteprocesosepuederesumiratravsdelossiguientespasos:

1.Seseleccionanlosindicadores,atributos,jerarquas,etc,quecompondrnelcubomultidimensional.
2.Seejecutanlasconsultassobrelosatributos,indicadores,etc,seleccionadosenelpasoanterior.Entonces,demaneratransparente
al@susuari@ssecreaycalculadinmicamenteelcubocorrespondiente,elcualdarrespuestaalasconsultasqueseejecuten.

Alnotenerqueintervenirl@susuari@senlacreacinyelmantenimientoexplcitodeloscubos,ROLAPbrindamuchaflexibilidad,yaque
dichoscubossongeneradosdinmicamentealmomentodeejecutarlasconsultas.Posibilitandodeestamaneralaobtencindeconsultas
adhoc.
La principal desventaja de los sistemas ROLAP, es que los datos de los cubos se deben calcular cada vez que se ejecuta una consulta
sobreellos.EstoprovocaqueROLAPnoseamuyeficienteencuantoalarapidezderespuestaantelasconsultasdel@susuari@s.
Para incrementar la velocidad de respuesta, en algunos casos se puede optar por almacenar los resultados obtenidos de ciertas
consultasenlamemoriacach(yaseaenelservidoroenunaterminal),paraqueenunfuturo,cuandosedeseevolveraejecutar
dichaconsulta,losvaloresseanobtenidosmsvelozmente.
CabeaclararquesilosdatosdelDWsonalmacenadosygestionadosatravsdeunSGBDRelacional,noserequieredeotrosoftwareque
administreygestionelosdatosdemaneraMultidimensional.
EntrelascaractersticasmsimportantesdeROLAP,seencuentranlassiguientes:

Almacenalainformacinenunabasededatosrelacional.
Utilizandicesdemapasdebits.
UtilizandicesdeJoin.
Poseeoptimizadoresdeconsultas.
CuentaconextensionesdeSQL(drillup,drilldown,etc).

Comoseaclaranteriormente,elalmacndedatosseorganizaatravsdeunabasededatosmultidimensional,sinembargo,puedeser
soportado por un SGBD Relacional. Para lograr esto se utilizan los diferentes esquemas, en estrella, copo de nieve y constelacin, los
cuales transformarn el modelo multidimensional y permitirn que pueda ser gestionado por un SGDB Relacional, ya que solo se
almacenarntablas.

3.4.7.2.MOLAP

El objetivo de los sistemas MOLAP (Multidimentional On Line Analytic Processing) es almacenar fsicamente los datos en estructuras
multidimensionalesdemaneraquelarepresentacinexternaylainternacoincidan.
Para ello, se dispone de estructuras de almacenamiento especficas (Arrays) y tcnicas de compactacin de datos que favorecen el
rendimientodelDW.
MOLAPrequierequeenunainstanciapreviasegenerenycalculenloscubosmultidimensionales,paraqueluegopuedanserconsultados.
Estesitiowebutilizacookiesparamejorarlafuncionalidad,recopilar
Esteprocesosepuederesumiratravsdelossiguientespasos:
estadsticasannimasdenavegacineintegrarcontenidodeotrosservicios.
1.Seseleccionanlosindicadores,atributos,jerarquas,etc.,quecompondrnelcubomultidimensional.
Sicontinaconlanavegacinentendemosqueaceptasuuso.
2.Seprecalculanlosdatosdelcubo.

http://www.dataprix.com/datawarehousemanager#x1500003.4.5.1 9/13
23/2/2017 3.4Datawarehousemanager|ManualDataprixTI
3.Seejecutanlasconsultassobrelosdatosprecalculadosdelcubo.

Elprincipalmotivodeprecalcularlosdatosdeloscubos,esqueposibilitaquelasconsultasseanrespondidasconmucharapidez,yaque
losmismosnodebensercalculadosentiempodeejecucin,obteniendodeestamaneraunamuybuenaperformance.
Existen una serie de desventajas que estn directamente relacionadas con la ventaja de precalcular los datos de los cubos
multidimensionales,ellasson:

Cadavezqueserequiereoesnecesariorealizarcambiossobrealgncubo,sedebetenerquerecalcularlototalmente,paraquese
reflejenlasmodificacionesllevadasacabo.Provocandodeestamaneraunadisminucinimportanteencuantoaflexibilidad.
Seprecisamsespaciofsicoparaalmacenardichosdatos(estadesventajanoestansignificativa).

Habitualmente,losdatosdelDWsonalmacenadosygestionadosatravsdeSGBDRelacionales,yaqueestostienenlaventajadepoder
realizarconsultasdirectamenteatravsdellenguajeSQL.Enestoscasos,paralageneracindeloscubosmultidimensionalesserequiere
deotrosoftwarequeadministreygestionelosdatosdemaneraMultidimensional.

3.4.7.3.HOLAP

HOLAP (Hybrid On Line Analytic Processing) constituye un sistema hbrido entre MOLAP y ROLAP, que combina estas dos
implementacionesparaalmacenaralgunosdatosenunmotorrelacionalyotrosenunabasededatosmultidimensional.
Los datos agregados y precalculados se almacenan en estructuras multidimensionales y los de menor nivel de detalle en estructuras
relacionales.Esdecir,seutilizarROLAPparanavegaryexplorarlosdatos,yseemplearMOLAPparalarealizacindetableros.
Comocontrapartida,hayquerealizarunbuenanlisisparaidentificarlosdiferentestiposdedatos.

3.4.7.4.ROLAPvsMOLAP

Enlasiguientetablacomparativasepuedenapreciarlasprincipalesdiferenciasentreestosdostiposdeimplementacin:

Figura3.21:ROLAPvsMOLAP.

3.4.8.CuboMultidimensional:profundizacin

Ahora que ya se tiene una visin general de los tipos de modelamiento e implementacin de un DW, se volver a abordar el tema de los
cubosmultidimensionales,peroestavezseharnfasisensuconstruccinyseejemplificarcadapaso,afindequesepuedanvisualizar
mejorlosresultadosdecadaaccin.
Laformaqueseutilizarparagraficarelcuboquesecrear,serlasiguiente:


Figura3.22:Cuboestndar.

Tal y como podemos observar, el grfico toma una estructura de rbol, en la cul en la raz figura el cubo en cuestin y dependiendo de
estesusdiferentesobjetosrelacionados.Enelcasodelasjerarquas,losatributosquelacomponen,tambindebenestructurarseenforma
derbol,teniendoencuentasurespectivarelacinpadreho.
Setomarcomobaseparalarealizacindelosejemplos,elsiguienteesquemaenestrella:
Estesitiowebutilizacookiesparamejorarlafuncionalidad,recopilar
estadsticasannimasdenavegacineintegrarcontenidodeotrosservicios.
Sicontinaconlanavegacinentendemosqueaceptasuuso.

http://www.dataprix.com/datawarehousemanager#x1500003.4.5.1 10/13
23/2/2017 3.4Datawarehousemanager|ManualDataprixTI


Figura3.23:EsquemaenEstrella.

ComoprimerpasosecrearuncubomultidimensionalllamadoCubodeVentas,grficamente:


Figura3.24:Cubomultidimensional,paso1.

Luegosecrearndosatributos:

DelatabladedimensinPRODUCTOS,setomarelcampoProductoparalacreacindelatributodenominado:
PRODUCTOSProducto.
DelatabladimensinMARCAS,setomarelcampoMarcaparalacreacindelatributodenominado:
MARCASMarca.

Grficamente:


Figura3.25:Cubomultidimensional,paso2.

Tambinsecrearunindicador:

DelatabladehechosVENTAS,sesumarizarelhechoVentaparacrearelindicadordenominado:
VENTASVenta.
Lafrmulautilizadaparacrearesteindicadoreslasiguiente:
VENTASVenta=SUM(VENTAS.Venta).

Grficamente:


Figura3.26:Cubomultidimensional,paso3.

Enestemomento,tenemosuncubomultidimensionaldedosdimensiones,cuyarepresentacinmatricialseralasiguiente:


Figura3.27:Cubomultidimensionaldedosdimensiones.

Este cubo posee dos ejes o dimensiones, PRODUCTOS Producto y MARCAS Marca. La interseccin de los ejes representa las
ventasdecadaproductoconsurespectivamarca(indicadorVENTASVenta).
Estesitiowebutilizacookiesparamejorarlafuncionalidad,recopilar
Porejemplo:
estadsticasannimasdenavegacineintegrarcontenidodeotrosservicios.
LasventasasociadasalproductoP1yalamarcaM1son40.
Sicontinaconlanavegacinentendemosqueaceptasuuso.

http://www.dataprix.com/datawarehousemanager#x1500003.4.5.1 11/13
23/2/2017 3.4Datawarehousemanager|ManualDataprixTI
LasventasasociadasalproductoP1yalamarcaM2son25.
LasventasasociadasalproductoP1yalamarcaM3son60.

Ahora,alcuboplanteadoseleagregarunnuevoatributo:

DelatabladedimensinCLIENTES,setomarelcampoClienteparalacreacindelatributodenominado:
CLIENTESCliente.

Grficamente:


Figura3.28:Cubomultidimensional,paso4.

Deestamanera,ahoratenemosuncubomultidimensionaldetresdimensiones,cuyarepresentacinmatricialseralasiguiente:


Figura3.29:Cubomultidimensionaldetresdimensiones.

EnestecasolosvaloresdelindicadorVENTASVentaestndadosdeacuerdoalasventasdecadaproducto,decadamarca,acada
cliente.
Parafinalizar,seaadiruncuartoatributoalcubo:

DelatabladedimensinTIEMPO,setomarelcampoAoparalacreacindelatributodenominado:
TIEMPOAo.

Grficamente:


Figura3.30:Cubomultidimensional,paso5.


Entonces,larepresentacinmatricialdelcubomultidimensionalresultanteseralasiguiente:


Figura3.31:Cubomultidimensionaldecuatrodimensiones.
Estesitiowebutilizacookiesparamejorarlafuncionalidad,recopilar
estadsticasannimasdenavegacineintegrarcontenidodeotrosservicios.
LosvaloresdelindicadorVENTASVentaenestemomento,estarncondicionadosporlasventasdecadaproducto,decadamarca,a
Sicontinaconlanavegacinentendemosqueaceptasuuso.
cadacliente,encadaao.

http://www.dataprix.com/datawarehousemanager#x1500003.4.5.1 12/13
23/2/2017 3.4Datawarehousemanager|ManualDataprixTI
Esta ltima imagen, demuestra claramente los conceptos expuestos de la tabla de dimensin tiempo, donde se deca que pueden existir
diferentesversionesdelasituacindelnegocio.
Cabeaclararquepuedencrearsetantoscubossedeseenyquelosmismospuedencoexistirsinningninconveniente.

3.4.9.Metadatos

Los metadatos son datos que describen o dan informacin de otros datos, que en este caso, existen en la arquitectura del Data
Warehousing.Brindaninformacindelocalizacin,estructuraysignificadodelosdatos,bsicamentemapeanlosmismos.
Elconceptodemetadatosesanlogoalusodendicesparalocalizarobjetosenlugardedatos.
Es importante aclarar que existen metadatos tambin en las bases de datos transaccionales, pero los mismos son transparentes a l@s
usuari@s. La gran ventaja que trae aparejada el Data Warehousing en relacin con los metadatos es que l@s usuari@s pueden
gestionarlos,exportarlos,importarlos,realizarlesmantenimientoeinteractuarconellos,yaseamanualoautomticamente.
LasfuncionesquecumplenlosmetadatosenelambienteDataWarehousingsonmuyimportantesysignificativas,algunasdeellasson:

Facilitanelflujodetrabajo,convirtiendodatosautomticamentedeunformatoaotro.
Contienen un directorio para facilitar la bsqueda y descripcin de los contenidos del DW, tales como: bases de datos, tablas,
nombresdeatributos,sumarizaciones,acumulaciones,reglasdenegocios,estructurasymodelosdedatos,relacionesdeintegridad,
jerarquas,etc.
Poseenunguaparaelmapping,decmosetransformaneintegranlosdatosdelasfuentesoperacionalesyexternosalambiente
deldepsitodedatos.
Almacenan las referencias de los algoritmos utilizados para la esquematizacin entre el detalle de datos actuales, con los datos
ligeramenteresumidosystosconlosdatosaltamenteresumidos,etc.
ContienenlasdefinicionesdelsistemaderegistrodesdeelcualseconstruyeelDW.

SepuedendistinguirtresdiferentestiposdeMetadatos:

Los metadatos de los procesos ETL, referidos a las diversas fuentes utilizadas, reglas de extraccin, transformacin, limpieza,
depuracinycargadelosdatosaldepsito.
Los metadatos operacionales, que son los que bsicamente almacenan todos los contenidos del DW, para que este pueda
desempearsustareas.
Losmetadatosdeconsulta,quecontienenlasreglasparaanalizaryexplotarlainformacindelalmacn,talescomodrillup y drill
down.Sonestosmetadatoslosquelasherramientasdeanlisisyconsultaemplearnpararealizardocumentacionesypara navegar
porlosdatos.

3.4.9.1.Mapping

Eltrminomapping,serefierearelacionarunconjuntodeobjetos,talcomoactualmenteestnalmacenadosenmemoriaoendisco,con
otrosobjetos.Porejemplo:unaestructuradebasededatoslgica,seproyectasobrelabasededatosfsica.

3.3Loadmanager arriba 3.5QueryManager

Versinparaimpresin Aadirnuevocomentario 14164lecturas


4.6reasdedatos
4.6AreasdeDatos4.6.1StagingArea4.6.2OperationalDataStore(ODS)4.6.3AlmacndeDatosCorporativo(DW)
4.6.4DataMart(DM)...

BI|CRM|CMS|Tendenciasensoftwareempresarial|Cloudcomputing|Softwarelibre|Internet|Movilidadyapps

EstaobraestbajounalicenciadeCreativeCommonsReconocimientoCompartirIgual4.0Internacional|Publicidad|Avisolegal

Dataprix,elportalprofesionalsobreSoftwareyServiciosITparalaempresa.

Estesitiowebutilizacookiesparamejorarlafuncionalidad,recopilar
estadsticasannimasdenavegacineintegrarcontenidodeotrosservicios.
Sicontinaconlanavegacinentendemosqueaceptasuuso.

http://www.dataprix.com/datawarehousemanager#x1500003.4.5.1 13/13

You might also like