You are on page 1of 53

Universidad del Valle

de Mexico

Data Warehouse

Ibaez Camacho Angel


Profesora: Patricia del Valle

040035177

Introduccin
El data warehouse, es actualmente, el centro de atencin de las grandes
instituciones, porque provee un ambiente para que las organizaciones
hagan un mejor uso de la informacin que est siendo administrada por
diversas aplicaciones operacionales.
Un data warehouse es una coleccin de datos en la cual se encuentra
integrada la informacin de la Institucin y que se usa como soporte para el
proceso de toma de decisiones gerenciales. Aunque diversas organizaciones
y personas individuales logran comprender el enfoque de un Warehouse, la
experiencia ha demostrado que existen muchas dificultades potenciales.
Reunir los elementos de datos apropiados desde diversas fuentes de
aplicacin en un ambiente integral centralizado, simplifica el problema de
acceso a la informacin y en consecuencia, acelera el proceso de anlisis,
consultas y el menor tiempo de uso de la informacin.
Las aplicaciones para soporte de decisiones basadas en un data
warehousing, pueden hacer ms prctica y fcil la explotacin de datos para
una mayor eficacia del negocio, que no se logra cuando se usan slo los
datos que provienen de las aplicaciones operacionales (que ayudan en la
operacin de la empresa en sus operaciones cotidianas), en los que la
informacin se obtiene realizando procesos independientes y muchas veces
complejos.
Un data warehouse se crea al extraer datos desde una o ms bases de
datos de aplicaciones operacionales. La data extrada es transformada para
eliminar inconsistencias y resumir si es necesario y luego, cargadas en el
data warehouse. El proceso de transformar, crear el detalle de tiempo
variante, resumir y combinar los extractos de datos, ayudan a crear el
ambiente para el acceso a la informacin Institucional. Este nuevo enfoque
ayuda a las personas individuales, en todos los niveles de la empresa, a
efectuar su toma de decisiones con ms responsabilidad.
La innovacin de la Tecnologa de Informacin dentro de un ambiente data
warehousing, puede permitir a cualquier organizacin hacer un uso ms
ptimo de los datos, como un ingrediente clave para un proceso de toma de
decisiones ms efectivo. Las organizaciones tienen que aprovechar sus
recursos de informacin para crear la informacin de la operacin del
negocio, pero deben considerarse las estrategias tecnolgicas necesarias
para la implementacin de una arquitectura completa de data warehouse.

Introduccin al Concepto Data Warehousing


Data warehousing es el centro de la arquitectura para los sistemas de
informacin en la dcada de los '90. Soporta el procesamiento informtico
al proveer una plataforma slida, a partir de los datos histricos para hacer
el anlisis. Facilita la integracin de sistemas de aplicacin no integrados.
Organiza y almacena los datos que se necesitan para el procesamiento
analtico, informtico sobre una amplia perspectiva de tiempo.
Un Data Warehouse o Depsito de Datos es una coleccin de datos
orientado a temas, integrado, no voltil, de tiempo variante, que se usa
para el soporte del proceso de toma de decisiones gerenciales.
Se puede caracterizar un data warehouse haciendo un contraste de cmo
los datos de un negocio almacenados en un data warehouse, difieren de los
datos operacionales usados por las aplicaciones de produccin.

Base de Datos Operacional


Datos Operacionales
Orientado a la aplicacin
Actual
Detallada
Cambia continuamente

Data Warehouse
Datos del negocio para Informacin
Orientado al sujeto
Actual + histrico
Detallada + ms resumida
Estable

El ingreso de datos en el data warehouse viene desde el ambiente


operacional en casi todos los casos. El data warehouse es siempre un
almacn de datos transformados y separados fsicamente de la aplicacin
donde se encontraron los datos en el ambiente operacional.

Sistemas de Informacin

Los sistemas de informacin se han dividido de acuerdo al siguiente


esquema:

Sistemas Estratgicos, orientados a soportar la toma de


decisiones, facilitan la labor de la direccin, proporcionndole un
soporte bsico, en forma de mejor informacin, para la toma de
decisiones. Se caracterizan porque son sistemas sin carga peridica
de trabajo, es decir, su utilizacin no es predecible, al contrario de los
casos anteriores, cuya utilizacin es peridica.
Destacan entre estos sistemas: los Sistemas de Informacin
Gerencial (MIS), Sistemas de Informacin Ejecutivos (EIS), Sistemas
de Informacin Georeferencial (GIS), Sistemas de Simulacin de
Negocios (BIS y que en la prctica son sistemas expertos o de
Inteligencia Artificial - AI).

Sistemas Tcticos, diseados para soportar las actividades de


coordinacin de actividades y manejo de documentacin, definidos
para facilitar consultas sobre informacin almacenada en el sistema,
proporcionar informes y, en resumen, facilitar la gestin
independiente de la informacin por parte de los niveles intermedios
de la organizacin.
Destacan entre ellos: los Sistemas Ofimticos (OA), Sistemas de
Transmisin de Mensajera (Correo electrnico y Servidor de fax),
coordinacin y control de tareas (Work Flow) y tratamiento de
documentos (Imagen, Trmite y Bases de Datos Documentales).

Sistemas Tcnico - Operativos, que cubren el ncleo de


operaciones tradicionales de captura masiva de datos (Data Entry) y
servicios bsicos de tratamiento de datos, con tareas predefinidas
(contabilidad, facturacin, almacn, presupuesto, personal y otros
sistemas administrativos). Estos sistemas estn evolucionando con la
irrupcin de censores, autmatas, sistemas multimedia, bases de
datos relacionales ms avanzadas y data warehousing.

Sistemas Interinstitucionales, este ltimo nivel de sistemas de


informacin recin est surgiendo, es consecuencia del desarrollo
organizacional orientado a un mercado de carcter global, el cual
obliga a pensar e implementar estructuras de comunicacin ms
estrechas entre la organizacin y el mercado (Empresa Extendida,
Organizacin Inteligente e Integracin Organizacional), todo esto a
partir de la generalizacin de las redes informticas de alcance
nacional y global (INTERNET), que se convierten en vehculo de
comunicacin entre la organizacin y el mercado, no importa dnde
est la organizacin (INTRANET), el mercado de la institucin
(EXTRANET) y el mercado (Red Global).

Sin embargo, la tecnologa data warehousing basa sus conceptos y


diferencias entre dos tipos fundamentales de sistemas de informacin en
todas las organizaciones: los sistemas tcnico - operacionales y los sistemas
de soporte de decisiones. Este ltimo es la base de un data warehouse.

Caractersticas de un Data Warehouse

Orientado a Temas
Una primera caracterstica del data warehouse es que la informacin se
clasifica en base a los aspectos que son de inters para la empresa. Siendo
as, los datos tomados estn en contraste con los clsicos procesos
orientados a las aplicaciones. En la Figura N 1 se muestra el contraste
entre los dos tipos de orientaciones.
El ambiente operacional se disea alrededor de las aplicaciones y funciones
tales como prstamos, ahorros, tarjeta bancaria y depsitos para una
institucin financiera. Por ejemplo, una aplicacin de ingreso de rdenes
puede acceder a los datos sobre clientes, productos y cuentas. La base de
datos combina estos elementos en una estructura que acomoda las
necesidades de la aplicacin.
En el ambiente data warehousing se organiza alrededor de sujetos tales
como cliente, vendedor, producto y actividad. Por ejemplo, para un
fabricante, stos pueden ser clientes, productos, proveedores y vendedores.
Para una universidad pueden ser estudiantes, clases y profesores. Para un
hospital pueden ser pacientes, personal mdico, medicamentos, etc.
La alineacin alrededor de las reas de los temas afecta el diseo y la
implementacin de los datos encontrados en el data warehouse. Las
principales reas de los temas influyen en la parte ms importante de la
estructura clave.

Las aplicaciones estn relacionadas con el diseo de la base de datos y del


proceso. En data warehousing se enfoca el modelamiento de datos y el
diseo de la base de datos. El diseo del proceso (en su forma clsica) no
es separado de este ambiente.
Las diferencias entre la orientacin de procesos y funciones de las
aplicaciones y la orientacin a temas, radican en el contenido de la data a
escala detallada. En el data warehouse se excluye la informacin que no
ser usada por el proceso de sistemas de soporte de decisiones, mientras
que la informacin de las orientadas a las aplicaciones, contiene datos para
satisfacer de inmediato los requerimientos funcionales y de proceso, que
pueden ser usados o no por el analista de soporte de decisiones.

Otra diferencia importante est en la interrelacin de la informacin. Los


datos operacionales mantienen una relacin continua entre dos o ms
tablas basadas en una regla comercial que est vigente. Las del data
warehouse miden un espectro de tiempo y las relaciones encontradas en el
data warehouse son muchas. Muchas de las reglas comerciales (y sus
correspondientes relaciones de datos) se representan en el data warehouse,
entre dos o ms tablas.
Integracin
El aspecto ms importante del ambiente data warehousing es que la
informacin encontrada al interior est siempre integrada.
La integracin de datos se muestra de muchas maneras: en convenciones
de nombres consistentes, en la medida uniforme de variables, en la
codificacin de estructuras consistentes, en atributos fsicos de los datos
consistentes, fuentes mltiples y otros.
El contraste de la integracin encontrada en el data warehouse con la
carencia de integracin del ambiente de aplicaciones, se muestran en la
Figura N 2, con diferencias bien marcadas.
A travs de los aos, los diseadores de las diferentes aplicaciones han
tomado sus propias decisiones sobre cmo se debera construir una
aplicacin. Los estilos y diseos personalizados se muestran de muchas
maneras.
Se diferencian en la codificacin, en las estructuras claves, en sus
caractersticas fsicas, en las convenciones de nombramiento y otros. La
capacidad colectiva de muchos de los diseadores de aplicaciones, para
crear aplicaciones inconsistentes, es fabulosa. La Figura N 2 mencionada,
muestra algunas de las diferencias ms importantes en las formas en que
se disean las aplicaciones.

Codificacin
Los diseadores de aplicaciones codifican el campo GENERO en varias
formas. Un diseador representa GENERO como una "M" y una "F", otros
como un "1" y un "0", otros como una "X" y una "Y" e inclusive, como
"masculino" y "femenino".
No importa mucho cmo el GENERO llega al data warehouse.
Probablemente "M" y "F" sean tan buenas como cualquier otra
representacin. Lo importante es que sea de cualquier fuente de donde
venga, el GENERO debe llegar al data warehouse en un estado integrado
uniforme.
Por lo tanto, cuando el GENERO se carga en el data warehouse desde una
aplicacin, donde ha sido representado en formato "M" y "F", los datos
deben convertirse al formato del data warehouse.
Medida de atributos
Los diseadores de aplicaciones miden las unidades de medida de las
tuberas en una variedad de formas. Un diseador almacena los datos de
tuberas en centmetros, otros en pulgadas, otros en millones de pies
cbicos por segundo y otros en yardas.
Al dar medidas a los atributos, la transformacin traduce las diversas
unidades de medida usadas en las diferentes bases de datos para
transformarlas en una medida estndar comn.
Cualquiera que sea la fuente, cuando la informacin de la tubera llegue al
data warehouse necesitar ser medida de la misma manera.
Convenciones de Nombramiento
El mismo elemento es frecuentemente referido por nombres diferentes en
las diversas aplicaciones. El proceso de transformacin asegura que se use
preferentemente el nombre de usuario.
Fuentes Mltiples
El mismo elemento puede derivarse desde fuentes mltiples. En este caso,
el proceso de transformacin debe asegurar que la fuente apropiada sea
usada, documentada y movida al depsito.
Tal como se muestra en la figura, los puntos de integracin afectan casi
todos los aspectos de diseo - las caractersticas fsicas de los datos, la
disyuntiva de tener ms de una de fuente de datos, el problema de
estndares de denominacin inconsistentes, formatos de fecha
inconsistentes y otros.
Cualquiera que sea la forma del diseo, el resultado es el mismo - la
informacin necesita ser almacenada en el data warehouse en un modelo

globalmente aceptable y singular, aun cuando los sistemas operacionales


subyacentes almacenen los datos de manera diferente.
Cuando el analista de sistema de soporte de decisiones observe el data
warehouse, su enfoque deber estar en el uso de los datos que se
encuentre en el depsito, antes que preguntarse sobre la confiabilidad o
consistencia de los datos.

De Tiempo Variante
Toda la informacin del data warehouse es requerida en algn momento.
Esta caracterstica bsica de los datos en un depsito, es muy diferente de
la informacin encontrada en el ambiente operacional. En stos, la
informacin se requiere al momento de acceder. En otras palabras, en el
ambiente operacional, cuando usted accede a una unidad de informacin,
usted espera que los valores requeridos se obtengan a partir del momento
de acceso.
Como la informacin en el data warehouse es solicitada en cualquier
momento (es decir, no "ahora mismo"), los datos encontrados en el
depsito se llaman de "tiempo variante".
Los datos histricos son de poco uso en el procesamiento operacional. La
informacin del depsito por el contraste, debe incluir los datos histricos
para usarse en la identificacin y evaluacin de tendencias. (Figura N 3).

El tiempo variante se muestra de varias maneras:

1. La ms simple es que la informacin representa los datos sobre un

horizonte largo de tiempo - desde cinco a diez aos. El horizonte de


tiempo representado para el ambiente operacional es mucho ms
corto - desde valores actuales hasta sesenta a noventa das.
Las aplicaciones que tienen un buen rendimiento y estn disponibles
para el procesamiento de transacciones, deben llevar una cantidad
mnima de datos si tienen cualquier grado de flexibilidad. Por ello, las
aplicaciones operacionales tienen un corto horizonte de tiempo,
debido al diseo de aplicaciones rgidas.

2. La segunda manera en la que se muestra el tiempo variante en el

data warehouse est en la estructura clave. Cada estructura clave en


el data warehouse contiene, implcita o explcitamente, un elemento
de tiempo como da, semana, mes, etc.
El elemento de tiempo est casi siempre al pie de la clave
concatenada, encontrada en el data warehouse. En ocasiones, el
elemento de tiempo existir implcitamente, como el caso en que un
archivo completo se duplica al final del mes, o al cuarto.

3. La tercera manera en que aparece el tiempo variante es cuando la

informacin del data warehouse, una vez registrada correctamente,


no puede ser actualizada. La informacin del data warehouse es, para
todos los propsitos prcticos, una serie larga de "snapshots" (vistas
instantneas).
Por supuesto, si los snapshots de los datos se han tomado
incorrectamente, entonces pueden ser cambiados. Asumiendo que los
snapshots se han tomado adecuadamente, ellos no son alterados una
vez hechos. En algunos casos puede ser no tico, e incluso ilegal,
alterar los snapshots en el data warehouse. Los datos operacionales,
siendo requeridos a partir del momento de acceso, pueden
actualizarse de acuerdo a la necesidad.

De Tiempo Variante
La informacin es til slo cuando es estable. Los datos operacionales
cambian sobre una base momento a momento. La perspectiva ms grande,
esencial para el anlisis y la toma de decisiones, requiere una base de datos
estable.
En la Figura N 4 se muestra que la actualizacin (insertar, borrar y
modificar), se hace regularmente en el ambiente operacional sobre una
base de registro por registro. Pero la manipulacin bsica de los datos que
ocurre en el data warehouse es mucho ms simple. Hay dos nicos tipos de
operaciones: la carga inicial de datos y el acceso a los mismos. No hay
actualizacin de datos (en el sentido general de actualizacin) en el
depsito, como una parte normal de procesamiento.
Hay algunas consecuencias muy importantes de esta diferencia bsica,
entre el procesamiento operacional y del data warehouse. En el nivel de
diseo, la necesidad de ser precavido para actualizar las anomalas no es un
factor en el data warehouse, ya que no se hace la actualizacin de datos.
Esto significa que en el nivel fsico de diseo, se pueden tomar libertades
para optimizar el acceso a los datos, particularmente al usar la
normalizacin y desnormalizacin fsica.
Otra consecuencia de la simplicidad de la operacin del data warehouse est
en la tecnologa subyacente, utilizada para correr los datos en el depsito.
Teniendo que soportar la actualizacin de registro por registro en modo online (como es frecuente en el caso del procesamiento operacional) requiere
que la tecnologa tenga un fundamento muy complejo debajo de una
fachada de simplicidad.

La tecnologa permite realizar copias de seguridad y recuperacin,


transacciones e integridad de los datos y la deteccin y solucin al
estancamiento que es ms complejo. En el data warehouse no es necesario
el procesamiento.
La fuente de casi toda la informacin del data warehouse es el ambiente
operacional. A simple vista, se puede pensar que hay redundancia masiva
de datos entre los dos ambientes. Desde luego, la primera impresin de
muchas personas se centra en la gran redundancia de datos, entre el
ambiente operacional y el ambiente de data warehouse. Dicho razonamiento
es superficial y demuestra una carencia de entendimiento con respecto a
qu ocurre en el data warehouse. De hecho, hay una mnima redundancia
de datos entre ambos ambientes.
Se debe considerar lo siguiente:

Los datos se filtran cuando pasan desde el ambiente operacional al de


depsito. Existe mucha data que nunca sale del ambiente
operacional. Slo los datos que realmente se necesitan ingresarn al
ambiente de data warehouse.
El horizonte de tiempo de los datos es muy diferente de un ambiente
al otro. La informacin en el ambiente operacional es ms reciente
con respecto a la del data warehouse. Desde la perspectiva de los
horizontes de tiempo nicos, hay poca superposicin entre los
ambientes operacional y de data warehouse.
El data warehouse contiene un resumen de la informacin que no se
encuentra en el ambiente operacional.
Los datos experimentan una transformacin fundamental cuando
pasa al data warehouse. La mayor parte de los datos se alteran
significativamente al ser seleccionados y movidos al data warehouse.
Dicho de otra manera, la mayora de los datos se alteran fsica y
radicalmente cuando se mueven al depsito. No es la misma data que
reside en el ambiente operacional desde el punto de vista de
integracin.

En vista de estos factores, la redundancia de datos entre los dos ambientes


es una ocurrencia rara, que resulta en menos de 1%.

Estructura del Data Warehouse


Los data warehouses tienen una estructura distinta. Hay niveles diferentes
de esquematizacin y detalle que delimitan el data warehouse. La
estructura de un data warehouse se muestra en la Figura N 5.
Detalle de datos actuales
En gran parte, el inters ms importante radica en el detalle de los
datos actuales, debido a que:
Refleja las ocurrencias ms recientes, las cuales son de gran
inters
Es voluminoso, ya que se almacena al ms bajo nivel de
granularidad.
Casi siempre se almacena en disco, el cual es de fcil acceso,
aunque su administracin sea costosa y compleja.
Detalle de datos antiguos
La data antigua es aquella que se almacena sobre alguna forma de
almacenamiento masivo. No es frecuentemente su acceso y se
almacena a un nivel de detalle, consistente con los datos detallados
actuales. Mientras no sea prioritario el almacenamiento en un medio
de almacenaje alterno, a causa del gran volumen de datos unido al
acceso no frecuente de los mismos, es poco usual utilizar el disco
como medio de almacenamiento.
Datos ligeramente resumidos
La data ligeramente resumida es aquella que proviene desde un bajo
nivel de detalle encontrado al nivel de detalle actual. Este nivel del
data warehouse casi siempre se almacena en disco. Los puntos en los
que se basa el diseador para construirlo son:
Que la unidad de tiempo se encuentre sobre la
esquematizacin hecha.
Qu contenidos (atributos) tendr la data ligeramente
resumida.

A veces se encuentra en el ambiente de data warehouse y en otros,


fuera del lmite de la tecnologa que ampara al data warehouse. (De
todos modos, los datos completamente resumidos son parte del data
warehouse sin considerar donde se alojan los datos fsicamente.)

Metadata
La data antigua es aquella que se almacena sobre alguna forma de
almacenamiento masivo. No es frecuentemente su acceso y se
almacena a un nivel de detalle, consistente con los datos detallados
actuales. Mientras no sea prioritario el almacenamiento en un medio
de almacenaje alterno, a causa del gran volumen de datos unido al
acceso no frecuente de los mismos, es poco usual utilizar el disco
como medio de almacenamiento.
El componente final del data warehouse es el de la metadata. De
muchas maneras la metadata se sita en una dimensin diferente al
de otros datos del data warehouse, debido a que su contenido no es
tomado directamente desde el ambiente operacional.
La metadata juega un rol especial y muy importante en el data
warehouse y es usada como:

Un directorio para ayudar al analista a ubicar los contenidos del


data warehouse.
Una gua para la trazabilidad de los datos, de cmo se
transforma, del ambiente operacional al de data warehouse.
Una gua de los algoritmos usados para la esquematizacin
entre el detalle de datos actual, con los datos ligeramente
resumidos y stos, con los datos completamente resumidos,
etc.

La metadata juega un papel mucho ms importante en un ambiente


data warehousing que en un operacional clsico.
A fin de recordar los diferentes niveles de los datos encontrados en el data
warehouse, considere el ejemplo mostrado en la Figura N 6.
El detalle de ventas antiguas son las que se encuentran antes de 1992.
Todos los detalles de ventas desde 1982 (o cuando el diseador inici la
coleccin de los archivos) son almacenados en el nivel de detalle de datos
ms antiguo.
El detalle actual contiene informacin desde 1992 a 1993 (suponiendo que
1993 es el ao actual). En general, el detalle de ventas no se ubica en el
nivel de detalle actual hasta que haya pasado, por lo menos, veinticuatro
horas desde que la informacin de ventas llegue a estar disponible en el
ambiente operacional.

En otras palabras, habra un retraso de tiempo de por lo menos veinticuatro


horas, entre el tiempo en que en el ambiente operacional se haya hecho un
nuevo ingreso de la venta y el momento cuando la informacin de la venta
haya ingresado al data warehouse.

El detalle de las ventas son resumidas semanalmente por lnea de


subproducto y por regin, para producir un almacenamiento de datos
ligeramente resumidos.
El detalle de ventas semanal es adicionalmente resumido en forma
mensual, segn una gama de lneas, para producir los datos completamente
resumidos.
La metadata contiene:

La estructura de los datos


Los algoritmos usados para la esquematizacin
La trazabilidad desde el ambiente operacional al data warehouse

La informacin adicional que no se esquematiza es almacenada en el data


warehouse. En muchas ocasiones, all se har el anlisis y se producir un
tipo u otro de resumen. El nico tipo de esquematizacin que se almacena
permanentemente en el data warehouse, es el de los datos que son usados
frecuentemente. En otras palabras, si un analista produce un resumen que
tiene una probabilidad muy baja de ser usado nuevamente, entonces la
esquematizacin no es almacenada en el data warehouse.

Arquitectura de un Data Warehouse


Una de las razones por las que el desarrollo de un data warehouse crece
rpidamente, es que realmente es una tecnologa muy entendible. De
hecho, data warehousing puede representar mejor la estructura amplia de
una empresa para administrar los datos informacionales dentro de la
organizacin. A fin de comprender cmo se relacionan todos los
componentes involucrados en una estrategia data warehousing, es esencial
tener una Arquitectura Data Warehouse.

Elementos constituyentes de una Arquitectura Data Warehouse


Una Arquitectura Data Warehouse (Data Warehouse Architecture - DWA) es
una forma de representar la estructura total de datos, comunicacin,
procesamiento y presentacin, que existe para los usuarios finales que
disponen de una computadora dentro de la empresa.
La arquitectura se constituye de un nmero de partes interconectadas:

Base de datos operacional / Nivel de base de datos externo


Nivel de acceso a la informacin
Nivel de acceso a los datos
Nivel de directorio de datos (Metadata)
Nivel de gestin de proceso
Nivel de mensaje de la aplicacin
Nivel de data warehouse
Nivel de organizacin de datos

Base de datos operacional / Nivel de base de datos externo


Los sistemas operacionales procesan datos para apoyar las necesidades
operacionales crticas. Para hacer eso, se han creado las bases de datos
operacionales histricas que proveen una estructura de procesamiento
eficiente, para un nmero relativamente pequeo de transacciones
comerciales bien definidas.
Sin embargo, a causa del enfoque limitado de los sistemas operacionales,
las bases de datos diseadas para soportar estos sistemas, tienen dificultad
al acceder a los datos para otra gestin o propsitos informticos.
Esta dificultad en acceder a los datos operacionales es amplificada por el
hecho que muchos de estos sistemas tienen de 10 a 15 aos de antigedad.
El tiempo de algunos de estos sistemas significa que la tecnologa de acceso
a los datos disponible para obtener los datos operacionales, es as mismo
antigua.
Ciertamente, la meta del data warehousing es liberar la informacin que es
almacenada en bases de datos operacionales y combinarla con la
informacin desde otra fuente de datos, generalmente externa.
Cada vez ms, las organizaciones grandes adquieren datos adicionales
desde bases de datos externas. Esta informacin incluye tendencias
demogrficas, economtricas, adquisitivas y competitivas (que pueden ser
proporcionadas por Instituciones Oficiales - INEI). Internet o tambin
llamada "information superhighway" (supercarretera de la informacin)
provee el acceso a ms recursos de datos todos los das.
Nivel de acceso a la informacin
El nivel de acceso a la informacin de la arquitectura data warehouse, es el
nivel del que el usuario final se encarga directamente. En particular,
representa las herramientas que el usuario final normalmente usa da a da.
Por ejemplo: EXCEL, LOTUS 1-2-3, FOCUS, ACCESS, SAS, etc.
Este nivel tambin incluye el hardware y software involucrados en mostrar
informacin en pantalla y emitir reportes de impresin, hojas de clculo,
grficos y diagramas para el anlisis y presentacin. Hace dos dcadas que
el nivel de acceso a la informacin se ha expandido enormemente,
especialmente a los usuarios finales quienes se han volcado a los PCS
monousuarios y los PCS en redes.
Actualmente, existen herramientas ms y ms sofisticadas para manipular,
analizar y presentar los datos, sin embargo, hay problemas significativos al
tratar de convertir los datos tal como han sido recolectados y que se
encuentran contenidos en los sistemas operacionales en informacin fcil y
transparente para las herramientas de los usuarios finales. Una de las
claves para esto es encontrar un lenguaje de datos comn que puede
usarse a travs de toda la empresa.

Nivel de acceso a los datos


El nivel de acceso a los datos de la arquitectura data warehouse est
involucrado con el nivel de acceso a la informacin para conversar en el
nivel operacional. En la red mundial de hoy, el lenguaje de datos comn que
ha surgido es SQL. Originalmente, SQL fue desarrollado por IBM como un
lenguaje de consulta, pero en los ltimos veinte aos ha llegado a ser el
estndar para el intercambio de datos.
Uno de los adelantos claves de los ltimos aos ha sido el desarrollo de una
serie de "filtros" de acceso a datos, tales como EDA/SQL para acceder a casi
todo los Sistemas de Gestin de Base de Datos (Data Base Management
Systems - DBMSs) y sistemas de archivos de datos, relacionales o no. Estos
filtros permiten a las herramientas de acceso a la informacin, acceder
tambin a la data almacenada en sistemas de gestin de base de datos que
tienen veinte aos de antigedad.
El nivel de acceso a los datos no solamente conecta DBMSS diferentes y
sistemas de archivos sobre el mismo hardware, sino tambin a los
fabricantes y protocolos de red. Una de las claves de una estrategia data
warehousing es proveer a los usuarios finales con "acceso a datos
universales".
El acceso a los datos universales significa que, tericamente por lo menos,
los usuarios finales sin tener en cuenta la herramienta de acceso a la
informacin o ubicacin, deberan ser capaces de acceder a cualquier o
todos los datos en la empresa que es necesaria para ellos, para hacer su
trabajo.
El nivel de acceso a los datos entonces es responsable de la interfaces entre
las herramientas de acceso a la informacin y las bases de datos
operacionales. En algunos casos, esto es todo lo que un usuario final
necesita. Sin embargo, en general, las organizaciones desarrollan un plan
mucho ms sofisticado para el soporte del data warehousing.
Nivel de Directorio de Datos (Metadata)
A fin de proveer el acceso a los datos universales, es absolutamente
necesario mantener alguna forma de directorio de datos o repositorio de la
informacin metadata. La metadata es la informacin alrededor de los datos
dentro de la empresa.
Las descripciones de registro en un programa COBOL son metadata.
Tambin lo son las sentencias DIMENSION en un programa FORTRAN o las
sentencias a crear en SQL.
A fin de tener un depsito totalmente funcional, es necesario tener una
variedad de metadata disponibles, informacin sobre las vistas de datos de
los usuarios finales e informacin sobre las bases de datos operacionales.
Idealmente, los usuarios finales deberan de acceder a los datos desde el

data warehouse (o desde las bases de datos operacionales), sin tener que
conocer dnde residen los datos o la forma en que se han almacenados.
Nivel de Gestin de Procesos
El nivel de gestin de procesos tiene que ver con la programacin de
diversas tareas que deben realizarse para construir y mantener el data
warehouse y la informacin del directorio de datos. Este nivel puede
depender del alto nivel de control de trabajo para muchos procesos
(procedimientos) que deben ocurrir para mantener el data warehouse
actualizado.
Nivel de Mensaje de la Aplicacin
El nivel de mensaje de la aplicacin tiene que ver con el transporte de
informacin alrededor de la red de la empresa. El mensaje de aplicacin se
refiere tambin como "subproducto", pero puede involucrar slo protocolos
de red. Puede usarse por ejemplo, para aislar aplicaciones operacionales o
estratgicas a partir del formato de datos exacto, recolectar transacciones o
los mensajes y entregarlos a una ubicacin segura en un tiempo seguro.
Nivel Data Warehouse (Fsico)
En el data warehouse (ncleo) es donde ocurre la data actual, usada
principalmente para usos estratgicos. En algunos casos, uno puede pensar
del data warehouse simplemente como una vista lgica o virtual de datos.
En muchos ejemplos, el data warehouse puede no involucrar
almacenamiento de datos.
En un data warehouse fsico, copias, en algunos casos, muchas copias de
datos operacionales y/o externos, son almacenados realmente en una forma
que es fcil de acceder y es altamente flexible. Cada vez ms, los data
warehouses son almacenados sobre plataformas cliente/servidor, pero por lo
general se almacenan sobre mainframes.
Nivel de Organizacin de Datos
El componente final de la arquitectura data warehouse es la organizacin de
los datos. Se llama tambin gestin de copia o rplica, pero de hecho,
incluye todos los procesos necesarios como seleccionar, editar, resumir,
combinar y cargar datos en el depsito y acceder a la informacin desde
bases de datos operacionales y/o externas.
La organizacin de datos involucra con frecuencia una programacin
compleja, pero cada vez ms, estn crendose las herramientas data
warehousing para ayudar en este proceso. Involucra tambin programas de
anlisis de calidad de datos y filtros que identifican modelos y estructura de
datos dentro de la data operacional existente.

Operaciones en un Data Warehouse


En la Figura N 8 se muestra algunos de los tipos de operaciones que se
efectan dentro de un ambiente data warehousing.

Sistemas Operacionales
Los datos administrados por los sistemas de aplicacin operacionales son la
fuente principal de datos para el data warehouse.
Las bases de datos operacionales se organizan como archivos indexados
(UFAS, VSAM), bases de datos de redes/jerrquicas (I-D-S/II, IMS, IDMS) o
sistemas de base de datos relacionales (DB2, ORACLE, INFORMIX, etc.).
Segn las encuestas, aproximadamente del 70% a 80% de las bases de
datos de las empresas se organizan usando DBMSS no relacional.
Extraccin, Transformacin y Carga de los Datos
Se requieren herramientas de gestin de datos para extraer datos desde
bases de datos y/o archivos operacionales, luego es necesario manipular o
transformar los datos antes de cargar los resultados en el data warehouse.
Tomar los datos desde varias bases de datos operacionales y transformarlos
en datos requeridos para el depsito, se refiere a la transformacin o a la
integracin de datos. Las bases de datos operacionales, diseadas para el
soporte de varias aplicaciones de produccin, frecuentemente difieren en el
formato.

Los mismos elementos de datos, si son usados por aplicaciones diferentes o


administrados por diferentes software DBMS, pueden definirse al usar
nombres de elementos inconsistentes, que tienen formatos inconsistentes
y/o ser codificados de manera diferente. Todas estas inconsistencias deben
resolverse antes que los elementos de datos sean almacenados en el data
warehouse.
Metadata
Otro paso necesario es crear la metadata. La metadata (es decir, datos
acerca de datos) describe los contenidos del data warehouse. La metadata
consiste de definiciones de los elementos de datos en el depsito,
sistema(s) del (os) elemento(s) fuente. Como la data, se integra y
transforma antes de ser almacenada en informacin similar.
Acceso de usuario final
Los usuarios acceden al data warehouse por medio de herramientas de
productividad basadas en GUI (Graphical User Interface - Interface grfica
de usuario). Pueden proveerse a los usuarios del data warehouse muchos
de estos tipos de herramientas.
Estos pueden incluir software de consultas, generadores de reportes,
procesamiento analtico en lnea, herramientas data/visual mining, etc.,
dependiendo de los tipos de usuarios y sus requerimientos particulares. Sin
embargo, una sola herramienta no satisface todos los requerimientos, por lo
que es necesaria la integracin de una serie de herramientas.
Plataforma del data warehouse
La plataforma para el data warehouse es casi siempre un servidor de base
de datos relacional. Cuando se manipulan volmenes muy grandes de datos
puede requerirse una configuracin en bloque de servidores UNIX con
multiprocesador simtrico (SMP) o un servidor con procesador paralelo
masivo (MPP) especializado.
Los extractos de la data integrada/transformada se cargan en el data
warehouse. Uno de los ms populares RDBMSs disponibles para data
warehousing sobre la plataforma UNIX (SMP y MPP) generalmente es
Teradata. La eleccin de la plataforma es crtica. El depsito crecer y hay
que comprender los requerimientos despus de 3 o 5 aos.
Muchas de las organizaciones quieran o no escogen una plataforma por
diversas razones: el Sistema X es nuestro sistema elegido o el Sistema Y
est ya disponible sobre un sistema UNIX que nosotros ya tenemos. Uno de
los errores ms grandes que las organizaciones cometen al seleccionar la
plataforma, es que ellos presumen que el sistema (hardware y/o DBMS)
escalar con los datos.

El sistema de depsito ejecuta las consultas que se pasa a los datos por el
software de acceso a los datos del usuario. Aunque un usuario visualiza las
consultas desde el punto de vista de un GUI, las consultas tpicamente se
formulan como pedidos SQL, porque SQL es un lenguaje universal y el
estndar de hecho para el acceso a datos.
Datos Externos
Dependiendo de la aplicacin, el alcance del data warehouse puede
extenderse por la capacidad de acceder a la data externa. Por ejemplo, los
datos accesibles por medio de servicios de computadora en lnea (tales
como CompuServe y America On Line) y/o va Internet, pueden estar
disponibles a los usuarios del data warehouse.
Evolucin del Depsito
Construir un data warehouse es una tarea grande. No es recomendable
emprender el desarrollo del data warehouse de la empresa como un
proyecto cualquiera. Ms bien, se recomienda que los requerimientos de
una serie de fases se desarrollen e implementen en modelos consecutivos
que permitan un proceso de implementacin ms gradual e iterativo.
No existe ninguna organizacin que haya triunfado en el desarrollo del data
warehouse de la empresa, en un slo paso. Muchas, sin embargo, lo han
logrado luego de un desarrollo paso a paso. Los pasos previos evolucionan
conjuntamente con la materia que est siendo agregada.
Los datos en el data warehouse no son voltiles y es un repositorio de datos
de slo lectura (en general). Sin embargo, pueden aadirse nuevos
elementos sobre una base regular para que el contenido siga la evolucin de
los datos en la base de datos fuente, tanto en los contenidos como en el
tiempo.
Uno de los desafos de mantener un data warehouse, es idear mtodos para
identificar datos nuevos o modificados en las bases de datos operacionales.
Algunas maneras para identificar estos datos incluyen insertar fecha/tiempo
en los registros de base de datos y entonces crear copias de registros
actualizados y copiar informacin de los registros de transaccin y/o base
de datos diarias.
Estos elementos de datos nuevos y/o modificados son extrados, integrados,
transformados y agregados al data warehouse en pasos peridicos
programados. Como se aaden las nuevas ocurrencias de datos, los datos
antiguos son eliminados. Por ejemplo, si los detalles de un sujeto particular
se mantienen por 5 aos, como se agreg la ltima semana, la semana
anterior es eliminada.

Transformacin de Datos y Metadata


Transformacin de Datos
Uno de los desafos de cualquier implementacin de data warehouse, es el
problema de transformar los datos. La transformacin se encarga de las
inconsistencias en los formatos de datos y la codificacin, que pueden
existir dentro de una base de datos nica y que casi siempre existen cuando
mltiples bases de datos contribuyen al data warehouse.
En la Figura N 9 se ilustra una forma de inconsistencia, en la cual el gnero
se codifica de manera diferente en tres bases de datos diferentes. Los
procesos de transformacin de datos se desarrollan para direccionar estas
inconsistencias.

La transformacin de datos tambin se encarga de las inconsistencias en el


contenido de datos. Una vez que se toma la decisin sobre que reglas de
transformacin sern establecidas, deben crearse e incluirse las definiciones
en las rutinas de transformacin.
Se requiere una planificacin cuidadosa y detallada para transformar datos
inconsistentes en conjuntos de datos conciliables y consistentes para
cargarlos en el data warehouse.

Metadata
Otro aspecto de la arquitectura de data warehouse es crear soporte a la
metadata. Metadata es la informacin sobre los datos que se alimenta, se
transforma y existe en el data warehouse. Metadata es un concepto
genrico, pero cada implementacin de la metadata usa tcnicas y mtodos
especficos.
Estos mtodos y tcnicas son dependientes de los requerimientos de cada
organizacin, de las capacidades existentes y de los requerimientos de
interfaces de usuario. Hasta ahora, no hay normas para la metadata, por lo
que la metadata debe definirse desde el punto de vista del software data
warehousing, seleccionado para una implementacin especfica.
Tpicamente, la metadata incluye los siguientes tems:

Las estructuras de datos que dan una visin de los datos al


administrador de datos.
Las definiciones del sistema de registro desde el cual se construye el
data warehouse.
Las especificaciones de transformaciones de datos que ocurren tal
como la fuente de datos se replica al data warehouse.

El modelo de datos del data warehouse (es decir, los elementos de datos y
sus relaciones).
Un registro de cuando los nuevos elementos de datos se agregan al data
warehouse y cuando los elementos de datos antiguos se eliminan o se
resumen.
Los niveles de sumarizacin, el mtodo de sumarizacin y las tablas de
registros de su data warehouse.
Algunas implementaciones de la metadata tambin incluyen definiciones de
la(s) vista(s) presentada(s) a los usuarios del data warehouse. Tpicamente,
se definen vistas mltiples para favorecer las preferencias variadas de
diversos grupos de usuarios. En otras implementaciones, estas
descripciones se almacenan en un Catlogo de Informacin.
Los esquemas y subesquemas para bases de datos operacionales, forman
una fuente ptima de entrada cuando se crea la metadata. Hacer uso de la
documentacin existente, especialmente cuando est disponible en forma
electrnica, puede acelerar el proceso de definicin de la metadata del
ambiente data warehousing.
La metadata sirve, en un sentido, como el corazn del ambiente data
warehousing. Crear definiciones de metadata completa y efectiva puede ser
un proceso que consuma tiempo, pero lo mejor de las definiciones y si usted
usa herramientas de gestin de software integrado, son los esfuerzos que
darn como resultado el mantenimiento del data warehouse.

Flujo de Datos
Existe un flujo de datos normal y predecible dentro del data warehouse. La
Figura N 10 muestra ese flujo.
Los datos ingresan al data warehouse desde el ambiente operacional. (Hay
pocas excepciones a esta regla).
Al ingresar al data warehouse, la informacin va al nivel de detalle actual,
tal como se muestra. Se queda all y se usa hasta que ocurra uno de los
tres eventos siguientes:

Sea eliminado
Sea resumido
Sea archivado

Con el proceso de desactualizacin en un data warehouse se mueve el


detalle de la data actual a data antigua, basado en el tiempo de los datos.
El proceso de esquematizacin usa el detalle de los datos para calcular los
datos en forma ligera y completamente resumidos.
Hay pocas excepciones al flujo mostrado. Sin embargo, en general, para la
mayora de datos encontrados en un data warehouse, el flujo de la
informacin es como se ha explicado.

Medios de Almacenamiento para Informacin Antigua


El smbolo mostrado en la Figura N 11 para medios de almacenamiento de
informacin antigua es la cinta magntica, que puede usarse para
almacenar este tipo de informacin. De hecho hay una amplia variedad de
medios de almacenamiento que deben considerarse para almacenar datos
ms antiguos. En la figura se muestra algunos de esos medios.
Dependiendo del volumen de informacin, la frecuencia de acceso, el costo
de los medios y el tipo de acceso, es probable que otros medios de
almacenamiento sirvan a las necesidades del nivel de detalle ms antiguo
en el data warehouse.

Usos del Data Warehouse


Los datos operacionales y los datos del data warehouse son accedidos por
usuarios que usan los datos de maneras diferentes.
Uso de Base de Datos
Operacionales
Muchos usuarios concurrentes
Consultas predefinidas y
actualizables
Cantidades pequeas de datos
detallados
Requerimientos de respuesta
inmediata

Uso de Data Warehouse


Pocos usuarios concurrentes
Consultas complejas, frecuentemente no
anticipadas.
Cantidades grandes de datos detallados
Requerimientos de respuesta no crticos

Maneras diferentes de uso de datos


Los usuarios de un data warehouse necesitan acceder a los datos
complejos, frecuentemente desde fuentes mltiples y de formas no
predecibles.
Los usuarios que accedan a los datos operacionales, comnmente
efectan tareas predefinidas que, generalmente requieren acceso a
una sola base de datos de una aplicacin. Por el contrario, los
usuarios que accedan al data warehouse, efectan tareas que
requieren acceso a un conjunto de datos desde fuentes mltiples y
frecuentemente no son predecibles. Lo nico que se conoce (si es
modelada correctamente) es el conjunto inicial de datos que se han
establecido en el depsito.
Por ejemplo, un especialista en el cuidado de la salud podra necesitar
acceder a los datos actuales e histricos para analizar las tendencias
de costos, usando un conjunto de consultas predefinidas. Por el
contrario, un representante de ventas podra necesitar acceder a los
datos de cliente y producto para evaluar la eficacia de una campaa
de marketing, creando consultas base o ad-hoc para encontrar
nuevamente necesidades definidas.
Maneras diferentes de uso de datos
Slo pocos usuarios acceden a los datos concurrentemente
Los usuarios generan un procesamiento no predecible complejo
Los usuarios del data warehouse generan consultas complejas. A
veces la respuesta a una consulta conduce a la formulacin de otras
preguntas ms detalladas, en un proceso llamado drilling down. El
data warehouse puede incluir niveles de resmenes mltiples,
derivado de un conjunto principal, nico, de datos detallados, para
soportar este tipo de uso.
En efecto, los usuarios frecuentemente comienzan buscando en los
datos resumidos y como identifican reas de inters, comienzan a
acceder al conjunto de datos detallado. Los conjuntos de datos
resumidos representan el "Qu" de una situacin y los conjuntos de
datos detallados permiten a los usuarios construir un cuadro sobre
"Cmo" se ha derivado esa situacin.

Las consultas de los usuarios accedan a cantidades grandes de


datos
Debido a la necesidad de investigar tendencias y evaluar las
relaciones entre muchas clases de datos, las consultas al data
warehouse permiten acceder a volmenes muy grandes tanto de data
detallada como resumida. Debido a los requerimientos de datos
histricos, los data warehouses evolucionan para llegar a un tamao
ms grande que sus orgenes operacionales (de 10 a 100 veces ms
grande).
Las consultas de los usuarios no tienen tiempos de respuesta
crticos
Las transacciones operacionales necesitan una respuesta inmediata
porque un cliente puede estar esperando una respuesta. En el data
warehouse, por el contrario, tiene un requerimiento de respuesta no
crtico porque el resultado frecuentemente se usa en un proceso de
anlisis y toma de decisiones. Aunque los tiempos de respuesta no
son crticos, los usuarios esperan una respuesta dentro del mismo da
en que es hecha la consulta.
Por lo general, los diferentes niveles de datos dentro del data
warehouse reciben diferentes usos. A ms alto nivel de
esquematizacin, se tiene mayor uso de los datos.
En la Figura N 12 se muestra que hay mayor uso de los datos
completamente resumidos, a diferencia de la informacin antigua que
apenas es usada.
Hay una buena razn para mover una organizacin al paradigma
sugerido en la figura, la utilizacin del recurso. La data ms
resumida, permite capturar los datos en forma ms rpida y
eficiente. Si en una tarea se encuentra que se hace mucho
procesamiento a niveles de detalle del data warehouse, entonces se
consumir muchos recursos de mquina. Es mejor hacer el
procesamiento a niveles ms altos de esquematizacin como sea
posible.
Para muchas tareas, el analista de sistemas de soporte de decisiones
usa la informacin detallada en un pre data warehouse. La seguridad
de la informacin de detalle se consigue de muchas maneras, aun
cuando estn disponibles otros niveles de esquematizacin. Una de
las actividades del diseador de datos es el de desconectar al usuario
del sistema de soporte de decisiones del uso constante de datos con
un detalle ms bajo.

El diseador de datos tiene dos predisposiciones:


1. Instalar un sistema chargeback, donde el usuario final pague
por los recursos consumidos
2. Sealar el mejor tiempo de respuesta que puede obtenerse
cuando se trabaja con la data a un nivel alto de
esquematizacin, a diferencia de un pobre tiempo de respuesta
que resulta de trabajar con los datos a un nivel bajo de detalle.
Para ilustrar cmo un data warehouse puede ayudar a una
organizacin a mejorar sus operaciones, se muestra un ejemplo de lo
que es el desarrollo de actividades sin tener un data warehouse.

Ejemplo: Preparacin de un reporte complejo


Considere un problema bastante tpico en una compaa de
fabricacin grande en el que se pide una informacin (un reporte)
que no est disponible.
El informe incluye las finanzas actuales, el inventario y la condicin
de personal, acompaado de comparaciones del mes actual con el
anterior y el mismo mes del ao anterior, con una comparacin
adicional de los 3 aos precedentes. Se debe explicar cada desviacin
de la tendencia que cae fuera de un rango predefinido.
Sin un data warehouse, el informe es preparado de la manera
siguiente:
La informacin financiera actual se obtiene desde una base de datos
mediante un programa de extraccin de datos, el inventario actual de
otro programa de extraccin de otra base de datos, la condicin
actual de personal de un tercer programa de extraccin y la
informacin histrica desde una copia de seguridad de cinta
magntica o CD-ROM.
Lo ms interesante es que se ha pedido otro informe que contine al
primer informe (debido a que las preguntas se originaron a partir del
anterior). El hecho es, que ninguno de los trabajos realizados hasta
aqu (por ejemplo, diversos programas de extraccin) se pueden usar
para los prximos o para cualquier reporte subsiguiente. Imagine el
tiempo y el esfuerzo que se ha desperdiciado por un enfoque
anticuado. (Ver Figura N 13).
Las inconsistencias deben identificarse en cada conjunto de datos
extrados y resolverse, por lo general, manualmente. Cuando se
completa todo este procesamiento, el reporte puede ser formateado,
impreso, revisado y transmitido.
Nuevamente, el punto importante aqu es que todo el trabajo
desempeado para hacer este informe no afecta a otros reportes que
pueden solicitarse es decir, todos ellos son independientes y caros,
desde el punto de vista de recursos y productividad.
Al crear un data warehouse y combinar todos los datos requeridos, se
obtienen los siguientes beneficios:
Las inconsistencias de los datos se resuelven automticamente
cuando los elementos de datos se cargan en el data warehouse, no
manualmente, cada vez que se prepara un reporte.
Los errores que ocurrieron durante el proceso complejo de la
preparacin del informe, se minimizan porque el proceso es ahora
mucho ms simple.

Los elementos de datos son fcilmente accesibles para otros usos, no


slo para un reporte particular.
Se crea una sola fuente.

Consideraciones Adicionales
Hay algunas consideraciones adicionales que deben tenerse en cuenta al
construir y administrar el data warehouse.
La primera consideracin es respecto al ndice. La informacin de los niveles
de esquematizacin ms altos pueden ser libremente indexados, mientras
que las de los niveles ms bajos de detalle, por ser tan voluminosa, pueden
ser indexados moderadamente.
Por lo mismo, los datos en los niveles ms altos de detalle pueden ser
reestructurados fcilmente, mientras que el volumen de datos en los niveles

ms inferiores es tan grande, que los datos no pueden ser fcilmente


reestructurados.
Por consiguiente, el modelo de datos y el diseo clsico fundamentan que el
data warehouse se aplique casi exclusivamente al nivel actual de detalle. En
otras palabras, las actividades de modelamiento de datos no se aplican a los
niveles de esquematizacin, en casi todos los casos.
Otra consideracin estructural es la particin de la informacin en el data
warehouse. El nivel de detalle actual es casi siempre particionado.
La particin puede hacerse de dos maneras: al nivel de DBMS y al nivel de
la aplicacin. En la particin DBMS, se conoce las particiones y se
administra por consiguiente. En el caso de la particin de las aplicaciones,
slo los programadores de las mismas conocen las particiones y la
responsabilidad de su administracin es asignada a ellos.
Al interior de las particiones DBMS, mucho de los trabajos de infraestructura
se hacen automticamente. Pero existe un elevado grado de rigidez
asociada con la gestin automtica de las particiones. En el caso de las
particiones de las aplicaciones del data warehouse, la mayor parte del
trabajo recae sobre el programador, pero el resultado final es que la gestin
de datos es ms flexible.

Ejemplo de un Data Warehouse


En la Figura N 14 se muestra un ejemplo hipottico de un data warehouse
estructurado para un centro de produccin industrial.

Se muestra slo el detalle actual, no as los niveles de esquematizacin ni


los archivos de detalle ms antiguos.
Adems, se observa que hay tablas del mismo tipo divididas a travs del
tiempo. Por ejemplo, para el histrico de la fabricacin de las piezas, hay
muchas tablas separadas fsicamente, representando cada una un trimestre

diferente. La estructura de los datos es consistente con la tabla de la


elaboracin de las piezas, aunque fsicamente hay muchas tablas que
lgicamente incluyen el histrico.
Para los diferentes tipos de tablas hay diferentes unidades de tiempo que
fsicamente dividen las unidades de informacin. El histrico de fabricacin
est dividido por trimestres, el histrico de la orden de piezas est dividido
por aos y el histrico de cliente es un archivo nico, no dividido por el
tiempo.
As tambin, las diferentes tablas son vinculadas por medio de un
identificador comn, piezas u rdenes de piezas (la representacin de la
interrelacin en el ambiente de depsito toma una forma muy diferente al
de otros ambientes, tal como el ambiente operacional).

Excepciones en el Data Warehouse


Mientras que los componentes del data warehouse trabajan de acuerdo al
modelo descrito para casi todos los datos, hay pocas excepciones tiles que
necesitan ser discutidas.
Una de ellas es la data resumida pblica, que es la data que ha sido
calculada fuera del data warehouse pero es usada a travs de la
corporacin. La data resumida pblica se almacena y administra en el data
warehouse, aunque su clculo se haya hecho fuera de l.
Un ejemplo clsico de data resumida pblica es el archivamiento trimestral
hecho por cada compaa pblica. Los contadores trabajan para producir
cantidades como rentas trimestrales, gastos trimestrales, ganancias
trimestrales y otros. El trabajo hecho por los contadores est fuera del data
warehouse. Sin embargo, esas cantidades referenciales producidas por ellos
se usan ampliamente dentro de la corporacin para marketing, ventas, etc.
Una vez que se haya hecho el archivo, los datos se almacenan en el data
warehouse.
Otra excepcin no considerada en este documento es la data externa.
Otro excepcional tipo de datos a veces encontrados en un data warehouse
es el detalle de los datos permanentes, que resulta de la necesidad de una
corporacin para almacenar la data a un nivel detallado permanentemente
por razones ticas o legales.
Si una corporacin expone a sus trabajadores a sustancias peligrosas hay
una necesidad de detalle de datos permanente. Si una corporacin produce
un producto que involucra la seguridad pblica, tal como la construccin de
las partes de aviones, hay una necesidad de datos permanentes. Si una
corporacin se compromete con contratos peligrosos, hay una necesidad de
detalle de datos permanentes.

La organizacin simplemente no puede dejar los detalles porque en futuros


aos, en el caso de una demanda, una notificacin, un edificio en disputa,
etc., se incrementara la exposicin de la compaa. Por lo tanto hay un
nico tipo de datos en el data warehouse conocido como detalle de datos
permanentes.
El detalle de datos permanentes comparte muchas de las mismas
consideraciones como otro data warehouse, excepto que:

El medio donde se almacena la data debe ser tan seguro como sea
posible.
Los datos deben permitir ser restaurados.
Los datos necesitan un tratamiento especial en su indexacin, ya que
de otra manera los datos pueden no ser accesibles aunque se haya
almacenado con mucha seguridad.

Organizacin de un proyecto
La planificacin es el proceso ms importante que determina la clase de tipo
de estrategias data warehousing que una organizacin iniciar.
Factores en la Planificacion de un Data Warehouse
No existe una frmula de garanta real para el xito de la construccin de
un data warehouse, pero hay muchos puntos que contribuyen a ese
objetivo.
A continuacin, se indican algunos puntos claves que deben considerarse en
la planificacin de un data warehouse:
Establecer una asociacin de usuarios, gestin y grupos
Es esencial involucrar tanto a los usuarios como a la gestin para
asegurar que el data warehouse contenga informacin que satisfaga
los requerimientos de la empresa.
La gestin puede ayudar a priorizar la fase de la implementacin del
data warehouse, as como tambin la seleccin de herramientas del
usuario. Los usuarios y la gestin justifican los costos del data
warehouse sobre cmo ser "su ambiente" y est basado primero en
lo esperado y segundo, en el valor comercial real.
Seleccionar una aplicacin piloto con una alta probabilidad de xito
Una aplicacin piloto de alcance limitado, con un reembolso medible
para los usuarios y la gestin, establecer el data warehouse como
una tecnologa clave para la empresa. Estos mismos criterios (alcance
limitado, reembolso medible y beneficios claros para la empresa) se
aplican a cada fase de la implementacin de un data warehouse.
Construir prototipos rpida y frecuentemente
La nica manera para asegurar que el data warehouse rena las
necesidades de los usuarios, es hacer el prototipo a lo largo del
proceso de implementacin y an ms all, as como agregar los
nuevos datos y/o los modelos en forma permanente. El trabajo
continuo con los usuarios y la gestin es, nuevamente, la clave.
Implementacin incremental
La implementacin incremental reduce riesgos y asegura que el
tamao del proyecto permanezca manejable en cada fase.

Reportar activamente y publicar los casos exitosos


La retroalimentacin de los usuarios ofrece una excelente
oportunidad para publicar los hechos exitosos dentro de una
organizacin. La publicidad interna sobre cmo el data warehouse ha
ayudado a los usuarios a operar ms efectivamente puede apoyar la
construccin del data warehouse a lo largo de una empresa.
La retroalimentacin del usuario tambin ayuda a comprender cmo
evoluciona la implementacin del data warehouse a travs del tiempo
para reunir requerimientos de usuario nuevamente identificados.

Estrategias para el Desarrollo de un Data Warehouse


Antes de desarrollar un data warehouse, es crtico el desarrollo de una
estrategia equilibrada que sea apropiada para sus necesidades y sus
usuarios.
Las preguntas que deben tenerse en cuenta son:

Quin es el auditorio?
Cul es el alcance?
Qu tipo de data warehouse debera construirse?

Existe un nmero de estrategias mediante las cuales las organizaciones


pueden conseguir sus data warehouses.
Primera
Establecer un ambiente "data warehouse virtual", el cual puede ser
creado por:

Instalacin de un conjunto de facilidades para acceso a datos,


directorio de datos y gestin de proceso.
Entrenamiento de usuarios finales.
Control de cmo se usan realmente las instalaciones del data
warehouse.
Basados en el uso actual, crear un data warehouse fsico para
soportar los pedidos de alta frecuencia.

Segunda
Construir una copia de los datos operacionales desde un sistema
operacional nico y posibilitar al data warehouse de una serie de
herramientas de acceso a la informacin.

Tercera
Finalmente, la estrategia data warehousing ptima es seleccionar el
nmero de usuarios basados en el valor de la empresa y hacer un
anlisis de sus puntos, preguntas y necesidades de acceso a datos.
De acuerdo a estas necesidades, se construyen los prototipos data
warehousing y se prueban para que los usuarios finales puedan
experimentar y modificar sus requerimientos.
Una vez se tenga un consenso general sobre las necesidades,
entonces se consiguen los datos provenientes de los sistemas
operacionales existentes a travs de la empresa y/o desde fuentes
externas de datos y se cargan al data warehouse.
Si se requieren herramientas de acceso a la informacin, se puede
tambin permitir a los usuarios finales tener acceso a los datos
requeridos usando sus herramientas favoritas propias, o facilitar la
creacin de sistemas de acceso a la informacin multidimensional de
alta performance, usando el ncleo del data warehouse como base.
En conclusin
No se tiene un enfoque nico para construir un data warehouse que
se adapte a las necesidades de las empresas, debido a que las
necesidades de cada una de ellas son diferentes, al igual que su
contexto.
Adems, como la tecnologa data warehousing va evolucionando, se
aprende cada vez ms y ms sobre el desarrollo de data warehouses,
que resulta en que el nico enfoque prctico para al almacenamiento
de datos es la evolucin de uno mismo.
Estrategias para el Diseo de un Data Warehouse
El diseo de los data warehouses es muy diferente al diseo de los sistemas
operacionales tradicionales. Se pueden considerar los siguientes puntos:
1. Los usuarios de los data warehouses usualmente no conocen mucho
sobre sus requerimientos y necesidades como los usuarios
operacionales.
2. El diseo de un data warehouse, con frecuencia involucra lo que se
piensa en trminos ms amplios y con conceptos del negocio ms
difciles de definir que en el diseo de un sistema operacional. Al
respecto, un data warehouse est bastante cerca a Reingeniera de
los Procesos del Negocio (Business Process Reengineering).
3. Finalmente, la estrategia de diseo ideal para un data warehousing es
generalmente de afuera hacia adentro (outside-in) a diferencia de
arriba hacia abajo (top-down).

Estrategias para el Gestion de un Data Warehouse


Los data warehouses requieren una comercializacin y gestin muy
cuidadosa. Debe considerarse lo siguiente:
1. Un data warehouse es una inversin buena slo si los usuarios finales
realmente pueden conseguir informacin vital ms rpida y ms
barata de lo que obtienen con la tecnologa actual.
Como consecuencia, la gestin tiene que pensarse seriamente sobre
cmo quieren sus depsitos para su eficaz desempeo y cmo
conseguirn llegar a los usuarios finales.
2. La administracin debe reconocer que el mantenimiento de la
estructura del data warehouse es tan crtico como el mantenimiento
de cualquier otra aplicacin de misin crtica.
De hecho, la experiencia ha demostrado que los data warehouses
llegarn a ser rpidamente uno de los sistemas ms usados en
cualquier organizacin.
3. La gestin debe comprender tambin que si se embarcan sobre un
programa data warehousing, se crearn nuevas demandas sobre sus
sistemas operacionales, que son:
o Demandas para mejorar datos
o Demandas para una data consistente
o Demandas para diferentes tipos de datos, etc.

Desarrollo de un proyecto
Porque Construir Bloques de Data Warehouse?
Para ampliar un negocio, se necesita que la informacin sea comprensible.
Para muchas compaas, esto significa un gran data warehouse que
muestre, junto a los datos no filtrados y dispersos, nuevas formas creativas
de presentacin.
Las herramientas para capturar y explorar los datos al detalle evolucionan,
as como nuestra capacidad para encontrar las formas de explotar los datos
recolectados.
En los ltimos 10 aos se han combinado dos factores para ayudar a la
difusin de los data warehouses. Ellos son:

1. Se ha reconocido los beneficios del procesamiento analtico en lnea


(On Line Analytical Processing - OLAP), ms all de las reas
tradicionales de marketing y finanzas.

Las organizaciones saben que los conocimientos inmersos en las


masas de datos que rutinariamente recogen sobre sus clientes,
productos, operaciones y actividades comerciales, contribuyen a
reducir los costos de operacin y aumentar las rentas, por no
mencionar que es ms fcil la toma de decisiones estratgicas.

2. El crecimiento de la computacin cliente/servidor, ha creado

servidores de hardware y software ms poderosos y sofisticados que


nunca. Los servidores de hoy compiten con las mainframes de ayer y
ofrecen arquitecturas de memoria tecnolgicamente superiores,
procesadores de alta velocidad y capacidades de almacenamiento
masivas.
Al mismo tiempo, los Sistemas de Gestin de Base de Datos (Data
Base Management Systems - DBMS(s)) modernos, proporcionan
mayor soporte para las estructuras de datos complejas.
De esta renovacin de hardware y software surgen los data
warehouses multiterabyte que ahora se ve en ambientes de
cliente/servidor.

Consideraciones Previas al Desarrollo de un Data Warehouse


Hay muchas maneras para desarrollar data warehouses como tantas
organizaciones existen. Sin embargo, hay un nmero de dimensiones
diferentes que necesitan ser consideradas:

Alcance de un data warehouse


Redundancia de datos
Tipo de usuario final

La Figura N 15 muestra un esquema bidimensional para analizar las


opciones bsicas. La dimensin horizontal indica el alcance del depsito y la
vertical muestra la cantidad de datos redundantes que deben almacenarse y
mantenerse.

Alcance de un Data Warehouse


El alcance de un data warehouse puede ser tan amplio como toda la
informacin estratgica de la empresa desde su inicio, o puede ser tan
limitado como un data warehouse personal para un solo gerente durante un
ao.
En la prctica, en la amplitud del alcance, el mayor valor del data
warehouse es para la empresa y lo ms caro y consumidor de tiempo es
crear y mantenerlo. Como consecuencia de ello, la mayora de las
organizaciones comienzan con data warehouses funcionales,
departamentales o divisionales y luego los expanden como usuarios que
proveen retroalimentacin.
Redundancia de Datos
Hay tres niveles esenciales de redundancia de datos que las empresas
deberan considerar en sus opciones de data warehouse:

Data warehouses "virtual" o "Point to Point"


Data warehouses "centrales"
Data warehouses "distribuidos"

No se puede pensar en un nico enfoque. Cada opcin adapta un conjunto


especfico de requerimientos y una buena estrategia de almacenamiento de
datos, lo constituye la inclusin de las tres opciones.

Data Warehouses "Virtual" o "Point to Point"


Una estrategia de data warehouses virtual, significa que los usuarios
finales pueden acceder a bases de datos operacionales directamente,
usando cualquier herramienta que posibilite "la red de acceso de
datos".
Este enfoque provee flexibilidad as como tambin la cantidad mnima
de datos redundantes que deben cargarse y mantenerse. Adems, se
pueden colocar las cargas de consulta no planificadas ms grandes,
sobre sistemas operacionales.
Como se ver, el almacenamiento virtual es, frecuentemente, una
estrategia inicial, en organizaciones donde hay una amplia (pero en
su mayor parte indefinida) necesidad de conseguir la data
operacional, desde una clase relativamente grande de usuarios finales
y donde la frecuencia probable de pedidos es baja.
Los depsitos virtuales de datos proveen un punto de partida para
que las organizaciones determinen qu usuarios finales estn
buscando realmente.
Data Warehouses "Centrales"
El concepto de data warehouses centrales es el concepto inicial que
se tiene del data warehouse. Es una nica base de datos fsica, que
contiene todos los datos para un rea funcional especfica,
departamento, divisin o empresa.
Los data warehouses centrales se seleccionan por lo general donde
hay una necesidad comn de los datos informticos y un nmero
grande de usuarios finales ya conectados a una red o computadora
central. Pueden contener datos para cualquier perodo especfico de
tiempo. Comnmente, contienen datos de sistemas operacionales
mltiples.
Los data warehouses centrales son reales. Los datos almacenados en
el data warehouse son accesibles desde un lugar y deben cargarse y
mantenerse sobre una base regular. Normalmente se construyen
alrededor de RDBMS avanzados o, en alguna forma, de servidor de
base de datos informtico multidimensional.
Data Warehouses Distribuidos
Los data warehouses distribuidos son aquellos en los cuales ciertos
componentes del depsito se distribuyen a travs de un nmero de
bases de datos fsicas diferentes.
Cada vez ms, las organizaciones grandes estn tomando decisiones
a niveles ms inferiores de la organizacin y a la vez, llevando los
datos que se necesitan para la toma de decisiones a la red de rea

local (Local Area Network - LAN) o computadora local que sirve al que
toma decisiones.
Los data warehouses distribuidos comnmente involucran la mayora
de los datos redundantes y como consecuencia de ello, se tienen
procesos de actualizacin y carga ms complejos.
Tipo de Usuario Final
De la misma forma que hay una gran cantidad de maneras para organizar
un data warehouse, es importante notar que tambin hay una gama cada
vez ms amplia de usuarios finales.
En general, se puede considerar tres grandes categoras:

Ejecutivos y gerentes
"Power users" o "Buzo de Informacin" (analistas financieros y de
negocios, ingenieros, etc.)
Usuarios de soporte (de oficina, administrativos, etc.).

Cada una de estas categoras diferentes de usuario tienen su propio


conjunto de requerimientos para los datos, acceso, flexibilidad y facilidad de
uso.
Elementos Claves para el Desarrollo de un Data Warehouse
Los data warehouses exitosos comienzan cuando se escogen e integran
satisfactoriamente tres elementos claves.
Un data warehouse est integrado por un servidor de hardware y los DBMS
que conforman el depsito. Del lado del hardware, se debe combinar la
configuracin de plataformas de los servidores, mientras se decide cmo
aprovechar los saltos casi constantes de la potencia del procesador. Del lado
del software, la complejidad y el alto costo de los DBMSes fuerzan a tomar
decisiones drsticas y balances comparativos inevitables, con respecto a la
integracin, requerimientos de soporte, desempeo, eficiencia y
confiabilidad.
Si se escoge incorrectamente, el data warehouse se convierte en una gran
empresa con problemas difciles de trabajar en su entorno, costoso para
arreglar y difcil de justificar.
Para conseguir que la implementacin del depsito tenga un inicio exitoso,
se necesita enfocar hacia tres bloques claves de construccin:

Arquitectura total del depsito


Arquitecturas del servidor
Sistemas de Gestin de Base de Datos

Diseo de la Arquitectura

Arquitectura del Depsito


El desarrollo del data warehouse comienza con la estructura lgica y fsica
de la base de datos del depsito ms los servicios requeridos para operar y
mantenerlo. Esta eleccin conduce a la seleccin de otros dos tems
fundamentales: el servidor de hardware y el DBMS.
La plataforma fsica puede centralizarse en una sola ubicacin o distribuirse
regional, nacional o internacionalmente. A continuacin se dan las
siguientes alternativas de arquitectura:

1. Un plan para almacenar los datos de su compaa, que podra

obtenerse desde fuentes mltiples internas y externas, es consolidar


la base de datos en un data warehouse integrado. El enfoque
consolidado proporciona eficiencia tanto en la potencia de
procesamiento como en los costos de soporte. (Ver Figura N 16).

2. La arquitectura global distribuye informacin por funcin, con datos

financieros sobre un servidor en un sitio, los datos de


comercializacin en otro y los datos de fabricacin en un tercer lugar.
(Ver Figura N 17)

3. Una arquitectura por niveles almacena datos altamente resumidos

sobre una estacin de trabajo del usuario, con resmenes ms


detallados en un segundo servidor y la informacin ms detallada en
un tercero.
La estacin de trabajo del primer nivel maneja la mayora de los
pedidos para los datos, con pocos pedidos que pasan sucesivamente
a los niveles 2 y 3 para la resolucin.
Las computadoras en el primer nivel pueden optimizarse para
usuarios de carga pesada y volumen bajo de datos, mientras que los
servidores de los otros niveles son ms adecuados para procesar los
volmenes pesados de datos, pero cargas ms livianas de usuario.
(Ver figura N 18).

Arquitectura del servidor


Al decidir sobre una estructura de depsito distribuida o centralizada,
tambin se necesita considerar los servidores que retendrn y entregarn
los datos. El tamao de su implementacin (y las necesidades de su
empresa para escalabilidad, disponibilidad y gestin de sistemas) influir en
la eleccin de la arquitectura del servidor.

1. Servidores de un solo procesador


Los servidores de un slo procesador son los ms fciles de
administrar, pero ofrecen limitada potencia de procesamiento y
escalabilidad. Adems, un servidor slo presenta un nico punto de
falla, limitando la disponibilidad garantizada del depsito.
Se puede ampliar un solo servidor de redes mediante arquitecturas
distribuidas que hacen uso de subproductos, tales como Ambientes
de Computacin Distribuida (Distributed Computing Environment DCE) o Arquitectura Broker de Objeto Comn (Common Objects
Request Broker Architecture - CORBA), para distribuir el trfico a
travs de servidores mltiples.
Estas arquitecturas aumentan tambin la disponibilidad, debido a que
las operaciones pueden cambiarse al servidor de copia de seguridad
si un servidor falla, pero la gestin de sistemas es ms compleja.

2. Multiprocesamiento simtrico
Las mquinas de multiprocesamiento simtrico (Symmetric
MultiProcessing - SMP) aumentan mediante la adicin de
procesadores que comparten la memoria interna de los servidores y
los dispositivos de almacenamiento de disco.
Se puede adquirir la mayora de SMP en configuraciones mnimas (es
decir, con dos procesadores) y levantar cuando es necesario,
justificando el crecimiento con las necesidades de procesamiento. La
escalabilidad de una mquina SMP alcanza su lmite en el nmero
mximo de procesadores soportados por los mecanismos de conexin
(es decir, el backplane y bus compartido).

3. Procesamiento en paralelo masivo


Una mquina de procesamiento en paralelo masivo (Massively Parallel
Processing - MPP), conecta un conjunto de procesadores por medio
de un enlace de banda ancha y de alta velocidad. Cada nodo es un
servidor, completo con su propio procesador (posiblemente SMP) y
memoria interna. Para optimizar una arquitectura MPP, las

aplicaciones deben ser "paralelizadas" es decir, diseadas para operar


por separado, en partes paralelas.
Esta arquitectura es ideal para la bsqueda de grandes bases de
datos. Sin embargo, el DBMS que se selecciona debe ser uno que
ofrezca una versin paralela. Y an entonces, se requiere un diseo y
afinamiento esenciales para obtener una ptima distribucin de los
datos y prevenir "hot spots" o "data skew" (donde una cantidad
desproporcionada del procesamiento es cambiada a un nodo de
procesamiento, debido a la particin de los datos bajo su control).

4. Acceso de memoria no uniforme


La dificultad de mover aplicaciones y los DBMS a agrupaciones o
ambientes realmente paralelos ha conducido a nuevas y recientes
arquitecturas, tales como el acceso de memoria no uniforme (Non
Uniform Memory Access - NUMA).
NUMA crea una sola gran mquina SMP al conectar mltiples nodos
SMP en un solo (aunque fsicamente distribuida) banco de memoria y
un ejemplo nico de OS. NUMA facilita el enfoque SMP para obtener
los beneficios de performance de las grandes mquinas MPP (con 32
o ms procesadores), mientras se mantiene las ventajas de gestin y
simplicidad de un ambiente SMP estndar.
Lo ms importante de todo, es que existen DBMS y aplicaciones que
pueden moverse desde un solo procesador o plataforma SMP a
NUMA, sin modificaciones.

Fuentes:

http://www.sinnexus.com/business_intelligence/datawarehouse.aspx
http://www.dataprix.com/que-es-un-datawarehouse
https://www.coursera.org/specializations/data-warehousing
http://artemisa.unicauca.edu.co/~ecaldon/docs/bd/fundamentosdeda
tawarehouse.pdf
http://www.aedem-virtual.com/articulos/iedee/v04/043073.pdf
http://www.gridmorelos.uaem.mx/~mcruz//cursos/miic/datawarehou
se3.pdf
http://www.tutorialspoint.com/dwh/dwh_tutorial.pdf

You might also like