Professional Documents
Culture Documents
de Mexico
Data Warehouse
040035177
Introduccin
El data warehouse, es actualmente, el centro de atencin de las grandes
instituciones, porque provee un ambiente para que las organizaciones
hagan un mejor uso de la informacin que est siendo administrada por
diversas aplicaciones operacionales.
Un data warehouse es una coleccin de datos en la cual se encuentra
integrada la informacin de la Institucin y que se usa como soporte para el
proceso de toma de decisiones gerenciales. Aunque diversas organizaciones
y personas individuales logran comprender el enfoque de un Warehouse, la
experiencia ha demostrado que existen muchas dificultades potenciales.
Reunir los elementos de datos apropiados desde diversas fuentes de
aplicacin en un ambiente integral centralizado, simplifica el problema de
acceso a la informacin y en consecuencia, acelera el proceso de anlisis,
consultas y el menor tiempo de uso de la informacin.
Las aplicaciones para soporte de decisiones basadas en un data
warehousing, pueden hacer ms prctica y fcil la explotacin de datos para
una mayor eficacia del negocio, que no se logra cuando se usan slo los
datos que provienen de las aplicaciones operacionales (que ayudan en la
operacin de la empresa en sus operaciones cotidianas), en los que la
informacin se obtiene realizando procesos independientes y muchas veces
complejos.
Un data warehouse se crea al extraer datos desde una o ms bases de
datos de aplicaciones operacionales. La data extrada es transformada para
eliminar inconsistencias y resumir si es necesario y luego, cargadas en el
data warehouse. El proceso de transformar, crear el detalle de tiempo
variante, resumir y combinar los extractos de datos, ayudan a crear el
ambiente para el acceso a la informacin Institucional. Este nuevo enfoque
ayuda a las personas individuales, en todos los niveles de la empresa, a
efectuar su toma de decisiones con ms responsabilidad.
La innovacin de la Tecnologa de Informacin dentro de un ambiente data
warehousing, puede permitir a cualquier organizacin hacer un uso ms
ptimo de los datos, como un ingrediente clave para un proceso de toma de
decisiones ms efectivo. Las organizaciones tienen que aprovechar sus
recursos de informacin para crear la informacin de la operacin del
negocio, pero deben considerarse las estrategias tecnolgicas necesarias
para la implementacin de una arquitectura completa de data warehouse.
Data Warehouse
Datos del negocio para Informacin
Orientado al sujeto
Actual + histrico
Detallada + ms resumida
Estable
Sistemas de Informacin
Orientado a Temas
Una primera caracterstica del data warehouse es que la informacin se
clasifica en base a los aspectos que son de inters para la empresa. Siendo
as, los datos tomados estn en contraste con los clsicos procesos
orientados a las aplicaciones. En la Figura N 1 se muestra el contraste
entre los dos tipos de orientaciones.
El ambiente operacional se disea alrededor de las aplicaciones y funciones
tales como prstamos, ahorros, tarjeta bancaria y depsitos para una
institucin financiera. Por ejemplo, una aplicacin de ingreso de rdenes
puede acceder a los datos sobre clientes, productos y cuentas. La base de
datos combina estos elementos en una estructura que acomoda las
necesidades de la aplicacin.
En el ambiente data warehousing se organiza alrededor de sujetos tales
como cliente, vendedor, producto y actividad. Por ejemplo, para un
fabricante, stos pueden ser clientes, productos, proveedores y vendedores.
Para una universidad pueden ser estudiantes, clases y profesores. Para un
hospital pueden ser pacientes, personal mdico, medicamentos, etc.
La alineacin alrededor de las reas de los temas afecta el diseo y la
implementacin de los datos encontrados en el data warehouse. Las
principales reas de los temas influyen en la parte ms importante de la
estructura clave.
Codificacin
Los diseadores de aplicaciones codifican el campo GENERO en varias
formas. Un diseador representa GENERO como una "M" y una "F", otros
como un "1" y un "0", otros como una "X" y una "Y" e inclusive, como
"masculino" y "femenino".
No importa mucho cmo el GENERO llega al data warehouse.
Probablemente "M" y "F" sean tan buenas como cualquier otra
representacin. Lo importante es que sea de cualquier fuente de donde
venga, el GENERO debe llegar al data warehouse en un estado integrado
uniforme.
Por lo tanto, cuando el GENERO se carga en el data warehouse desde una
aplicacin, donde ha sido representado en formato "M" y "F", los datos
deben convertirse al formato del data warehouse.
Medida de atributos
Los diseadores de aplicaciones miden las unidades de medida de las
tuberas en una variedad de formas. Un diseador almacena los datos de
tuberas en centmetros, otros en pulgadas, otros en millones de pies
cbicos por segundo y otros en yardas.
Al dar medidas a los atributos, la transformacin traduce las diversas
unidades de medida usadas en las diferentes bases de datos para
transformarlas en una medida estndar comn.
Cualquiera que sea la fuente, cuando la informacin de la tubera llegue al
data warehouse necesitar ser medida de la misma manera.
Convenciones de Nombramiento
El mismo elemento es frecuentemente referido por nombres diferentes en
las diversas aplicaciones. El proceso de transformacin asegura que se use
preferentemente el nombre de usuario.
Fuentes Mltiples
El mismo elemento puede derivarse desde fuentes mltiples. En este caso,
el proceso de transformacin debe asegurar que la fuente apropiada sea
usada, documentada y movida al depsito.
Tal como se muestra en la figura, los puntos de integracin afectan casi
todos los aspectos de diseo - las caractersticas fsicas de los datos, la
disyuntiva de tener ms de una de fuente de datos, el problema de
estndares de denominacin inconsistentes, formatos de fecha
inconsistentes y otros.
Cualquiera que sea la forma del diseo, el resultado es el mismo - la
informacin necesita ser almacenada en el data warehouse en un modelo
De Tiempo Variante
Toda la informacin del data warehouse es requerida en algn momento.
Esta caracterstica bsica de los datos en un depsito, es muy diferente de
la informacin encontrada en el ambiente operacional. En stos, la
informacin se requiere al momento de acceder. En otras palabras, en el
ambiente operacional, cuando usted accede a una unidad de informacin,
usted espera que los valores requeridos se obtengan a partir del momento
de acceso.
Como la informacin en el data warehouse es solicitada en cualquier
momento (es decir, no "ahora mismo"), los datos encontrados en el
depsito se llaman de "tiempo variante".
Los datos histricos son de poco uso en el procesamiento operacional. La
informacin del depsito por el contraste, debe incluir los datos histricos
para usarse en la identificacin y evaluacin de tendencias. (Figura N 3).
De Tiempo Variante
La informacin es til slo cuando es estable. Los datos operacionales
cambian sobre una base momento a momento. La perspectiva ms grande,
esencial para el anlisis y la toma de decisiones, requiere una base de datos
estable.
En la Figura N 4 se muestra que la actualizacin (insertar, borrar y
modificar), se hace regularmente en el ambiente operacional sobre una
base de registro por registro. Pero la manipulacin bsica de los datos que
ocurre en el data warehouse es mucho ms simple. Hay dos nicos tipos de
operaciones: la carga inicial de datos y el acceso a los mismos. No hay
actualizacin de datos (en el sentido general de actualizacin) en el
depsito, como una parte normal de procesamiento.
Hay algunas consecuencias muy importantes de esta diferencia bsica,
entre el procesamiento operacional y del data warehouse. En el nivel de
diseo, la necesidad de ser precavido para actualizar las anomalas no es un
factor en el data warehouse, ya que no se hace la actualizacin de datos.
Esto significa que en el nivel fsico de diseo, se pueden tomar libertades
para optimizar el acceso a los datos, particularmente al usar la
normalizacin y desnormalizacin fsica.
Otra consecuencia de la simplicidad de la operacin del data warehouse est
en la tecnologa subyacente, utilizada para correr los datos en el depsito.
Teniendo que soportar la actualizacin de registro por registro en modo online (como es frecuente en el caso del procesamiento operacional) requiere
que la tecnologa tenga un fundamento muy complejo debajo de una
fachada de simplicidad.
Metadata
La data antigua es aquella que se almacena sobre alguna forma de
almacenamiento masivo. No es frecuentemente su acceso y se
almacena a un nivel de detalle, consistente con los datos detallados
actuales. Mientras no sea prioritario el almacenamiento en un medio
de almacenaje alterno, a causa del gran volumen de datos unido al
acceso no frecuente de los mismos, es poco usual utilizar el disco
como medio de almacenamiento.
El componente final del data warehouse es el de la metadata. De
muchas maneras la metadata se sita en una dimensin diferente al
de otros datos del data warehouse, debido a que su contenido no es
tomado directamente desde el ambiente operacional.
La metadata juega un rol especial y muy importante en el data
warehouse y es usada como:
data warehouse (o desde las bases de datos operacionales), sin tener que
conocer dnde residen los datos o la forma en que se han almacenados.
Nivel de Gestin de Procesos
El nivel de gestin de procesos tiene que ver con la programacin de
diversas tareas que deben realizarse para construir y mantener el data
warehouse y la informacin del directorio de datos. Este nivel puede
depender del alto nivel de control de trabajo para muchos procesos
(procedimientos) que deben ocurrir para mantener el data warehouse
actualizado.
Nivel de Mensaje de la Aplicacin
El nivel de mensaje de la aplicacin tiene que ver con el transporte de
informacin alrededor de la red de la empresa. El mensaje de aplicacin se
refiere tambin como "subproducto", pero puede involucrar slo protocolos
de red. Puede usarse por ejemplo, para aislar aplicaciones operacionales o
estratgicas a partir del formato de datos exacto, recolectar transacciones o
los mensajes y entregarlos a una ubicacin segura en un tiempo seguro.
Nivel Data Warehouse (Fsico)
En el data warehouse (ncleo) es donde ocurre la data actual, usada
principalmente para usos estratgicos. En algunos casos, uno puede pensar
del data warehouse simplemente como una vista lgica o virtual de datos.
En muchos ejemplos, el data warehouse puede no involucrar
almacenamiento de datos.
En un data warehouse fsico, copias, en algunos casos, muchas copias de
datos operacionales y/o externos, son almacenados realmente en una forma
que es fcil de acceder y es altamente flexible. Cada vez ms, los data
warehouses son almacenados sobre plataformas cliente/servidor, pero por lo
general se almacenan sobre mainframes.
Nivel de Organizacin de Datos
El componente final de la arquitectura data warehouse es la organizacin de
los datos. Se llama tambin gestin de copia o rplica, pero de hecho,
incluye todos los procesos necesarios como seleccionar, editar, resumir,
combinar y cargar datos en el depsito y acceder a la informacin desde
bases de datos operacionales y/o externas.
La organizacin de datos involucra con frecuencia una programacin
compleja, pero cada vez ms, estn crendose las herramientas data
warehousing para ayudar en este proceso. Involucra tambin programas de
anlisis de calidad de datos y filtros que identifican modelos y estructura de
datos dentro de la data operacional existente.
Sistemas Operacionales
Los datos administrados por los sistemas de aplicacin operacionales son la
fuente principal de datos para el data warehouse.
Las bases de datos operacionales se organizan como archivos indexados
(UFAS, VSAM), bases de datos de redes/jerrquicas (I-D-S/II, IMS, IDMS) o
sistemas de base de datos relacionales (DB2, ORACLE, INFORMIX, etc.).
Segn las encuestas, aproximadamente del 70% a 80% de las bases de
datos de las empresas se organizan usando DBMSS no relacional.
Extraccin, Transformacin y Carga de los Datos
Se requieren herramientas de gestin de datos para extraer datos desde
bases de datos y/o archivos operacionales, luego es necesario manipular o
transformar los datos antes de cargar los resultados en el data warehouse.
Tomar los datos desde varias bases de datos operacionales y transformarlos
en datos requeridos para el depsito, se refiere a la transformacin o a la
integracin de datos. Las bases de datos operacionales, diseadas para el
soporte de varias aplicaciones de produccin, frecuentemente difieren en el
formato.
El sistema de depsito ejecuta las consultas que se pasa a los datos por el
software de acceso a los datos del usuario. Aunque un usuario visualiza las
consultas desde el punto de vista de un GUI, las consultas tpicamente se
formulan como pedidos SQL, porque SQL es un lenguaje universal y el
estndar de hecho para el acceso a datos.
Datos Externos
Dependiendo de la aplicacin, el alcance del data warehouse puede
extenderse por la capacidad de acceder a la data externa. Por ejemplo, los
datos accesibles por medio de servicios de computadora en lnea (tales
como CompuServe y America On Line) y/o va Internet, pueden estar
disponibles a los usuarios del data warehouse.
Evolucin del Depsito
Construir un data warehouse es una tarea grande. No es recomendable
emprender el desarrollo del data warehouse de la empresa como un
proyecto cualquiera. Ms bien, se recomienda que los requerimientos de
una serie de fases se desarrollen e implementen en modelos consecutivos
que permitan un proceso de implementacin ms gradual e iterativo.
No existe ninguna organizacin que haya triunfado en el desarrollo del data
warehouse de la empresa, en un slo paso. Muchas, sin embargo, lo han
logrado luego de un desarrollo paso a paso. Los pasos previos evolucionan
conjuntamente con la materia que est siendo agregada.
Los datos en el data warehouse no son voltiles y es un repositorio de datos
de slo lectura (en general). Sin embargo, pueden aadirse nuevos
elementos sobre una base regular para que el contenido siga la evolucin de
los datos en la base de datos fuente, tanto en los contenidos como en el
tiempo.
Uno de los desafos de mantener un data warehouse, es idear mtodos para
identificar datos nuevos o modificados en las bases de datos operacionales.
Algunas maneras para identificar estos datos incluyen insertar fecha/tiempo
en los registros de base de datos y entonces crear copias de registros
actualizados y copiar informacin de los registros de transaccin y/o base
de datos diarias.
Estos elementos de datos nuevos y/o modificados son extrados, integrados,
transformados y agregados al data warehouse en pasos peridicos
programados. Como se aaden las nuevas ocurrencias de datos, los datos
antiguos son eliminados. Por ejemplo, si los detalles de un sujeto particular
se mantienen por 5 aos, como se agreg la ltima semana, la semana
anterior es eliminada.
Metadata
Otro aspecto de la arquitectura de data warehouse es crear soporte a la
metadata. Metadata es la informacin sobre los datos que se alimenta, se
transforma y existe en el data warehouse. Metadata es un concepto
genrico, pero cada implementacin de la metadata usa tcnicas y mtodos
especficos.
Estos mtodos y tcnicas son dependientes de los requerimientos de cada
organizacin, de las capacidades existentes y de los requerimientos de
interfaces de usuario. Hasta ahora, no hay normas para la metadata, por lo
que la metadata debe definirse desde el punto de vista del software data
warehousing, seleccionado para una implementacin especfica.
Tpicamente, la metadata incluye los siguientes tems:
El modelo de datos del data warehouse (es decir, los elementos de datos y
sus relaciones).
Un registro de cuando los nuevos elementos de datos se agregan al data
warehouse y cuando los elementos de datos antiguos se eliminan o se
resumen.
Los niveles de sumarizacin, el mtodo de sumarizacin y las tablas de
registros de su data warehouse.
Algunas implementaciones de la metadata tambin incluyen definiciones de
la(s) vista(s) presentada(s) a los usuarios del data warehouse. Tpicamente,
se definen vistas mltiples para favorecer las preferencias variadas de
diversos grupos de usuarios. En otras implementaciones, estas
descripciones se almacenan en un Catlogo de Informacin.
Los esquemas y subesquemas para bases de datos operacionales, forman
una fuente ptima de entrada cuando se crea la metadata. Hacer uso de la
documentacin existente, especialmente cuando est disponible en forma
electrnica, puede acelerar el proceso de definicin de la metadata del
ambiente data warehousing.
La metadata sirve, en un sentido, como el corazn del ambiente data
warehousing. Crear definiciones de metadata completa y efectiva puede ser
un proceso que consuma tiempo, pero lo mejor de las definiciones y si usted
usa herramientas de gestin de software integrado, son los esfuerzos que
darn como resultado el mantenimiento del data warehouse.
Flujo de Datos
Existe un flujo de datos normal y predecible dentro del data warehouse. La
Figura N 10 muestra ese flujo.
Los datos ingresan al data warehouse desde el ambiente operacional. (Hay
pocas excepciones a esta regla).
Al ingresar al data warehouse, la informacin va al nivel de detalle actual,
tal como se muestra. Se queda all y se usa hasta que ocurra uno de los
tres eventos siguientes:
Sea eliminado
Sea resumido
Sea archivado
Consideraciones Adicionales
Hay algunas consideraciones adicionales que deben tenerse en cuenta al
construir y administrar el data warehouse.
La primera consideracin es respecto al ndice. La informacin de los niveles
de esquematizacin ms altos pueden ser libremente indexados, mientras
que las de los niveles ms bajos de detalle, por ser tan voluminosa, pueden
ser indexados moderadamente.
Por lo mismo, los datos en los niveles ms altos de detalle pueden ser
reestructurados fcilmente, mientras que el volumen de datos en los niveles
El medio donde se almacena la data debe ser tan seguro como sea
posible.
Los datos deben permitir ser restaurados.
Los datos necesitan un tratamiento especial en su indexacin, ya que
de otra manera los datos pueden no ser accesibles aunque se haya
almacenado con mucha seguridad.
Organizacin de un proyecto
La planificacin es el proceso ms importante que determina la clase de tipo
de estrategias data warehousing que una organizacin iniciar.
Factores en la Planificacion de un Data Warehouse
No existe una frmula de garanta real para el xito de la construccin de
un data warehouse, pero hay muchos puntos que contribuyen a ese
objetivo.
A continuacin, se indican algunos puntos claves que deben considerarse en
la planificacin de un data warehouse:
Establecer una asociacin de usuarios, gestin y grupos
Es esencial involucrar tanto a los usuarios como a la gestin para
asegurar que el data warehouse contenga informacin que satisfaga
los requerimientos de la empresa.
La gestin puede ayudar a priorizar la fase de la implementacin del
data warehouse, as como tambin la seleccin de herramientas del
usuario. Los usuarios y la gestin justifican los costos del data
warehouse sobre cmo ser "su ambiente" y est basado primero en
lo esperado y segundo, en el valor comercial real.
Seleccionar una aplicacin piloto con una alta probabilidad de xito
Una aplicacin piloto de alcance limitado, con un reembolso medible
para los usuarios y la gestin, establecer el data warehouse como
una tecnologa clave para la empresa. Estos mismos criterios (alcance
limitado, reembolso medible y beneficios claros para la empresa) se
aplican a cada fase de la implementacin de un data warehouse.
Construir prototipos rpida y frecuentemente
La nica manera para asegurar que el data warehouse rena las
necesidades de los usuarios, es hacer el prototipo a lo largo del
proceso de implementacin y an ms all, as como agregar los
nuevos datos y/o los modelos en forma permanente. El trabajo
continuo con los usuarios y la gestin es, nuevamente, la clave.
Implementacin incremental
La implementacin incremental reduce riesgos y asegura que el
tamao del proyecto permanezca manejable en cada fase.
Quin es el auditorio?
Cul es el alcance?
Qu tipo de data warehouse debera construirse?
Segunda
Construir una copia de los datos operacionales desde un sistema
operacional nico y posibilitar al data warehouse de una serie de
herramientas de acceso a la informacin.
Tercera
Finalmente, la estrategia data warehousing ptima es seleccionar el
nmero de usuarios basados en el valor de la empresa y hacer un
anlisis de sus puntos, preguntas y necesidades de acceso a datos.
De acuerdo a estas necesidades, se construyen los prototipos data
warehousing y se prueban para que los usuarios finales puedan
experimentar y modificar sus requerimientos.
Una vez se tenga un consenso general sobre las necesidades,
entonces se consiguen los datos provenientes de los sistemas
operacionales existentes a travs de la empresa y/o desde fuentes
externas de datos y se cargan al data warehouse.
Si se requieren herramientas de acceso a la informacin, se puede
tambin permitir a los usuarios finales tener acceso a los datos
requeridos usando sus herramientas favoritas propias, o facilitar la
creacin de sistemas de acceso a la informacin multidimensional de
alta performance, usando el ncleo del data warehouse como base.
En conclusin
No se tiene un enfoque nico para construir un data warehouse que
se adapte a las necesidades de las empresas, debido a que las
necesidades de cada una de ellas son diferentes, al igual que su
contexto.
Adems, como la tecnologa data warehousing va evolucionando, se
aprende cada vez ms y ms sobre el desarrollo de data warehouses,
que resulta en que el nico enfoque prctico para al almacenamiento
de datos es la evolucin de uno mismo.
Estrategias para el Diseo de un Data Warehouse
El diseo de los data warehouses es muy diferente al diseo de los sistemas
operacionales tradicionales. Se pueden considerar los siguientes puntos:
1. Los usuarios de los data warehouses usualmente no conocen mucho
sobre sus requerimientos y necesidades como los usuarios
operacionales.
2. El diseo de un data warehouse, con frecuencia involucra lo que se
piensa en trminos ms amplios y con conceptos del negocio ms
difciles de definir que en el diseo de un sistema operacional. Al
respecto, un data warehouse est bastante cerca a Reingeniera de
los Procesos del Negocio (Business Process Reengineering).
3. Finalmente, la estrategia de diseo ideal para un data warehousing es
generalmente de afuera hacia adentro (outside-in) a diferencia de
arriba hacia abajo (top-down).
Desarrollo de un proyecto
Porque Construir Bloques de Data Warehouse?
Para ampliar un negocio, se necesita que la informacin sea comprensible.
Para muchas compaas, esto significa un gran data warehouse que
muestre, junto a los datos no filtrados y dispersos, nuevas formas creativas
de presentacin.
Las herramientas para capturar y explorar los datos al detalle evolucionan,
as como nuestra capacidad para encontrar las formas de explotar los datos
recolectados.
En los ltimos 10 aos se han combinado dos factores para ayudar a la
difusin de los data warehouses. Ellos son:
local (Local Area Network - LAN) o computadora local que sirve al que
toma decisiones.
Los data warehouses distribuidos comnmente involucran la mayora
de los datos redundantes y como consecuencia de ello, se tienen
procesos de actualizacin y carga ms complejos.
Tipo de Usuario Final
De la misma forma que hay una gran cantidad de maneras para organizar
un data warehouse, es importante notar que tambin hay una gama cada
vez ms amplia de usuarios finales.
En general, se puede considerar tres grandes categoras:
Ejecutivos y gerentes
"Power users" o "Buzo de Informacin" (analistas financieros y de
negocios, ingenieros, etc.)
Usuarios de soporte (de oficina, administrativos, etc.).
Diseo de la Arquitectura
2. Multiprocesamiento simtrico
Las mquinas de multiprocesamiento simtrico (Symmetric
MultiProcessing - SMP) aumentan mediante la adicin de
procesadores que comparten la memoria interna de los servidores y
los dispositivos de almacenamiento de disco.
Se puede adquirir la mayora de SMP en configuraciones mnimas (es
decir, con dos procesadores) y levantar cuando es necesario,
justificando el crecimiento con las necesidades de procesamiento. La
escalabilidad de una mquina SMP alcanza su lmite en el nmero
mximo de procesadores soportados por los mecanismos de conexin
(es decir, el backplane y bus compartido).
Fuentes:
http://www.sinnexus.com/business_intelligence/datawarehouse.aspx
http://www.dataprix.com/que-es-un-datawarehouse
https://www.coursera.org/specializations/data-warehousing
http://artemisa.unicauca.edu.co/~ecaldon/docs/bd/fundamentosdeda
tawarehouse.pdf
http://www.aedem-virtual.com/articulos/iedee/v04/043073.pdf
http://www.gridmorelos.uaem.mx/~mcruz//cursos/miic/datawarehou
se3.pdf
http://www.tutorialspoint.com/dwh/dwh_tutorial.pdf