You are on page 1of 58

Universidad Nacional del Nordeste

Facultad de Ciencias Exactas y Naturales y


Agrimensura
Monografa de Adscripcin:
Sistemas de Bases de Datos Multiplataforma
Integrados a Sistemas Mviles
Alumna: Paola Itat Aguirre-LU: 38046
Prof. Director: Mgter. David Luis La Red Martnez
Licenciatura en Sistemas de Informacin
Corrientes-Argentina
2010
ndice general
1. Introduccin 1
2. Qu es un Data Warehouse? 5
2.1. Nociones Acerca de un DW . . . . . . . . . . . . . . . . . . . . 5
2.2. Qu es lo que Preocupa a los Ejecutivos? . . . . . . . . . . . . 6
2.3. Objetivos del Data Warehouse . . . . . . . . . . . . . . . . . . 6
3. Sistemas de Informacin 9
3.1. Esquema General de los SI . . . . . . . . . . . . . . . . . . . . . 9
3.1.1. Sistemas Estratgicos . . . . . . . . . . . . . . . . . . . 10
3.1.2. Sistemas Tcticos . . . . . . . . . . . . . . . . . . . . . 10
3.1.3. Sistemas Tcnico-Operativos . . . . . . . . . . . . . . . 11
3.1.4. Sistemas Interinstitucionales . . . . . . . . . . . . . . . 11
3.2. Datos Operacionales y Datos Informativos . . . . . . . . . . . . 11
3.3. Caractersticas del Data Warehouse . . . . . . . . . . . . . . . . 13
3.4. Impactos Tcnicos de un DW . . . . . . . . . . . . . . . . . . . 21
4. Modelos de Datos 23
4.1. El Modelo Relacional . . . . . . . . . . . . . . . . . . . . . . . . 23
4.2. El Modelo Dimensional . . . . . . . . . . . . . . . . . . . . . . 24
4.2.1. Esquemas del Modelo Dimensional . . . . . . . . . . . . 25
4.2.2. Ventajas del Modelo Dimensional . . . . . . . . . . . . . 27
5. Operaciones en un Data Warehouse 31
5.1. Tipos de Operaciones . . . . . . . . . . . . . . . . . . . . . . . 31
6. Herramientas de Acceso y Uso 37
6.1. Introduccin . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37
6.2. OLAP (On Line Analytical Processing) . . . . . . . . . . . . . 38
6.3. Data Mining (Minera de Datos) . . . . . . . . . . . . . . . . . 41
iii
i\ NDICE GENERAL
7. Conclusin 47
Bibliografa 49
ndice alfabtico 51
ndice de guras
3.1. Sistema de Informcin. Esquema. . . . . . . . . . . . . . . . . . 10
3.2. Caractersticas del Data Warehouse. Orientado a una materia. 14
3.3. Caractersticas del Data Warehouse. Integracin. . . . . . . . . 18
3.4. Caractersticas del Data Warehouse. Tiempo Variante. . . . . . 19
3.5. Caractersticas del Data Warehouse. No Voltil. . . . . . . . . . 21
4.1. Modelo de Datos. Esquema en Estrella. . . . . . . . . . . . . . 26
4.2. Modelos de Datos. Esquema Copo de Nieve. . . . . . . . . . . . 28
5.1. Operaciones en el Data Warehouse. . . . . . . . . . . . . . . . . 32
6.1. Estructura Multidimensional. . . . . . . . . . . . . . . . . . . . 39
6.2. Modelo ROLAP y MOLAP. . . . . . . . . . . . . . . . . . . . . 40
6.3. Etapas en un Proyecto de MD. . . . . . . . . . . . . . . . . . . 43
\
Captulo 1
Introduccin
La ubicuidad es la propiedad por la cual una entidad existe o se encuen-
tra en todos los sitios al mismo tiempo. La Computacin Ubicua pretende la
integracin de las nuevas tecnologas en el entorno personal, insertando dis-
positivos inteligentes en las tareas diarias, haciendo que interacten de forma
natural y desinhibida en todo tipo de situaciones y circunstancias. De esta for-
ma se pretende unir el mundo real con una representacin virtual, apoyndose
sobre la inteligencia ambiental y logrando el entorno inteligente.
Uno de los objetivos ms importantes de la Computacin Ubicua es inte-
grar los dispositivos computacionales lo ms posible, para hacer que se mezclen
en la vida cotidiana, y permitir a los usuarios centrarse en las tareas que deben
hacer, y no en las herramientas que deben usar, pudiendo suponer una revolu-
cin que cambie el modo de vida.
Para lograr la integracin de los dispositivos mviles se utiliza el protocolo
de aplicaciones inalmbricas, Wireless Application Protocol o WAP; es un es-
tndar abierto internacional para aplicaciones que utilizan las comunicaciones
inalmbricas, por ej., acceso a servicios de Internet desde un telfono mvil.
Se trata de la especicacin de un entorno de aplicacin y de un conjunto de
protocolos de comunicaciones para normalizar el modo en que los dispositivos
inalmbricos se pueden utilizar para acceder a correo electrnico, grupo de
noticias y otros.
El organismo que se encarga de desarrollar el estndar WAP fue original-
mente el WAP Forum, fundado por cuatro empresas del sector de las comuni-
1
2 CAPTULO 1. INTRODUCCIN
caciones mviles, Sony-Ericsson, Nokia, Motorola y Openwave (originalmente
Unwired Planet). Desde 2002 el WAP Forum es parte de la Open Mobile Al-
liance (OMA), consorcio que se ocupa de la denicin de diversas normas
relacionadas con las comunicaciones mviles, entre ellas las normas WAP.
Los dispositivos de computacin inalmbrica han crecido rpidamente, re-
quiriendo aplicaciones de software cada vez ms potentes que puedan manejar
esta nueva realidad. Los usuarios desean que las aplicaciones que corren en
sus dispositivos mviles tengan la misma funcionalidad estando conectados o
desconectados de la red. Esperan aplicaciones que puedan soportar conexiones
intermitentes, anchos de banda cambiantes y que manejen ecientemente el
problema del roaming.
Los dispositivos mviles pueden acceder a sistemas de bases de datos multi-
plataforma, trmino usado para referirse a los programas, sistemas operativos,
lenguajes de programacin, u otra clase de software, que puedan funcionar
en diversas plataformas., ejemplo DB2. Una plataforma es una combinacin
de hardware y software usada para ejecutar aplicaciones, en su forma ms
simple consiste nicamente de un sistema operativo, una arquitectura, o una
combinacin de ambos.
En muchos sistemas no solo se accede a las bases de datos sino tambin a
los Data Warehouse. Debido a que los niveles gerenciales necesitan a menudo
tomar decisiones de alto nivel, cruciales para el funcionamiento de la empresa.
El Data Warehouse permite que los gerentes tomen decisiones siguiendo un
enfoque racional, basados en informacin conable y oportuna. Consiste bsi-
camente en la transformacin de los datos operacionales en informacin til
para decidir. El uso del Data Warehouse permite tambin encontrar relaciones
ocultas entre los datos y predecir el comportamiento futuro bajo condiciones
dadas.
El trabajo con los Data Warehouses es diferente al de los sistemas transac-
cionales. Se modelan los datos a partir de dimensiones, en lugar del tradicional
modelado relacional, y las herramientas de acceso a los datos se basan en
una tecnologa de procesamiento analtico (OLAP), distinta al procesamiento
transaccional (OLTP) de los sistemas operacionales.
Los datos operacionales que sirven de entrada al Data Warehouse general-
mente estn dispersos en distintos sistemas de la organizacin, desarrollados
en diferentes entornos de desarrollo, por diferentes personas y en diferentes
momentos. Es tarea fundamental del Data Warehouse recolectarlos, unicar-
los y depurarlos segn las necesidades del negocio, eliminando inconsistencias
y conservando slo la informacin til para los objetivos empresariales. Esto
se lleva a cabo mediante procesos que se ejecutan peridicamente y conducen
a mantener la informacin actualizada.
Las aplicaciones de usuario nal que acceden al Data Warehouse brindan a
los gerentes la posibilidad de ver la informacin con diferentes niveles de agre-
gacin (detallados o resumidos) y ltrar las consultas por distintas variables.
Finalmente, el Data Warehouse permite aplicar herramientas como el Data
Mining, para encontrar relaciones entre los datos a n de comprender las
causas de variabilidad presentes y realizar pronsticos con el apoyo de modelos
estadsticos.
En la sociedad actual, la informacin constituye un activo esencial de
cualquier organizacin proporcionando benecios signicativos, tangibles y
cuanticables. Como consecuencia, la integracin de un Data Warehouse a
la empresa representa una ventaja competitiva en el mundo de los negocios
y acceder a ellos desde los dispositivos mviles es una alternativa adicional
importante.
4 CAPTULO 1. INTRODUCCIN
Captulo 2
Qu es un Data Warehouse?
2.1. Nociones Acerca de un DW
De acuerdo con W. H. Inmon, quien es considerado como el padre del Data
Warehouse: un Data Warehouse es un conjunto de datos integrados orientados
a una materia que varan con el tiempo y que no son transitorios, los cuales
soportan el proceso de toma de decisiones de una administracin.
De acuerdo con algunas organizaciones, el Data Warehouse es una arquitec-
tura. Para otras, es un depsito semnticamente consistente en datos (separa-
dos y que no intereren con los sistemas operativos y de produccin existentes)
que llenan por completo los diferentes requerimientos de acceso y reporte de
datos. Para algunos otros, el Data Warehouse es un proceso continuo que
mezcla los datos de varias fuentes heterogneas, incluyendo datos histricos
y adquiridos para soportar la constante necesidad de consultas estructuradas
y/o ad hoc, reportes analticos y soporte de decisiones.
As como hay gran divergencia para establecer una denicin precisa de
un Data Warehouse, hay un claro consenso de que la tecnologa del Data
Warehouse es un ingrediente esencial en el conjunto de soluciones para el
soporte de decisiones en una empresa.
Un DW es una base de datos corporativa que se caracteriza por integrar
y depurar informacin de una o ms fuentes distintas, para luego procesarla
permitiendo su anlisis desde innidad de perspectivas y con grandes veloci-
dades de respuesta. La creacin de un DW representa en la mayora de las
5
6 CAPTULO 2. QU ES UN DATA WAREHOUSE?
ocasiones el primer paso, desde el punto de vista tcnico, para implantar una
solucin completa y able de Business Intelligence.
Es un repositorio de datos de muy fcil acceso, alimentado de numerosas
fuentes, transformadas en grupos de informacin sobre temas especcos de
negocios, para permitir nuevas consultas, anlisis y decisiones.
2.2. Qu es lo que Preocupa a los Ejecutivos?
Se tienen montaas de datos en la compaa, pero no podemos llegar a
ellos adecuadamente. Nada enloquece ms a los ejecutivos que dos personas
presentando el mismo resultado de operacin pero con diferentes nmeros y
los ejecutivos lo que buscan es ver la informacin pero desde diferentes n-
gulos, mostrando nicamente lo que es importante para tomar una decisin
en la empresa, nalmente los ejecutivos saben que hay datos que nunca sern
conables, por lo que preeren que se eviten en los reportes ejecutivos.
Uno de los valores ms importantes de una organizacin es la informacin.
Estos valores normalmente son guardados por la organizacin de dos for-
mas:
Los sistemas operacionales de registros.
El Data Warehouse.
Crudamente hablando, los sistemas operacionales de registros son donde
los datos son depositados y el DW es de donde se extraen los datos para la
toma de decisiones.
2.3. Objetivos del Data Warehouse
Hace que la informacin de la organizacin sea accesible: los contenidos
del DW son entendibles y navegables, y el acceso a ellos est caracterizado
por el rpido desempeo. Estos requerimientos no tienen fronteras y tampoco
lmites jos. Cuando hablamos de entendible signica que los niveles de la
informacin sean correctos y obvios. Navegables signica el reconocer el destino
en la pantalla y llegar a donde queramos con solo un click. Rpido desempeo
signica, cero tiempos de espera. Todo lo dems es un compromiso y por
consiguiente algo que se quiere mejorar.
Hace que la informacin de la organizacin sea consistente: la informacin
de una parte de la organizacin puede hacerse coincidir con la informacin
de la otra parte de la organizacin. Si dos medidas de la organizacin tienen
el mismo nombre, entonces deben signicar la misma cosa. Y a la inversa, si
dos medidas no signican la misma cosa, entonces son etiquetados diferentes.
Informacin consistente signica, informacin de alta calidad. Signica que
toda la informacin es contabilizada y completada.
Es informacin adaptable y elstica: el DW est diseado para cambios
continuos. Cuando se le hacen nuevas preguntas al DW y se le agregan datos
nuevos, los datos existentes y las tecnologas no cambian ni se corrompen.
Es fundamental para la toma de decisiones: el DW tiene los datos correctos
para soportar la toma de decisiones. Podra decirse que la salida verdadera del
DW son las decisiones que se toman despus de que el DW haya presentado las
evidencias. Se pretende utilizar el DW para construir un sistema de soporte a
las decisiones.
8 CAPTULO 2. QU ES UN DATA WAREHOUSE?
Captulo 3
Sistemas de Informacin
3.1. Esquema General de los SI
Hay funciones dentro de la empresa que tienen que ver con el planeamiento,
previsin y administracin de la organizacin. Estas funciones son crticas para
la supervivencia de la organizacin, especialmente en un mundo de rpidos
cambios.
Las funciones como planicacin de marketing, planeamiento de ingeniera
y anlisis nanciero, requieren, adems, de sistemas de informacin que las
soporte.
Pero estas funciones son diferentes de las operacionales y los tipos de sis-
temas y la informacin requerida son tambin diferentes. Las funciones basadas
en el conocimiento son los Sistemas de Soporte de Decisiones (SSD).
Estos sistemas estn relacionados con el anlisis de los datos y la toma de
decisiones, frecuentemente, decisiones importantes sobre cmo operar la em-
presa, ahora y en el futuro. Estos sistemas no slo tienen un enfoque diferente
al de los operacionales, sino que, por lo general, tienen un alcance diferente.
Mientras las necesidades de los datos operacionales se enfocan normalmente
hacia una sola rea, los datos para el soporte de decisiones, con frecuencia,
toman un nmero de reas diferentes y necesitan cantidades grandes de datos
operacionales relacionadas.
Son estos sistemas sobre los que se basa la tecnologa Data Warehousing
9
10 CAPTULO 3. SISTEMAS DE INFORMACIN

Figura 3.1: Sistema de Informcin. Esquema.
que se han dividido de acuerdo al esquema que se puede visualizar en la gura
3.1 de la pgina 10.
3.1.1. Sistemas Estratgicos
Orientados a soportar la toma de decisiones, facilitan la labor de la direc-
cin, proporcionndole un soporte bsico, en forma de mejor informacin, para
la toma de decisiones. Se caracterizan porque son sistemas sin carga peridica
de trabajo, es decir, su utilizacin no es predecible. Destacan entre estos sis-
temas: los Sistemas de Informacin Gerencial (MIS), Sistemas de Informacin
Ejecutivos (EIS), Sistemas de Informacin Georeferencial (GIS), Sistemas de
Simulacin de Negocios (BIS y que en la prctica son Sistemas Expertos o de
Inteligencia Articial-AI).
3.1.2. Sistemas Tcticos
Diseados para soportar las actividades de coordinacin de actividades y
manejo de documentacin, denidos para facilitar consultas sobre informacin
almacenada en el sistema, proporcionar informes y, en resumen, facilitar la
3.2. DATOS OPERACIONALES Y DATOS INFORMATIVOS 11
gestin independiente de la informacin por parte de los niveles intermedios de
la organizacin. Destacan entre ellos: los Sistemas Omticos (OA), Sistemas
de Transmisin de Mensajera (E-mail y Fax Server), coordinacin y control de
tareas (Work Flow) y tratamiento de documentos (Imagen, Trmite y Bases
de Datos Documentarios).
3.1.3. Sistemas Tcnico-Operativos
Cubren el ncleo de operaciones tradicionales de captura masiva de datos
(Data Entry) y servicios bsicos de tratamiento de datos, con tareas pre-
denidas (contabilidad, facturacin, almacn, presupuesto, personal y otros
sistemas administrativos). Estos sistemas estn evolucionando con la irrup-
cin de sensores, autmatas, sistemas multimedia, bases de datos relacionales
ms avanzadas y data warehousing.
3.1.4. Sistemas Interinstitucionales
Este ltimo nivel de sistemas de informacin recin est surgiendo, es con-
secuencia del desarrollo organizacional orientado a un mercado de carcter
global, el cual obliga a pensar e implementar estructuras de comunicacin
ms estrechas entre la organizacin y el mercado (Empresa Extendida, Or-
ganizacin Inteligente e Integracin Organizacional), todo esto a partir de la
generalizacin de las redes informticas de alcance nacional y global (Inter-
net), que se convierten en vehculo de comunicacin entre la organizacin y el
mercado, no importa dnde est la organizacin (Intranet), el mercado de la
institucin (Extranet) y el mercado (Red Global).
Sin embargo, la tecnologa data warehousing basa sus conceptos y diferen-
cias entre dos tipos fundamentales de sistemas de informacin en todas las
organizaciones: los sistemas tcnico-operacionales y los sistemas de soporte de
decisiones. Este ltimo es la base de un data warehouse [1].
3.2. Datos Operacionales y Datos Informativos
El proceso automatizado de un negocio utiliza datos operacionales, los que
constituyen el conjunto de registros de las transacciones del negocio.
12 CAPTULO 3. SISTEMAS DE INFORMACIN
Estos datos son creados durante la ejecucin de estos procesos y son al-
macenados en un archivo o en una base de datos. Frecuentemente contienen
valores incorrectos, son muy detallados y son de mnimo uso en los negocios
debido a su gran volumen, ubicacin y formatos.
En conclusin, es difcil para los usuarios del negocio tener acceso a los
datos operacionales debido a las limitaciones de performance y tecnologa.
Lo que el usuario del negocio necesita como entrada a sus actividades de
anlisis son datos informativos.
Estos son una combinacin de datos operacionales que han sido modi-
cados, depurados, transformados, consolidados y organizados desde diversas
fuentes externas al proceso del negocio.
Este tipo de informacin generalmente es especco para un conjunto de
usuarios del negocio que lo hacen signicante y til para su anlisis.
Ambos tipos de datos y ambos tipos de uso son muy importantes, pero es
difcil cumplir con ambos propsitos en el mismo sistema.
Los datos operacionales son especcos para cada aplicacin y usualmente
son almacenados de manera separada por otras aplicaciones. Estos datos son
tiles en la medida en que se aprovechen para satisfacer el proceso de las
aplicaciones predenidas.
Mayormente se requieren slo datos actuales y estos deben ser mantenidos
al da haciendo actualizaciones frecuentes en la base de datos. En cambio,
para los datos informativos, el usuario necesita datos que crucen por varias
aplicaciones, que estn reorganizados por temas de negocio, que contengan
valores histricos, que se encuentren disponible para anlisis durante perodos
largos y que sea accesible de manera fcil y exible.
Los datos operacionales son manejados, precisamente, por los sistemas ope-
racionales o transaccionales (On Line Transactional Processing, OLTP), los
cuales se concentran en la administracin y la medicin de indicadores empre-
sariales (capital e inversin), indicadores nancieros (mrgenes de utilidades,
rotacin de inventarios), indicadores de ventas (identicacin de clientes per-
sistentes), etc.
Por su parte, los datos informativos son los que conforman un DW, el
cual tiene como n comprender, medir y administrar parmetros empresariales
estratgicos, como el crecimiento del ingreso y rentabilidad, la participacin
3.3. CARACTERSTICAS DEL DATA WAREHOUSE 13
del mercado y los segmentos del cliente.
En el siguiente cuadro se muestran las diferencias entre los datos operacio-
nales y los datos informativos.
Datos Operacionales:
Orientados a una aplicacin.
Integracin limitada.
Constantemente actualizados.
Slo valores actuales.
Soportan operaciones diarias.
Datos Informativos:
Orientados a un tema.
Integrados.
No voltiles.
Valores a lo largo del tiempo.
Soportan decisiones de administracin.
3.3. Caractersticas del Data Warehouse
Entre sus principales caractersticas tenemos:
Orientado a Temas
Una primera caracterstica del DW es que la informacin se clasica en base
a los aspectos que son de inters para la empresa. Siendo as, los datos tomados
estn en contraste con los clsicos procesos orientados a las aplicaciones.
El contraste entre los dos tipos de orientaciones se visualiza en la gura
3.2 de la pgina 14.
14 CAPTULO 3. SISTEMAS DE INFORMACIN
Figura 3.2: Caractersticas del Data Warehouse. Orientado a una materia.
3.3. CARACTERSTICAS DEL DATA WAREHOUSE 15
El ambiente operacional se disea alrededor de las aplicaciones y funciones
tales como prstamos, ahorros, tarjeta bancaria y depsitos para una insti-
tucin nanciera. Por ejemplo, una aplicacin de ingreso de rdenes puede
acceder a los datos sobre clientes, productos y cuentas. La base de datos com-
bina estos elementos en una estructura que acomoda las necesidades de la
aplicacin.
El ambiente DW se organiza alrededor de sujetos tales como cliente, vende-
dor, producto y actividad. Por ejemplo, para un fabricante, stos pueden ser
clientes, productos, proveedores y vendedores. Para una universidad pueden
ser estudiantes, clases y profesores. Para un hospital pueden ser pacientes,
personal mdico, medicamentos, etc.
La alineacin alrededor de las reas de los temas afecta el diseo y la
implementacin de los datos encontrados en el DW. Las principales reas de
los temas inuyen en la parte ms importante de la estructura clave [2].
Las aplicaciones estn relacionadas con el diseo de la base de datos y del
proceso. En DW se enfoca el modelamiento de datos y el diseo de la base
de datos. El diseo del proceso (en su forma clsica) no es separado de este
ambiente.
Las diferencias entre la orientacin de procesos, funciones de las aplica-
ciones y la orientacin a temas, radican en el contenido del dato a escala
detallada. En el DW se excluye la informacin que no ser usada por el pro-
ceso de sistemas de soporte de decisiones, mientras que la informacin de las
orientadas a las aplicaciones, contiene datos para satisfacer de inmediato los
requerimientos funcionales y de proceso, que pueden ser usados o no por el
analista de soporte de decisiones.
Otra diferencia importante est en la interrelacin de la informacin. Los
datos operacionales mantienen una relacin continua entre dos o ms tablas
basadas en una regla comercial que est vigente. Las del DW miden un espec-
tro de tiempo y las relaciones encontradas son muchas. Muchas de las reglas
comerciales (y sus correspondientes relaciones de datos) se representan en el
DW, entre dos o ms tablas.
Integrado
Integra datos recolectados de diferentes sistemas operacionales de la orga-
nizacin y o fuentes externas.
16 CAPTULO 3. SISTEMAS DE INFORMACIN
El aspecto ms importante del ambiente DW es que la informacin encon-
trada en el interior est siempre integrada.
La integracin de los datos se muestra de muchas maneras: en conven-
ciones de nombres consistentes, en la medida uniforme de variables, en la
codicacin de estructuras consistentes, en atributos fsicos de los datos con-
sistentes, fuentes mltiples y otros.
A travs de los aos, los diseadores de las diferentes aplicaciones han
tomado sus propias decisiones sobre cmo se debera construir una aplicacin.
Los estilos y diseos personalizados se muestran de muchas maneras.
Se diferencian en la codicacin, en las estructuras claves, en sus carac-
tersticas fsicas, en las convenciones de nombramiento y otros. La capacidad
colectiva de muchos de los diseadores de aplicaciones, para crear aplicaciones
inconsistentes.
Codicacin. Los diseadores de aplicaciones codican el campo gnero en
varias formas. Un diseador representa gnero como una M y una F, otros
como un 1 y un 0, otros como una X y una Y e inclusive, como masculino y
femenino.
No importa mucho cmo el gnero llega al DW. Probablemente M y F
sean tan buenas como cualquier otra representacin. Lo importante es que sea
de cualquier fuente de donde venga, el gnero debe llegar al DW en un estado
integrado uniforme.
Por lo tanto, cuando el gnero se carga en el DW desde una aplicacin,
donde ha sido representado en formato M y F, los datos deben convertirse al
formato del DW.
Medida de atributos. Los diseadores de aplicaciones miden las unidades
de medida de las tuberas en una variedad de formas. Un diseador almacena
los datos de tuberas en centmetros, otros en pulgadas, otros en millones de
pies cbicos por segundo y otros en yardas.
Al dar medidas a los atributos, la transformacin traduce las diversas
unidades de medida usadas en las diferentes bases de datos para transfor-
marlas en una medida estndar comn.
Cualquiera que sea la fuente, cuando la informacin de la tubera llegue al
DW necesitar ser medida de la misma manera.
3.3. CARACTERSTICAS DEL DATA WAREHOUSE 17
Convenciones de nombramiento. El mismo elemento es frecuentemente
referido por nombres diferentes en las diversas aplicaciones. El proceso de
transformacin asegura que se use preferentemente el nombre de usuario.
Fuentes mltiples. El mismo elemento puede derivarse desde fuentes mlti-
ples. En este caso, el proceso de transformacin debe asegurar que la fuente
apropiada sea usada, documentada y movida al depsito.
Tal como se muestra en la gura 3.3 de la pgina 18, los puntos de inte-
gracin afectan casi todos los aspectos de diseo - las caractersticas fsicas de
los datos, la disyuntiva de tener ms de una de fuente de datos, el problema de
estndares de denominacin inconsistentes, formatos de fecha inconsistentes y
otros.
Cualquiera que sea la forma del diseo, el resultado es el mismo; la infor-
macin necesita ser almacenada en el DW en un modelo globalmente aceptable
y singular, aun cuando los sistemas operacionales subyacentes almacenen los
datos de manera diferente.
Cuando el analista de sistema de soporte de decisiones observe el DW, su
enfoque deber estar en el uso de los datos que se encuentren en el depsito,
antes que preguntarse sobre la conabilidad o consistencia de los datos.
De Tiempo Variante (Variable en el Tiempo)
Los datos son relativos a un perodo de tiempo y estos deben ser integrados
peridicamente; los mismos son almacenados como fotos que se corresponden
a un perodo de tiempo como se puede visualizar en la gura 3.4 de la pgina
19.
Toda la informacin del DW es requerida en algn momento. Esta carac-
terstica bsica de los datos en un depsito, es muy diferente de la informacin
encontrada en el ambiente operacional. En stos, la informacin se requiere al
momento de acceder. En otras palabras, en el ambiente operacional, cuando
se accede a una unidad de informacin, se espera que los valores requeridos se
obtengan a partir del momento de acceso.
Como la informacin en el DW es solicitada en cualquier momento (es
decir, no ahora mismo), los datos encontrados en el depsito se llaman de
tiempo variante.
Los datos histricos son de poco uso en el procesamiento operacional. La
informacin del depsito, a su vez, debe incluir los datos histricos para usarse
18 CAPTULO 3. SISTEMAS DE INFORMACIN
Figura 3.3: Caractersticas del Data Warehouse. Integracin.
3.3. CARACTERSTICAS DEL DATA WAREHOUSE 19
Figura 3.4: Caractersticas del Data Warehouse. Tiempo Variante.
en la identicacin y evaluacin de tendencias [2].
El tiempo variante se muestra de varias maneras:
La ms simple es que la informacin representa los datos sobre un hor-
izonte largo de tiempo, desde cinco a diez aos. El horizonte de tiempo
representado para el ambiente operacional es mucho ms corto; desde va-
lores actuales hasta sesenta a noventa das. Las aplicaciones que tienen un
buen rendimiento y estn disponibles para el procesamiento de transac-
ciones, deben llevar una cantidad mnima de datos si tienen cualquier
grado de exibilidad. Por ello, las aplicaciones operacionales tienen un
corto horizonte de tiempo, debido al diseo de aplicaciones rgidas.
La segunda manera en la que se muestra el tiempo variante en el DW
est en la estructura clave. Cada estructura clave en el DW contiene,
implcita o explcitamente, un elemento de tiempo como da, semana,
mes, etc.
La tercera manera en que aparece el tiempo variante es cuando la infor-
macin del DW, una vez registrada correctamente, no puede ser actua-
lizada. La informacin del DW es, para todos los propsitos prcticos,
20 CAPTULO 3. SISTEMAS DE INFORMACIN
una serie larga de snapshots (vistas instantneas). Por supuesto, si los
snapshots de los datos se han tomado incorrectamente, entonces pueden
ser cambiados. Asumiendo que los snapshots se han tomado adecuada-
mente, ellos no son alterados una vez hechos. En algunos casos puede
ser no tico, e incluso ilegal, alterar los snapshots en el DW. Los datos
operacionales, siendo requeridos a partir del momento de acceso, pueden
actualizarse de acuerdo a la necesidad [2].
No Voltil
Los datos que son almacenados no sufren ninguna actualizacin, slo son
incrementados. El perodo cubierto para un DW va de 2 a 10 aos.
La informacin es til slo cuando es estable. Los datos operacionales cam-
bian sobre una base momento a momento. La perspectiva ms grande, esencial
para el anlisis y la toma de decisiones, requiere una base de datos estable.
Hay algunas consecuencias muy importantes de esta diferencia bsica, entre
el procesamiento operacional y del DW. En el nivel de diseo, la necesidad de
ser precavido para actualizar las anomalas no es un factor en el DW, ya
que no se hace la actualizacin de datos. Esto signica que en el nivel fsico
de diseo, se pueden tomar libertades para optimizar el acceso a los datos,
particularmente al usar la normalizacin y desnormalizacin fsica.
Otra consecuencia de la simplicidad de la operacin del DW est en la
tecnologa subyacente, utilizada para correr los datos en el depsito. Teniendo
que soportar la actualizacin de registro por registro en modo on-line (como es
frecuente en el caso del procesamiento operacional) requiere que la tecnologa
tenga un fundamento muy complejo debajo de una fachada de simplicidad [2].
Se muestra que la actualizacin (insertar, borrar y modicar), se hace re-
gularmente en el ambiente operacional sobre una base de registro por registro.
Pero la manipulacin bsica de los datos que ocurre en el DW es mucho ms
simple. Hay dos nicos tipos de operaciones: la carga inicial de datos y el
acceso a los mismos. No hay actualizacin de datos (en el sentido general de
actualizacin) en el depsito, como una parte normal de procesamiento, como
se puede visualizar en la gura 3.5 de la pgina 21.
3.4. IMPACTOS TCNICOS DE UN DW 21
Figura 3.5: Caractersticas del Data Warehouse. No Voltil.
3.4. Impactos Tcnicos de un DW
Las principales razones para la construccin de un DW son las siguientes:
Proporciona una herramienta para la toma de decisiones en cualquier
rea funcional, basndose en informacin integrada y global del negocio.
Facilita la aplicacin de tcnicas estadsticas de anlisis y modelizacin
para encontrar relaciones ocultas entre los datos del almacn; obteniendo
un valor aadido para el negocio de dicha informacin.
Proporciona la capacidad de aprender de los datos del pasado y de pre-
decir situaciones futuras en diversos escenarios.
Simplica dentro de la empresa la implantacin de sistemas de gestin
integral de la relacin con el cliente.
Supone una optimizacin tecnolgica y econmica en entornos de Centro
de Informacin, estadstica o de generacin de informes con importantes
retornos de la inversin.
Considerando las etapas de construccin, soporte del DW y soporte de
sistemas operacionales, se tienen los siguientes impactos tcnicos:
Nuevas destrezas de desarrollo: Cuando se construye el DW, el im-
pacto ms grande sobre la gente tcnica est dada por la curva de aprendizaje,
muchas destrezas nuevas se deben aprender, incluyendo:
Conceptos y estructura DW.
El DW introduce muchas tecnologas nuevas (ETT, Carga, Acceso de
Datos, Catlogo de Metadatos, Implementacin de DSS/EIS), y cambia
la manera en que se usa la tecnologa existente. Nuevas responsabilidades
de soporte, nuevas demandas de recursos y nuevas expectativas, son los
efectos de estos cambios.
Destrezas de diseo y anlisis donde los requerimientos empresariales no
son posibles de denir de una forma estable a travs del tiempo.
Tcnicas de desarrollo incremental y evolutivo.
Trabajo en equipo cooperativo con gente de negocios como participantes
activos en el desarrollo del proyecto.
Nuevas responsabilidades de operacin: Cambios sobre los sistemas
y datos operacionales deben ser examinados ms cuidadosamente para deter-
minar el impacto que estos cambios tienen sobre ellos, y sobre el DW.
Captulo 4
Modelos de Datos
Para comprender uno de los aspectos ms relevantes de la arquitectura
del DW, como es el modelado de datos, es necesario establecer primero las
diferencias sustanciales entre los dos mundos de modelado existentes: entidad-
relacin (ER) y dimensional.
El modelado entidad-relacin se utiliza habitualmente para crear un nico
modelo complejo de todos los procesos de una organizacin. Este enfoque
ha demostrado ser efectivo para crear sistemas ecientes de procesamiento
transaccional en lnea (OLTP).
Por otra parte, el modelado dimensional crea modelos individuales para
reejar procesos discretos de negocio. Este modelado organiza la informacin
en estructuras que usualmente corresponden a la forma en que los analistas
realizan sus consultas de los datos del DW.
4.1. El Modelo Relacional
En la mayora de los sistemas transaccionales el objetivo del modelo es
garantizar la integridad de los datos, adems de eliminar cualquier tipo de
redundancia en los datos. Este enfoque es perfecto para los entornos de proce-
samiento transaccional, porque las transacciones son muy simples y determi-
nistas.
El xito del procesamiento transaccional en un entorno de bases de datos
23
24 CAPTULO 4. MODELOS DE DATOS
relacionales se debe bsicamente a esta disciplina de modelado.
Sin embargo, para el propsito de un DW, el modelo relacional (ER) pre-
senta los siguientes problemas:
Legibilidad limitada. Los usuarios nales no son capaces de entender el
modelo ER. Por tanto, no pueden navegar por dicho modelo en busca
de informacin.
Dicultad para las herramientas de consulta en el acceso a un modelo
ER general. Las herramientas de consulta a menudo poseen prestaciones
mediocres o inaceptables cuando se trabaja en entornos relacionales de
grandes volmenes de informacin.
La utilizacin de la tcnica de modelado ER frustra el principal atractivo
del DW. Al utilizar el modelado ER queda frustrada la recuperacin de
informacin intuitiva y con alto rendimiento.
4.2. El Modelo Dimensional
Es una tcnica de diseo lgico que busca presentar la informacin en
un marco estndar e intuitivo que permita un acceso de alto rendimiento.
Este modelado se vale de los principios de la disciplina que emplea el modelo
relacional con algunas importantes restricciones.
El modelado dimensional es esencialmente til para resumir y organizar los
datos y la presentacin de informacin para soportar el anlisis de la misma.
Existen algunos conceptos bsicos para comprender la losofa de este tipo de
modelado: reas tema, medidas, dimensiones y hechos.
Un rea tema es una cuestin de inters de una funcin empresarial. Las
reas tema en conjunto constituyen el mbito de implementacin del DW. Por
ejemplo, el departamento de Comercializacin de una empresa puede estar
interesado en las reas tema de pedidos, promociones, mercados y ventas.
Para especicar las reas tema se deben identicar las medidas. Una medi-
da o indicador es un cuanticador del desempeo de un tem o una actividad
del negocio. La informacin que brinda una medida es usada por los usuarios
en sus consultas para evaluar el desempeo de un rea tema.
4.2. EL MODELO DIMENSIONAL 25
El DW organiza un gran conjunto de datos operacionales mediante mlti-
ples dimensiones. Una dimensin es una coleccin de miembros o entidades
del mismo tipo y constituye un calicador conceptual que provee el contexto
o signicado para una medida.
La forma de representar la organizacin de los datos en un modelo di-
mensional es a travs de un cubo (el cual no necesariamente debe tener tres
dimensiones). Los miembros de una dimensin pueden estar organizados en
una o ms jerarquas.
Una jerarqua es un conjunto de miembros de una dimensin, los cuales se
denen por su posicin relativa con respecto a los otros miembros de la misma
dimensin, y forman en su totalidad una estructura de rbol. Partiendo de la
raz del rbol, los miembros son progresivamente ms detallados hasta llegar
a las hojas, donde se obtiene el mayor nivel de detalle.
Puede darse el caso en que una dimensin no necesite jerarquizarse debido
a que ninguno de sus miembros posee una posicin relativa con respecto a los
otros miembros. Por ejemplo, una dimensin cliente que tiene como miembros
nombre, sexo y fecha de nacimiento, no necesita organizar estos miembros
porque todos estn al mismo nivel de detalle, a menos que se desee agruparlos
por alguno de ellos para visualizar los datos.
4.2.1. Esquemas del Modelo Dimensional
Esquema Estrella (star): cada modelo dimensional est compuesto de
una tabla central con una clave primaria compuesta, denominada tabla de
hechos; y un conjunto de tablas perifricas denominadas tablas de dimensiones.
Cada una de las tablas de dimensiones tiene una clave primaria que corres-
ponde exactamente con uno de los componentes de la clave compuesta de la
tabla de hechos. Las tablas de hechos, adems de sus campos clave, contienen
una o ms medidas, indicadores o hechos. Las medidas ms tiles en una tabla
de hechos son numricas y aditivas. La aditividad es crucial porque las apli-
caciones DW casi nunca recuperan un solo registro de la tabla de hechos, sino
que acceden a cientos, miles o incluso millones de registros a la vez.
Las tablas de dimensiones, por el contrario, contienen informacin textual
descriptiva. Los atributos de las dimensiones se emplean como fuente de las
restricciones en las consultas al DW.
26 CAPTULO 4. MODELOS DE DATOS

Figura 4.1: Modelo de Datos. Esquema en Estrella.
En el modelo estrella las dimensiones no se normalizan. Con ello se logra
minimizar el nmero de uniones y, por consiguiente, incrementar el rendimien-
to de las consultas (una tabla de hechos est relacionada con numerosas tablas
de dimensiones), como se puede ver en la gura 4.1 de la pgina 26.
Esquema Copo de Nieve (snowake): en este modelado se normalizan
las dimensiones reejando las jerarquas en las mismas y conservando lo esen-
cial del modelo en estrella que son las tablas de hechos. La ventaja del modelo
copo de nieve es eliminar la redundancia de datos y por lo tanto ocupar menos
espacio en disco.
En las bases de datos usadas para DW, un esquema en estrella es un modelo
de datos que tiene una tabla de hechos (o tabla fact) que contiene los datos
para el anlisis, rodeada de las tablas de dimensiones. Este aspecto, de tabla
4.2. EL MODELO DIMENSIONAL 27
de hechos (o central) ms grande rodeada de radios o tablas ms pequeas es
lo que asemeja a una estrella, dndole nombre a este tipo de construcciones.
Las tablas de dimensiones tendrn siempre una clave primaria simple,
mientras que en la tabla de hechos, la clave principal estar compuesta por las
claves principales de las tablas dimensionales.
Esquema en copo de nieve (bola de nieve) es una variedad ms compleja
del esquema estrella. Se utiliza cuando las tablas de dimensiones estn muy
grandes o complejas y es muy difcil representar los datos en esquema estrella.
El problema es que para extraer datos de las tablas en esquema de copo de
nieve, a veces hay que vincular muchas tablas en las sentencias SQL, lo que
puede llegar a ser muy complejo y difcil para mantener. El anamiento est
orientado a facilitar mantenimiento de dimensiones.
Lo que distingue a la arquitectura en esquema copo de nieve de la arqui-
tectura en esquema estrella, es que las tablas de dimensiones en este modelo
representan relaciones normalizadas (3NF) y forman parte de un modelo rela-
cional de base de datos; como se puede ver en la gura 4.2 de la pgina 28.
4.2.2. Ventajas del Modelo Dimensional
El modelo dimensional presenta importantes ventajas de las que carece el
modelo relacional. Uno de los puntos fuertes del modelo dimensional es que el
marco predecible del esquema estrella resiste a los cambios inesperados en el
comportamiento del usuario.
Cada dimensin es equivalente a las dems y todas las dimensiones pueden
ser concebidas como puntos de entrada hacia la tabla de hechos. El diseo lgi-
co puede realizarse independientemente de los patrones de consulta esperados,
siendo consideradas de la misma forma tanto las interfaces de usuario como
las estrategias de consulta, as como el lenguaje de consulta generado contra
el modelo dimensional.
Otra cualidad del modelo dimensional es la exibilidad. Los nuevos elemen-
tos de datos y las nuevas decisiones de diseo son fcilmente adaptables. Todas
las tablas pueden modicarse simplemente agregando nuevos registros de datos
o se pueden incluir nuevas dimensiones al modelo sin necesidad de volver a
cargar los datos posteriormente. Adems no es necesario volver a programar
las herramientas de consulta o de informes para adaptarse a los cambios, y las
28 CAPTULO 4. MODELOS DE DATOS

Figura 4.2: Modelos de Datos. Esquema Copo de Nieve.
aplicaciones existentes pueden continuar su ejecucin brindando los mismos
resultados.
Las modicaciones ante las cuales el modelo dimensional es exible in-
cluyen:
Agregar medidas a la tabla de hechos, siempre que sean aditivas y con-
sistentes con el mayor nivel de detalle de las dimensiones.
Agregar atributos a las dimensiones.
Agregar nuevas dimensiones, siempre que exista un nico valor de dicha
dimensin denido para cada registro de la tabla de hechos.
Particionar los registros de una dimensin a un mayor nivel de detalle
a partir de un determinado punto en el tiempo. Los registros anteriores
permanecern sin cambios mientras que los futuros registros se almace-
narn de acuerdo al nuevo modelo.
Una ventaja adicional del modelo dimensional es el creciente nmero de
utilidades administrativas y aplicaciones que gestionan y utilizan los agrega-
dos. Los agregados son registros resumidos que son lgicamente redundantes
con la informacin ya existente en el DW y son empleados para mejorar el
rendimiento de las consultas.
Cualquier implementacin de tamao mediano o grande del DW requiere
la creacin de una estrategia de agregados. Todas las aplicaciones software
de gestin de agregados, as como las utilidades de navegacin de agregados,
dependen de una estructura especca de las tablas de hechos y dimensiones
que es absolutamente dependiente del modelo dimensional. Si no se emplea el
enfoque del modelo dimensional no es posible beneciarse de tales aplicaciones.
30 CAPTULO 4. MODELOS DE DATOS
Captulo 5
Operaciones en un Data
Warehouse
5.1. Tipos de Operaciones
En la gura 5.1 de la pgina 32 se muestran algunos de los tipos de opera-
ciones que se efectan dentro de un ambiente DW.
Sistemas Operacionales
Los datos administrados por los sistemas de aplicacin operacionales son
la fuente principal de datos para el DW.
Las bases de datos operacionales se organizan como archivos indexados
(UFAS, VSAM), bases de datos de redes / jerrquicas (I-D-S / II, IMS, IDMS)
o sistemas de base de datos relacionales (DB2, Oracle, Informix, etc.). Segn
las encuestas, aproximadamente del 70 % a 80 % de las bases de datos de las
empresas se organizan usando DBMSs no relacional.
Extraccin, Transformacin y Carga de los Datos
Se requieren herramientas de gestin de datos para extraer datos desde
bases de datos y / o archivos operacionales, luego es necesario manipular o
transformar los datos antes de cargar los resultados en el DW.
Tomar los datos desde varias bases de datos operacionales y transformarlos
en datos requeridos para el depsito, se reere a la transformacin o a la inte-
31
32 CAPTULO 5. OPERACIONES EN UN DATA WAREHOUSE
Figura 5.1: Operaciones en el Data Warehouse.
5.1. TIPOS DE OPERACIONES 33
gracin de datos. Las bases de datos operacionales, diseadas para el soporte
de varias aplicaciones de produccin, frecuentemente dieren en el formato.
Los mismos elementos de datos, si son usados por aplicaciones diferentes
o administrados por diferentes software DBMS, pueden denirse al usar nom-
bres de elementos inconsistentes, que tienen formatos inconsistentes y/o ser
codicados de manera diferente. Todas estas inconsistencias deben resolverse
antes que los elementos de datos sean almacenados en el DW.
Las operaciones de extraccin, transformacin y carga son conocidas como
ETL, por su sigla en ingls; las mismas constan de lo siguiente:
Extraccin: obtencin de informacin de las distintas fuentes tanto in-
ternas como externas.
Transformacin: ltrado, limpieza, depuracin, homogeneizacin y agru-
pacin de la informacin.
Carga: organizacin y actualizacin de los datos y los metadatos en la
base de datos.
Metadata
La metadata (es decir, datos acerca de datos) describe los contenidos del
DW. La metadata consiste de deniciones de los elementos de datos en el
depsito, se integra y transforma antes de ser almacenada en informacin
similar.
Acceso de Usuario Final
Los usuarios acceden al DW por medio de herramientas de productivi-
dad basadas en GUI (Graphical User Interface - Interfase grca de usuario).
Pueden proveerse a los usuarios del DW muchos de estos tipos de herramientas.
Estos pueden incluir software de consultas, generadores de reportes, proce-
samiento analtico en lnea, herramientas data / visual mining, etc., dependien-
do de los tipos de usuarios y sus requerimientos particulares. Sin embargo, una
sola herramienta no satisface todos los requerimientos, por lo que es necesaria
la integracin de una serie de herramientas.
Plataforma del DW
34 CAPTULO 5. OPERACIONES EN UN DATA WAREHOUSE
La plataforma para el DW es casi siempre un servidor de base de datos
relacional. Cuando se manipulan volmenes muy grandes de datos puede re-
querirse una conguracin en bloque de servidores UNIX con multiprocesador
simtrico (SMP) o un servidor con procesador paralelo masivo (MPP) espe-
cializado.
Los extractos de la data integrada / transformada se cargan en el DW. La
eleccin de la plataforma es crtica. El depsito crecer y hay que comprender
los requerimientos despus de 3 o 5 aos.
El sistema de depsito ejecuta las consultas que se pasa a los datos por
el software de acceso a los datos del usuario. Aunque un usuario visualiza
las consultas desde el punto de vista de un GUI, las consultas tpicamente
se formulan como pedidos SQL, porque SQL es un lenguaje universal y el
estndar de hecho para el acceso a datos.
Datos Externos
Dependiendo de la aplicacin, el alcance del DW puede extenderse por la
capacidad de accesar a la data externa. Por ejemplo, los datos accesibles por
medio de servicios va Internet, pueden estar disponibles a los usuarios del
DW.
Evolucin del Depsito
Construir un DW es una tarea grande. No es recomendable emprender el
desarrollo del DW de la empresa como un proyecto cualquiera. Ms bien, se
recomienda que los requerimientos de una serie de fases se desarrollen e imple-
menten en modelos consecutivos que permitan un proceso de implementacin
ms gradual e iterativo.
Los datos en el DW no son voltiles y es un repositorio de datos de slo
lectura (en general). Sin embargo, pueden aadirse nuevos elementos sobre
una base regular para que el contenido siga la evolucin de los datos en la
base de datos fuente, tanto en los contenidos como en el tiempo.
Uno de los desafos de mantener un DW, es idear mtodos para identi-
car datos nuevos o modicados en las bases de datos operacionales. Algunas
maneras para identicar estos datos incluyen insertar fecha / tiempo en los
registros de base de datos y entonces crear copias de registros actualizados y
copiar informacin de los registros de transaccin y / o base de datos diarias.
Estos elementos de datos nuevos y / o modicados son extrados, inte-
grados, transformados y agregados al DW en pasos peridicos programados.
Como se aaden las nuevas ocurrencias de datos, los datos ms antiguos son
eliminados.
36 CAPTULO 5. OPERACIONES EN UN DATA WAREHOUSE
Captulo 6
Herramientas de Acceso y
Uso
6.1. Introduccin
Sin las herramientas adecuadas de acceso y anlisis el DW se puede conver-
tir en una mezcla de datos sin ninguna utilidad. Es necesario poseer tcnicas
que capturen los datos importantes de manera rpida y puedan ser analizados
desde diferentes puntos de vista.
Tambin deben transformar los datos capturados en informacin til para
el negocio. Actualmente a este tipo de herramientas se las conocen como He-
rramientas de Inteligencia de Negocio (Business Intelligence Tools, BIT) y
estn situadas conceptualmente sobre el DW.
Cada usuario nal debe seleccionar la herramienta que mejor se ajusta a sus
necesidades y a su DW. Entre ellas se pueden citar las Consultas SQL (Struc-
tured Query Language), las Herramientas MDA (Multidimensional Analysis)
y OLAP (On-Line Analytical Processing) y las herramientas Data Mining.
Este bloque tambin incluye el hardware y software involucrados en mostrar
la informacin en pantalla y emitir reportes de impresin, hojas de clculo,
grcos y diagramas para el anlisis y presentacin.
37
38 CAPTULO 6. HERRAMIENTAS DE ACCESO Y USO
6.2. OLAP (On Line Analytical Processing)
Son aplicaciones que generan informacin tctica y estratgica que sirve a
la organizacin como soporte para la toma de decisiones.
A diferencia de los sistemas OLTP, que utilizan BD relacionales u otros
archivos, OLAP (On Line Analytical Process - Procesamiento Analtico En
Lnea) logra su mximo rendimiento y exibilidad trabajando sobre un DW.
Presentan al usuario un esquema multidimensional en el cual se pueden
realizar consultas seleccionando atributos sobre el tema en particular que se
trate; esto desconociendo totalmente la estructura interna del DW. La apli-
cacin OLAP se encarga de generar la consulta y enviarla al gestor, por ejem-
plo, a travs de una sentencia Select.
La estructura multidimensional consta de una tabla de sucesos o hechos,
cuyos atributos describen la actividad que es el objeto del anlisis (por ejemplo
ventas), y varias tablas llamadas dimensiones. Los atributos de cada dimensin
tienen el objetivo de aportar informacin particular sobre cada tupla de la
tabla de hechos, por ejemplo, lugar donde se realizan las ventas, fecha o perodo
en que fueron realizadas, sucursal, etc., como se puede observar en la gura
6.1 de la pgina 39.
Estas vistas multidimensionales son llamadas Cubos y pueden ser construi-
dos de distintas formas:
ROLAP
Se implementa sobre tecnologa relacional. Utiliza un esquema en estrella
cuyo nodo central representa a la tabla de hechos y sus extremos a las dimen-
siones [3]. Con esta metodologa, cuando la consulta es realizada se genera el
cubo correspondiente. Esta alternativa de generacin de cubos se utiliza cuan-
do no se posee gran capacidad de almacenamiento. Al generarse los cubos en
tiempo de ejecucin su rendimiento no es ptimo.
MOLAP
Tiene la estructura de arrays multidimensionales. Los cubos son generados
y almacenados antes de ser consultados. Los datos son tomados de la tabla
de hechos y las dimensiones son calculadas y almacenadas. Si se dispone de
suciente espacio en disco, esta alternativa aumenta el rendimiento y mejora
los tiempos de respuesta [4].
6.2. OLAP (ON LINE ANALYTICAL PROCESSING) 39

Figura 6.1: Estructura Multidimensional.
40 CAPTULO 6. HERRAMIENTAS DE ACCESO Y USO

Figura 6.2: Modelo ROLAP y MOLAP.
HOLAP
Es una combinacin de las tcnicas ROLAP y MOLAP. Los cubos fre-
cuentemente consultados son generados y almacenados. Cualquier otra con-
sulta debe generarse en tiempo de ejecucin.
Las principales diferencias entre un sistema OLTP y OLAP, se expresan
en la gura 6.2 de la pgina 40.
6.3. DATA MINING (MINERA DE DATOS) 41
6.3. Data Mining (Minera de Datos)
La MD se dene formalmente como un conjunto de tcnicas y herramientas
aplicadas al proceso no trivial de extraer y presentar conocimiento implcito,
previamente desconocido, potencialmente til y humanamente comprensible,
a partir de grandes conjuntos de datos, con objeto de predecir, de forma au-
tomatizada, tendencias o comportamientos y descubrir modelos previamente
desconocidos [5].
Desde el punto de vista empresarial los trminos Data Mining y Extraccin
del Conocimiento son tratados como sinnimos, y se los dene como: La in-
tegracin de un conjunto de reas que tienen como propsito la identicacin
de conocimiento obtenido a partir de las bases de datos que aporten un sesgo
hacia la toma de decisiones [6].
Caractersticas y Objetivos
En la actualidad, para realizar una investigacin con el mtodo cientco
tradicional, generalmente, primero se formula la hiptesis y luego el experi-
mento, para posteriormente coleccionar los datos necesarios que conrmen o
refuten la hiptesis. De esta manera se obtiene el nuevo conocimiento.
Una de las caractersticas principales de la MD es que invierte la dinmica
del mtodo cientco. Es decir, primero se coleccionan los datos y luego se los
escucha para que de ellos emerjan las hiptesis. Luego se validan esas hiptesis
en los datos mismos.
Por lo antes expuesto es que la MD debe presentar un enfoque exploratorio,
y no conrmador. Usar la MD para conrmar las hiptesis no sera correcto,
ya que se est haciendo una inferencia poco vlida y acotando el anlisis slo
a la hiptesis elaborada.
El objetivo de la MD es extraer la informacin oculta en las profundidades
de las BD para luego intentar predecir futuras tendencias y comportamientos.
De esta forma permiten a las organizaciones tomar decisiones proactivas y as
adaptarse a un entorno permanentemente cambiante y sumamente competiti-
vo.
Las tcnicas utilizadas en la MD son el resultado de un largo proceso de in-
vestigacin y desarrollo de productos que comenz cuando los datos de negocio
fueron almacenados por primera vez en computadoras y luego, con tecnologas
generadas para permitir que los usuarios naveguen entre los datos en tiempo
42 CAPTULO 6. HERRAMIENTAS DE ACCESO Y USO
real. La MD engloba todas estas tcnicas para brindar informacin prospecti-
va y proactiva. La MD est lista para su aplicacin ya que est sostenida por
cuatro tecnologas que ya se encuentran sucientemente maduras:
Recoleccin masiva de datos.
Potentes computadoras con multiprocesadores.
Data Warehouse.
Algoritmos de Data Mining.
La MD produce cinco tipos de informacin:
Asociaciones.
Secuencias.
Clasicaciones.
Agrupamientos.
Pronsticos.
Uno de los factores claves que dene la verdadera MD es que la aplicacin
misma realiza el anlisis sobre los datos. En otros casos, el anlisis es guiado
por una interaccin con el usuario. Las aplicaciones que no son, en algn grado,
auto guiadas, estn realizando anlisis de datos y no MD.
Arquitectura
Para que el proceso de MD sea ptimo, se recomienda que la fuente de
informacin de los algoritmos provenga de una DW. El contar con una DW
simplica considerablemente la etapa de preproceso.
Existen herramientas de DM que operan fuera del mbito de una DW,
pero esto requiere varios pasos extras para unicar fuentes, extraer, importar
y analizar los datos.
Por otra parte, cuando se introducen nuevos conceptos en los sistemas
OLTP, la integracin con el DW simplica la aplicacin de los resultados de
la MD.
6.3. DATA MINING (MINERA DE DATOS) 43

Figura 6.3: Etapas en un Proyecto de MD.
Otra ventaja de incluir en la arquitectura un DW, es que sta permite que
a medida que las BD operacionales de los distintos sistemas crece, los datos
son integrados al DW. Luego de este proceso la organizacin puede realizar la
MD, obtener patrones y conocimiento de los mismos y aplicarlos en el futuro.
Podramos decir que un DW constituye la fuente de informacin o en la
memoria de la organizacin, y que la MD dota a esta de inteligencia [7].
En un proyecto de MD se deben tener en cuenta las siguientes etapas, como
se puede observar en la gura 6.3 de la pgina 43.
Seleccin de Datos
Los datos pueden tener un gran volumen y contener una cantidad ingente
de datos. En esta etapa se reduce considerablemente el volumen de los datos
seleccionando slo los atributos y tuplas que aporten la informacin y sean
ms inuyentes sobre el tema a tratar.
Existen varios mtodos para la seleccin de este subconjunto de atributos
[7]. Entre algunos de ellos se pueden citar:
Seleccin por Pasos Hacia Adelante: se comienza con un conjunto
vaco de atributos, en cada paso se agrega al conjunto el mejor atributo del
conjunto original.
Eliminacin por Pasos Hacia Atrs: se comienza con un conjunto que
posee todos los atributos originales, en cada paso se elimina del conjunto el
peor atributo.
Combinacin de Seleccin por Pasos Hacia Adelante y Elimi-
nacin por Pasos Hacia Atrs: es una combinacin de los dos anteriores.
Se puede utilizar un umbral de medicin para establecer cundo detener la
eliminacin y agregacin de los atributos.
44 CAPTULO 6. HERRAMIENTAS DE ACCESO Y USO
Induccin con rboles de decisin: se utilizan algoritmos como ID3 y
C4.5. Los atributos que no son representados en el rbol se consideran irre-
levantes y se los descarta. Por el contrario, los atributos que aparecen en el
rbol son los elegidos para conformar el subconjunto de atributos.
Pre Procesamiento de Datos
El formato de los datos de las distintas fuentes (OLPT, Fuentes Externas,
etc.) por lo general no suele ser apropiado. Esto diculta que los algoritmos
de minera obtengan buenos modelos trabajando sobre estos datos en bruto.
El objetivo del preprocesado es adecuar los datos para que la aplicacin a
los algoritmos de minera sea ptima. Para esto hay que ltrar, eliminar datos
incorrectos, no vlidos, crear nuevos valores y categoras para los atributos e
intentar completar o descartar los valores desconocidos e incompletos.
Extraccin de Conocimiento
Es la aplicacin de diferentes algoritmos sobre los datos ya pre procesados,
para extraer patrones.
Evaluacin e Interpretacin de Patrones
Una vez obtenidos los patrones se debe comprobar su validez. Si los modelos
son varios, se debe elegir el que se ajuste mejor al problema. Si ninguno de los
modelos alcanza los resultados esperados, se debe volver a las etapas anteriores
y modicar alguna entrada para, de esta manera, generar nuevos modelos.
Algoritmos para la Extraccin de Conocimiento
En la MD, segn el tipo de algoritmo que se utilice, se realizan algunas de
las siguientes tareas:
Asociacin: descubre relaciones entre dos sucesos aparentemente inde-
pendientes. Estas se expresan en el conjunto de datos como condiciones
atributo-valor y deben estar presentes varias veces en ellos. La expresin
tiene dos componentes, el antecedente y el consecuente.
Secuenciacin o anlisis a travs del tiempo: si adems de lo anterior la
tarea incluye comparaciones de tiempo, bsqueda de patrones secuen-
ciales, peridicos, desviaciones, entonces estamos frente a un algoritmo
del tipo secuencial. ste incluye en el anlisis el tiempo transcurrido
entre el suceso inductor y el suceso inducido.
Clasicacin: se analiza un conjunto de datos cuya clasicacin se conoce
y se le asigna a cada uno una clase o grupo de pertenencia. Este mode-
lo puede utilizarse para un mayor entendimiento de los datos actuales
o para realizar la clasicacin de futuros sucesos. Son utilizados en la
deteccin de fraudes, anlisis de riesgo en la entrega de crditos, identi-
cacin de procedimientos mdicos, etc.
Agrupamiento: realiza una clasicacin resumida sobre el conjunto de
datos. A la clasicacin se la nombra como caracterizacin, y a la dis-
tincin entre los datos como discriminacin o comparacin. Se diferencia
de la clasicacin en que no se parte de un conjunto de entrenamiento.
Se utiliza en marketing (poblacin con las mismas anidades), medicina
(pacientes con los mismos malestares), etc.
Prediccin: cuando existen datos faltantes intenta predecir los posibles
valores de los atributos.
Regresin: es similar a los algoritmos de clasicacin. El modelo generado
intenta predecir el valor ms probable para una situacin observada.
Clstering: un cluster es un conjunto de datos con caractersticas simi-
lares. Esta similitud puede medirse con funciones de distancia. La MD
intenta encontrar clsteres de buena calidad para que luego puedan ser
utilizados en grandes BD o DW.
Tambin suelen utilizarse combinaciones entre los diferentes tipos de algo-
ritmos. Los algoritmos de clasicacin y regresin pertenecen a la MD predic-
tiva, mientras que los dems estn dentro de la MD descriptiva.
46 CAPTULO 6. HERRAMIENTAS DE ACCESO Y USO
Captulo 7
Conclusin
La Computacin Ubicua permite integrar los dispositivos computacionales
y las nuevas tecnologas en el entorno personal, insertando dispositivos in-
teligentes en las tareas diarias, haciendo que interacten de forma natural y
desinhibida en todo tipo de situaciones y circunstancias. Permiten as que los
usuarios puedan centrarse en las tareas que deben hacer, y no en las herra-
mientas que deben usar.
El DW permite analizar y realizar preguntas sobre aos, ms que sobre
meses de informacin. Las aplicaciones de usuario nal que acceden al DW
brindan a los gerentes la posibilidad de ver la informacin a diferentes niveles
de agregacin y ltrar las consultas.
Los Sistemas de Bases de Datos Multiplataforma Integrados a Sistemas
Mviles no solo acceden a bases de datos, sino tambin pueden acceder a los
DW. La integracin de un DW a la empresa representa una ventaja competiti-
va en el mundo de los negocios y acceder a ellos desde los dispositivos mviles
es una alternativa adicional importante.
48 CAPTULO 7. CONCLUSIN
Bibliografa
[1] http://www.lawebdelprogramador.com. (Visita realizada el
21/04/2010).
[2] http://www.sqlmax.com/dataw1.asp. (Visita realizada el 20/04/2010).
[3] I. Ki:i\ii. The Data Warehouse Toolkit. John Wiley-Sons (1996).
[4] L\ Ii M\n):iz D\\i Li. Sistemas Operativos. UNNE (2004).
[5] M\)ii Fn\vii.. Ii\)ii.-Si\iino. Knowledge Discovery in Data-
bases: an Overview. AI Magazine (1992).
[6] Moii:\ Li C\nio Fiiix. Torturando a los Datos hasta que Con-
esen. UOC (2001).
[7] Hoi\: Aii)\:no Siinn\ L:nioi M\n)i:iz I\:o:. Lni)o
I\oi\ Vino:ic\. Minera de datos Basada en Sistemas Inteligentes.
(2005).
49
ndice alfabtico
data mining, 3
arquitectura, 42
datos
informativos, 12
datos
operacionales, 11
DW, 5
caractersticas, 13
data warehouse, 2
Operaciones, 31
ETL, 33
herramientas de acceso y uso, 37
DM
data mining, 41
OLAP, 38
HOLAP, 40
modelo de datos, 23
modelo dimensional, 24
modelo relacional, 23
MOLAP, 38
OLAP, 2, 38
OLTP, 2, 12
OMA, 2
ROLAP, 38
SI
sistemas de informacin, 9
SSD
sistemas de soporte de decisiones,
9
ubicuidad, 1
WAP, 1
51

You might also like