Agrimensura Monografa de Adscripcin: Sistemas de Bases de Datos Multiplataforma Integrados a Sistemas Mviles Alumna: Paola Itat Aguirre-LU: 38046 Prof. Director: Mgter. David Luis La Red Martnez Licenciatura en Sistemas de Informacin Corrientes-Argentina 2010 ndice general 1. Introduccin 1 2. Qu es un Data Warehouse? 5 2.1. Nociones Acerca de un DW . . . . . . . . . . . . . . . . . . . . 5 2.2. Qu es lo que Preocupa a los Ejecutivos? . . . . . . . . . . . . 6 2.3. Objetivos del Data Warehouse . . . . . . . . . . . . . . . . . . 6 3. Sistemas de Informacin 9 3.1. Esquema General de los SI . . . . . . . . . . . . . . . . . . . . . 9 3.1.1. Sistemas Estratgicos . . . . . . . . . . . . . . . . . . . 10 3.1.2. Sistemas Tcticos . . . . . . . . . . . . . . . . . . . . . 10 3.1.3. Sistemas Tcnico-Operativos . . . . . . . . . . . . . . . 11 3.1.4. Sistemas Interinstitucionales . . . . . . . . . . . . . . . 11 3.2. Datos Operacionales y Datos Informativos . . . . . . . . . . . . 11 3.3. Caractersticas del Data Warehouse . . . . . . . . . . . . . . . . 13 3.4. Impactos Tcnicos de un DW . . . . . . . . . . . . . . . . . . . 21 4. Modelos de Datos 23 4.1. El Modelo Relacional . . . . . . . . . . . . . . . . . . . . . . . . 23 4.2. El Modelo Dimensional . . . . . . . . . . . . . . . . . . . . . . 24 4.2.1. Esquemas del Modelo Dimensional . . . . . . . . . . . . 25 4.2.2. Ventajas del Modelo Dimensional . . . . . . . . . . . . . 27 5. Operaciones en un Data Warehouse 31 5.1. Tipos de Operaciones . . . . . . . . . . . . . . . . . . . . . . . 31 6. Herramientas de Acceso y Uso 37 6.1. Introduccin . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37 6.2. OLAP (On Line Analytical Processing) . . . . . . . . . . . . . 38 6.3. Data Mining (Minera de Datos) . . . . . . . . . . . . . . . . . 41 iii i\ NDICE GENERAL 7. Conclusin 47 Bibliografa 49 ndice alfabtico 51 ndice de guras 3.1. Sistema de Informcin. Esquema. . . . . . . . . . . . . . . . . . 10 3.2. Caractersticas del Data Warehouse. Orientado a una materia. 14 3.3. Caractersticas del Data Warehouse. Integracin. . . . . . . . . 18 3.4. Caractersticas del Data Warehouse. Tiempo Variante. . . . . . 19 3.5. Caractersticas del Data Warehouse. No Voltil. . . . . . . . . . 21 4.1. Modelo de Datos. Esquema en Estrella. . . . . . . . . . . . . . 26 4.2. Modelos de Datos. Esquema Copo de Nieve. . . . . . . . . . . . 28 5.1. Operaciones en el Data Warehouse. . . . . . . . . . . . . . . . . 32 6.1. Estructura Multidimensional. . . . . . . . . . . . . . . . . . . . 39 6.2. Modelo ROLAP y MOLAP. . . . . . . . . . . . . . . . . . . . . 40 6.3. Etapas en un Proyecto de MD. . . . . . . . . . . . . . . . . . . 43 \ Captulo 1 Introduccin La ubicuidad es la propiedad por la cual una entidad existe o se encuen- tra en todos los sitios al mismo tiempo. La Computacin Ubicua pretende la integracin de las nuevas tecnologas en el entorno personal, insertando dis- positivos inteligentes en las tareas diarias, haciendo que interacten de forma natural y desinhibida en todo tipo de situaciones y circunstancias. De esta for- ma se pretende unir el mundo real con una representacin virtual, apoyndose sobre la inteligencia ambiental y logrando el entorno inteligente. Uno de los objetivos ms importantes de la Computacin Ubicua es inte- grar los dispositivos computacionales lo ms posible, para hacer que se mezclen en la vida cotidiana, y permitir a los usuarios centrarse en las tareas que deben hacer, y no en las herramientas que deben usar, pudiendo suponer una revolu- cin que cambie el modo de vida. Para lograr la integracin de los dispositivos mviles se utiliza el protocolo de aplicaciones inalmbricas, Wireless Application Protocol o WAP; es un es- tndar abierto internacional para aplicaciones que utilizan las comunicaciones inalmbricas, por ej., acceso a servicios de Internet desde un telfono mvil. Se trata de la especicacin de un entorno de aplicacin y de un conjunto de protocolos de comunicaciones para normalizar el modo en que los dispositivos inalmbricos se pueden utilizar para acceder a correo electrnico, grupo de noticias y otros. El organismo que se encarga de desarrollar el estndar WAP fue original- mente el WAP Forum, fundado por cuatro empresas del sector de las comuni- 1 2 CAPTULO 1. INTRODUCCIN caciones mviles, Sony-Ericsson, Nokia, Motorola y Openwave (originalmente Unwired Planet). Desde 2002 el WAP Forum es parte de la Open Mobile Al- liance (OMA), consorcio que se ocupa de la denicin de diversas normas relacionadas con las comunicaciones mviles, entre ellas las normas WAP. Los dispositivos de computacin inalmbrica han crecido rpidamente, re- quiriendo aplicaciones de software cada vez ms potentes que puedan manejar esta nueva realidad. Los usuarios desean que las aplicaciones que corren en sus dispositivos mviles tengan la misma funcionalidad estando conectados o desconectados de la red. Esperan aplicaciones que puedan soportar conexiones intermitentes, anchos de banda cambiantes y que manejen ecientemente el problema del roaming. Los dispositivos mviles pueden acceder a sistemas de bases de datos multi- plataforma, trmino usado para referirse a los programas, sistemas operativos, lenguajes de programacin, u otra clase de software, que puedan funcionar en diversas plataformas., ejemplo DB2. Una plataforma es una combinacin de hardware y software usada para ejecutar aplicaciones, en su forma ms simple consiste nicamente de un sistema operativo, una arquitectura, o una combinacin de ambos. En muchos sistemas no solo se accede a las bases de datos sino tambin a los Data Warehouse. Debido a que los niveles gerenciales necesitan a menudo tomar decisiones de alto nivel, cruciales para el funcionamiento de la empresa. El Data Warehouse permite que los gerentes tomen decisiones siguiendo un enfoque racional, basados en informacin conable y oportuna. Consiste bsi- camente en la transformacin de los datos operacionales en informacin til para decidir. El uso del Data Warehouse permite tambin encontrar relaciones ocultas entre los datos y predecir el comportamiento futuro bajo condiciones dadas. El trabajo con los Data Warehouses es diferente al de los sistemas transac- cionales. Se modelan los datos a partir de dimensiones, en lugar del tradicional modelado relacional, y las herramientas de acceso a los datos se basan en una tecnologa de procesamiento analtico (OLAP), distinta al procesamiento transaccional (OLTP) de los sistemas operacionales. Los datos operacionales que sirven de entrada al Data Warehouse general- mente estn dispersos en distintos sistemas de la organizacin, desarrollados en diferentes entornos de desarrollo, por diferentes personas y en diferentes momentos. Es tarea fundamental del Data Warehouse recolectarlos, unicar- los y depurarlos segn las necesidades del negocio, eliminando inconsistencias y conservando slo la informacin til para los objetivos empresariales. Esto se lleva a cabo mediante procesos que se ejecutan peridicamente y conducen a mantener la informacin actualizada. Las aplicaciones de usuario nal que acceden al Data Warehouse brindan a los gerentes la posibilidad de ver la informacin con diferentes niveles de agre- gacin (detallados o resumidos) y ltrar las consultas por distintas variables. Finalmente, el Data Warehouse permite aplicar herramientas como el Data Mining, para encontrar relaciones entre los datos a n de comprender las causas de variabilidad presentes y realizar pronsticos con el apoyo de modelos estadsticos. En la sociedad actual, la informacin constituye un activo esencial de cualquier organizacin proporcionando benecios signicativos, tangibles y cuanticables. Como consecuencia, la integracin de un Data Warehouse a la empresa representa una ventaja competitiva en el mundo de los negocios y acceder a ellos desde los dispositivos mviles es una alternativa adicional importante. 4 CAPTULO 1. INTRODUCCIN Captulo 2 Qu es un Data Warehouse? 2.1. Nociones Acerca de un DW De acuerdo con W. H. Inmon, quien es considerado como el padre del Data Warehouse: un Data Warehouse es un conjunto de datos integrados orientados a una materia que varan con el tiempo y que no son transitorios, los cuales soportan el proceso de toma de decisiones de una administracin. De acuerdo con algunas organizaciones, el Data Warehouse es una arquitec- tura. Para otras, es un depsito semnticamente consistente en datos (separa- dos y que no intereren con los sistemas operativos y de produccin existentes) que llenan por completo los diferentes requerimientos de acceso y reporte de datos. Para algunos otros, el Data Warehouse es un proceso continuo que mezcla los datos de varias fuentes heterogneas, incluyendo datos histricos y adquiridos para soportar la constante necesidad de consultas estructuradas y/o ad hoc, reportes analticos y soporte de decisiones. As como hay gran divergencia para establecer una denicin precisa de un Data Warehouse, hay un claro consenso de que la tecnologa del Data Warehouse es un ingrediente esencial en el conjunto de soluciones para el soporte de decisiones en una empresa. Un DW es una base de datos corporativa que se caracteriza por integrar y depurar informacin de una o ms fuentes distintas, para luego procesarla permitiendo su anlisis desde innidad de perspectivas y con grandes veloci- dades de respuesta. La creacin de un DW representa en la mayora de las 5 6 CAPTULO 2. QU ES UN DATA WAREHOUSE? ocasiones el primer paso, desde el punto de vista tcnico, para implantar una solucin completa y able de Business Intelligence. Es un repositorio de datos de muy fcil acceso, alimentado de numerosas fuentes, transformadas en grupos de informacin sobre temas especcos de negocios, para permitir nuevas consultas, anlisis y decisiones. 2.2. Qu es lo que Preocupa a los Ejecutivos? Se tienen montaas de datos en la compaa, pero no podemos llegar a ellos adecuadamente. Nada enloquece ms a los ejecutivos que dos personas presentando el mismo resultado de operacin pero con diferentes nmeros y los ejecutivos lo que buscan es ver la informacin pero desde diferentes n- gulos, mostrando nicamente lo que es importante para tomar una decisin en la empresa, nalmente los ejecutivos saben que hay datos que nunca sern conables, por lo que preeren que se eviten en los reportes ejecutivos. Uno de los valores ms importantes de una organizacin es la informacin. Estos valores normalmente son guardados por la organizacin de dos for- mas: Los sistemas operacionales de registros. El Data Warehouse. Crudamente hablando, los sistemas operacionales de registros son donde los datos son depositados y el DW es de donde se extraen los datos para la toma de decisiones. 2.3. Objetivos del Data Warehouse Hace que la informacin de la organizacin sea accesible: los contenidos del DW son entendibles y navegables, y el acceso a ellos est caracterizado por el rpido desempeo. Estos requerimientos no tienen fronteras y tampoco lmites jos. Cuando hablamos de entendible signica que los niveles de la informacin sean correctos y obvios. Navegables signica el reconocer el destino en la pantalla y llegar a donde queramos con solo un click. Rpido desempeo signica, cero tiempos de espera. Todo lo dems es un compromiso y por consiguiente algo que se quiere mejorar. Hace que la informacin de la organizacin sea consistente: la informacin de una parte de la organizacin puede hacerse coincidir con la informacin de la otra parte de la organizacin. Si dos medidas de la organizacin tienen el mismo nombre, entonces deben signicar la misma cosa. Y a la inversa, si dos medidas no signican la misma cosa, entonces son etiquetados diferentes. Informacin consistente signica, informacin de alta calidad. Signica que toda la informacin es contabilizada y completada. Es informacin adaptable y elstica: el DW est diseado para cambios continuos. Cuando se le hacen nuevas preguntas al DW y se le agregan datos nuevos, los datos existentes y las tecnologas no cambian ni se corrompen. Es fundamental para la toma de decisiones: el DW tiene los datos correctos para soportar la toma de decisiones. Podra decirse que la salida verdadera del DW son las decisiones que se toman despus de que el DW haya presentado las evidencias. Se pretende utilizar el DW para construir un sistema de soporte a las decisiones. 8 CAPTULO 2. QU ES UN DATA WAREHOUSE? Captulo 3 Sistemas de Informacin 3.1. Esquema General de los SI Hay funciones dentro de la empresa que tienen que ver con el planeamiento, previsin y administracin de la organizacin. Estas funciones son crticas para la supervivencia de la organizacin, especialmente en un mundo de rpidos cambios. Las funciones como planicacin de marketing, planeamiento de ingeniera y anlisis nanciero, requieren, adems, de sistemas de informacin que las soporte. Pero estas funciones son diferentes de las operacionales y los tipos de sis- temas y la informacin requerida son tambin diferentes. Las funciones basadas en el conocimiento son los Sistemas de Soporte de Decisiones (SSD). Estos sistemas estn relacionados con el anlisis de los datos y la toma de decisiones, frecuentemente, decisiones importantes sobre cmo operar la em- presa, ahora y en el futuro. Estos sistemas no slo tienen un enfoque diferente al de los operacionales, sino que, por lo general, tienen un alcance diferente. Mientras las necesidades de los datos operacionales se enfocan normalmente hacia una sola rea, los datos para el soporte de decisiones, con frecuencia, toman un nmero de reas diferentes y necesitan cantidades grandes de datos operacionales relacionadas. Son estos sistemas sobre los que se basa la tecnologa Data Warehousing 9 10 CAPTULO 3. SISTEMAS DE INFORMACIN
Figura 3.1: Sistema de Informcin. Esquema. que se han dividido de acuerdo al esquema que se puede visualizar en la gura 3.1 de la pgina 10. 3.1.1. Sistemas Estratgicos Orientados a soportar la toma de decisiones, facilitan la labor de la direc- cin, proporcionndole un soporte bsico, en forma de mejor informacin, para la toma de decisiones. Se caracterizan porque son sistemas sin carga peridica de trabajo, es decir, su utilizacin no es predecible. Destacan entre estos sis- temas: los Sistemas de Informacin Gerencial (MIS), Sistemas de Informacin Ejecutivos (EIS), Sistemas de Informacin Georeferencial (GIS), Sistemas de Simulacin de Negocios (BIS y que en la prctica son Sistemas Expertos o de Inteligencia Articial-AI). 3.1.2. Sistemas Tcticos Diseados para soportar las actividades de coordinacin de actividades y manejo de documentacin, denidos para facilitar consultas sobre informacin almacenada en el sistema, proporcionar informes y, en resumen, facilitar la 3.2. DATOS OPERACIONALES Y DATOS INFORMATIVOS 11 gestin independiente de la informacin por parte de los niveles intermedios de la organizacin. Destacan entre ellos: los Sistemas Omticos (OA), Sistemas de Transmisin de Mensajera (E-mail y Fax Server), coordinacin y control de tareas (Work Flow) y tratamiento de documentos (Imagen, Trmite y Bases de Datos Documentarios). 3.1.3. Sistemas Tcnico-Operativos Cubren el ncleo de operaciones tradicionales de captura masiva de datos (Data Entry) y servicios bsicos de tratamiento de datos, con tareas pre- denidas (contabilidad, facturacin, almacn, presupuesto, personal y otros sistemas administrativos). Estos sistemas estn evolucionando con la irrup- cin de sensores, autmatas, sistemas multimedia, bases de datos relacionales ms avanzadas y data warehousing. 3.1.4. Sistemas Interinstitucionales Este ltimo nivel de sistemas de informacin recin est surgiendo, es con- secuencia del desarrollo organizacional orientado a un mercado de carcter global, el cual obliga a pensar e implementar estructuras de comunicacin ms estrechas entre la organizacin y el mercado (Empresa Extendida, Or- ganizacin Inteligente e Integracin Organizacional), todo esto a partir de la generalizacin de las redes informticas de alcance nacional y global (Inter- net), que se convierten en vehculo de comunicacin entre la organizacin y el mercado, no importa dnde est la organizacin (Intranet), el mercado de la institucin (Extranet) y el mercado (Red Global). Sin embargo, la tecnologa data warehousing basa sus conceptos y diferen- cias entre dos tipos fundamentales de sistemas de informacin en todas las organizaciones: los sistemas tcnico-operacionales y los sistemas de soporte de decisiones. Este ltimo es la base de un data warehouse [1]. 3.2. Datos Operacionales y Datos Informativos El proceso automatizado de un negocio utiliza datos operacionales, los que constituyen el conjunto de registros de las transacciones del negocio. 12 CAPTULO 3. SISTEMAS DE INFORMACIN Estos datos son creados durante la ejecucin de estos procesos y son al- macenados en un archivo o en una base de datos. Frecuentemente contienen valores incorrectos, son muy detallados y son de mnimo uso en los negocios debido a su gran volumen, ubicacin y formatos. En conclusin, es difcil para los usuarios del negocio tener acceso a los datos operacionales debido a las limitaciones de performance y tecnologa. Lo que el usuario del negocio necesita como entrada a sus actividades de anlisis son datos informativos. Estos son una combinacin de datos operacionales que han sido modi- cados, depurados, transformados, consolidados y organizados desde diversas fuentes externas al proceso del negocio. Este tipo de informacin generalmente es especco para un conjunto de usuarios del negocio que lo hacen signicante y til para su anlisis. Ambos tipos de datos y ambos tipos de uso son muy importantes, pero es difcil cumplir con ambos propsitos en el mismo sistema. Los datos operacionales son especcos para cada aplicacin y usualmente son almacenados de manera separada por otras aplicaciones. Estos datos son tiles en la medida en que se aprovechen para satisfacer el proceso de las aplicaciones predenidas. Mayormente se requieren slo datos actuales y estos deben ser mantenidos al da haciendo actualizaciones frecuentes en la base de datos. En cambio, para los datos informativos, el usuario necesita datos que crucen por varias aplicaciones, que estn reorganizados por temas de negocio, que contengan valores histricos, que se encuentren disponible para anlisis durante perodos largos y que sea accesible de manera fcil y exible. Los datos operacionales son manejados, precisamente, por los sistemas ope- racionales o transaccionales (On Line Transactional Processing, OLTP), los cuales se concentran en la administracin y la medicin de indicadores empre- sariales (capital e inversin), indicadores nancieros (mrgenes de utilidades, rotacin de inventarios), indicadores de ventas (identicacin de clientes per- sistentes), etc. Por su parte, los datos informativos son los que conforman un DW, el cual tiene como n comprender, medir y administrar parmetros empresariales estratgicos, como el crecimiento del ingreso y rentabilidad, la participacin 3.3. CARACTERSTICAS DEL DATA WAREHOUSE 13 del mercado y los segmentos del cliente. En el siguiente cuadro se muestran las diferencias entre los datos operacio- nales y los datos informativos. Datos Operacionales: Orientados a una aplicacin. Integracin limitada. Constantemente actualizados. Slo valores actuales. Soportan operaciones diarias. Datos Informativos: Orientados a un tema. Integrados. No voltiles. Valores a lo largo del tiempo. Soportan decisiones de administracin. 3.3. Caractersticas del Data Warehouse Entre sus principales caractersticas tenemos: Orientado a Temas Una primera caracterstica del DW es que la informacin se clasica en base a los aspectos que son de inters para la empresa. Siendo as, los datos tomados estn en contraste con los clsicos procesos orientados a las aplicaciones. El contraste entre los dos tipos de orientaciones se visualiza en la gura 3.2 de la pgina 14. 14 CAPTULO 3. SISTEMAS DE INFORMACIN Figura 3.2: Caractersticas del Data Warehouse. Orientado a una materia. 3.3. CARACTERSTICAS DEL DATA WAREHOUSE 15 El ambiente operacional se disea alrededor de las aplicaciones y funciones tales como prstamos, ahorros, tarjeta bancaria y depsitos para una insti- tucin nanciera. Por ejemplo, una aplicacin de ingreso de rdenes puede acceder a los datos sobre clientes, productos y cuentas. La base de datos com- bina estos elementos en una estructura que acomoda las necesidades de la aplicacin. El ambiente DW se organiza alrededor de sujetos tales como cliente, vende- dor, producto y actividad. Por ejemplo, para un fabricante, stos pueden ser clientes, productos, proveedores y vendedores. Para una universidad pueden ser estudiantes, clases y profesores. Para un hospital pueden ser pacientes, personal mdico, medicamentos, etc. La alineacin alrededor de las reas de los temas afecta el diseo y la implementacin de los datos encontrados en el DW. Las principales reas de los temas inuyen en la parte ms importante de la estructura clave [2]. Las aplicaciones estn relacionadas con el diseo de la base de datos y del proceso. En DW se enfoca el modelamiento de datos y el diseo de la base de datos. El diseo del proceso (en su forma clsica) no es separado de este ambiente. Las diferencias entre la orientacin de procesos, funciones de las aplica- ciones y la orientacin a temas, radican en el contenido del dato a escala detallada. En el DW se excluye la informacin que no ser usada por el pro- ceso de sistemas de soporte de decisiones, mientras que la informacin de las orientadas a las aplicaciones, contiene datos para satisfacer de inmediato los requerimientos funcionales y de proceso, que pueden ser usados o no por el analista de soporte de decisiones. Otra diferencia importante est en la interrelacin de la informacin. Los datos operacionales mantienen una relacin continua entre dos o ms tablas basadas en una regla comercial que est vigente. Las del DW miden un espec- tro de tiempo y las relaciones encontradas son muchas. Muchas de las reglas comerciales (y sus correspondientes relaciones de datos) se representan en el DW, entre dos o ms tablas. Integrado Integra datos recolectados de diferentes sistemas operacionales de la orga- nizacin y o fuentes externas. 16 CAPTULO 3. SISTEMAS DE INFORMACIN El aspecto ms importante del ambiente DW es que la informacin encon- trada en el interior est siempre integrada. La integracin de los datos se muestra de muchas maneras: en conven- ciones de nombres consistentes, en la medida uniforme de variables, en la codicacin de estructuras consistentes, en atributos fsicos de los datos con- sistentes, fuentes mltiples y otros. A travs de los aos, los diseadores de las diferentes aplicaciones han tomado sus propias decisiones sobre cmo se debera construir una aplicacin. Los estilos y diseos personalizados se muestran de muchas maneras. Se diferencian en la codicacin, en las estructuras claves, en sus carac- tersticas fsicas, en las convenciones de nombramiento y otros. La capacidad colectiva de muchos de los diseadores de aplicaciones, para crear aplicaciones inconsistentes. Codicacin. Los diseadores de aplicaciones codican el campo gnero en varias formas. Un diseador representa gnero como una M y una F, otros como un 1 y un 0, otros como una X y una Y e inclusive, como masculino y femenino. No importa mucho cmo el gnero llega al DW. Probablemente M y F sean tan buenas como cualquier otra representacin. Lo importante es que sea de cualquier fuente de donde venga, el gnero debe llegar al DW en un estado integrado uniforme. Por lo tanto, cuando el gnero se carga en el DW desde una aplicacin, donde ha sido representado en formato M y F, los datos deben convertirse al formato del DW. Medida de atributos. Los diseadores de aplicaciones miden las unidades de medida de las tuberas en una variedad de formas. Un diseador almacena los datos de tuberas en centmetros, otros en pulgadas, otros en millones de pies cbicos por segundo y otros en yardas. Al dar medidas a los atributos, la transformacin traduce las diversas unidades de medida usadas en las diferentes bases de datos para transfor- marlas en una medida estndar comn. Cualquiera que sea la fuente, cuando la informacin de la tubera llegue al DW necesitar ser medida de la misma manera. 3.3. CARACTERSTICAS DEL DATA WAREHOUSE 17 Convenciones de nombramiento. El mismo elemento es frecuentemente referido por nombres diferentes en las diversas aplicaciones. El proceso de transformacin asegura que se use preferentemente el nombre de usuario. Fuentes mltiples. El mismo elemento puede derivarse desde fuentes mlti- ples. En este caso, el proceso de transformacin debe asegurar que la fuente apropiada sea usada, documentada y movida al depsito. Tal como se muestra en la gura 3.3 de la pgina 18, los puntos de inte- gracin afectan casi todos los aspectos de diseo - las caractersticas fsicas de los datos, la disyuntiva de tener ms de una de fuente de datos, el problema de estndares de denominacin inconsistentes, formatos de fecha inconsistentes y otros. Cualquiera que sea la forma del diseo, el resultado es el mismo; la infor- macin necesita ser almacenada en el DW en un modelo globalmente aceptable y singular, aun cuando los sistemas operacionales subyacentes almacenen los datos de manera diferente. Cuando el analista de sistema de soporte de decisiones observe el DW, su enfoque deber estar en el uso de los datos que se encuentren en el depsito, antes que preguntarse sobre la conabilidad o consistencia de los datos. De Tiempo Variante (Variable en el Tiempo) Los datos son relativos a un perodo de tiempo y estos deben ser integrados peridicamente; los mismos son almacenados como fotos que se corresponden a un perodo de tiempo como se puede visualizar en la gura 3.4 de la pgina 19. Toda la informacin del DW es requerida en algn momento. Esta carac- terstica bsica de los datos en un depsito, es muy diferente de la informacin encontrada en el ambiente operacional. En stos, la informacin se requiere al momento de acceder. En otras palabras, en el ambiente operacional, cuando se accede a una unidad de informacin, se espera que los valores requeridos se obtengan a partir del momento de acceso. Como la informacin en el DW es solicitada en cualquier momento (es decir, no ahora mismo), los datos encontrados en el depsito se llaman de tiempo variante. Los datos histricos son de poco uso en el procesamiento operacional. La informacin del depsito, a su vez, debe incluir los datos histricos para usarse 18 CAPTULO 3. SISTEMAS DE INFORMACIN Figura 3.3: Caractersticas del Data Warehouse. Integracin. 3.3. CARACTERSTICAS DEL DATA WAREHOUSE 19 Figura 3.4: Caractersticas del Data Warehouse. Tiempo Variante. en la identicacin y evaluacin de tendencias [2]. El tiempo variante se muestra de varias maneras: La ms simple es que la informacin representa los datos sobre un hor- izonte largo de tiempo, desde cinco a diez aos. El horizonte de tiempo representado para el ambiente operacional es mucho ms corto; desde va- lores actuales hasta sesenta a noventa das. Las aplicaciones que tienen un buen rendimiento y estn disponibles para el procesamiento de transac- ciones, deben llevar una cantidad mnima de datos si tienen cualquier grado de exibilidad. Por ello, las aplicaciones operacionales tienen un corto horizonte de tiempo, debido al diseo de aplicaciones rgidas. La segunda manera en la que se muestra el tiempo variante en el DW est en la estructura clave. Cada estructura clave en el DW contiene, implcita o explcitamente, un elemento de tiempo como da, semana, mes, etc. La tercera manera en que aparece el tiempo variante es cuando la infor- macin del DW, una vez registrada correctamente, no puede ser actua- lizada. La informacin del DW es, para todos los propsitos prcticos, 20 CAPTULO 3. SISTEMAS DE INFORMACIN una serie larga de snapshots (vistas instantneas). Por supuesto, si los snapshots de los datos se han tomado incorrectamente, entonces pueden ser cambiados. Asumiendo que los snapshots se han tomado adecuada- mente, ellos no son alterados una vez hechos. En algunos casos puede ser no tico, e incluso ilegal, alterar los snapshots en el DW. Los datos operacionales, siendo requeridos a partir del momento de acceso, pueden actualizarse de acuerdo a la necesidad [2]. No Voltil Los datos que son almacenados no sufren ninguna actualizacin, slo son incrementados. El perodo cubierto para un DW va de 2 a 10 aos. La informacin es til slo cuando es estable. Los datos operacionales cam- bian sobre una base momento a momento. La perspectiva ms grande, esencial para el anlisis y la toma de decisiones, requiere una base de datos estable. Hay algunas consecuencias muy importantes de esta diferencia bsica, entre el procesamiento operacional y del DW. En el nivel de diseo, la necesidad de ser precavido para actualizar las anomalas no es un factor en el DW, ya que no se hace la actualizacin de datos. Esto signica que en el nivel fsico de diseo, se pueden tomar libertades para optimizar el acceso a los datos, particularmente al usar la normalizacin y desnormalizacin fsica. Otra consecuencia de la simplicidad de la operacin del DW est en la tecnologa subyacente, utilizada para correr los datos en el depsito. Teniendo que soportar la actualizacin de registro por registro en modo on-line (como es frecuente en el caso del procesamiento operacional) requiere que la tecnologa tenga un fundamento muy complejo debajo de una fachada de simplicidad [2]. Se muestra que la actualizacin (insertar, borrar y modicar), se hace re- gularmente en el ambiente operacional sobre una base de registro por registro. Pero la manipulacin bsica de los datos que ocurre en el DW es mucho ms simple. Hay dos nicos tipos de operaciones: la carga inicial de datos y el acceso a los mismos. No hay actualizacin de datos (en el sentido general de actualizacin) en el depsito, como una parte normal de procesamiento, como se puede visualizar en la gura 3.5 de la pgina 21. 3.4. IMPACTOS TCNICOS DE UN DW 21 Figura 3.5: Caractersticas del Data Warehouse. No Voltil. 3.4. Impactos Tcnicos de un DW Las principales razones para la construccin de un DW son las siguientes: Proporciona una herramienta para la toma de decisiones en cualquier rea funcional, basndose en informacin integrada y global del negocio. Facilita la aplicacin de tcnicas estadsticas de anlisis y modelizacin para encontrar relaciones ocultas entre los datos del almacn; obteniendo un valor aadido para el negocio de dicha informacin. Proporciona la capacidad de aprender de los datos del pasado y de pre- decir situaciones futuras en diversos escenarios. Simplica dentro de la empresa la implantacin de sistemas de gestin integral de la relacin con el cliente. Supone una optimizacin tecnolgica y econmica en entornos de Centro de Informacin, estadstica o de generacin de informes con importantes retornos de la inversin. Considerando las etapas de construccin, soporte del DW y soporte de sistemas operacionales, se tienen los siguientes impactos tcnicos: Nuevas destrezas de desarrollo: Cuando se construye el DW, el im- pacto ms grande sobre la gente tcnica est dada por la curva de aprendizaje, muchas destrezas nuevas se deben aprender, incluyendo: Conceptos y estructura DW. El DW introduce muchas tecnologas nuevas (ETT, Carga, Acceso de Datos, Catlogo de Metadatos, Implementacin de DSS/EIS), y cambia la manera en que se usa la tecnologa existente. Nuevas responsabilidades de soporte, nuevas demandas de recursos y nuevas expectativas, son los efectos de estos cambios. Destrezas de diseo y anlisis donde los requerimientos empresariales no son posibles de denir de una forma estable a travs del tiempo. Tcnicas de desarrollo incremental y evolutivo. Trabajo en equipo cooperativo con gente de negocios como participantes activos en el desarrollo del proyecto. Nuevas responsabilidades de operacin: Cambios sobre los sistemas y datos operacionales deben ser examinados ms cuidadosamente para deter- minar el impacto que estos cambios tienen sobre ellos, y sobre el DW. Captulo 4 Modelos de Datos Para comprender uno de los aspectos ms relevantes de la arquitectura del DW, como es el modelado de datos, es necesario establecer primero las diferencias sustanciales entre los dos mundos de modelado existentes: entidad- relacin (ER) y dimensional. El modelado entidad-relacin se utiliza habitualmente para crear un nico modelo complejo de todos los procesos de una organizacin. Este enfoque ha demostrado ser efectivo para crear sistemas ecientes de procesamiento transaccional en lnea (OLTP). Por otra parte, el modelado dimensional crea modelos individuales para reejar procesos discretos de negocio. Este modelado organiza la informacin en estructuras que usualmente corresponden a la forma en que los analistas realizan sus consultas de los datos del DW. 4.1. El Modelo Relacional En la mayora de los sistemas transaccionales el objetivo del modelo es garantizar la integridad de los datos, adems de eliminar cualquier tipo de redundancia en los datos. Este enfoque es perfecto para los entornos de proce- samiento transaccional, porque las transacciones son muy simples y determi- nistas. El xito del procesamiento transaccional en un entorno de bases de datos 23 24 CAPTULO 4. MODELOS DE DATOS relacionales se debe bsicamente a esta disciplina de modelado. Sin embargo, para el propsito de un DW, el modelo relacional (ER) pre- senta los siguientes problemas: Legibilidad limitada. Los usuarios nales no son capaces de entender el modelo ER. Por tanto, no pueden navegar por dicho modelo en busca de informacin. Dicultad para las herramientas de consulta en el acceso a un modelo ER general. Las herramientas de consulta a menudo poseen prestaciones mediocres o inaceptables cuando se trabaja en entornos relacionales de grandes volmenes de informacin. La utilizacin de la tcnica de modelado ER frustra el principal atractivo del DW. Al utilizar el modelado ER queda frustrada la recuperacin de informacin intuitiva y con alto rendimiento. 4.2. El Modelo Dimensional Es una tcnica de diseo lgico que busca presentar la informacin en un marco estndar e intuitivo que permita un acceso de alto rendimiento. Este modelado se vale de los principios de la disciplina que emplea el modelo relacional con algunas importantes restricciones. El modelado dimensional es esencialmente til para resumir y organizar los datos y la presentacin de informacin para soportar el anlisis de la misma. Existen algunos conceptos bsicos para comprender la losofa de este tipo de modelado: reas tema, medidas, dimensiones y hechos. Un rea tema es una cuestin de inters de una funcin empresarial. Las reas tema en conjunto constituyen el mbito de implementacin del DW. Por ejemplo, el departamento de Comercializacin de una empresa puede estar interesado en las reas tema de pedidos, promociones, mercados y ventas. Para especicar las reas tema se deben identicar las medidas. Una medi- da o indicador es un cuanticador del desempeo de un tem o una actividad del negocio. La informacin que brinda una medida es usada por los usuarios en sus consultas para evaluar el desempeo de un rea tema. 4.2. EL MODELO DIMENSIONAL 25 El DW organiza un gran conjunto de datos operacionales mediante mlti- ples dimensiones. Una dimensin es una coleccin de miembros o entidades del mismo tipo y constituye un calicador conceptual que provee el contexto o signicado para una medida. La forma de representar la organizacin de los datos en un modelo di- mensional es a travs de un cubo (el cual no necesariamente debe tener tres dimensiones). Los miembros de una dimensin pueden estar organizados en una o ms jerarquas. Una jerarqua es un conjunto de miembros de una dimensin, los cuales se denen por su posicin relativa con respecto a los otros miembros de la misma dimensin, y forman en su totalidad una estructura de rbol. Partiendo de la raz del rbol, los miembros son progresivamente ms detallados hasta llegar a las hojas, donde se obtiene el mayor nivel de detalle. Puede darse el caso en que una dimensin no necesite jerarquizarse debido a que ninguno de sus miembros posee una posicin relativa con respecto a los otros miembros. Por ejemplo, una dimensin cliente que tiene como miembros nombre, sexo y fecha de nacimiento, no necesita organizar estos miembros porque todos estn al mismo nivel de detalle, a menos que se desee agruparlos por alguno de ellos para visualizar los datos. 4.2.1. Esquemas del Modelo Dimensional Esquema Estrella (star): cada modelo dimensional est compuesto de una tabla central con una clave primaria compuesta, denominada tabla de hechos; y un conjunto de tablas perifricas denominadas tablas de dimensiones. Cada una de las tablas de dimensiones tiene una clave primaria que corres- ponde exactamente con uno de los componentes de la clave compuesta de la tabla de hechos. Las tablas de hechos, adems de sus campos clave, contienen una o ms medidas, indicadores o hechos. Las medidas ms tiles en una tabla de hechos son numricas y aditivas. La aditividad es crucial porque las apli- caciones DW casi nunca recuperan un solo registro de la tabla de hechos, sino que acceden a cientos, miles o incluso millones de registros a la vez. Las tablas de dimensiones, por el contrario, contienen informacin textual descriptiva. Los atributos de las dimensiones se emplean como fuente de las restricciones en las consultas al DW. 26 CAPTULO 4. MODELOS DE DATOS
Figura 4.1: Modelo de Datos. Esquema en Estrella. En el modelo estrella las dimensiones no se normalizan. Con ello se logra minimizar el nmero de uniones y, por consiguiente, incrementar el rendimien- to de las consultas (una tabla de hechos est relacionada con numerosas tablas de dimensiones), como se puede ver en la gura 4.1 de la pgina 26. Esquema Copo de Nieve (snowake): en este modelado se normalizan las dimensiones reejando las jerarquas en las mismas y conservando lo esen- cial del modelo en estrella que son las tablas de hechos. La ventaja del modelo copo de nieve es eliminar la redundancia de datos y por lo tanto ocupar menos espacio en disco. En las bases de datos usadas para DW, un esquema en estrella es un modelo de datos que tiene una tabla de hechos (o tabla fact) que contiene los datos para el anlisis, rodeada de las tablas de dimensiones. Este aspecto, de tabla 4.2. EL MODELO DIMENSIONAL 27 de hechos (o central) ms grande rodeada de radios o tablas ms pequeas es lo que asemeja a una estrella, dndole nombre a este tipo de construcciones. Las tablas de dimensiones tendrn siempre una clave primaria simple, mientras que en la tabla de hechos, la clave principal estar compuesta por las claves principales de las tablas dimensionales. Esquema en copo de nieve (bola de nieve) es una variedad ms compleja del esquema estrella. Se utiliza cuando las tablas de dimensiones estn muy grandes o complejas y es muy difcil representar los datos en esquema estrella. El problema es que para extraer datos de las tablas en esquema de copo de nieve, a veces hay que vincular muchas tablas en las sentencias SQL, lo que puede llegar a ser muy complejo y difcil para mantener. El anamiento est orientado a facilitar mantenimiento de dimensiones. Lo que distingue a la arquitectura en esquema copo de nieve de la arqui- tectura en esquema estrella, es que las tablas de dimensiones en este modelo representan relaciones normalizadas (3NF) y forman parte de un modelo rela- cional de base de datos; como se puede ver en la gura 4.2 de la pgina 28. 4.2.2. Ventajas del Modelo Dimensional El modelo dimensional presenta importantes ventajas de las que carece el modelo relacional. Uno de los puntos fuertes del modelo dimensional es que el marco predecible del esquema estrella resiste a los cambios inesperados en el comportamiento del usuario. Cada dimensin es equivalente a las dems y todas las dimensiones pueden ser concebidas como puntos de entrada hacia la tabla de hechos. El diseo lgi- co puede realizarse independientemente de los patrones de consulta esperados, siendo consideradas de la misma forma tanto las interfaces de usuario como las estrategias de consulta, as como el lenguaje de consulta generado contra el modelo dimensional. Otra cualidad del modelo dimensional es la exibilidad. Los nuevos elemen- tos de datos y las nuevas decisiones de diseo son fcilmente adaptables. Todas las tablas pueden modicarse simplemente agregando nuevos registros de datos o se pueden incluir nuevas dimensiones al modelo sin necesidad de volver a cargar los datos posteriormente. Adems no es necesario volver a programar las herramientas de consulta o de informes para adaptarse a los cambios, y las 28 CAPTULO 4. MODELOS DE DATOS
Figura 4.2: Modelos de Datos. Esquema Copo de Nieve. aplicaciones existentes pueden continuar su ejecucin brindando los mismos resultados. Las modicaciones ante las cuales el modelo dimensional es exible in- cluyen: Agregar medidas a la tabla de hechos, siempre que sean aditivas y con- sistentes con el mayor nivel de detalle de las dimensiones. Agregar atributos a las dimensiones. Agregar nuevas dimensiones, siempre que exista un nico valor de dicha dimensin denido para cada registro de la tabla de hechos. Particionar los registros de una dimensin a un mayor nivel de detalle a partir de un determinado punto en el tiempo. Los registros anteriores permanecern sin cambios mientras que los futuros registros se almace- narn de acuerdo al nuevo modelo. Una ventaja adicional del modelo dimensional es el creciente nmero de utilidades administrativas y aplicaciones que gestionan y utilizan los agrega- dos. Los agregados son registros resumidos que son lgicamente redundantes con la informacin ya existente en el DW y son empleados para mejorar el rendimiento de las consultas. Cualquier implementacin de tamao mediano o grande del DW requiere la creacin de una estrategia de agregados. Todas las aplicaciones software de gestin de agregados, as como las utilidades de navegacin de agregados, dependen de una estructura especca de las tablas de hechos y dimensiones que es absolutamente dependiente del modelo dimensional. Si no se emplea el enfoque del modelo dimensional no es posible beneciarse de tales aplicaciones. 30 CAPTULO 4. MODELOS DE DATOS Captulo 5 Operaciones en un Data Warehouse 5.1. Tipos de Operaciones En la gura 5.1 de la pgina 32 se muestran algunos de los tipos de opera- ciones que se efectan dentro de un ambiente DW. Sistemas Operacionales Los datos administrados por los sistemas de aplicacin operacionales son la fuente principal de datos para el DW. Las bases de datos operacionales se organizan como archivos indexados (UFAS, VSAM), bases de datos de redes / jerrquicas (I-D-S / II, IMS, IDMS) o sistemas de base de datos relacionales (DB2, Oracle, Informix, etc.). Segn las encuestas, aproximadamente del 70 % a 80 % de las bases de datos de las empresas se organizan usando DBMSs no relacional. Extraccin, Transformacin y Carga de los Datos Se requieren herramientas de gestin de datos para extraer datos desde bases de datos y / o archivos operacionales, luego es necesario manipular o transformar los datos antes de cargar los resultados en el DW. Tomar los datos desde varias bases de datos operacionales y transformarlos en datos requeridos para el depsito, se reere a la transformacin o a la inte- 31 32 CAPTULO 5. OPERACIONES EN UN DATA WAREHOUSE Figura 5.1: Operaciones en el Data Warehouse. 5.1. TIPOS DE OPERACIONES 33 gracin de datos. Las bases de datos operacionales, diseadas para el soporte de varias aplicaciones de produccin, frecuentemente dieren en el formato. Los mismos elementos de datos, si son usados por aplicaciones diferentes o administrados por diferentes software DBMS, pueden denirse al usar nom- bres de elementos inconsistentes, que tienen formatos inconsistentes y/o ser codicados de manera diferente. Todas estas inconsistencias deben resolverse antes que los elementos de datos sean almacenados en el DW. Las operaciones de extraccin, transformacin y carga son conocidas como ETL, por su sigla en ingls; las mismas constan de lo siguiente: Extraccin: obtencin de informacin de las distintas fuentes tanto in- ternas como externas. Transformacin: ltrado, limpieza, depuracin, homogeneizacin y agru- pacin de la informacin. Carga: organizacin y actualizacin de los datos y los metadatos en la base de datos. Metadata La metadata (es decir, datos acerca de datos) describe los contenidos del DW. La metadata consiste de deniciones de los elementos de datos en el depsito, se integra y transforma antes de ser almacenada en informacin similar. Acceso de Usuario Final Los usuarios acceden al DW por medio de herramientas de productivi- dad basadas en GUI (Graphical User Interface - Interfase grca de usuario). Pueden proveerse a los usuarios del DW muchos de estos tipos de herramientas. Estos pueden incluir software de consultas, generadores de reportes, proce- samiento analtico en lnea, herramientas data / visual mining, etc., dependien- do de los tipos de usuarios y sus requerimientos particulares. Sin embargo, una sola herramienta no satisface todos los requerimientos, por lo que es necesaria la integracin de una serie de herramientas. Plataforma del DW 34 CAPTULO 5. OPERACIONES EN UN DATA WAREHOUSE La plataforma para el DW es casi siempre un servidor de base de datos relacional. Cuando se manipulan volmenes muy grandes de datos puede re- querirse una conguracin en bloque de servidores UNIX con multiprocesador simtrico (SMP) o un servidor con procesador paralelo masivo (MPP) espe- cializado. Los extractos de la data integrada / transformada se cargan en el DW. La eleccin de la plataforma es crtica. El depsito crecer y hay que comprender los requerimientos despus de 3 o 5 aos. El sistema de depsito ejecuta las consultas que se pasa a los datos por el software de acceso a los datos del usuario. Aunque un usuario visualiza las consultas desde el punto de vista de un GUI, las consultas tpicamente se formulan como pedidos SQL, porque SQL es un lenguaje universal y el estndar de hecho para el acceso a datos. Datos Externos Dependiendo de la aplicacin, el alcance del DW puede extenderse por la capacidad de accesar a la data externa. Por ejemplo, los datos accesibles por medio de servicios va Internet, pueden estar disponibles a los usuarios del DW. Evolucin del Depsito Construir un DW es una tarea grande. No es recomendable emprender el desarrollo del DW de la empresa como un proyecto cualquiera. Ms bien, se recomienda que los requerimientos de una serie de fases se desarrollen e imple- menten en modelos consecutivos que permitan un proceso de implementacin ms gradual e iterativo. Los datos en el DW no son voltiles y es un repositorio de datos de slo lectura (en general). Sin embargo, pueden aadirse nuevos elementos sobre una base regular para que el contenido siga la evolucin de los datos en la base de datos fuente, tanto en los contenidos como en el tiempo. Uno de los desafos de mantener un DW, es idear mtodos para identi- car datos nuevos o modicados en las bases de datos operacionales. Algunas maneras para identicar estos datos incluyen insertar fecha / tiempo en los registros de base de datos y entonces crear copias de registros actualizados y copiar informacin de los registros de transaccin y / o base de datos diarias. Estos elementos de datos nuevos y / o modicados son extrados, inte- grados, transformados y agregados al DW en pasos peridicos programados. Como se aaden las nuevas ocurrencias de datos, los datos ms antiguos son eliminados. 36 CAPTULO 5. OPERACIONES EN UN DATA WAREHOUSE Captulo 6 Herramientas de Acceso y Uso 6.1. Introduccin Sin las herramientas adecuadas de acceso y anlisis el DW se puede conver- tir en una mezcla de datos sin ninguna utilidad. Es necesario poseer tcnicas que capturen los datos importantes de manera rpida y puedan ser analizados desde diferentes puntos de vista. Tambin deben transformar los datos capturados en informacin til para el negocio. Actualmente a este tipo de herramientas se las conocen como He- rramientas de Inteligencia de Negocio (Business Intelligence Tools, BIT) y estn situadas conceptualmente sobre el DW. Cada usuario nal debe seleccionar la herramienta que mejor se ajusta a sus necesidades y a su DW. Entre ellas se pueden citar las Consultas SQL (Struc- tured Query Language), las Herramientas MDA (Multidimensional Analysis) y OLAP (On-Line Analytical Processing) y las herramientas Data Mining. Este bloque tambin incluye el hardware y software involucrados en mostrar la informacin en pantalla y emitir reportes de impresin, hojas de clculo, grcos y diagramas para el anlisis y presentacin. 37 38 CAPTULO 6. HERRAMIENTAS DE ACCESO Y USO 6.2. OLAP (On Line Analytical Processing) Son aplicaciones que generan informacin tctica y estratgica que sirve a la organizacin como soporte para la toma de decisiones. A diferencia de los sistemas OLTP, que utilizan BD relacionales u otros archivos, OLAP (On Line Analytical Process - Procesamiento Analtico En Lnea) logra su mximo rendimiento y exibilidad trabajando sobre un DW. Presentan al usuario un esquema multidimensional en el cual se pueden realizar consultas seleccionando atributos sobre el tema en particular que se trate; esto desconociendo totalmente la estructura interna del DW. La apli- cacin OLAP se encarga de generar la consulta y enviarla al gestor, por ejem- plo, a travs de una sentencia Select. La estructura multidimensional consta de una tabla de sucesos o hechos, cuyos atributos describen la actividad que es el objeto del anlisis (por ejemplo ventas), y varias tablas llamadas dimensiones. Los atributos de cada dimensin tienen el objetivo de aportar informacin particular sobre cada tupla de la tabla de hechos, por ejemplo, lugar donde se realizan las ventas, fecha o perodo en que fueron realizadas, sucursal, etc., como se puede observar en la gura 6.1 de la pgina 39. Estas vistas multidimensionales son llamadas Cubos y pueden ser construi- dos de distintas formas: ROLAP Se implementa sobre tecnologa relacional. Utiliza un esquema en estrella cuyo nodo central representa a la tabla de hechos y sus extremos a las dimen- siones [3]. Con esta metodologa, cuando la consulta es realizada se genera el cubo correspondiente. Esta alternativa de generacin de cubos se utiliza cuan- do no se posee gran capacidad de almacenamiento. Al generarse los cubos en tiempo de ejecucin su rendimiento no es ptimo. MOLAP Tiene la estructura de arrays multidimensionales. Los cubos son generados y almacenados antes de ser consultados. Los datos son tomados de la tabla de hechos y las dimensiones son calculadas y almacenadas. Si se dispone de suciente espacio en disco, esta alternativa aumenta el rendimiento y mejora los tiempos de respuesta [4]. 6.2. OLAP (ON LINE ANALYTICAL PROCESSING) 39
Figura 6.1: Estructura Multidimensional. 40 CAPTULO 6. HERRAMIENTAS DE ACCESO Y USO
Figura 6.2: Modelo ROLAP y MOLAP. HOLAP Es una combinacin de las tcnicas ROLAP y MOLAP. Los cubos fre- cuentemente consultados son generados y almacenados. Cualquier otra con- sulta debe generarse en tiempo de ejecucin. Las principales diferencias entre un sistema OLTP y OLAP, se expresan en la gura 6.2 de la pgina 40. 6.3. DATA MINING (MINERA DE DATOS) 41 6.3. Data Mining (Minera de Datos) La MD se dene formalmente como un conjunto de tcnicas y herramientas aplicadas al proceso no trivial de extraer y presentar conocimiento implcito, previamente desconocido, potencialmente til y humanamente comprensible, a partir de grandes conjuntos de datos, con objeto de predecir, de forma au- tomatizada, tendencias o comportamientos y descubrir modelos previamente desconocidos [5]. Desde el punto de vista empresarial los trminos Data Mining y Extraccin del Conocimiento son tratados como sinnimos, y se los dene como: La in- tegracin de un conjunto de reas que tienen como propsito la identicacin de conocimiento obtenido a partir de las bases de datos que aporten un sesgo hacia la toma de decisiones [6]. Caractersticas y Objetivos En la actualidad, para realizar una investigacin con el mtodo cientco tradicional, generalmente, primero se formula la hiptesis y luego el experi- mento, para posteriormente coleccionar los datos necesarios que conrmen o refuten la hiptesis. De esta manera se obtiene el nuevo conocimiento. Una de las caractersticas principales de la MD es que invierte la dinmica del mtodo cientco. Es decir, primero se coleccionan los datos y luego se los escucha para que de ellos emerjan las hiptesis. Luego se validan esas hiptesis en los datos mismos. Por lo antes expuesto es que la MD debe presentar un enfoque exploratorio, y no conrmador. Usar la MD para conrmar las hiptesis no sera correcto, ya que se est haciendo una inferencia poco vlida y acotando el anlisis slo a la hiptesis elaborada. El objetivo de la MD es extraer la informacin oculta en las profundidades de las BD para luego intentar predecir futuras tendencias y comportamientos. De esta forma permiten a las organizaciones tomar decisiones proactivas y as adaptarse a un entorno permanentemente cambiante y sumamente competiti- vo. Las tcnicas utilizadas en la MD son el resultado de un largo proceso de in- vestigacin y desarrollo de productos que comenz cuando los datos de negocio fueron almacenados por primera vez en computadoras y luego, con tecnologas generadas para permitir que los usuarios naveguen entre los datos en tiempo 42 CAPTULO 6. HERRAMIENTAS DE ACCESO Y USO real. La MD engloba todas estas tcnicas para brindar informacin prospecti- va y proactiva. La MD est lista para su aplicacin ya que est sostenida por cuatro tecnologas que ya se encuentran sucientemente maduras: Recoleccin masiva de datos. Potentes computadoras con multiprocesadores. Data Warehouse. Algoritmos de Data Mining. La MD produce cinco tipos de informacin: Asociaciones. Secuencias. Clasicaciones. Agrupamientos. Pronsticos. Uno de los factores claves que dene la verdadera MD es que la aplicacin misma realiza el anlisis sobre los datos. En otros casos, el anlisis es guiado por una interaccin con el usuario. Las aplicaciones que no son, en algn grado, auto guiadas, estn realizando anlisis de datos y no MD. Arquitectura Para que el proceso de MD sea ptimo, se recomienda que la fuente de informacin de los algoritmos provenga de una DW. El contar con una DW simplica considerablemente la etapa de preproceso. Existen herramientas de DM que operan fuera del mbito de una DW, pero esto requiere varios pasos extras para unicar fuentes, extraer, importar y analizar los datos. Por otra parte, cuando se introducen nuevos conceptos en los sistemas OLTP, la integracin con el DW simplica la aplicacin de los resultados de la MD. 6.3. DATA MINING (MINERA DE DATOS) 43
Figura 6.3: Etapas en un Proyecto de MD. Otra ventaja de incluir en la arquitectura un DW, es que sta permite que a medida que las BD operacionales de los distintos sistemas crece, los datos son integrados al DW. Luego de este proceso la organizacin puede realizar la MD, obtener patrones y conocimiento de los mismos y aplicarlos en el futuro. Podramos decir que un DW constituye la fuente de informacin o en la memoria de la organizacin, y que la MD dota a esta de inteligencia [7]. En un proyecto de MD se deben tener en cuenta las siguientes etapas, como se puede observar en la gura 6.3 de la pgina 43. Seleccin de Datos Los datos pueden tener un gran volumen y contener una cantidad ingente de datos. En esta etapa se reduce considerablemente el volumen de los datos seleccionando slo los atributos y tuplas que aporten la informacin y sean ms inuyentes sobre el tema a tratar. Existen varios mtodos para la seleccin de este subconjunto de atributos [7]. Entre algunos de ellos se pueden citar: Seleccin por Pasos Hacia Adelante: se comienza con un conjunto vaco de atributos, en cada paso se agrega al conjunto el mejor atributo del conjunto original. Eliminacin por Pasos Hacia Atrs: se comienza con un conjunto que posee todos los atributos originales, en cada paso se elimina del conjunto el peor atributo. Combinacin de Seleccin por Pasos Hacia Adelante y Elimi- nacin por Pasos Hacia Atrs: es una combinacin de los dos anteriores. Se puede utilizar un umbral de medicin para establecer cundo detener la eliminacin y agregacin de los atributos. 44 CAPTULO 6. HERRAMIENTAS DE ACCESO Y USO Induccin con rboles de decisin: se utilizan algoritmos como ID3 y C4.5. Los atributos que no son representados en el rbol se consideran irre- levantes y se los descarta. Por el contrario, los atributos que aparecen en el rbol son los elegidos para conformar el subconjunto de atributos. Pre Procesamiento de Datos El formato de los datos de las distintas fuentes (OLPT, Fuentes Externas, etc.) por lo general no suele ser apropiado. Esto diculta que los algoritmos de minera obtengan buenos modelos trabajando sobre estos datos en bruto. El objetivo del preprocesado es adecuar los datos para que la aplicacin a los algoritmos de minera sea ptima. Para esto hay que ltrar, eliminar datos incorrectos, no vlidos, crear nuevos valores y categoras para los atributos e intentar completar o descartar los valores desconocidos e incompletos. Extraccin de Conocimiento Es la aplicacin de diferentes algoritmos sobre los datos ya pre procesados, para extraer patrones. Evaluacin e Interpretacin de Patrones Una vez obtenidos los patrones se debe comprobar su validez. Si los modelos son varios, se debe elegir el que se ajuste mejor al problema. Si ninguno de los modelos alcanza los resultados esperados, se debe volver a las etapas anteriores y modicar alguna entrada para, de esta manera, generar nuevos modelos. Algoritmos para la Extraccin de Conocimiento En la MD, segn el tipo de algoritmo que se utilice, se realizan algunas de las siguientes tareas: Asociacin: descubre relaciones entre dos sucesos aparentemente inde- pendientes. Estas se expresan en el conjunto de datos como condiciones atributo-valor y deben estar presentes varias veces en ellos. La expresin tiene dos componentes, el antecedente y el consecuente. Secuenciacin o anlisis a travs del tiempo: si adems de lo anterior la tarea incluye comparaciones de tiempo, bsqueda de patrones secuen- ciales, peridicos, desviaciones, entonces estamos frente a un algoritmo del tipo secuencial. ste incluye en el anlisis el tiempo transcurrido entre el suceso inductor y el suceso inducido. Clasicacin: se analiza un conjunto de datos cuya clasicacin se conoce y se le asigna a cada uno una clase o grupo de pertenencia. Este mode- lo puede utilizarse para un mayor entendimiento de los datos actuales o para realizar la clasicacin de futuros sucesos. Son utilizados en la deteccin de fraudes, anlisis de riesgo en la entrega de crditos, identi- cacin de procedimientos mdicos, etc. Agrupamiento: realiza una clasicacin resumida sobre el conjunto de datos. A la clasicacin se la nombra como caracterizacin, y a la dis- tincin entre los datos como discriminacin o comparacin. Se diferencia de la clasicacin en que no se parte de un conjunto de entrenamiento. Se utiliza en marketing (poblacin con las mismas anidades), medicina (pacientes con los mismos malestares), etc. Prediccin: cuando existen datos faltantes intenta predecir los posibles valores de los atributos. Regresin: es similar a los algoritmos de clasicacin. El modelo generado intenta predecir el valor ms probable para una situacin observada. Clstering: un cluster es un conjunto de datos con caractersticas simi- lares. Esta similitud puede medirse con funciones de distancia. La MD intenta encontrar clsteres de buena calidad para que luego puedan ser utilizados en grandes BD o DW. Tambin suelen utilizarse combinaciones entre los diferentes tipos de algo- ritmos. Los algoritmos de clasicacin y regresin pertenecen a la MD predic- tiva, mientras que los dems estn dentro de la MD descriptiva. 46 CAPTULO 6. HERRAMIENTAS DE ACCESO Y USO Captulo 7 Conclusin La Computacin Ubicua permite integrar los dispositivos computacionales y las nuevas tecnologas en el entorno personal, insertando dispositivos in- teligentes en las tareas diarias, haciendo que interacten de forma natural y desinhibida en todo tipo de situaciones y circunstancias. Permiten as que los usuarios puedan centrarse en las tareas que deben hacer, y no en las herra- mientas que deben usar. El DW permite analizar y realizar preguntas sobre aos, ms que sobre meses de informacin. Las aplicaciones de usuario nal que acceden al DW brindan a los gerentes la posibilidad de ver la informacin a diferentes niveles de agregacin y ltrar las consultas. Los Sistemas de Bases de Datos Multiplataforma Integrados a Sistemas Mviles no solo acceden a bases de datos, sino tambin pueden acceder a los DW. La integracin de un DW a la empresa representa una ventaja competiti- va en el mundo de los negocios y acceder a ellos desde los dispositivos mviles es una alternativa adicional importante. 48 CAPTULO 7. CONCLUSIN Bibliografa [1] http://www.lawebdelprogramador.com. (Visita realizada el 21/04/2010). [2] http://www.sqlmax.com/dataw1.asp. (Visita realizada el 20/04/2010). [3] I. Ki:i\ii. The Data Warehouse Toolkit. John Wiley-Sons (1996). [4] L\ Ii M\n):iz D\\i Li. Sistemas Operativos. UNNE (2004). [5] M\)ii Fn\vii.. Ii\)ii.-Si\iino. Knowledge Discovery in Data- bases: an Overview. AI Magazine (1992). [6] Moii:\ Li C\nio Fiiix. Torturando a los Datos hasta que Con- esen. UOC (2001). [7] Hoi\: Aii)\:no Siinn\ L:nioi M\n)i:iz I\:o:. Lni)o I\oi\ Vino:ic\. Minera de datos Basada en Sistemas Inteligentes. (2005). 49 ndice alfabtico data mining, 3 arquitectura, 42 datos informativos, 12 datos operacionales, 11 DW, 5 caractersticas, 13 data warehouse, 2 Operaciones, 31 ETL, 33 herramientas de acceso y uso, 37 DM data mining, 41 OLAP, 38 HOLAP, 40 modelo de datos, 23 modelo dimensional, 24 modelo relacional, 23 MOLAP, 38 OLAP, 2, 38 OLTP, 2, 12 OMA, 2 ROLAP, 38 SI sistemas de informacin, 9 SSD sistemas de soporte de decisiones, 9 ubicuidad, 1 WAP, 1 51