You are on page 1of 71

FACULTAD DE CIENCIAS Y TECNOLOGA

RED NACIONAL UNIVERSITARIA

SYLLABUS

NUEVAS TECNOLOGAS

NOVENO SEMESTRE

Gestin Acadmica I/2011

U N

I V E R S I D A D

D E 1

Q U

I N O

O L

I V I A

FACULTAD DE CIENCIAS Y TECNOLOGA

UDABOL UNIVERSIDAD DE AQUINO BOLIVIA Acreditada como PLENA mediante R. M. 288/01

VISION DE LA UNIVERSIDAD Ser la Universidad lder en calidad educativa.

MISION DE LA UNIVERSIDAD Desarrollar la Educacin Superior Universitaria con calidad y competitividad al servicio de la sociedad.

Estimado(a) estudiante: El syllabus que ponemos en tus manos es el fruto del trabajo intelectual de tus docentes, quienes han puesto sus mejores empeos en la planificacin de los procesos de enseanza para brindarte una educacin de la ms alta calidad. Este documento te servir de gua para que organices mejor tus procesos de aprendizaje y los hagas mucho ms productivos. Esperamos que sepas apreciarlo y cuidarlo. I. SYLLABUS Asignatura: Cdigo: Requisito: Carga Horaria: Horas tericas: Horas Prcticas: Crditos: NUEVAS TECNOLOGIAS CMP 527 CMP 517 80 horas 60 Horas 20 Horas 8

II. OBJETIVOS GENERALES DE LA ASIGNATURA. Mostrar los adelantos tecnolgicos y sus aplicaciones prcticas en situaciones reales, como instrumento para el logro de ventajas competitivas en las organizaciones. Dotar al estudiante de conocimientos actuales y modernos que le permitan ingresar al mercado laboral con mayores expectativas y conocimientos.

III. PROGRAMA ANALTICO DE LA ASIGNATURA. UNIDAD I: DATAWAREHOUSE 1. DATAWARE HOUSE Y DATA MARTS
U N I V E R S I D A D D E 2 A Q U I N O B O L I V I A

FACULTAD DE CIENCIAS Y TECNOLOGA

Sistemas de Informacin 1.1.1. Sistemas Estratgicos 1.1.2. Sistemas Tcticos 1.1.3. Sistemas Tcnico-Operativos 1.1.4. Sistemas Interinstitucionales 1.2. Objetivo de los Sistemas de Apoyo a las Decisiones 1.3. Caractersticas de un Data Warehouse 1.4. Estructura del Data Warehouse 1.5. Ciclo de vida de un Data Warehouse 1.6. Elementos Constituyentes de una Arquitectura Data Warehouse 1.7. Operaciones en un Data Warehouse 1.8. Transformacin de Datos y Metadata 1.9. Tabla de Hechos 1.9.1. Hechos Semi-aditivos 1.9.2. Hechos no aditivos 1.10. Tabla de Dimensiones 1.11. Data Mart 2. HERRAMIENTAS DE BASES DE DATOS MULTIDIMENSIONALES 3. OLAP, MOLAP Y ROLAP 3.1. OLAP 3.2. ROLAP 3.3. MOLAP 3.4. Data Mining 3.4.1. Tcnicas de Data Mining 3.4.2. Anlisis estadistico 3.4.3. Mtodos basados en rboles de decisin 3.4.4. Algoritmos Genticos 3.4.5. Redes Neuronales 3.4.6. Lgica Difusa 3.4.7. Series Neuronales 3.5. Modelaje 3.5.1. Modelo Star Schema 3.5.1.1. Esquema Snowflake 3.5.1.2. Esquema MultiStar UNIDAD II: DATAMINING 4. DATA MINING UNIDAD III: XML 5. XML PARA WWW 5.1. Introduccin 5.2. Como escribir en XML 5.2.1. Elementos 5.2.2. Atributos 5.2.3. Valores 5.2.4. Reglas para escribir en XML 5.3. Creacin de un DTD 5.4. Definiendo elementos e atributos en un DTD 5.4.1. Como declarar una DTD interna 5.4.2. Como declarar una DTD externa 5.5. Definir elementos e atributos en una DTD 5.5.1. Entidades y notaciones en DTDs 5.5.2. Como crear el elemento raiz 6. XML SCHEMA E NAMESPACES 6.1. XML Schema 6.1.1. Tipos simples y complejos 6.1.2. Declaraciones locales y globales 6.2. Como definir tipos simples 6.2.1. Como declarar un elemento de un tipo simple
U N I V E R S I D A D D E 3 A Q U I N O B O L I V I A

1.1.

FACULTAD DE CIENCIAS Y TECNOLOGA

6.2.2. Como utilizar tipo de fecha y hora 6.2.3. Como utilizar tipos de nmero 6.2.4. Como crear tipos de lista 6.3. Como definir tipos complejos 6.3.1. Como definir elementos para contener apenas elementos 6.3.2. Como exigir que elementos aparecen en secuencia 6.3.3. Como crear un conjunto de opciones 6.4. Uso del NAMESPACES en XML 6.4.1. Como crear un nombre de NAMESPACES 6.4.2. Como crear namespaces por default 6.4.3. Como afectan los namespaces a los atributos 6.4.4. DTDs y documentos vlidos 6.5. NAMESPACES, Esquemas y Validacin 6.5.1. Esquemas y namespaces 6.5.2. Como llenar un namespaces 6.5.3. Como adiciones todos los elementos declarados localmente. 6.5.4. Namespaces y la validacin de XML 6.5.5. Esquemas en diversos Archivos 7. TECNOLOGA .NET IV. SISTEMA DE EVALUACIN DE APRENDIZAJES El seguimiento y evaluacin a los estudiantes de la asignatura se regir en las metodologas de diagnstica, procesual y de resultados; cada una de las cuales se regir en normas y reglamentos establecidos por la Universidad a fin de garantizar al aprendizaje de los estudiantes. V. BIBLIOGRAFA. KENT, P. , World Wide Web fcil DIAZ, J., World Wide Web paso a paso, 1997 BREEDLOVE, B., Web desarrollo de aplicaciones, 1995 ABBEY COREY, SLOLTZ KEVIN, Oracle Gua del Aprendizaje, Redes de Computacin, Todo acerca Hinricsd , Intranets usos y Aplicaciones SYAN, Internet y seguridad en redes YOURDON, ISO 9000 Liderazgo Virtual

VI. CONTROL DE EVALUACIONES


1 evaluacin parcial Fecha Nota 2 evaluacin parcial Fecha Nota Examen final Fecha Nota

APUNTES

U N

I V E R S I D A D

D E 4

Q U

I N O

O L

I V I A

FACULTAD DE CIENCIAS Y TECNOLOGA

VII. PLAN CALENDARIO

UNIVERSIDAD DE AQUINO-BOLIVIA UNIDAD ACADMICA DE ORURO

GESTIN I/2011 TURNOS REGULAR-TRABAJO ESTUDIANTES NUEVOS-ANTIGUOS


SEMANA

CALENDARIO ACADMICO

DEL

AL

ACTIVIDADES

OBSERVACIONES

1ra. 2da. 3ra. 4ta. 5ta. 6ta. 7ma. 8va. 9na. 10ma. 11ra. 12da. 13ra. 14ta. 15ta. 16ta. 17ma. 18va. 19na. 20va. 21ra.

09-mar 12-mar 14-mar 19-mar 21-mar 26-mar 28-mar 02-abr 04-abr 11-abr 18-abr 25-abr 09-abr 16-abr 23-abr 30-abr

Avance de materia Avance de materia Avance de materia Avance de materia Avance de materia Avance de materia Avance de materia Avance de materia Avance de materia Avance de materia Avance de materia Avance de materia Avance de materia Avance de materia Avance de materia Avance de materia Avance de materia
Inicio Evaluacin Final
Conclusin Evaluacin Final Evaluacin del segundo turno Cierre de Gestin

Inicio Primera Evaluacin Parcial Conclusin Primera Evaluacin Parcial

Presentacin de Notas Presentacin de Notas

02-may 07-may 09-may 14-may 16-may 21-may 23-may 28-may 30-may 04-jun 06-jun 13-jun 20-jun 27-jun 04-jul 11-jul 18-jul 25-jul 11-jun 18-jun 25-jun 02-jul 09-jul 16-jul 23-jul 26-jul

Inicio Segunda Evaluacin Parcial

Presentacin de Notas

Conclusin Segunda Evaluacin Parcial Presentacin de Notas

Presentacin de Notas Transcripcin de Notas Transcripcin de Notas

U N

I V E R S I D A D

D E 5

Q U

I N O

O L

I V I A

FACULTAD DE CIENCIAS Y TECNOLOGA

PLANIFICACIN DE ACTIVIDADES PERIODOS ACADMICOS 4 Periodos 4 Periodos

CONTENIDO MNIMO Sistemas de Apoyo a las Decisiones Sistemas de Apoyo a las Decisiones Nuevas Tecnologas

CONTENIDO ANALTICO Tema 2: Herramientas de Bases de Datos Multidimensionales Tema 1: Data warehouse y Data Marts Herramientas de Bases de Datos Multidimensionales Tema 4: Data Mining eCommerce Tema 5: XML para WWW Tema 6: XML Schema e Namespaces Tema 5: XML para WWW Tema 6: XML Schema e Namespaces Tema 7: Tecnologa .NET

ACTIVIDAD Visita a ENTEL rea de Sistemas e Informtica Visita SFIDA

RECURSOS DIDCTICOS Data Display Cmaras fotogrficas, Filmadoras Data Display Software de Monitoreo de Procesos Instrumentacin Data Display Equipo de Computacin Ppelografo Software Data Display Software Pizarras Presentaciones Data Display Software Pizarras Presentaciones Soporte CDs

6 Periodos Seminario ARCVIEW 6 Periodos Visita INSEROR 8 Periodos Visita E.M.V.

Nuevas Tecnologas

Nuevas Tecnologas

U N

I V E R S I D A D

D E 6

Q U

I N O

O L

I V I A

FACULTAD DE CIENCIAS Y TECNOLOGA

WORK PAPER # 1

PROGRAMA DE CONTROL DE CALIDAD Nro DE PROCEDIMIENTO: APRO 07 Nro. DE HOJAS: 20

ELABORO: ING. MILTON ZURITA BENITO TITULO WORK PAPER: DATA WAREHOUSE DPTO: DESTINADO A: DOCENTE UDABOL ORURO

CDIGO: CMP 527

ALUMNOS

ADMINISTRATIVOS

OTROS

OBSERVACIONES: INGENIERIA DE SISTEMAS NUEVAS TECNOLGIAS- UNIDAD I FECHA DE DIFUSIN: FECHA DE ENTREGA:

U N

I V E R S I D A D

D E 7

Q U

I N O

O L

I V I A

FACULTAD DE CIENCIAS Y TECNOLOGA

WORKPAPER #1 NUEVAS TECNOLOGIAS Data Warehouse 1. Introduccin Hoy en da toda empresa necesita depositar mucha confianza en la toma de decisiones sobre los negocios, para tomar dichas decisiones requerimos hechos y cifras, sabemos que la competencia crece en todo momento entonces las decisiones que debemos tomar en nuestra empresa deben ser mas aceleradas; pero que pasa si tenemos una montaa de informacin la cual debe ser analizada, lgicamente pensamos que necesitaramos mucho tiempo. Por ese motivo se requieren herramientas que nos ayuden a minimizar el tiempo para analizar mucha informacin con mayor velocidad y precisin; utilizando dichas herramientas logramos mantenernos competitivos, ya que nuestros negocios deben reaccionar al cambio del mercado. De otro modo el mercado globalizado, la presin inmensa de la competencia, los arranques tecnolgicos, etc. Debilitaran nuestra empresa. Esto nos muestra que las empresas invierten en tecnologa y soluciones con las cuales se mantienen en este mundo cambiante, ahora las empresas no dependen tan solo de factores como ubicacin, productos, etc. Sino tambin del conocimiento. Tal conocimiento basado en informacin comprensible, detallada y relevante es crucial para lograr y sostener ventaja competitiva. El poseer conocimientos correctos significa tener respuestas correctas y realizar decisiones estratgicas para la ejecucin de la empresa. Pero las tareas de recolectar, procesar, limpiar y transformar la informacin necesaria para la toma de decisiones no es una tarea sencilla mas si consideramos que una empresa tiene distintas reas que a veces se encuentran alejadas de los ejecutivos de negocios. El Componente de Bussines Intelligence que resuelve este caos de los datos es el Data Warehouse. El Data Warehouse es un conjunto de procesos y acciones, es una coleccin de datos orientados a un tema, integrados y no voltiles en el soporte al proceso de toma de decisiones de la gerencia. Los Alumnos. 2. Data Warehouse Qu es Data Warehousing? En la actualidad hay una importante cantidad de confusin respecto a lo que es un Data Warehouse que, afortunadamente, est comenzando a despejarse. No obstante, parece que cada proveedor de un producto o servicio relacionado con tecnologa informtica tiene su definicin y, lo que es peor, en su propia jerga no siempre comprensible. Algunos llaman a Datawahouse Business Intelligence or Decision Support en realidad es considerada la solucin integral y oportuna para desarrollar negocio el Datawarehouse se caracteriza por ser: Integrado - Temtico - Histrico - No volatil Definicin : Es un proceso, no un producto. Es una tcnica para consolidar y administrar datos de variadas fuentes con el propsito de responder preguntas de negocios y tomar decisiones, de una forma que no era posible hasta ahora. Consolidar datos desde una variedad de fuentes. Dentro del marco conceptual de Data Warehousing los agruparemos dentro del proceso de Transformacin de Datos.

U N

I V E R S I D A D

D E 8

Q U

I N O

O L

I V I A

FACULTAD DE CIENCIAS Y TECNOLOGA

Manejar grandes volmenes de datos de una forma que no era posible, o no era costo efectiva. A estos medios los agruparemos en Procesamiento y Administracin de Datos. Acceder a los datos de una forma ms directa, en "el lenguaje del negocio", y analizarlos para obtener relaciones complejas entre los mismos. Estos procesos se engloban en dos categoras que sern explicadas ms adelante: Acceso a los Datos y Descubrimiento o Data Mining. Estos desarrollos tecnolgicos, correctamente organizados e interrelacionados, constituyen lo que se ha dado en llamar un Data Warehouse o Bodega de Datos. Veamos un poco ms en detalle los grupos mencionados. Existen muchas definiciones para el DW, la ms conocida fue propuesta por Inmon[MicroSt96] (considerado el padre de las Bases de Datos) en 1992: "Un DW es una coleccin de datos orientados a temas, integrados, no-voltiles y variante en el tiempo, organizados para soportar necesidades empresariales". En 1993, Susan Osterfeldt[MicroSt96] publica una definicin que sin duda acierta en la clave del DW: "Yo considero al DW como algo que provee dos beneficios empresariales reales: Integracin y Acceso de datos. DW elimina una gran cantidad de datos intiles y no deseados, como tambin el procesamiento desde el ambiente operacional clsico". Data Mining En este sentido un sistema Datamining es una tecnologa de soporte para usuario final, cuyo objetivo es extraer conocimiento til y utilizable a partir de la informacin contenida en las bases de datos de las empresas. Los objetivos de un sistema Datamining nos permitira analizar factores de influencia en determinados procesos, predecir o estimar variables o comportamientos futuros, sementar o agrupar tems similares, adems de obtener secuencias de eventos que provocan comportamientos especficos. Los sistemas Datamining se desarrollan bajo lenguajes de ultima generacin basados en la inteligencia artificial y utilizando mtodos matemticos, tales como:

Redes Neuronales Introduccin de reglas Arboles de decisin Conjunto de reglas por clase

Soporta tambien sofisticadas operaciones de anlisis tales como los sistemas Scoring y aplicaciones de deteccin de fraude.

Data Marts Es un pequeos Data Warehouse, para un determinado numero de usuarios, para un arrea funcional, especifica de la compaa. Tambin podemos definir que un Data Martes es un subconjunto de una bodega de datos para un propsito especifico. Su funcin es apoyar a otros sistemas para la toma de decisiones. Los procesos que conforma el DATAWAREHOUSE son: 1-Extraccion 2 Elaboracin 3-Carga 4-Explotacion

U N

I V E R S I D A D

D E 9

Q U

I N O

O L

I V I A

FACULTAD DE CIENCIAS Y TECNOLOGA

Componentes del Data Warehouse Impactos DW El xito de DW no est en su construccin, sino en usarlo para mejorar procesos empresariales, operaciones y decisiones. Posesionar un DW para que sea usado efectivamente, requiere entender los impactos de implementacin en los siguientes mbitos: Impactos Humanos. Efectos sobre la gente de la empresa: Construccin del DW: Construir un DW requiere la participacin activa de quienes usarn el DW. A diferencia del desarrollo de aplicaciones, donde los requerimientos de la empresa logran ser relativamente bien definidos producto de la estabilidad de las reglas de negocio a travs del tiempo, construir un DW depende de la realidad de la empresa como de las condiciones que en ese momento existan, las cuales determinan qu debe contener el DW. La gente de negocios debe participar activamente durante el desarrollo del DW, desde una perspectiva de construccin y creacin. Accesando el DW: El DW intenta proveer los datos que posibilitan a los usuarios accesar su propia informacin cuando ellos la necesitan. Esta aproximacin para entregar informacin tiene varias implicancias: a) La gente de la empresa puede necesitar aprender nuevas destrezas. b) Anlisis extensos y demoras de programacin para obtener informacin ser eliminada. Como la informacin estar lista para ser accesada, las expectativas probablemente aumentarn. c) Nuevas oportunidades pueden existir en la comunidad empresarial para los especialistas de informacin. papel sern reducidas o eliminadas. d) La gran cantidad de reportes en e) La madurez del DW depender del uso activo y retroalimentacin de sus usuarios. Usando aplicaciones DSS/EIS: usuarios de aplicaciones DSS y EIS necesitarn menos experiencia para construir su propia informacin y desarrollar nuevas destrezas. 3. Impactos Empresariales. Procesos Empresariales Y Decisiones Empresariales. Se deben considerar los beneficios empresariales potenciales de los siguientes impactos: a) Los Procesos de Toma de Decisiones pueden ser mejorados mediante la disponibilidad de informacin. Decisiones empresariales se hacen ms rpidas por gente ms informada. b) Los procesos empresariales pueden ser optimizados. El tiempo perdido esperando por informacin que finalmente es incorrecta o no encontrada, es eliminada.

U N

I V E R S I D A D

D E 10

Q U

I N O

O L

I V I A

FACULTAD DE CIENCIAS Y TECNOLOGA

c) Conexiones y dependencias entre procesos empresariales se vuelven ms claros y entendibles. Secuencias de procesos empresariales pueden ser optimizados para ganar eficiencia y reducir costos. d) Procesos y datos de los sistemas operacionales, as como los datos en el DW, son usados y examinados. Cuando los datos son organizados y estructurados para tener significado empresarial, la gente aprende mucho de los sistemas de informacin. Pueden quedar expuestos posibles defectos en aplicaciones actuales, siendo posible entonces mejorar la calidad de nuevas aplicaciones. Comunicacin e Impactos Organizacionales. Apenas el DW comienza a ser fuente primaria de informacin empresarial consistente, los siguientes impactos pueden comenzar a presentarse: a) La gente tiene mayor confianza en las decisiones empresariales que se toman. Ambos, quienes toman las decisiones como los afectados conocen que est basada en buena informacin. b) Las organizaciones empresariales y la gente de la cual ella se compone queda determinada por el acceso a la informacin. De esta manera, la gente queda mejor habilitada para entender su propio rol y responsabilidades como tambin los efectos de sus contribuciones; a la vez, desarrollan un mejor entendimiento y apreciacin con las contribuciones de otros. c) La informacin compartida conduce a un lenguaje comn, conocimiento comn, y mejoramiento de la comunicacin en la empresa. Se mejora la confianza y cooperacin entre distintos sectores de la empresa , vindose reducida la sectorizacin de funciones. d) Visibilidad, accesibilidad, y conocimiento de los datos producen mayor confianza en los sistemas operacionales.

Impactos Tcnicos De DW. Considerando las etapas de construccin, soporte del DW y soporte de sistemas operacionales, se tienen los siguientes impactos tcnicos: Nuevas destrezas de desarrollo: cuando se construye el DW, el impacto ms grande sobre la gente tcnica est dada por la curva de aprendizaje, muchas destrezas nuevas se deben aprender, incluyendo: a) Conceptos y estructura DW. b) El DW introduce muchas tecnologas nuevas (ETT, Carga, Acceso de Datos, Catlogo de Metadatos, Implementacin de DSS/EIS ), y cambia la manera que nosotros usamos la tecnologa existente. Nuevas responsabilidades de soporte, nuevas demandas de recursos y nuevas expectativas, son los efectos de estos cambios. c) Destrezas de diseo y anlisis donde los requerimientos empresariales no son posibles de definir de una forma estable a travs del tiempo. d) Tcnicas de desarrollo incrementa y evolutivo.

e) Trabajo en equipo cooperativo con gente de negocios como participantes activos en el desarrollo del proyecto. Nuevas responsabilidades de operacin: Cambios sobre los sistemas y datos operacionales deben ser examinados ms cuidadosamente para determinar el impacto que estos cambios tienen sobre ellos, y sobre el DW. 4. Quines y para qu lo usan? Dadas las caractersticas de un sistema de Data Warehousing, su aplicacin puede tener variados fines, en una diversidad de industrias. No obstante, en trminos generales, podemos decir que su aplicacin ms rica corresponde a entornos de empresas en los que se identifican grandes volmenes de datos, asociados a: cantidad de clientes, variedad de productos y cantidad de transacciones. A continuacin veremos ejemplos de aplicaciones tpicas y algunos casos puntuales en distintas industrias.
U N I V E R S I D A D D E 11 A Q U I N O B O L I V I A

FACULTAD DE CIENCIAS Y TECNOLOGA

Comercio Minorista Utilizan grandes sistemas de Procesamiento Paralelo Masivo para acceder a meses o aos de historia transaccional tomada directamente en los puntos de venta de cientos, o miles, de sucursales. Con esta informacin detallada pueden efectuar en forma ms precisa y eficiente actividades de compra, fijacin de precios, manejo de inventarios, configuracin de gndolas, etc. Las promociones y las ofertas de cupones son seguidas, analizadas y corregidas. Modas y tendencias son cuidadosamente administradas a efectos de maximizar utilidades y reducir costos de inventario. El stock es reasignado por sucursales o regiones segn ventas y tendencias. Estos sistemas con capacidad de procesar gran cantidad de datos detallados permiten implementar eficientemente prcticas de mercadera "en consignacin", en esta modalidad la cadena minorista paga al proveedor recin cuando los productos son vendidos y pasados por el lector de cdigos de barras (scanner) del punto de venta. Esta informacin detallada permite ejercer mayor poder de negociacin sobre los proveedores, dado que el comercio minorista puede llegar a saber ms que el fabricante sobre sus productos: quin lo compra, dnde, cundo, con que otros productos, etc. En su libro "Made in Amrica: My Story" el fundador de Wal*Mart, Sam Walton, escribe: "...me dicen que es la base de datos comercial ms grande del mundo. Lo que me gusta es la clase de informacin que puedo obtener de ella al instante todos esos nmeros!, llevamos 65 semanas de historia de cada artculo que vendemos. Esto significa que puedo elegir cualquiera y decir exactamente cuantos vendimos... no en promedio, sino en cualquier regin, distrito o sucursal. Es difcil que un proveedor sepa ms acerca de su producto de lo que sabemos nosotros. Nos da el poder de la ventaja competitiva." Para poner esto en perspectiva debemos considerar que las sucursales a las que hace referencia Sam Walton son unas 2500 y que cada una de ellas tiene una variedad de entre 50.000 y 80.000 artculos, todas las noches 20 millones de actualizaciones se realizan en el Data Warehouse. Wal*Mart es un excelente ejemplo prctico del concepto planteado por A. Tofler en su libro "Powershift": el poder se desplaza del fabricante al minorista por el manejo de la informacin. Otras instalaciones de Data Warehousing de magnitud en la industria minorista son las de Kmart, Sears, Meijer, Kohl's Department Stores, American Stores (Jewel/OSCO/Lucky/Savon/ACME/SuperSaver), Mervyn's, Buttrey Food & Drug, QVC Home Shopping, Canadian Tyre, WH Smith Books (Gran Bretaa), Great Universal (GB), Supermercados Casino (Francia), Migrosgenossenschaftsbund (Suiza), Otto Versand (Alemania). Manufactura de Bienes de Consumo Masivo Las empresas de este sector necesitan hacer un manejo cada vez ms gil de la informacin para mantenerse competitivas en la industria. Los Data Warehouses se utilizan para predecir la cantidad de producto que se vender a un determinado precio y, por consiguiente, producir la cantidad adecuada para una entrega "justo a tiempo". A su vez se coordina el suministro a las grandes cadenas minoristas con inmensas cantidades de productos "en consignacin", que no son pagados hasta que estos productos son vendidos al consumidor final. Las cadenas minoristas y sus proveedores utilizan sus Data Warehouses para compartir informacin, permitindole a las empresas de manufactura conocer el nivel de stock en las gndolas y eventualmente hacerse responsables de la reposicin de inventario de la cadena minorista. Como es de esperar esto reduce fuertemente la intermediacin. Tambin se utilizan para campaas de marketing, planificacin de publicidad y promociones y se coordinan las ofertas de cupones y promociones con las cadenas minoristas. Un ejemplo interesante es el de Whirlpool. Este fabricante global de electrodomsticos con base en Benton Harbor, Michigan, utiliza su Data Warehouse para hacer un seguimiento directo de sus casi 15 millones de clientes y de sus ms de 20 millones de aparatos instalados. Las mayores aplicaciones del sistema son para marketing, ventas, mantenimiento, garanta y diseo de productos. Permite mantener stock de partes ms ajustados y mejorar las condiciones de negociacin con los proveedores de las mismas. Si, por ejemplo, un determinado motor se identifica como poseedor de una tasa de falla superior, Whirlpool puede utilizar la informacin para hacer renegociaciones de garanta con el proveedor. Como ancdota interesante se puede mencionar que durante el verano de 1993 los ingenieros de Whirlpool detectaron una tasa de falla muy alta en una manguera de conexin en una serie de lavarropas que se estaba vendiendo. A partir de all se detuvo la produccin, se identificaron los clientes y se enviaron tcnicos a reemplazar la parte defectuosa antes de que entrara en falla. Esto no solo tuvo un impacto muy importante en satisfaccin de
U N I V E R S I D A D D E 12 A Q U I N O B O L I V I A

FACULTAD DE CIENCIAS Y TECNOLOGA

clientes sino que se redujeron los costos de garanta por el reemplazo planificado y, especialmente, se evitaron costosos reclamos por dao a la propiedad debidos a prdidas de agua! Otras empresas del sector que cuentan con Data Warehouses de importancia son: Coca Cola, Nike, Procter & Gamble, Hallmark, Maybelline, Helene Curtis, 3M, Owens Corning Glass, Karsten Ping Golf Clubs, Walt Disney. Transporte de Cargas y Pasajeros Se utilizan Data Warehouses para almacenar y acceder a meses o aos de datos de clientes y sistemas de reservas para realizar actividades de marketing, planeamiento de capacidad, monitoreo de ganancias, proyecciones y anlisis de ventas y costos, programas de calidad y servicio a clientes. Las empresas de transporte de cargas llevan datos histricos de aos, de millones de cargamentos, capacidades, tiempos de entrega, costos, ventas, mrgenes, equipamiento, etc.. Las aerolneas utilizan sus Data Warehouses para sus programas de viajeros frecuentes, para compartir informacin con los fabricantes de naves, para la administracin del transporte de cargas, para compras y administracin de inventarios, etc. Hacen un seguimiento de partes de repuesto, cumplimiento con las regulaciones aeronuticas, desempeo de los proveedores, seguimiento de equipaje, historia de reservas, ventas y devoluciones de tickets, reservas telefnicas, desempeo de las agencias de viajes, estadsticas de vuelo, contratos de mantenimiento, etc. Algunas empresas que cuentan con Data Warehouses de magnitud: Cornrail, Union Pacific, Norfolk Southern, American President Lines, Delta, Lufthansa, QANTAS, British Airways, American Airlines, Canadian Airlines, SNFC. Telecomunicaciones Estas empresas utilizan sus Data Warehouses para operar en un mercado crecientemente competitivo, desregulado y global que, a su vez, atraviesa profundos cambios tecnolgicos. Se almacenan datos de millones de clientes: sus circuitos, facturas mensuales, volmenes de llamados, servicios utilizados, equipamiento vendido, configuraciones de redes, etc. as como tambin informacin de facturacin, utilidades, y costos son utilizadas con propsitos de marketing, contabilidad, reportes gubernamentales, inventarios, compras y administracin de redes. Otras Industrias Muchas otras industrias y actividades utilizan actualmente, o estn comenzando a instalar, Data Warehouses: entidades gubernamentales, especialmente para el control impositivo, empresas de servicios pblicos, de entretenimiento, editoriales, fabricantes de automviles, empresas de petroleo y gas, laboratorios farmacuticos, drogueras, etc. En la industria informtica NCR dispone de los Data Warehouses de mayor magnitud y antigedad. Sus mayores instalaciones se encuentran en distintos centros de la compaa en Estados Unidos. La de NCR El Segundo, California, es una de las ms antiguas del mundo, su primera aplicacin fue el seguimiento histrico y detallado de la base de clientes: llamados de servicios, productos instalados, performances, etc. Esta instalacin es herencia de Teradata, compaa fundada en 1979 para la produccin de sistemas de procesamiento paralelo masivo destinados a aplicaciones de soporte a la toma de decisiones y posteriormente adquirida por NCR. En NCR San Diego, California, se encuentra el centro de desarrollo de los computadores WorldMark. Sobre los mismos se realiz la demostracin del Data Warehouse ms grande del mundo: 10 Terabytes de informacin (=10.000 Gigabytes=10.000.000 Megabytes), para poner esto en trminos manejables debemos considerar que toda la informacin escrita de la Biblioteca del Congreso de los Estados Unidos se podra almacenar en unos 20 Terabytes. En NCR Dayton, Ohio, la compaa dispone de un Data Warehouse de 1 Terabyte (=1000 Gigabytes) destinado fundamentalmente a tareas de marketing, produccin y finanzas. A la fecha tiene almacenados 281.154 documentos, agrupados en 36 grupos de inters temtico, que pueden ser accedidos 24 Hs. al da, los siete das de la semana, por 16.100 usuarios distribuidos en 46 pases. A principios del ao 1996 el sistema estaba respondiendo un promedio de 242.707 consultas mensuales. Diagrama de Funcionamiento

U N

I V E R S I D A D

D E 13

Q U

I N O

O L

I V I A

FACULTAD DE CIENCIAS Y TECNOLOGA

Cmo trabaja el Data Warehouse? Extrae la informacin operacional. Transforma la operacin a formatos consistentes. Automatiza las tareas de la informacin para prepararla a un anlisis eficiente.

En qu podemos usarlo? Manejo de relaciones de marketing. Anlisis de rentabilidad. Reduccin de costos.

Busines Intelligence se ha vuelto una necesidad en el vertiginoso ritmo del ambiente de negocios actual. Los negocios necesitan aprovechar las posibilidades que les ofrece la actual tecnologa para permanecer competitivos y rentables. OLAP Es un sinnimo de base de datos multidimensional mediante las cuales se proveen una tecnologa para el clculo y anlisis requerido por las aplicaciones analticas para el "Bussines Intellingence", las bases de datos relacionadas estn formadas por un conjunto de registros Cada registro contiene la informacin organizada en campos. El OLAP describe la tecnologa asociada al acceso y anlisis de datos en lneas.
U N I V E R S I D A D D E 14 A Q U I N O B O L I V I A

FACULTAD DE CIENCIAS Y TECNOLOGA

5. Sistemas De Data Warehouse Y Oltp Una base de datos para soportar procesos transaccionales en lnea (OLTP), puede no ser adecuada para el Data Warehouse ya que ha sido diseada para maximizar la capacidad transaccional de sus datos y tipicamente tiene cientos de tablas la gran mayora normalizadas. Su diseo tambin ha sido condicionado por los procesos operacionales que deber soportar para la ptima actualizacin de sus datos, normalmente muchas de sus tablas en constantes y continuos cambios. Los sistemas Data Warehouse estn orientados a procesos de consultas en contraposicin con los procesos transaccionales. OLTP Data Warehouse Propsito Ejecuta operaciones transaccionales diariamente Consultas y anlisis para la obtencin de informacin Estructura Sistemas de bases de datos relacionales Normalmente sistemas de bases de datos relacionales Modelo de datos Normalizado Muchas de sus tablas pueden no estar normalizadas se admite redundancia en los datos. Bases de datos multidimensionales. Acceso SQL SQL ms extensiones especiales dependientes de las herramientas de explotacin de datos (Data Mining) No obstante, el SQL estndar puede ser suficiente en manos de personal experto.Tipo de datos Los datos estn orientados a la gestin de los negocios Los datos estn orientados al anlisis de los negocios. Transforman los datos en informacin para su anlisis. Perdurabilidad Los datos cambian constantemente, vistos globalmente en procesos de reporting sofisticados pueden perder consistencia, o bien, para no perder consistencia deben imponerse mecanismos de bloqueo de datos con un elevado consumo de recursos globales del sistema.Datos histricos con referencias temporales no sujetos a modificaciones. Caractersticas De acuerdo con Bill Inmon, autor de Building the Data Warehouse Construyendo el almacn de datos, ampliamante reconocido como el gur creador del concepto data warehousing, existen generalmente cuatro caractersticas que describen un almacen de datos: 1.orientado al sujeto: Los datos se organizan de acuerdo al sujeto en vez de la aplicacin, por ejemplo, una compaia de seguros usando un almacn de datos podra organizar sus datos por cliente, premios, y reclamaciones, en lugar de por diferentes productos (automviles, vida, etc.). Los datos organizados por sujetos contienen solo la informacin necesaria para los procesos de soporte para la toma de decisiones. 2.integrados: Cuando los datos residen en muchas aplicaciones separados por los distintos entornos operacionales, la descodificacin de los datos es a menudo inconsistente. Por ejemplo, en una aplicacin, la palabra gender podra codificarse como "m" y "f" en otra como "0" y "1". cuando los datos fluyen de un entorno operacional a un entorno de almacen de datos o de data warehouse, ellos asumen una codificacin consistente, por ejemplo gender siempre se transformara a "m" y "f". 3.variacin-temporal: El almacen de datos contiene un lugar para guardar datos con una antiguedad de 5 a diez aos, o incluso ms antiguos, para poder ser usados en comparaciones, tendencias y previsiones. Estos datos no se modificarn. 4. No son inestables: Los datos no sern modificados o cambiados de ninguna manera una vez ellos han sido introducidos en el almacn de datos, solamente podrn ser cargados, leidos y/o accedidos. Soluciones Deister El sistema DEISTER ERP/1 integra datos del sistema OLTP y permite producir DataMarts. Estos DataMarts constituyen los sillares sobre los que la empresa puede construir su sistema de Data Warehouse.
U N I V E R S I D A D D E 15 A Q U I N O B O L I V I A

FACULTAD DE CIENCIAS Y TECNOLOGA

El sistema DEISTER ERP/1 puede ser conectado a productos Data Warehouse de diversos fabricantes como por ejemplo Informix-MetaCube. La familia de productos INFORMIX-MetaCube permitir gestionar y explorar los Data Warehouse de su organizacin: INFORMIX-MetaCube Warehouse Manager Ofrece a los administradores de las bases de datos una herramienta grfica para manejar los metadata que describen el almacn de datos de una manera lgica y amigable. Simplemente con puntera y clikar mediante el ratn, puede verse y modificarse el modelo de los DataMarts sobre los cuales los usuarios dependern para acceder a los datos que componen el Data Warehouse. INFORMIX-MetaCube Aggregator En la medida que el Data Warehouse o almacn de datos madure, se irn incorporando volmenes de datos los cuales alcanzarn a terabytes de datos. Y es por esto que se requiere una utilidad de optimizacin y agregacin de datos. Con INFORMIX-MetaCube Aggregator podemos fcilmente adminstrar y afinar el Data Warehouse segn las necesidades de soporte a la toma de decisiones creando y manteniendo datos pre-calculados y sumarizados, conocidos como datos agregados. El resultado ? Se obtendrn mejoras de rdenes de magnitud en el rendimiento de los sistemas de soporte a la toma de decisiones DSS. INFORMIX-MetaCube Explorer Convertir un Data Warehouse en un sistema de soporte a la toma de decisiones significa no solamente gestionar enormes volmenes de datos, tambin debe proveer mtodos efectivos y fciles para acceder y analizar los datos. INFORMIX-MetaCube Explorer provee un entorno de gestin integrando el acceso al Data Warehouse, anlisis, reporting, y grficos en un simple aplicativo. INFORMIX-MetaCube Explorer ofrece acceso completo a todas las utilidades del Motor de Anlisis MetaCube, incluye el entorno extensible de anlisis, consistente en un rico juego de funciones analticas. Beneficios Optimizacin Las estructuras de datos operacionales estn orientadas a una explotacin mediante procesos transaccionales en lnea (OLTP), las caractersticas de sus tablas y registros. Datos versus informacin El Data Warehouse con las herramientas adecuadas nos permitir obtener o realizar anlisis, reporting, extraccin y exploracin de los datos para, en suma, transformar los datos en informacin til para nuestra organizacin. Beneficios econmicos Normalmente los beneficios econmicos que podemos obtener de un Data Warehouse no tienen la inmediatez de los que pueden obtenerse mediante un eficiente sistema de informacin operacional, por lo general mediante los Data Warehouse o Almacenes de datos hemos de esperar el ahorro de gastos motivados por los cambios que puedan sugerirse en la gestin de nuestra empresa en el medio y largo plazo.

Por qu usar un Data Ware House? La informacin sumarizada es almanezada en el D.W. Obtiene respuestas en tiempos razonables. Analiza desde una perspectiva en el tiempo con la informacin histrica que se brinde.
U N I V E R S I D A D D E 16 A Q U I N O B O L I V I A

FACULTAD DE CIENCIAS Y TECNOLOGA

Nos permite tener fuentes externas para ayudar a nuestra informacin. La informacin proveniente de fuentes operacionales es transformada y limpiada para lograr consistencia.

6. Diferencias: Data Warehouse vs. OLTP Los sistemas tradicionales de transacciones y las aplicaciones de Data Warehousing son polos opuestos en cuanto a sus requerimientos de diseo y sus caractersticas de operacin. Es de suma importancia comprender perfectamente estas diferencias para evitar caer en el diseo de un Data Warehouse como si fuera una aplicacin de transacciones en lnea (OLTP). Las aplicaciones de OLTP estn organizadas para ejecutar las transacciones para los cuales fueron hechos, como por ejemplo: mover dinero entre cuentas, un cargo o abono, una devolucin de inventario, etc. Por otro lado, un Data Warehouse est organizado en base a conceptos, como por ejemplo: clientes, facturas, productos, etc. Otra diferencia radica en el nmero de usuarios. Normalmente, el nmero de usuarios de un Data Warehouse es menor al de un OLTP. Es comn encontrar que los sistemas transaccionales son accesados por cientos de usuarios simultneamente, mientras que los Data Warehouse slo por decenas. Los sistemas de OLTP realizan cientos de transacciones por segundo mientras que una sola consulta de un Data Warehouse puede tomar minutos. Otro factor es que frecuentemente los sistemas transaccionales son menores en tamao a los Data Warehouses, esto es debido a que un Data Warehouse puede estar formado por informacin de varios OLTPs. Existen tambin diferencia en el diseo, mientras que el de un OLPT es extremadamente normalizado, el de un Data Warehouse tiende a ser desnormalizado. El OLTP normalmente est formado por un nmero mayor de tablas, cada una con pocas columnas, mientras que en un Data Warehouse el nmero de tablas es menor, pero cada una de stas tiende a ser mayor en nmero de columnas. Los OLTP son continuamente actualizados por los sistemas operacionales del da con da, mientras que los Data Warehouse son actualizados en batch de manera peridica.

U N

I V E R S I D A D

D E 17

Q U

I N O

O L

I V I A

FACULTAD DE CIENCIAS Y TECNOLOGA

Las estructuras de los OLTP son muy estables, rara vez cambian, mientras las de los Data Warehouses sufren cambios constantes derivados de su evolucin. Esto se debe a que los tipos de consultas a los cuales estn sujetos son muy variados y es imposible preverlos todos de antemano. Costos De Un DW Costos De Construccin Los costos de construir un DW son similares para cualquier proyecto de tecnologa de informacin. Estos pueden ser clasificados en tres categoras: RRHH: la gente necesita contar con un enfoque fuerte sobre el conocimiento del rea de la empresa y de los procesos empresariales. Adems es muy importante considerar las cualidades de la gente, ya que el desarrollo del DW requiere participacin de la gente de negocios como de los especialistas tecnolgicos; estos dos grupos de gente deben trabajar juntos, compartiendo su conocimiento y destrezas en un espritu de equipo de trabajo, para enfrentar los desafos de desarrollo del DW. Tiempo: Se debe establecer el tiempo no tan solo para la construccin y entrega de resultados del DW, sino tambin para la planeacin del proyecto y la definicin de la arquitectura. La planeacin y la arquitectura, establecen un marco de referencia y un conjunto de estndares que son crticos para la eficacia del DW. Tecnologa: Muchas tecnologas nuevas son introducidas por el DW. El costo de la nueva tecnologa puede ser tan slo la inversin inicial del proyecto. Costos De Operacin Una vez que est construido y entregado un DW debe ser soportado para que tenga valor empresarial. Son justamente estas actividades de soporte, la fuente de continuos costos operacionales para un DW. Se pueden distinguir tres tipos de costos de operacin:
U N I V E R S I D A D D E 18 A Q U I N O B O L I V I A

FACULTAD DE CIENCIAS Y TECNOLOGA

Evolutivos: ajustes continuos del DW a travs del tiempo, como cambios de expectativas y, cambios producto del aprendizaje del RRHH del proyecto mediante su experiencia usando el DW. Crecimiento: Incrementos en el tiempo en volmenes de datos, del nmero de usuarios del DW, lo cual conllevar a un incremento de los recursos necesarios como a la demanda de monitoreo, administracin y sintonizacin del DW (evitando as, un incremento en los tiempos de respuesta y de recuperacin de datos, principalmente). Cambios: El DW requiere soportar cambios que ocurren tanto en el origen de datos que ste usa, como en las necesidades de la informacin que ste soporta. Los dos primeros tipos de costos de operacin, son bsicos en la mantencin de cualquier sistema de informacin, por lo cual no nos resultan ajenos; sin embargo, se debe tener especial cuidado con los costos de operacin por cambios, ya que ellos consideran el impacto producto de la relacin del OLTP y del Ambiente Empresarial, con el DW. Resulta esencial para llevar a cabo un proyecto DW, tener claridad en la forma que ste se ve afectado por medio de cambios a nivel de OLTP como del Ambiente Empresarial; por ello entonces, a continuacin se analiza ms en detalle este tipo de costos de operacin. Cambios y el DW. Cuando se implementa un DW, el impacto de cambios es compuesto. Dos orgenes primarios de cambios existen: Cambios en el ambiente empresarial: Un cambio en el ambiente empresarial puede cambiar las necesidades de informacin de los usuarios. As, el contenido del DW se puede ver afectado y las aplicaciones DSS y EIS pueden requerir cambios. Cambios en la tecnologa: Un cambio en la tecnologa puede afectar la manera que los datos operacionales son almacenados, lo cual implicara un ajuste en los procesos de Extraccin, Transporte y Carga para adaptar las variaciones presentadas. Un cambio de cualquiera de ellos impacta los sistemas operacionales. Un cambio en el ambiente operacional puede cambiar el formato, estructura o significado de los datos operacionales usados como origen para el DW. De esta forma seran impactados los procesos de Extraccin, Transformacin y Carga de datos. Valor Del DW El valor de un DW queda descrito en tres dimensiones: 1. 2. Mejorar la Entrega de Informacin: informacin completa, correcta, consistente, oportuna y accesible. Informacin que la gente necesita, en el tiempo que la necesita y en el formato que la necesita. Mejorar el Proceso de Toma de Decisiones: con un mayor soporte de informacin se obtienen decisiones ms rpidas; as tambin, la gente de negocios adquiere mayor confianza en sus propias decisiones y las del resto, y logra un mayor entendimiento de los impactos de sus decisiones. Impacto Positivo sobre los Procesos Empresariales: cuando a la gente se le da acceso a una mejor calidad de informacin, la empresa puede lograr por s sola: Eliminar los retardos de los procesos empresariales que resultan de informacin incorrecta, inconsistente y/o no existente. Integrar y optimizar procesos empresariales a travs del uso compartido e integrado de las fuentes de informacin. Eliminar la produccin y el procesamiento de datos que no son usados ni necesarios, producto de aplicaciones mal diseados o ya no utilizados.

3.

Costos v/s Valor De DW En todo proyecto es importante e inevitable realizar un anlisis desde la perspectiva Costo/Valor. A grandes rasgos, los costos asociados a un proyecto DW incluyen el costo de construccin y, la mantencin y operacin una vez que est construido. En cuanto al valor, ste considera, el valor de mejorar la entrega de
U N I V E R S I D A D D E 19 A Q U I N O B O L I V I A

FACULTAD DE CIENCIAS Y TECNOLOGA

informacin, el valor de mejorar el proceso de toma de decisiones y el valor agregado para los procesos empresariales. CUESTIONARIO

1. Explique el alcance del DW 2. Cul es el origen del DW? 3. Qu tipo de empresas incorporan el DW? 4. Cul es la empresa que tiene mayor cantidad de informacin? 5. Cul es la importancia del DW? 6. Qu es Olap? 7. Exprese su criterio respecto a costos del DW

U N

I V E R S I D A D

D E 20

Q U

I N O

O L

I V I A

FACULTAD DE CIENCIAS Y TECNOLOGA

INGENIERIA DE SISTEMAS FACULTAD DE INGENIERIA

WORK PAPER # 2

PROGRAMA DE CONTROL DE CALIDAD Nro DE PROCEDIMIENTO: APRO 07 Nro. DE HOJAS: 8

ELABORO: ING. ROSMERY LUIZAGA SALINAS

CDIGO: CMP 527

TITULO WORK PAPER: DATA MINING

DPTO:

UDABOL ORURO

DESTINADO A: DOCENTE

ALUMNOS

ADMINISTRATIVOS

OTROS

OBSERVACIONES: INGENIERIA DE SISTEMAS-NUEVAS TECNOLOGIAS- UNIDAD II

FECHA DE DIFUSIN:

FECHA DE ENTREGA:

U N

I V E R S I D A D

D E 21

Q U

I N O

O L

I V I A

FACULTAD DE CIENCIAS Y TECNOLOGA

WORKPAPER #2 NUEVAS TECNOLOGIAS DATAMINING Fundamentos del Data Mining Las tcnicas de Data Mining son el resultado de un largo proceso de investigacin y desarrollo de productos. Esta evolucin comenz cuando los datos de negocios fueron almacenados por primera vez en computadoras, y continu con mejoras en el acceso a los datos, y ms recientemente con tecnologas generadas para permitir a los usuarios navegar a travs de los datos en tiempo real. Data Mining toma este proceso de evolucin ms all del acceso y navegacin retrospectiva de los datos, hacia la entrega de informacin prospectiva y proactiva. Data Mining est listo para su aplicacin en la comunidad de negocios porque est soportado por tres tecnologas que ya estn suficientemente maduras: Recoleccin masiva de datos Potentes computadoras con multiprocesadores Algoritmos de Data Mining

Las bases de datos comerciales estn creciendo a un ritmo sin precedentes. Un reciente estudio del META GROUP sobre los proyectos de Data Warehouse encontr que el 19% de los que contestaron estn por encima del nivel de los 50 Gigabytes, mientras que el 59% espera alcanzarlo en el segundo trimestre de 1997. En algunas industrias, tales como ventas al por menor (retail), estos nmeros pueden ser an mayores. MCI Telecommunications Corp. cuenta con una base de datos de 3 terabytes + 1 terabyte de ndices y overhead corriendo en MVS sobre IBM SP2. La necesidad paralela de motores computacionales mejorados puede ahora alcanzarse de forma ms costo - efectiva con tecnologa de computadoras con multiprocesamiento paralelo. Los algoritmos de Data Mining utilizan tcnicas que han existido por lo menos desde hace 10 aos, pero que slo han sido implementadas recientemente como herramientas maduras, confiables, entendibles que consistentemente son ms performantes que mtodos estadsticos clsicos. En la evolucin desde los datos de negocios a informacin de negocios, cada nuevo paso se basa en el previo. Por ejemplo, el acceso a datos dinmicos es crtico para las aplicaciones de navegacin de datos (drill through applications), y la habilidad para almacenar grandes bases de datos es crtica para Data Mining. Los componentes esenciales de la tecnologa de Data Mining han estado bajo desarrollo por dcadas, en reas de investigacin como estadsticas, inteligencia artificial y aprendizaje de mquinas. Hoy, la madurez de estas tcnicas, junto con los motores de bases de datos relacionales de alta performance, hicieron que estas tecnologas fueran prcticas para los entornos de data warehouse actuales. Qu es Data Mining? Data Mining, la extraccin de informacin oculta y predecible de grandes bases de datos, es una poderosa tecnologa nueva con gran potencial que ayuda a las compaas a concentrarse en la informacin ms importante de sus Bases de Informacin (Data Warehouse). Un Sistema Datamining es una tecnologa de soporte para usuario final cuyo objetivo es extraer conocimiento til y utilizable a partir de la informacin contenida en las bases de datos de las empresas. Cmo se desarrollan los sistemas Data Mining? Los sistemas Datamining se desarrollan bajo lenguajes de ltima generacin basados en la inteligencia artificial y utilizan modelos matemticos tales como:

U N

I V E R S I D A D

D E 22

Q U

I N O

O L

I V I A

FACULTAD DE CIENCIAS Y TECNOLOGA

Redes neuronales artificiales:modelos predecible no-lineales que aprenden a travs del entrenamiento y semejan la estructura de una red neuronal biolgica. Arboles de decisin: estructuras de forma de rbol que representan conjuntos de decisiones. Estas decisiones generan reglas para la clasificacin de un conjunto de datos. Mtodos especficos de rboles de decisin incluyen Arboles de Clasificacin y Regresin (CART: Classification And Regression Tree) y Deteccin de Interaccin Automtica de Chi Cuadrado (CHAI: Chi Square Automatic Interaction Detection) Algoritmos genticos: tcnicas de optimizacin que usan procesos tales como combinaciones genticas, mutaciones y seleccin natural en un diseo basado en los conceptos de evolucin. Mtodo del vecino ms cercano: una tcnica que clasifica cada registro en un conjunto de datos basado en una combinacin de las clases del/de los k registro (s) ms similar/es a l en un conjunto de datos histricos (donde k ? 1). Algunas veces se llama la tcnica del vecino k-ms cercano. Regla de induccin: la extraccin de reglas if-then de datos basados en significado estadstico. Muchas de estas tecnologas han estado en uso por ms de una dcada en herramientas de anlisis especializadas que trabajan con volmenes de datos relativamente pequeos. Estas capacidades estn ahora evolucionando para integrarse directamente con herramientas OLAP y de Data Warehousing. Qu son capaces de hacer las herramientas del Data Mining? Las herramientas de Data Mining predicen futuras tendencias y comportamientos, permitiendo en los negocios tomar decisiones proactivas y conducidas por un conocimiento acabado de la informacin (knowledge-driven). Los anlisis prospectivos automatizados ofrecidos por un producto as van ms all de los eventos pasados provistos por herramientas retrospectivas tpicas de sistemas de soporte de decisin. Las herramientas de Data Mining pueden responder a preguntas de negocios que tradicionalmente consumen demasiado tiempo para poder ser resueltas y a los cuales los usuarios de esta informacin casi no estn dispuestos a aceptar. Estas herramientas exploran las bases de datos en busca de patrones ocultos, encontrando informacin predecible que un experto no puede llegar a encontrar porque se encuentra fuera de sus expectativas. Una vez que las herramientas de Data Mining fueron implementadas en computadoras cliente servidor de alto performance o de procesamiento paralelo, pueden analizar bases de datos masivas para brindar respuesta a preguntas tales como, "Cules clientes tienen ms probabilidad de responder al prximo mailing promocional, y por qu? y presentar los resultados en formas de tablas, con grficos, reportes, texto, hipertexto, etc. Las tcnicas de Data Mining pueden ser implementadas rpidamente en plataformas ya existentes de software y hardware para acrecentar el valor de las fuentes de informacin existentes y pueden ser integradas con nuevos productos y sistemas pues son tradas en lnea (on-line). El Alcance del Data Mining Dadas bases de datos de suficiente tamao y calidad, la tecnologa de Data Mining puede generar nuevas oportunidades de negocios al proveer estas capacidades: Prediccin automatizada de tendencias y comportamientos. Data Mining automatiza el proceso de encontrar informacin predecible en grandes bases de datos. Preguntas que tradicionalmente requeran un intenso anlisis manual, ahora pueden ser contestadas directa y rpidamente desde los datos. Un tpico ejemplo de problema predecible es el marketing apuntado a objetivos (targeted marketing). Data Mining usa datos en mailing promocionales anteriores para identificar posibles objetivos para maximizar los resultados de la inversin en futuros mailing. Otros problemas predecibles incluyen pronsticos de problemas financieros futuros y otras formas de incumplimiento, e identificar segmentos de poblacin que probablemente respondan similarmente a eventos dados. Descubrimiento automatizado de modelos previamente desconocidos.
U N I V E R S I D A D D E 23 A Q U I N O B O L I V I A

FACULTAD DE CIENCIAS Y TECNOLOGA

Las herramientas de Data Mining barren las bases de datos e identifican modelos previamente escondidos en un slo paso. Otros problemas de descubrimiento de modelos incluye detectar transacciones fraudulentas de tarjetas de crditos e identificar datos anormales que pueden representar errores de tipeado en la carga de datos. Las tcnicas de Data Mining pueden redituar los beneficios de automatizacin en las plataformas de hardware y software existentes y puede ser implementadas en sistemas nuevos a medida que las plataformas existentes se actualicen y nuevos productos sean desarrollados. Cuando las herramientas de Data Mining son implementadas en sistemas de procesamiento paralelo de alto performance, pueden analizar bases de datos masivas en minutos. Procesamiento ms rpido significa que los usuarios pueden automticamente experimentar con ms modelos para entender datos complejos. Alta velocidad hace que sea prctico para los usuarios analizar inmensas cantidades de datos. Grandes bases de datos, a su vez, producen mejores predicciones. Las bases de datos pueden ser grandes tanto en profundidad como en ancho: Ms columnas. Los analistas muchas veces deben limitar el nmero de variables a examinar cuando realizan anlisis manuales debido a limitaciones de tiempo. Sin embargo, variables que son descartadas porque parecen sin importancia pueden proveer informacin acerca de modelos desconocidos. Un Data Mining de alto rendimiento permite a los usuarios explorar toda la base de datos, sin preseleccionar un subconjunto de variables. Ms filas. Muestras mayores producen menos errores de estimacin y desvos, y permite a los usuarios hacer inferencias acerca de pequeos pero importantes segmentos de poblacin. Cmo Trabaja el Data Mining? Cun exactamente es capaz Data Mining de decirle cosas importantes que usted desconoce o que van a pasar? La tcnica usada para realizar estas hazaas en Data Mining se llama Modelado. Modelado es simplemente el acto de construir un modelo en una situacin donde usted conoce la respuesta y luego la aplica en otra situacin de la cual desconoce la respuesta. Por ejemplo, si busca un galen espaol hundido en los mares lo primero que podra hacer es investigar otros tesoros espaoles que ya fueron encontrados en el pasado. Notara que esos barcos frecuentemente fueron encontrados fuera de las costas de Bermuda y que hay ciertas caractersticas respecto de las corrientes ocenicas y ciertas rutas que probablemente tomara el capitn del barco en esa poca. Usted nota esas similitudes y arma un modelo que incluye las caractersticas comunes a todos los sitios de estos tesoros hundidos. Con estos modelos en mano sale a buscar el tesoro donde el modelo indica que en el pasado hubo ms probabilidad de darse una situacin similar. Con un poco de esperanza, si tiene un buen modelo, probablemente encontrar el tesoro. Este acto de construccin de un modelo es algo que la gente ha estado haciendo desde hace mucho tiempo, seguramente desde antes del auge de las computadoras y de la tecnologa de Data Mining. Lo que ocurre en las computadoras, no es muy diferente de la manera en que la gente construye modelos. Las computadoras son cargadas con mucha informacin acerca de una variedad de situaciones donde una respuesta es conocida y luego el software de Data Mining en la computadora debe correr a travs de los datos y distinguir las caractersticas de los datos que llevarn al modelo. Una vez que el modelo se construy, puede ser usado en situaciones similares donde usted no conoce la respuesta. Si alguien le dice que tiene un modelo que puede predecir el uso de los clientes, Cmo puede saber si es realmente un buen modelo? La primera cosa que puede probar es pedirle que aplique el modelo a su base de clientes - donde usted ya conoce la respuesta. Con Data Mining, la mejor manera para realizar esto es dejando de lado ciertos datos para aislarlos del proceso de Data Mining. Una vez que el proceso est completo, los resultados pueden ser testeados contra los datos excluidos para confirmar la validez del modelo. Si el modelo funciona, las observaciones deben mantenerse para los datos excluidos. Arquitectura para Data Mining Para aplicar mejor estas tcnicas avanzadas, stas deben estar totalmente integradas con el data warehouse as como con herramientas flexibles e interactivas para el anlisis de negocios. Varias herramientas de Data Mining actualmente operan fuera del warehouse, requiriendo pasos extra para extraer, importar y analizar los datos. Adems, cuando nuevos conceptos requieren implementacin operacional, la integracin con el warehouse simplifica la aplicacin de los resultados desde Data Mining. El Data warehouse analtico resultante puede ser aplicado para mejorar procesos de negocios en toda la organizacin, en reas tales como manejo de campaas promocionales, deteccin de fraudes, lanzamiento de nuevos productos, etc.
U N I V E R S I D A D D E 24 A Q U I N O B O L I V I A

FACULTAD DE CIENCIAS Y TECNOLOGA

El punto de inicio ideal es un data warehouse que contenga una combinacin de datos de seguimiento interno de todos los clientes junto con datos externos de mercado acerca de la actividad de los competidores. Informacin histrica sobre potenciales clientes tambin provee una excelente base para prospecting. Este warehouse puede ser implementado en una variedad de sistemas de bases relacionales y debe ser optimizado para un acceso a los datos flexible y rpido. Un server multidimensional OLAP permite que un modelo de negocios ms sofisticado pueda ser aplicado cuando se navega por el data warehouse. Las estructuras multidimensionales permiten que el usuario analice los datos de acuerdo a como quiera mirar el negocio - resumido por lnea de producto, u otras perspectivas claves para su negocio. El server de Data Mining debe estar integrado con el data warehouse y el server OLAP para insertar el anlisis de negocios directamente en esta infraestructura. Un avanzado, metadata centrado en procesos define los objetivos del Data Mining para resultados especficos tales como manejos de campaa, prospecting, y optimizacin de promociones. La integracin con el data warehouse permite que decisiones operacionales sean implementadas directamente y monitoreadas. A medida que el data warehouse crece con nuevas decisiones y resultados, la organizacin puede "minar" las mejores prcticas y aplicarlas en futuras decisiones. Este diseo representa una transferencia fundamental desde los sistemas de soporte de decisin convencionales. Ms que simplemente proveer datos a los usuarios finales a travs de software de consultas y reportes, el server de Anlisis Avanzado aplica los modelos de negocios del usuario directamente al warehouse y devuelve un anlisis proactivo de la informacin ms relevante. Estos resultados mejoran los metadatos en el server OLAP proveyendo una estrato de metadatos que representa una vista fraccionada de los datos. Generadores de reportes, visualizadores y otras herramientas de anlisis pueden ser aplicadas para planificar futuras acciones y confirmar el impacto de esos planes. CUESTIONARIO 1. 2. 3. 4. Qu es Datamining? Cul es su arquitectura? liste las aplicaciones para el Dataminig. Prepare una simulacin de un proyecto de Datamining, aplicando hacia empresas de nuestro medio

U N

I V E R S I D A D

D E 25

Q U

I N O

O L

I V I A

FACULTAD DE CIENCIAS Y TECNOLOGA

INGENIERIA DE SISTEMAS FACULTAD DE INGENIERIA

WORK PAPER # 3

PROGRAMA DE CONTROL DE CALIDAD Nro DE PROCEDIMIENTO: APRO 07 Nro. DE HOJAS: 10

ELABORO: CEBS

CDIGO: CMP 527

TITULO WORK PAPER: XML

DPTO:

UDABOL ORURO

DESTINADO A: DOCENTE

ALUMNOS

ADMINISTRATIVOS

OTROS

OBSERVACIONES: INGENIERIA DE SISTEMAS -NUEVAS TECNOLOGIAS- UNIDAD III

FECHA DE DIFUSIN:

FECHA DE ENTREGA:

U N

I V E R S I D A D

D E 26

Q U

I N O

O L

I V I A

FACULTAD DE CIENCIAS Y TECNOLOGA

XML (Extensible Markup Language) 1. Introduccin. HTML (Hypertex Markup Language) se ha convertido en un lenguaje de marcas de inmensa popularidad durante estos ltimos aos. Tambin debemos anotar que nos hemos encontrado con sus propias limitaciones, que algunas de ellas se han querido subsanar con la incrustacin de scripts, javascripts, Active X, HTML dinmico, hojas de estilo en cascada (CSS). Todo esto es insuficiente para crear una arquitectura abierta de tipo cliente/servidor, con lo que el W3C (Word Wide Web Consortium), organismo que vela por el desarrollo de la Word Wide Web, se ha replanteado crear un nuevo estndar llamado XML (eXtensible Markup Language), que parte de las amplias especificaciones del SGML (Standard Generalized Markup Language). XML fue desarrollndose por el Grupo de Trabajo XML desde 1996 (en estos primeros aos llamado SGML Editorial Review Board). La especificacin XML 1.0 ha sido ratificada por la W3C el 10 de febrero de 1998, e interpretado como "un sistema para definir, validar y compartir formatos de documentos en la Web". 2. Qu es XML?. Concepto: XML es un lenguaje de metamarcado que ofrece un formato para la descripcin de datos estructurados. Esto facilita unas declaraciones de contenido ms precisas y unos resultados de bsquedas ms significativos en varias plataformas. Adems, XML habilitar una nueva generacin de aplicaciones para ver y manipular datos basadas en el Web. Representacin estructural de los datos: XML ofrece una representacin estructural de los datos que se puede implementar ampliamente y es fcil de distribuir. XML es un subconjunto de SGML optimizado para el Web. Definido por el World Wide Web Consortium (W3C) (en ingls), XML garantiza que los datos estructurados sean uniformes e independientes de aplicaciones o fabricantes. La interoperabilidad resultante est creando rpidamente una nueva generacin de aplicaciones de comercio electrnico en la Web. XML, que proporciona un estndar de datos que puede codificar el contenido, la semntica y los esquemas de una gran variedad de casos, desde los ms simples a los ms complejos, sirve para marcar lo siguiente:

Un documento normal. Un registro estructurado, como un registro de citas o un pedido de compra. Un objeto con datos y mtodos, como el formulario permanente de un objeto Java o de un control ActiveX. Un registro de datos, como el conjunto de resultados de una consulta. Metacontenido sobre un sitio Web, como el formato de definicin de canal (CDF). Representaciones grficas, como la interfaz de usuario de una aplicacin. Entidades y tipos de esquema estndar. Todos los vnculos entre datos y personas que hay en el Web.

Cuando los datos llegan al escritorio del cliente, se pueden manipular, editar y presentar en varias vistas, sin tener que regresar al servidor. Ahora los servidores pueden ser ms escalables, gracias a la reduccin de las cargas de ancho de banda y computacin. Adems, dado que los datos se intercambian en el formato XML, se pueden combinar fcilmente desde distintas fuentes. XML es muy valioso para Internet, as como para los entornos de intranets corporativas de gran tamao, pues proporciona interoperabilidad mediante un formato basado en estndares flexible y abierto, con formas nuevas de acceso a las bases de datos existentes y de entregar datos a clientes de Web. Las aplicaciones se pueden generar ms rpidamente, su mantenimiento es ms sencillo y pueden ofrecer fcilmente varias vistas de los datos estructurados.

U N

I V E R S I D A D

D E 27

Q U

I N O

O L

I V I A

FACULTAD DE CIENCIAS Y TECNOLOGA

En un principio, no rivalizarn HTML y XML, estos se complementarn el uno al otro, anudndose ambas gramticas. Este Lenguaje de marcas extensible (XML) es una versin abreviada del SGML (Standard Generalized Markup Language). Algunos de los objetivos planteados por el Grupo de Trabajo XML y el W3C son:

XML debe ser directamente utilizable sobre Internet. XML debe soportar una amplia variedad de aplicaciones. XML debe ser compatible con SGML. Debe ser fcil la escritura de programas que procesen documentos XML. El nmero de caractersticas opcionales en XML debe ser absolutamente mnimo, idealmente cero. Los documentos XML deben ser legibles por los usuarios de este lenguaje y razonablemente claros. El diseo de XML debe ser formal, conciso y preparado rpidamente. Los documentos XML deben ser fcilmente creables. La brevedad en las marcas XML es de mnima importancia.

A estos fines se le une unos estndares como el Unicode e ISO/IEC 10646 para caracteres, el Internet RCF 1766 para identificacin de lenguajes, ISO 639 para cdigos de nombres de lenguajes y tambin el ISO 3166 para cdigos de nombres de pases, para la normal comprensin de esta versin de XML. 3. Estructura de XML. Un documento XML tiene dos estructuras, una lgica y otra fsica. Fsicamente, el documento est compuesto por unidades llamadas entidades. Una entidad puede hacer referencia a otra entidad, causando que esta se incluya en el documento. Cada documento comienza con una entidad documento, tambin llamada raz. Lgicamente, el documento est compuesto de declaraciones, elementos, comentarios, referencias a caracteres e instrucciones de procesamiento, todos los cuales estn indicados por una marca explcita. Las estructuras lgica y fsica deben encajar de manera adecuada: Los documentos XML se dividen en dos grupos, documentos bien formados y documentos vlidos. Un objeto textual o documento XML se dice que est bien formado si, considerndolo como conjunto, encaja con las especificaciones XML de produccin, lo que implica:

Contiene uno o ms elementos. Hay exactamente un elemento, llamado raz o elemento documento, de forma que ninguna parte del mismo aparece en el contenido de ningn otro elemento. Para todos los dems elementos, si la etiqueta inicial est en el contenido de otro elemento, la etiqueta final forma parte del contenido del mismo elemento. Dicho de forma ms clara, los elementos, delimitados por una etiqueta de inicio y otra de final, se encuentran anidados correctamente. Cumple todas las restricciones que proporciona su especificacin a travs del DTD. Si no se utiliza DTD, el documento debe comenzar con un Declaracin de Documento nico (SDD, Standalone Document Declaration) que indique: <?XML version="1.0" standalone="yes"?>

Cada una de sus partes procesadas esta bien formada. Todas las etiquetas deben estar balanceadas: esto es, todos los elementos que contengan datos de tipo carcter deben tener etiquetas de principio y fin (no est permitida la omisin excepto para los elementos vacos.); Todos los valores de los atributos deben ir entrecomillados (el carcter comilla simple [el apstrofe] puede utilizarse si el valor contiene caracteres comillas dobles, y viceversa): si necesitas ambos, utiliza &apos; y &quot; Cualquier elemento VACO (p.e. aquellos que no tienen etiqueta final como <IMG>, <HR>, y <BR> y otros de HTML) deben terminar con '/>' o debes hacerlos no VACOS aadindoles una etiqueta de fin; Ejemplo: <BR> se convertir en <BR/> o en <BR></BR>.

U N

I V E R S I D A D

D E 28

Q U

I N O

O L

I V I A

FACULTAD DE CIENCIAS Y TECNOLOGA

No debe haber etiquetas aisladas (< &) en el texto (p.e. debe darse como &lt; y &amp;), y la secuencia ]]> debe darse como ]]&gt; si no ocurre esto como final de una seccin marcada como CDATA; Los elementos deben anidar dentro de s sus propiedades (no se deben sobreponer etiquetas, como en el resto de SGML); Los Archivos bien-formados sin-DTD pueden utilizar atributos en sus elementos, pero stos deben ser todos del tipo CDATA, por defecto.

De un documento bien formado, se dice adems que es vlido, si tiene DTD como el resto de aplicaciones SGML. Un archivo XML vlido comienza como cualquier otro archivo SGML, con una Declaracin de Tipo de Documento: Dado que XML est diseado para ser un subconjunto de SGML, cualquier documento XML vlido debe ser tambin un documento SGML vlido. 4. Estructuras lgicas. Cada documento XML contiene uno o ms elementos, cuyos limites estn delimitados por etiquetas de comienzo y de final o, en el caso de elementos vacos, por una etiqueta de elemento vaco. Cada elemento tiene un tipo, identificado por un nombre, denominado identificador genrico, y puede tener un conjunto de especificaciones de atributos. Cada especificacin de atributo tiene un nombre y un valor. Estas especificaciones no restringen la semntica, el uso o (mas all de la sintaxis) los nombres de los tipos de los elementos y los atributos, excepto de los nombres que comienzan por XML, que se reservan para estandarizar etiquetas o atributos en versiones posteriores del estndar. Estructuras fsicas. Un documento XML puede consistir en una o ms unidades de almacenamiento virtual, llamadas entidades. Todas estas unidades tienen contenido y todas ellas (excepto la entidad documento y el subconjunto externo del DTD) estn identificadas por un nombre. Cada documento XML contiene una entidad, llamada entidad documento, que sirve como punto de comienzo para el procesador XML y puede contener el documento completo. Como hemos comentado, las entidades pueden ser analizadas o sin analizar (tambin llamadas procesadas o sin procesar). El contenido de una entidad analizada se conoce tambin como texto de reemplazo, y es parte integrante del documento. Las entidades no analizadas son recursos (tales como enlaces) cuyo contenido puede o no ser texto, o en caso de que sea texto que no sea XML. Cada entidad no asociada tiene una notacin asociada, identificada por un nombre. Aparte de obligar al procesador XML a haga accesible a la aplicacin el nombre de esta notacin y sus identificadores asociados, XML no proporciona ninguna otra restriccin sobre el contenido de estas entidades. La forma de invocar ambos tipos de entidades es a travs de su nombre, en el caso de las analizadas a travs de su referencia a entidad y en el de las no analizadas a travs de sus atributos de entidad. Las entidades generales, son entidades analizadas que se usan en el interior del documento. Las entidades parametrizadas son entidades analizadas que se usan en el mbito del DTD. Estos dos tipos de entidades usan distintos tipos de referencias y se reconocen en contextos distintos. XML consta de cuatro especificaciones (el propio XML sienta las bases sintcticas y el alcance de su implementacin):

DTD (Document Type Definition): Definicin del tipo de documento. Es, en general, un archivo(s) que encierra una definicin formal de un tipo de documento y, a la vez, especifica la estructura lgica de cada documento. Define tanto los elementos de una pgina como sus atributos. El DTD del XML es opcional. En tareas sencillas no es necesario construir una DTD, entonces se tratara de un documento "bien formado" (well-formed) y si lleva DTD ser un documento "validado" (valid). XSL (eXtensible Stylesheet Language): Define o implementa el lenguaje de estilo de los documentos escritos para XML. Desde el verano de 1997 varias empresas informticas como Arbortext, Microsoft e Inso vienen trabajando en una propuesta de XSL (antes llamado "xml-style") que presentaron a W3C. Permite modificar el aspecto de un documento. Se puede lograr mltiple columnas, texto girado, orden de visualizacin de los datos de una tabla, mltiples tipos de letra con amplia variedad en los tamaos. Este estndar est basado en el lenguaje de semntica y especificacin de estilo de documento (DSSSL,
U N I V E R S I D A D D E 29 A Q U I N O B O L I V I A

FACULTAD DE CIENCIAS Y TECNOLOGA

Document Style Semantics and Specification Language, ISO/IEC 10179) y, por otro lado, se considera ms potente que las hojas de estilo en cascada (CSS, Cascading Style Sheets), usado en un principio con el lenguaje DHTML. "Se espera que el CSS sea usado para visualizar simples estructuras de documentos XML (actualmente se ha conseguido mayor integracin en XML con el protocolo CSS2 (Cascading Style Sheets, level 2) ofreciendo nuevas formas de composicin y una ms rpida visualizacin) y, por otra parte, XSL pueda ser utilizado donde se requiera ms potencia de diseo como documentos XML que encierran datos estructurados (tablas, organigramas, etc.)(2)". XLL (eXtensible Linking Language): Define el modo de enlace entre diferentes enlaces. Se considera que es un subconjunto de HyTime (Hipermedia/Timed-based structuring Language o Lenguaje de estructuracin Hipermedia/basado en el tiempo, ISO 10744) y sigue algunas especificaciones del TEI (Text Encoding Initiative o Iniciativa de codificacin de texto). Desde marzo de 1998 el W3C trabajo en los enlaces y direccionamientos del XML. Provisionalmente se le renombr como Xlink y a partir de junio se le nombra como XLL. Este lenguaje de enlaces extensible tiene dos importantes componentes: Xlink y el Xpointer. Va ms all de los enlaces simples que slo soporta el HTML. Se podr implementar con enlaces extendidos. Jon Bosak establece los siguientes mecanismos hipertextuales que soportar esta especificacin: Denominacin independiente de la ubicacin. Enlaces que pueden ser tambin bidirecccionales. Enlaces que pueden especificarse y gestionarse desde fuera del documento a los que se apliquen (Esto permitir crear en un entorno intranet/extranet un banco de datos de enlaces en los que se puede gestionar y actualizar automticamente. No habr ms errores del tipo "404 Not Found"). Hiperenlaces mltiples (anillos, mltiples ventanas, etc.). Enlaces agrupados (mltiples orgenes). Transclusin (el documento destino al que apunta el enlace aparece como parte integrante del documento origen del enlace). Se pueden aplicar atributos a los enlaces (tipos de enlaces). XUA (XML User Agent): Estandarizacin de navegadores XML. Todava est en proceso de creacin de borradores de trabajo. Se aplicar a los navegadores para que compartan todos las especificaciones XML.

5. Aplicaciones de XML. Algunas de las aplicaciones de XML son:

Ofrecer mecanismos ms verstiles de mostrar datos. Actualmente, bajo el nombre de DOM (Document Object Model) se est desarrollando una API que sea soportada por todos los procesadores de XML y HTML. La idea detrs de esta API es que podamos representar (a travs de javascripts o JavaApplets) documentos XML en los navegadores Web, pero de una forma ms sofisticada que los documentos HTML, ya que XML no solo proporciona una sintaxis, sino tambin una semntica. Buscadores inteligentes. Debido a que la informacin en los documentos XML est etiquetada por su significado de forma precisa, podemos localizarla de forma mucho ms clara que en documentos HTML. Con DTDs estandarizados para distintas aplicaciones (libreras, tiendas de deporte, catlogos de componentes,) podramos programar buscadores Web que recuperasen informacin sobre un producto de cualquier website en el mundo sabiendo que todos tendrn el mismo formato de datos (gracias al DTD), aunque no tengan necesariamente la misma representacin grfica (gracias al XML/XSL). Intercambio de informacin entre sistemas heterogneos. El fundamento es el mismo que para los buscadores inteligentes. Debido a que el DTD proporciona un formato estndar para representar la informacin de un tema especfico, puede usarse para simplificar el intercambio de informacin entre distintas fuentes (actualmente existen ya dos DTD estandarizados uno para fabricantes de chips y otro para industrias qumicas, llamado CML).

Ventajas de XML.

Los autores y proveedores pueden disear sus propios tipos de documentos usando XML, en vez de limitarse a HTML. Los tipos de documentos pueden ser explcitamente 'hechos a la medida de una audiencia', por lo que las difciles manipulaciones que debes hacer con HTML para conseguir efectos especiales sern cosa del pasado: autores y diseadores sern libres de inventar sus propias etiquetas; La informacin contenida puede ser ms 'rica' y fcil de usar, porque las habilidades hipertextuales de XML son mayores que las de HTML. XML puede dar ms y mejores facilidades para la representacin en los visualizadores.

U N

I V E R S I D A D

D E 30

Q U

I N O

O L

I V I A

FACULTAD DE CIENCIAS Y TECNOLOGA

Elimina muchas de las complejidades de SGML, en favor de la flexibilidad del modelo, con lo que la escritura de programas para manejar XML ser ms sencilla que haciendo el mismo trabajo en SGML. La informacin ser ms accesible y reutilizable, porque la flexibilidad de las etiquetas de XML pueden utilizarse sin tener que amoldarse a reglas especficas de un fabricante, como es el caso de HTML. Los archivos XML vlidos son vlidos tambin en SGML, luego pueden utilizarse tambin fuera de la Web, en un entorno SGML (una vez la especificacin sea estable y el software SGML la adopte).

6. Utilidades de XML. Especificaremos algunas de las implementaciones/aplicaciones que se han desarrollado con XML. Suponemos que se establezca alguna implementacin propia para Bibliotecas y Centros de Documentacin; y con ello se pueda extraer la informacin desde la misma red (no por mtodos de infranet). CDF (Channel Definition Format): Los canales creado por Microsoft en el explorador IE4 con tecnologa push. RDF (Resource Description Framework): Esquema de descripcin de recursos. Una de las aplicaciones ms importantes que permitir describir los datos de cada documento y definir las relaciones que hay entre los datos XML. Tratar de los metadatos (metadata). Se les podra considerar como "los META del XML". Muchas compaas en Internet se estn adhiriendo a esta aplicacin. RDF Posee las siguientes virtudes:

Mejores motores de bsqueda. Se han adherido a esta especificacin Yahoo!, Altavista, Excite, Lycos, WebCrawler, Amazon, etc. La capacidad de describir los contenidos y sus relaciones en una biblioteca digital o sede Web. Permitir el acceso a una parte concreta del documento y se facilitar el intercambio de los datos. Se pueden calificar los contenidos para establecer la proteccin infantil y de la propia intimidad, desarrollado a travs de las marcas (tags) de PICS (Platform for Internet Content Selection). Establece los derechos de propiedad intelectual en las propias pginas Web.

OSD (Open Software Description Format): Formato abierto de descripcin de software. Desarrollo de software en mltiples plataformas. Describe el reparto de software a travs de la Red. Las etiquetas XML con las que est descrito definen los componentes, la versin que es, la plataforma en la que ha sido creado, la relacin con otros componentes, etc. Esto har que se simplifique el proceso de instalacin para el usuario y permitir tambin un fcil uso de las actualizaciones. CML (Chemical Markup Language): Lenguaje de marcas para qumica. Describe, entre otras formulas, las estructuras moleculares y cristalinas, los anlisis de espectros y otros objetos de inters para los qumicos. MathML (Mathematical Markup Language): Lenguaje de marcas para matemticas. Apto para codificar signos matemticos, smbolos cientficos, etc. El MathML es un lenguaje de bajo nivel que tiene en cuenta la comunicacin maquina a maquina de datos estructurados como informacin de bases de datos. El lenguaje MathML utiliza dos series de cdigos progresivos: el primero presenta los signos matemticos en series crecientes, y el segundo transmite el significado semntico de las expresiones matemticas, lo que posibilita la codificacin de smbolos y signos tanto matemticos como cientficos. EDI (Electronic Document Interchange): Intercambio electrnico de datos. Lleva un tiempo en proceso de estudio, pero finalmente dar un espaldarazo con el estndar XML. InfoVa Plus lo integra en uno de sus servicios (InfoEDI). OFX (Open Financial Exchange): Intercambio financiero abierto. Marco de trabajo enunciado actualmente en SGML, aunque Microsoft dice que pronto ser enunciado en XML. A travs de software de gestin financiera (Quicken, Microsoft Money, etc.) se podr conectar con el banco para gestionar las cuentas y extraer informacin de la cuenta bancaria. Esto se har a travs de unos protocolos seguros. TEI (Text Encoding Initiative): Iniciativa que parti de diversas asociaciones profesionales en los campos de humanidades. Trata de establecer etiquetas que propicien la descripcin de textos cientficos y literarios. En principio solo est disponible para SGML(6).

U N

I V E R S I D A D

D E 31

Q U

I N O

O L

I V I A

FACULTAD DE CIENCIAS Y TECNOLOGA

CUESTIONARIO 1. 2. 3. QU TIPO DE LENGUAJE ES XML? CMO ES LA ESTRUCTURA DE XML? CULES SON SUS UTILIDADES?

U N

I V E R S I D A D

D E 32

Q U

I N O

O L

I V I A

FACULTAD DE CIENCIAS Y TECNOLOGA

INGENIERIA DE SISTEMAS FACULTAD DE INGENIERIA

WORK PAPER # 4

PROGRAMA DE CONTROL DE CALIDAD Nro DE PROCEDIMIENTO: APRO 07 Nro. DE HOJAS: 10

ELABORO: CEBS

CDIGO: CMP 527

TITULO WORK PAPER: XML

DPTO:

UDABOL ORURO

DESTINADO A: DOCENTE

ALUMNOS

ADMINISTRATIVOS

OTROS

OBSERVACIONES: INGENIERIA DE SISTEMAS -NUEVAS TECNOLOGIAS- UNIDAD III

FECHA DE DIFUSIN:

FECHA DE ENTREGA:

Definicin arquitectura cliente servidor


INTRODUCCIN En vista del aprendizaje que tenemos diariamente en el aula de clases, nos vemos desafiados por un mundo lleno de conocimientos que invoca a la investigacin.
U N I V E R S I D A D D E 33 A Q U I N O B O L I V I A

FACULTAD DE CIENCIAS Y TECNOLOGA

Este trabajo fue realizado precisamente para llenar las expectativas y ansias de intelectualidad que nos brinda la carrera, desde bases de datos, vemos la importancia de la arquitectura cliente servidor. Es exactamente lo que se plasmara en el siguiente trabajo, la forma de Conocer una arquitectura que en este momento es una de las ms importantes y utilizadas en el mbito de enviar y recibir informacin, tambin es una herramienta potente para guardar los datos en una base de datos como servidor. ------------------------------------Con respecto a la definicin de arquitectura cliente/servidor se encuentran las siguientes definiciones: Cualquier combinacin de sistemas que pueden colaborar entre si para dar a los usuarios toda la informacin que ellos necesiten sin que tengan que saber donde esta ubicada. Es una arquitectura de procesamientos cooperativo donde uno de los componentes pide servicios a otro. Es un procesamiento de datos de ndole colaborativo entre dos o ms computadoras conectadas a una red. El trmino cliente/servidor es originalmente aplicado a la arquitectura de software que describe el procesamiento entre dos o ms programas: una aplicacin y un servicio soportante. IBM define al modelo Cliente/Servidor. Es la tecnologa que proporciona al usuario final el acceso transparente a las aplicaciones, datos, servicios de cmputo o cualquier otro recurso del grupo de trabajo y/o, a travs de la organizacin, en mltiples plataformas. El modelo soporta un medio ambiente distribuido en el cual los requerimientos de servicio hechos por estaciones de trabajo inteligentes o "clientes'', resultan en un trabajo realizado por otros computadores llamados servidores". Es un modelo para construir sistemas de informacin, que se sustenta en la idea de repartir el tratamiento de la informacin y los datos por todo el sistema informtico, permitiendo mejorar el rendimiento del sistema global de informacin ELEMENTOS PRINCIPALES Los elementos principales de la arquitectura cliente servidor son justamente el elemento llamado cliente y el otro elemento llamado servidor. Por ejemplo dentro de un ambiente multimedia, el elemento cliente seria el dispositivo que puede observar el vdeo, cuadros y texto, o reproduce el audio distribuido por el elemento servidor. Por otro lado el cliente tambin puede ser una computadora personal o una televisin inteligente que posea la capacidad de entender datos digitales. Dentro de este caso el elemento servidor es el depositario del vdeo digital, audio, fotografas digitales y texto y los distribuye bajo demanda de ser una maquina que cuenta con la capacidad de almacenar los datos y ejecutar todo el software que brinda stos al cliente. EN RESUMEN C/S es una relacin entre procesos corriendo en mquinas separadas El servidor (S) es un proveedor de servicios. El cliente (C) es un consumidor de servicios. C y S Interactan por un mecanismo de pasaje de mensajes: Pedido de servicio. Respuesta ALGUNOS ANTECEDENTES, PORQUE FUE CREADO? Existen diversos puntos de vista sobre la manera en que debera efectuarse el procesamiento de datos, aunque la mayora que opina, coincide en que nos encontramos en medio de un proceso de evolucin que se prolongar todava por algunos aos y que cambiar la forma en que obtenemos y utilizamos la informacin almacenada electrnicamente. El principal motivo detrs de esta evolucin es la necesidad que tienen las organizaciones (empresas o instituciones pblicas o privadas), de realizar sus operaciones ms gil y eficientemente, debido a la creciente presin competitiva a la que estn sometidas, lo cual se traduce en la necesidad de que su personal sea mas productivo, que se reduzcan los costos y gastos de operacin, al mismo tiempo que se generan productos y servicios ms rpidamente y con mejor calidad.
U N I V E R S I D A D D E 34 A Q U I N O B O L I V I A

FACULTAD DE CIENCIAS Y TECNOLOGA

En este contexto, es necesario establecer una infraestructura de procesamiento de informacin, que cuente con los elementos requeridos para proveer informacin adecuada, exacta y oportuna en la toma de decisiones y para proporcionar un mejor servicio a los clientes. El modelo Cliente/Servidor rene las caractersticas necesarias para proveer esta infraestructura, independientemente del tamao y complejidad de las operaciones de las organizaciones pblicas o privadas y, consecuentemente desempea un papel importante en este proceso de evolucin. EVOLUCIN DE LA ARQUITECTURA CLIENTE SERVIDOR La era de la computadora central Desde sus inicios el modelo de administracin de datos a travs de computadoras se basaba en el uso de terminales remotas, que se conectaban de manera directa a una computadora central. Dicha computadora central se encargaba de prestar servicios caracterizados por que cada servicio se prestaba solo a un grupo exclusivo de usuarios. La era de las computadoras dedicadas Esta es la era en la que cada servicio empleaba su propia computadora que permita que los usuarios de ese servicio se conectaran directamente. Esto es consecuencia de la aparicin de computadoras pequeas, de fcil uso, ms baratas y ms poderosas de las convencionales. La era de la conexin libre Hace mas de 10 aos que la computadoras escritorio aparecieron de manera masiva. Esto permiti que parte apreciable de la carga de trabajo de cmputo tanto en el mbito de clculo como en el mbito de la presentacin se lleven a cabo desde el escritorio del usuario. En muchos de los casos el usuario obtiene la informacin que necesita de alguna computadora de servicio. Estas computadoras de escritorio se conectan a las computadoras de servicio empleando software que permite la emulacin de algn tipo de terminal. En otros de los casos se les transfiere la informacin haciendo uso de recursos magnticos o por trascripcin. La era del cmputo a travs de redes Esta es la era que esta basada en el concepto de redes de computadoras, en la que la informacin reside en una o varias computadoras, los usuarios de esta informacin hacen uso de computadoras para laborar y todas ellas se encuentran conectadas entre si. Esto brinda la posibilidad de que todos los usuarios puedan acceder a la informacin de todas las computadoras y a la vez que los diversos sistemas intercambien informacin.

La era de la arquitectura cliente servidor


En esta arquitectura la computadora de cada uno de los usuarios, llamada cliente, produce una demanda de informacin a cualquiera de las computadoras que proporcionan informacin, conocidas como servidoresestos ltimos responden a la demanda del cliente que la produjo. Los clientes y los servidores pueden estar conectados a una red local o una red amplia, como la que se puede implementar en una empresa o a una red mundial como lo es la Internet. Bajo este modelo cada usuario tiene la libertad de obtener la informacin que requiera en un momento dado proveniente de una o varias fuentes locales o distantes y de procesarla como segn le convenga. Los distintos servidores tambin pueden intercambiar informacin dentro de esta arquitectura. QUE ES UNA ARQUITECTURA Una arquitectura es un entramado de componentes funcionales que aprovechando diferentes estndares, convenciones, reglas y procesos, permite integrar una amplia gama de productos y servicios informticos, de manera que pueden ser utilizados eficazmente dentro de la organizacin. Debemos sealar que para seleccionar el modelo de una arquitectura, hay que partir del contexto tecnolgico y organizativo del momento y, que la arquitectura Cliente/Servidor requiere una determinada especializacin de cada uno de los diferentes componentes que la integran. QUE ES UN CLIENTE

U N

I V E R S I D A D

D E 35

Q U

I N O

O L

I V I A

FACULTAD DE CIENCIAS Y TECNOLOGA

Es el que inicia un requerimiento de servicio. El requerimiento inicial puede convertirse en mltiples requerimientos de trabajo a travs de redes LAN o WAN. La ubicacin de los datos o de las aplicaciones es totalmente transparente para el cliente. QUE ES UN SERVIDOR Es cualquier recurso de cmputo dedicado a responder a los requerimientos del cliente. Los servidores pueden estar conectados a los clientes a travs de redes LANs o WANs, para proveer de mltiples servicios a los clientes y ciudadanos tales como impresin, acceso a bases de datos, fax, procesamiento de imgenes, etc.

Este es el ejemplo grafico de la arquitectura cliente servidor. ELEMENTOS DE LA ARQUITECTURA CLIENTE/SERVIDOR En esta aproximacin, y con el objetivo de definir y delimitar el modelo de referencia de una arquitectura Cliente/Servidor, debemos identificar los componentes que permitan articular dicha arquitectura, considerando que toda aplicacin de un sistema de informacin est caracterizada por tres componentes bsicos: Presentacin/Captacin de Informacin Procesos Almacenamiento de la Informacin Los cuales se suelen distribuir tal como se presenta en la figura: Aplicaciones Cliente/Servidor

Y se integran en una arquitectura Cliente/Servidor en base a los elementos que caracterizan dicha arquitectura, es decir:
U N I V E R S I D A D D E 36 A Q U I N O B O L I V I A

FACULTAD DE CIENCIAS Y TECNOLOGA

Puestos de Trabajo Comunicaciones Servidores Tal como se presenta en la figura: Arquitectura Cliente/Servidor

De estos elementos debemos destacar: El Puesto de Trabajo o Cliente Una Estacin de trabajo o microcomputador (PC: Computador Personal) conectado a una red, que le permite acceder y gestionar una serie de recursos el cual se perfila como un puesto de trabajo universal. Nos referimos a un microcomputador conectado al sistema de informacin y en el que se realiza una parte mayoritaria de los procesos. Se trata de un fenmeno en el sector informtico. Aquellos responsables informticos que se oponen a la utilizacin de los terminales no programables, acaban siendo marginados por la presin de los usuarios. Debemos destacar que el puesto de trabajo basado en un microcomputador conectado a una red, favorece la flexibilidad y el dinamismo en las organizaciones. Entre otras razones, porque permite modificar la ubicacin de los puestos de trabajo, dadas las ventajas de la red. Los Servidores o Back-end Una mquina que suministra una serie de servicios como Bases de Datos, Archivos, Comunicaciones,...). Los Servidores, segn la especializacin y los requerimientos de los servicios que debe suministrar pueden ser: Mainframes Miniordenadores Especializados (Dispositivos de Red, Imagen, etc.) Una caracterstica a considerar es que los diferentes servicios, segn el caso, pueden ser suministrados por un nico Servidor o por varios Servidores especializados. Las Comunicaciones En sus dos vertientes: Infraestructura de redes Infraestructura de comunicaciones Infraestructura de redes Componentes Hardware y Software que garantizan la conexin fsica y la transferencia de datos entre los distintos equipos de la red.
U N I V E R S I D A D D E 37 A Q U I N O B O L I V I A

FACULTAD DE CIENCIAS Y TECNOLOGA

Infraestructura de comunicaciones Componentes Hardware y Software que permiten la comunicacin y su gestin, entre los clientes y los servidores. La arquitectura Cliente/Servidor es el resultado de la integracin de dos culturas. Por un lado, la del Mainframe que aporta capacidad de almacenamiento, integridad y acceso a la informacin y, por el otro, la del computador que aporta facilidad de uso (cultura de PC), bajo costo, presentacin atractiva (aspecto ldico) y una amplia oferta en productos y aplicaciones. CARACTERISTICAS DEL MODELO CLIENTE/SERVIDOR En el modelo CLIENTE/SERVIDOR podemos encontrar las siguientes caractersticas: 1. El Cliente y el Servidor pueden actuar como una sola entidad y tambin pueden actuar como entidades separadas, realizando actividades o tareas independientes. 2. Las funciones de Cliente y Servidor pueden estar en plataformas separadas, o en la misma plataforma.

3. Un servidor da servicio a mltiples clientes en forma concurrente. 4. Cada plataforma puede ser escalable independientemente. Los cambios realizados en las plataformas de los Clientes o de los Servidores, ya sean por actualizacin o por reemplazo tecnolgico, se realizan de una manera transparente para el usuario final. 5. La interrelacin entre el hardware y el software estn basados en una infraestructura poderosa, de tal forma que el acceso a los recursos de la red no muestra la complejidad de los diferentes tipos de formatos de datos y de los protocolos. 6. Un sistema de servidores realiza mltiples funciones al mismo tiempo que presenta una imagen de un solo sistema a las estaciones Clientes. Esto se logra combinando los recursos de cmputo que se encuentran fsicamente separados en un solo sistema lgico, proporcionando de esta manera el servicio ms efectivo para el usuario final. Tambin es importante hacer notar que las funciones Cliente/Servidor pueden ser dinmicas. Ejemplo, un servidor puede convertirse en cliente cuando realiza la solicitud de servicios a otras plataformas dentro de la red. Su capacidad para permitir integrar los equipos ya existentes en una organizacin, dentro de una arquitectura informtica descentralizada y heterognea. 7. Adems se constituye como el nexo de unin mas adecuado para reconciliar los sistemas de informacin basados en mainframes o minicomputadores, con aquellos otros sustentados en entornos informticos pequeos y estaciones de trabajo.
U N I V E R S I D A D D E 38 A Q U I N O B O L I V I A

FACULTAD DE CIENCIAS Y TECNOLOGA

8. Designa un modelo de construccin de sistemas informticos de carcter distribuido. 1. Su representacin tpica es un centro de trabajo (PC), en donde el usuario dispone de sus propias aplicaciones de oficina y sus propias bases de datos, sin dependencia directa del sistema central de informacin de la organizacin, al tiempo que puede acceder a los 2. recursos de este host central y otros sistemas de la organizacin ponen a su servicio. En conclusin, Cliente/Servidor puede incluir mltiples plataformas, bases de datos, redes y sistemas operativos. Estos pueden ser de distintos proveedores, en arquitecturas propietarias y no propietarias y funcionando todos al mismo tiempo. Por lo tanto, su implantacin involucra diferentes tipos de estndares: APPC, TCP/IP, OSI, NFS, DRDA corriendo sobre DOS, OS/2, Windows o PC UNIX, en TokenRing, Ethernet, FDDI o medio coaxial, slo por mencionar algunas de las posibilidades. TIPOS DE CLIENTES 1. cliente flaco: Servidor rpidamente saturado. Gran circulacin de datos de interfase en la red. 2. cliente gordo: Casi todo el trabajo en el cliente. No hay centralizacin de la gestin de la BD. Gran circulacin de datos intiles en la red.

TIPOS DE SERVIDOR Servidores de archivos Servidor donde se almacena archivos y aplicaciones de productividad como por ejemplo procesadores de texto, hojas de clculo, etc. Servidores de bases de datos Servidor donde se almacenan las bases de datos, tablas, ndices. Es uno de los servidores que ms carga tiene. Servidores de transacciones Servidor que cumple o procesa todas las transacciones. Valida primero y recin genera un pedido al servidor de bases de datos. Servidores de Groupware Servidor utilizado para el seguimiento de operaciones dentro de la red. Servidores de objetos Contienen objetos que deben estar fuera del servidor de base de datos. Estos objetos pueden ser videos, imgenes, objetos multimedia en general. Servidores Web Se usan como una forma inteligente para comunicacin entre empresas a travs de Internet. Este servidor permite transacciones con el acondicionamiento de un browser especfico.
U N I V E R S I D A D D E 39 A Q U I N O B O L I V I A

FACULTAD DE CIENCIAS Y TECNOLOGA

ESTILOS DEL MODELO CLIENTE SERVIDOR PRESENTACIN DISTRIBUIDA 1. Se distribuye la interfaz entre el cliente y la plataforma servidora. 2. La aplicacin y los datos estn ambos en el servidor. 3. Similar a la arquitectura tradicional de un Host y Terminales. 4. El PC se aprovecha solo para mejorar la interfaz grfica del usuario. Ventajas Revitaliza los sistemas antiguos. Bajo costo de desarrollo. No hay cambios en los sistemas existentes. Desventajas El sistema sigue en el Host. No se aprovecha la GUI y/o LAN. La interfaz del usuario se mantiene en muchas plataformas. PRESENTACIN REMOTA 1. La interfaz para el usuario esta completamente en el cliente. 2. La aplicacin y los datos estn en el servidor. Ventajas La interfaz del usuario aprovecha bien la GUI y la LAN. La aplicacin aprovecha el Host. Adecuado para algunos tipos de aplicaciones de apoyo a la toma de decisiones. Desventajas Las aplicaciones pueden ser complejas de desarrollar. Los programas de la aplicacin siguen en el Host. El alto volumen de trfico en la red puede hacer difcil la operacin de aplicaciones muy pesadas. LGICA DISTRIBUIDA 1. La interfaz esta en el cliente. 2. La base de datos esta en el servidor. 3. La lgica de la aplicacin esta distribuida entre el cliente y el servidor. Ventajas Arquitectura mas corriente que puede manejar todo tipo de aplicaciones. Los programas del sistema pueden distribuirse al nodo mas apropiado. Pueden utilizarse con sistemas existentes. Desventajas Es difcil de disear. Difcil prueba y mantenimiento si los programas del cliente y el servidor estn hechos en distintos lenguajes de programacin. No son manejados por la GUI 4GL. ADMINISTRACIN DE DATOS REMOTA 1. En el cliente residen tanto la interfaz como los procesos de la aplicacin. 2. Las bases de datos estn en el servidor. 3. Es lo que comnmente imaginamos como aplicacin cliente servidor Ventajas Configuracin tpica de la herramienta GUI 4GL. Muy adecuada para las aplicaciones de apoyo a las decisiones del usuario final. Fcil de desarrollar ya que los programas de aplicacin no estn distribuidos. Se descargan los programas del Host. Desventajas No maneja aplicaciones pesadas eficientemente. La totalidad de los datos viaja por la red, ya que no hay procesamiento que realice el Host. BASE DE DATOS DISTRIBUIDA
U N I V E R S I D A D D E 40 A Q U I N O B O L I V I A

FACULTAD DE CIENCIAS Y TECNOLOGA

1. La interfaz, los procesos de la aplicacin, y , parte de los datos de la base de datos estn en cliente. 2. El resto de los datos estn en el servidor. Ventajas Configuracin soportada por herramientas GUI 4GL. Adecuada para las aplicaciones de apoyo al usuario final. Apoya acceso a datos almacenados en ambientes heterogneos. Ubicacin de los datos es transparente para la aplicacin. Desventajas No maneja aplicaciones grandes eficientemente. El acceso a la base de datos distribuida es dependiente del proveedor del software administrador de bases de datos. DEFINICIN DE MIDDLEWARE Es un termino que abarca a todo el software distribuido necesario para el soporte de interacciones entre Clientes y Servidores. Es el enlace que permite que un cliente obtenga un servicio de un servidor. Este se inicia en el modulo de API de la parte del cliente que se emplea para invocar un servicio real; esto pertenece a los dominios del servidor. Tampoco a la interfaz del usuario ni la a la lgica de la aplicacin en los dominios del cliente. Tipos de Middleware Existen dos tipos de middleware: 1. Middleware general Este tipo permite la impresin de documentos remotos, manejos de transacciones, autenticacin de usuarios, etc. 2. Middleware de servicios especficos Generalmente trabajan orientados a mensajes. Trabaja uno sola transaccin a la vez. FUNCIONES DE UN PROGRAMA SERVIDOR 1. Espera las solicitudes de los clientes. 2. Ejecuta muchas solicitudes al mismo tiempo. 3. Atiende primero a los clientes VIP. 4. Emprende y opera actividades de tareas en segundo plano. 5. Se mantiene activa en forma permanente.
CUESTIONARIO

1. 2. 3. 4. 5. 6. 7. 8. 9. 10. 11. 12. 13. 14. 15. 16. 17.

Introduccin Cules son los elementos principales de la arquitectura Cliente Servidor? Algunos antecedentes, Por qu fue creado? Cul es la evolucin de la arquitectura cliente servidor? Qu es una arquitectura? Qu es un cliente? Qu es un servidor? Indique los elementos de la arquitectura cliente/servidor Caractersticas del modelo cliente/servidor Tipos de clientes, de servidor Estilos del modelo cliente servidor qu es la presentacin remota? Qu es la lgica distribuida? Cmo es la administracin de datos remota? Qu es una base de datos distribuida? Definicin de Middleware Funciones de un programa servidor

U N

I V E R S I D A D

D E 41

Q U

I N O

O L

I V I A

FACULTAD DE CIENCIAS Y TECNOLOGA

DIF #1 NUEVAS TECNOLOGIAS Las tecnologas de la informacin experimentan fundamentales y profundos impactos en la forma en que los productos y servicios son ofertados, distribuidos, vendidos y consumidos, porque el negocio real detrs de ellos es simple y llanamente informacin. Las megatendencias estn rigiendo el futuro de los negocios hoy en da, as tenemos: Internet / WWW Datawarehousing Computacin mvil Comercio electrnico Ao 2000

Pero las megatendencias tambin afectan el mercado, puesto que cada vez ms empresas estn ingresando al WWW. Adems se evidencia la necesidad de invertir en tecnologas muchas veces de alto costo. El temor de la globalizacin, la apertura de mercados y la alta competitividad estn haciendo que las organizaciones vean con mayor frecuencia a la tecnologa como un aliado estratgico. La necesidad de informacin en las organizaciones crece geomtricamente. Para toda empresa, obtener informacin cada da es ms importante, puesto que la informacin (y con ella la tcnica informtica) ya es un factor de la produccin y es determinante para el xito que una empresa pueda tener en su mercado. Ordenadores cada vez ms rpidos y capacidades han llevado consigo una ola de informacin, cuya evaluacin se hace cada vez ms dificultosa. Las empresas poseen multitud de datos, pero muy pocas son capaces de aprovecharlos con eficacia. Hoy en da las empresas cuentan en su mayora con la automatizacin de sus procesos, manejando gran cantidad de datos en forma centralizada y manteniendo sus sistemas en lnea. Esta informacin es el pilar primordial de la empresa, constituyendo un recurso corporativo primario y parte importante de su patrimonio. El nivel competitivo alcanzado en las empresas les ha exigido desarrollar nuevas estrategias de gestin. En el pasado, las organizaciones fueron tpicamente estructuradas en forma piramidal con informacin generada en su base fluyendo hacia lo alto; y era en el estrato de la pirmide ms alto donde se tomaban decisiones a partir de la informacin proporcionada por la base, con un bajo aprovechamiento del potencial de esta informacin. Estas empresas, han reestructurado y eliminado estratos de estas pirmides y han autorizado a los usuarios de todos los niveles a tomar mayores decisiones y responsabilidades. Sin embargo, sin informacin slida para influenciar y apoyar las decisiones, la autorizacin no tiene sentido.

Esta necesidad de obtener informacin para una amplia variedad de individuos es la principal razn de negocios que conduce al concepto de DATAWAREHOUSE. En el DATAWAREHOUSE el nfasis no est slo en llevar la informacin hacia lo alto, sino que a travs de la organizacin, para que todos los empleados que la necesiten la tengan a su disposicin. La revolucin del DATA WAREHOUSE (DW) est impulsada por la esperanza de que esta aproximacin ser capaz de ofrecer a las personas que toman decisiones en la organizacin un acceso integrado, consistente, fiable y rpido a los datos, que les permite tomar decisiones basadas en una mejor informacin.

U N

I V E R S I D A D

D E 42

Q U

I N O

O L

I V I A

FACULTAD DE CIENCIAS Y TECNOLOGA

I.

DATA WAREHOUSE

DATA WAREHOUSE es un concepto relativamente nuevo en Panam y para muchos desconocido, que viene a resolver problemas de manejo y uso adecuado de grandes fuentes de datos y de diversos tipos, para apoyar tomas de decisiones oportunas. El ambiente competitivo en las empresas de los 90s as como el avance tecnolgico en materia de sistemas de informacin, han provocado un nuevo enfoque en el tratamiento y proceso de la informacin ejecutiva, la cual es un elemento vital hoy en da como soporte en el proceso de toma de decisiones. El concepto DATA WAREHOUSING, o el proceso de contar con la informacin ms importante de la empresa (incluyendo la histrica), en un solo lugar, ha logrado convertirse en una valiosa herramienta y clave desde el punto de vista tecnolgico. La explotacin del DATA WAREHOUSING mediante informacin de gestin, se fundamenta bsicamente en los niveles agrupados o calculados de informacin. Este tipo de sistemas ha existido desde hace tiempo, en el mundo de la informtica bajo distintas denominaciones como: cuadros de mando, MIS, EIS, etc. Su realizacin fuera del entorno del DATA WAREHOUSE, puede repercutir sobre estos sistemas en una mayor rigidez, dificultad de actualizacin y mantenimiento, malos tiempos de respuestas, incoherencias de la informacin, falta del dato agregado, etc. En un mundo cada vez ms acelerado y competitivo, el acceso a la informacin operacional es una necesidad esencial en el proceso decisivo de los negocios. Una estructura adecuada de almacenamiento de datos va a satisfacer esta necesidad. Tambin le va a proporcionar el acceso a la informacin actual y los datos histricos a travs de diversas bases de datos corporativas y va a permitir una mejor toma de decisiones basadas en la informacin. Sustentada a menudo con informacin externa, tal como datos econmicos y demogrficos, las soluciones de almacenamiento de datos se convierten en el depsito central de los datos. Le da a los usuarios a travs de toda la organizacin la capacidad de repasar, analizar, modificar e imprimir informacin.

1. Definicin de DATA WAREHOUSE Hoy en da se puede mencionar que prcticamente no existe negocio el cual implcitamente tenga asociado un Sistema de Informacin y que un sistema de informacin de una u otra forma termina siempre relacionado a un negocio.
U N I V E R S I D A D D E 43 A Q U I N O B O L I V I A

FACULTAD DE CIENCIAS Y TECNOLOGA

La definicin de DATA WAREHOUSE tiene mltiples vertientes, segn W.H. Inmon, uno de los precursores del concepto de DATA WAREHOUSE: Data Warehouse es un sistema orientado al usuario final, integrado, con variaciones de tiempo y sobre todo una coleccin de datos como soporte al proceso de toma de decisiones. De acuerdo con algunas otras organizaciones, DATA WAREHOUSE, es una arquitectura. simplemente un almacn de datos ( separados y que no interfiere con los sistemas operativos empresa ) , para satisfacer las diversas consultas y requerimientos de informacin. Para algunos proceso que agrupa datos desde mltiples fuentes heterogneas, incluyendo datos histricos continua necesidad de consultas, reportes analticos y soporte de decisiones. Para otros, es actuales de una otros, DW es un para soportar la

En definitiva DATA WAREHOUSE no es ni un producto de software ni una mquina, o tecnologa de bases de datos en particular, sino una serie de componentes y procesos que en conjunto forman la arquitectura llamada DATA WAREHOUSE. John Edwarts en un artculo reciente de CIO Magazine, define DATA WAREHOUSE como: un DW toma informacin de mltiples sistemas y bases de datos y la almacena de una manera que est diseada para dar a los usuarios acceso ms rpido, ms fcil y ms flexible a los aspectos claves DATA WAREHOUSE, difiere de las bases de datos operacionales que soportan aplicaciones con el Proceso Transaccional en Lnea ( OLTP ) de diversas formas. DATA WAREHOUSE incluye: Una orientacin al usuario final. Administra y maneja un gran volumen de informacin Informacin somatizada y agregada Integra y asocia informacin desde mltiples fuentes y orgenes

Algunos consideran a DATA WAREHOUSE como un sistema de misin crtica. Debido a que las empresas actualmente demandan mayor informacin que sea oportuna, confiable y completa, desde un acceso directo y rpido a la informacin ms importante, esto hace considerar a este tipo de sistemas como de Misin Crtica. Los requerimientos principales de un sistema de Misin Crtica a considerar son: Disponibilidad Confiabilidad y consistencia Robustez Estndar Basado en los requerimientos del negocio Compatibilidad con tecnologa actual y una infraestructura slida Utilizado sobre bases diarias, es decir, para el proceso da a da Amigable Auditable Seguro

2. Propsito del DATA WAREHOUSE El propsito del DATA WAREHOUSE es asistir al ejecutivo en el entendimiento del pasado y contar con los elementos para la planeacin del futuro de corto, mediano y largo plazo. Los ejecutivos y administradores buscan respuestas a preguntas como: Qu estn comprando nuestros clientes? Qu no estn comprando? Qu est haciendo la competencia? Cmo estn los costos por cada lnea de producto, comparados con los ltimos tres aos? Qu factores causan incrementos en los costos?
U N I V E R S I D A D D E 44 A Q U I N O B O L I V I A

FACULTAD DE CIENCIAS Y TECNOLOGA

Los ejecutivos quieren tener respuestas a preguntas cruciales para poder tomar decisiones. Un DATA WAREHOUSE ayuda a resolver estas preguntas de forma eficiente y aporta elementos valiosos de toma de decisiones al personal encargado de las mismas, los cuales pueden ser analistas, ejecutivos o directores, y en forma inmediata, estos es, consultas en lnea, sin necesidad de que el usuario final ( el analista ) solicite que se elaboren y ejecuten procesos especiales. Por lo tanto, es importante asegurar que los datos de la bodega sean adecuados, suficientes y seleccionados de acuerdo a las necesidades de decisin del negocio que se pretende soportar. El objetivo principal de DATA WAREHOUSE es el uso adecuado de datos para obtener informacin til para el soporte a la toma de decisiones, lo que es difcil de lograr con los sistemas operacionales ( 1,2,3 ) o sistema en lnea.

El DW es el lugar donde la gente puede accesar sus datos. Con DATA WAREHOUSE se puede lograr: Consultas ms fciles Facilita la toma de decisiones Prctica de negocios inteligentes Obtener informacin valiosa y oportuna Impacto positivo sobre los procesos empresariales Ejecutivos mejor informados

Mediante las aplicaciones de DW se concentra e integra la informacin ms importante de las organizaciones a travs del tiempo, logrando hacer consultas de la informacin ms fciles y mucho ms accesibles. DW convierte la informacin en UTILIDADES. En primer lugar DW, no es un producto que pueda ser comprado en el mercado, sino ms bien construido. DW es una combinacin de conceptos y tecnologa que cambian significativamente la manera en que es entregada la informacin a la gente de negocios. El objetivo principal satisfacer los requerimientos de la informacin interna de la empresa para una mejor gestin, con eficiencia y facilidad de accesos. El DW puede verse como una bodega donde estn almacenados todos los datos necesarios para realizar funciones de gestin de la empresa, de manera que puedan utilizarse fcilmente segn se necesiten. Los almacenes de datos ( o DATA WAREHOUSE ) generan bases de datos tangibles con una perspectiva histrica, utilizando datos de mltiples fuentes que se fusionan en forma congruente. Estos datos se mantienen actualizados, pero no cambian el ritmo de los sistemas transaccionales. Muchos DW se disean para contener un nivel de detalle hasta el nivel de transaccin, con la intencin de hacer disponible todo tipo de datos y caractersticas, para reportar y analizar. As un DW resulta ser un recipiente de datos transaccionales para realizar consultas operacionales. De esta forma, dentro de un almacn de datos existen dos tecnologas complementarias, una relacional para consultas y una multidimensional para anlisis. Si queremos extraer informacin de los datos estos deben ser: accesibles el acceso debe ser simple La informacin debe ser consistente

Si se desea que los datos tengan un significado, se deben hacer preguntas bsicas como:

U N

I V E R S I D A D

D E 45

Q U

I N O

O L

I V I A

FACULTAD DE CIENCIAS Y TECNOLOGA

II. 1.

Cul es la situacin actual? Cmo llegue aqu? Cmo predecir el futuro? Qu implica esta tendencia?

VENTAJAS DEL DATA WAREHOUSE Beneficios

Para los usuarios:

Confianza en el uso de sistemas: El incremento en la rapidez de las consultas afianzar el uso de los sistemas operativos de la empresa.
Reduccin en tiempos de consultas: Se adquiere una solucin que reduce tiempos de espera por parte de los usuarios.

Apoyo a la toma de decisiones: Los empresarios tendrn a la mano los resmenes de informacin para armar reportes comparativos, utilizando los indicadores ms comunes de la empresa, para apoyarse en la toma de decisiones.

Para el Area de Sistemas:

Facilidad de uso: La facilidad de uso de esta herramienta le permitir tener un DW en minutos. Acceso a cualquier base de datos: el soporte para accesar mltiples bases de datos amplia las reas de aplicacin de esta herramienta, para generar resmenes operativos de su informacin. Mayor rendimiento: el rendimiento de los servidores de su empresa se ver altamente beneficiado, debido a que el tiempo de consulta se ver disminudo.

Adems DATA WAREHOUSE permite:

Incluso durante la tramitacin de un incidente comercial el administrativo puede sacar siempre informaciones de clientes, artculos y condiciones. Permite informacin en lnea (online) para la tramitacin del negocio diario sin papeles. La informacin est disponible rpidamente y pulsando una simple tecla. Acceso directo, fcil y econmico a todos los datos de la empresa. Poseer una base de datos consistente en toda la empresa. Visualizar en varias formas los resultados de sus consultas. Redactar informes con la ayuda de mdulos de textos e informes prefabricados. Navegar rpida e intuitivamente por los datos de la empresa. Identificar y analizar las tendencias en el tiempo ms breve. Capacidad para utilizar una variedad de herramientas para procesar y resumir los datos, as finalmente reagrupar toda la informacin. Capacidad para explorar e identificar relaciones de datos a travs de mltiples bases de datos.
U N I V E R S I D A D D E 46 A Q U I N O B O L I V I A

FACULTAD DE CIENCIAS Y TECNOLOGA

Los datos histricos aumentan su valor a lo largo del tiempo. Crecimiento escalable. Los logros son evidentes: mayor productividad por decisiones correctas en un tiempo ms corto.

III. COMPONENTES Y ESTRUCTURA BASICA DEL DATA WAREHOUSE Arquitectura DATA WAREHOUSE: 3.1. Componentes y estructura Antes de describir la arquitectura DW vamos a sealar la siguiente consideracin ya generalizada, presente en la literatura: el trmino DW se utiliza indistintamente para hablar de la arquitectura en s como tambin para uno de los componentes que la conforman, especficamente el que tiene relacin con el almacenamiento fsico de datos.

La estructura bsica de la arquitectura DW incluye: a. b. c. d. e. Datos Operacionales: un origen de datos para el componente de almacenamiento fsico DW. Extraccin de Datos: seleccin sistemtica de datos operacionales usados para poblar el componente de almacenamiento fsico DW. Transformacin de Datos: procesos para sumar y realizar otros cambios en los datos operacionales para reunir los objetivos de orientacin a temas e integracin principalmente. Carga de Datos: insercin sistemtica de datos en el componente de almacenamiento fsico DW. Herramienta de Acceso al componente de almacenamiento fsico DW: herramienta que proveen acceso a datos.

U N

I V E R S I D A D

D E 47

Q U

I N O

O L

I V I A

FACULTAD DE CIENCIAS Y TECNOLOGA

ESTRUCTURA BASICA DEL DATA WAREHOUSE

IV.

FASES DE IMPLEMENTACION DE UN DATA WAREHOUSE:

Tal y como apareca en un artculo en ComputerWorld. un DATA WAREHOUSE no se puede comprar, se tiene que construir Como hemos mencionado con anterioridad, la construccin e implantacin de un DW es un proceso evolutivo. El proceso debe apoyarse en una metodologa especfica para este tipo de procesos. Si bien es importante la eleccin de la mejor de las metodologas, tambin es importante el realizar un control para asegurar el seguimiento de las mismas. Las fases que se establezcan en el alcance de este proyecto son fundamentales. El seguir los pasos de la metodologa y comenzar el DW por un rea especfica de la empresa, permitir obtener resultados tangibles en un corto espacio de tiempo. A continuacin una metodologa interactiva distribuda en cinco fases:

Definicin de los objetivos: los objetivos que se establezcan para el desarrollo de DW, juegan un papel preponderante. Una vez establecidos los objetivos, todo proyecto debe desarrollarse de

U N

I V E R S I D A D

D E 48

Q U

I N O

O L

I V I A

FACULTAD DE CIENCIAS Y TECNOLOGA

forma clara y directa. El esclarecimiento de los objetivos son los pilares bsicos para el desarrollo de todo proyecto. Definicin de los requerimientos de informacin: tal como sucede en todo proyecto , sobre todo si involucra tcnicas novedosas como son las relativas al DW, se deben analizar todas las necesidades y hacer comprender las ventajas que este sistema puede reportar. Es en este punto donde se debe detallar los pasos a seguir en proyectos de este tipo, donde el usuario juega un papel preponderante. Diseo y Modelizacin: los requerimientos de informacin identificados durante la anterior fase proporcionarn las bases para realizar el diseo y la modelizacin del DW. En esta fase se identificarn las fuentes de los datos ( sistema operacional, fuentes externas. ) y las transformaciones necesarias para, a partir de dichas fuentes, obtener el modelo lgico de datos del DW. Este modelo estar formado por entidades y relaciones que permitirn resolver necesidades de negocio de la organizacin. El modelo lgico se traducir posteriormente en el modelo fsico de datos que se almacenarn en el DW y que definir la arquitectura de almacenamiento del DW adaptndose al tipo de explotacin que se realice del mismo.

Implementacin: la implantacin de un DW lleva implcito los siguientes pasos: Extraccin de los datos del sistema operacional y transformacin de los mismos. Carga de los datos validados en el DW. Esta carga deber ser planificada con una periocidad que se adaptar a las necesidades de refresco detectadas durante la fase de diseo del nuevo sistema. Explotacin del DW mediante diversas tcnicas dependiendo del tipo de aplicacin que se de a los datos: o o o o On-Line analytical processing ( OLAP ) Decisin Support Systems Informacin de Gestin Visualizacin de la informacin Data Mining o minera de datos

La informacin necesaria para mantener el control sobre los datos se almacena en los metadatos tcnicos ( cuando describen las caractersticas fsicas de los datos ) y de negocios ( cuando describen como usan esos datos ). Dichos metadatos debern ser accesibles por los usuarios finales que permitirn en todo momento tanto al usuario, como al administrador que deber adems tener la facultad de modificarlos segn varen las necesidades de informacin. Con la finalizacin de esta fase se obtendr un DW disponible para su uso por parte de los usuarios finales y el departamento de informtica. Revisin: la construccin del DW no finaliza con la implantacin del mismo, si no que es una tarea iterativa en la que se trata de incrementar su alcance aprendiendo de las experiencias anteriores. Despus de implantarse, debera realizarse una revisin del DW planteando preguntas que permitan, despus de los seis o nueve meses posteriores a su puesta en marcha, definir cules sern los aspectos a mejorar o potenciar en funcin de la utilizacin que se haga del nuevo sistema. Diseo de la estructura de cursos de informacin: con la informacin obtenida de reuniones con los distintos usuarios se disearan una serie de cursos a medida, que tendrn como objetivo proporcionar la formacin estadstica necesaria para el mejor aprovechamiento de la funcionalidad incluida en la aplicacin. Se realizarn prcticas sobre el desarrollo realizado, las cuales permitirn fijar conceptos adquiridos y servirn como formacin a los usuarios.

4.1 . ESTRATEGIAS DE IMPLEMENTACION En esta gua resaltaremos algunas consideraciones que recomendamos deben seguirse a la hora de querer implementar un proyecto de este tipo:
U N I V E R S I D A D D E 49 A Q U I N O B O L I V I A

FACULTAD DE CIENCIAS Y TECNOLOGA

a.

b. c.

d.

La base de datos de riesgos debe estar separada de la base de datos operacionales con el propsito de no interferir en la actividad del da a da, disponiendo de est manera de la informacin necesaria y un entorno orientado hacia la consulta y el anlisis de los datos. Concepcin del sistema como un conjunto de herramientas de anlisis; esto es, porque las actividades de Anlisis de Riesgo no se pueden automatizar, porque ellas requieren del anlisis y decisin del usuario. Disear el sistema no orientado a procesos porque se debe disponer de un conjunto abierto de herramientas que se utilizan con propsitos determinados no relacionadas con las necesidades operativas del da a da. Abordar el sistema con un enfoque de desarrollo gradual, que debe comenzar con un esqueleto bsico de funcionalidad y datos que produzcan resultados a corto plazo y permita aprender en la prctica y luego ir configurando progresivamente nuevas funcionalidades conforme la experiencia lo vaya requiriendo.

Una vez en marcha estas estrategias de implementacin el esquema de Gestin y Explotacin de nuestro DATA WAREHOUSE queda como se muestra en la siguiente figura que nos muestra un sistema DW ya implementado y listo para explotarlo.

V. DATA MINING Y DATA MART 1. Definicin de DATA MART: Pero, qu ocurre cuando DW crece y se hace ms complejos ? El rendimiento de las consultas vuelve a sufrir y el modelo centralizado deja de ser el ms eficiente. En estos casos, la solucin propuesta es crear almacenes de datos especializados por reas como Ventas o Compras, que reciben los datos desde un almacn centralizado ( DW ) y que pueden residir en diferentes mquinas... estos almacenes se conocen como DATA MARTS (DM).

U N

I V E R S I D A D

D E 50

Q U

I N O

O L

I V I A

FACULTAD DE CIENCIAS Y TECNOLOGA

Un DATA MART es una aplicacin de un DATA WAREHOUSE construida rpidamente para soportar una lnea de negocio simple. Los DATA MARTS, tienen las mismas caractersticas de integracin, no volatilidad y orientacin temtica que el DW. Representan una estrategia de divide y vencers para mbitos muy genricos de un DATA WAREHOUSE.

Esta estrategia es particularmente apropiada cuando el DW central crece muy rpido y los distintos departamentos requieren slo una pequea porcin de los datos contenidos en l. La creacin de los DATA MART requiere de algo ms que una simple rplica de datos: se necesitarn tanto la segmentacin como algunos mtodos adicionales de consolidacin. La aproximacin a una arquitectura descentralizada de DATA MART, podra ser originada de una situacin como la descrita a continuacin: Un ejemplo de cuando aplicar DATA MART, se da en reas especficas como el departamento de marketing o finanzas; el departamento de marketing, emprende el primer proyecto de DATA WAREHOUSE, como una solucin departamental, creando el primer DATA MART de la empresa.

Visto el xito del proyecto, otros departamentos como el de Riesgos, o el Financiero se lanzan a crear sus DATA MARTS. Marketing, comienza a usar otros datos que tambin los usan los DATA MARTS de Riesgos y Financieros, y estos hacen lo propio. Esto parece ser una decisin normal, puesto que las necesidades de informacin de todos los DATA MART crecen conforme el tiempo avanza. Cuando esta situacin evoluciona, el esquema general de integracin entre DATA MARTS pasa ser, la del grfico anterior. En esta situacin, es fcil observar cmo este esquema de integracin de informacin de los DATA MARTS, pasa a convertirse en un rompecabezas en el que la gestin para obtener la informacin se ha complicado. No obstante, lo que ha fallado no es la integracin de DATA MARTS, sino su forma de integracin.

U N

I V E R S I D A D

D E 51

Q U

I N O

O L

I V I A

FACULTAD DE CIENCIAS Y TECNOLOGA

En efecto, un enfoque ms adecuado sera la coordinacin de la gestin de informacin de todos los DATA MART en un DATA WAREHOUSE centralizado, como lo muestra la figura anterior. En esta situacin los DATA MARTS obtendran la informacin necesaria, ya previamente cargada y depurada en el DW corporativo, simplificando el crecimiento de una base de conocimientos a nivel de toda la empresa. Esta simplificacin proveera la descentralizacin de las labores de gestin de los DATA MARTS y el DW corporativo, generando economas de escala en la gestin de los DATA MARTS implicados. Toda empresa puede ser vista en base al proceso productivo que la sustenta. El resultado de los costos y beneficios de este proceso productivo forman una cadena de valor, donde cada eslabn ( proceso de negocios ) adiciona valor a la empresa. De esta forma es claro que las empresas deben buscar optimizar cada uno de sus eslabones sin perder de vista la cadena total. Dado que un DATA MART soporta menos usuarios que un DATA WAREHOSUE se puede optimizar para recuperar ms rpidamente los datos que necesitan los usuarios. La arquitectura de un DATA MART es aconsejable porque: Menores cantidades de datos implican que se procesan antes, tanto las cargas de datos como las consultas. Las peticiones pueden acotarse al rea o red que sirve esos datos, sin afectar al resto de los usuarios. La aplicacin cliente, que pide la consulta es independiente del servidor que la procesa y del servidor de bases de datos que almacenan la informacin.

2. Definicin de DATA MINING: El anlisis y procesamiento de datos en la bodega se puede apoyar y complementar con varias tcnicas de anlisis, entre las que se destaca la minera de datos (data mining), tcnica de inteligencia artificial que permite buscar condiciones anormales o fuera de rango, ya sea de manera programada o automtica, en los datos contenidos en la bodega, facilitando as el anlisis que de otra manera sera difcil obtener con otros mtodos. Un ejemplo claro de esto se puede aplicar en un banco y el sistema de tarjetas de crdito, fcilmente se puede programar un minero para que automticamente avise y busque dentro de la cartera de clientes todos los tarjeta habientes que hayan vencido; y proyecte al siguiente mes el crecimiento de la cartera vencida y avisara en caso de sobrepasar el monto de cartera vencida definida como crtica. Las herramientas de DATA MINING recorren los datos detallados de transacciones para desenterrar patrones. Por lo general, los resultados generan extensos reportes o se les analiza con herramientas de visualizacin de datos descubiertos. El procesamiento informtico es excelente y rentable para el despliegue masivo de consultas, anlisis y reportes de datos de dos o tres dimensiones. Las herramientas de procesamiento analtico permiten diversas visualizaciones con
U N I V E R S I D A D D E 52 A Q U I N O B O L I V I A

FACULTAD DE CIENCIAS Y TECNOLOGA

los datos, como ventas por marca, tienda, temporada y perodos de tiempo, las cuales se pueden definir, consultar y analizar. Las herramientas del DATA MINING son esenciales para comprender el comportamiento de los clientes. Los usuarios clave en perspectiva del Data Mining son los analistas empresariales y los profesionales en tecnologa de la informacin que auxilian a los usuarios empresariales. Quienes obtienen beneficios de los resultados del data Mining son los gerentes empresariales y los ejecutivos que desean entender los factores de xito del negocio con base en datos completos del cliente y, utilizar luego, este conocimiento para afinar las estrategias de produccin, precios y comercializacin, mejorar el nivel de xito y las estrategias, e impulsar el balance. VI. OTROS SISTEMAS: 1. Sistema OLTP Histricamente, los datos de la corporacin suelen residir en bases de datos ( BD ) que se disearon principalmente para introducir y almacenar datos, mediante el llamado Proceso de Transacciones On Line ( OLTP ). Este mtodo es idneo para insertar, modificar o borrar registros, pero no lo es tanto para responder a complejas consultas. La relacin entre los datos responde a las tcnicas llamadas de Entidad-Relacin. Un sistema operacional o de procesamiento en lnea es un sistema tal como el de administracin de recursos humanos, de asignacin de bancarios de recuperacin y control de cartera o de control de seguros, y su funcin principal es dar el soporte a las necesidades del da; son sistemas normalmente optimizados para el manejo de un conjunto predefinido de transacciones. Los sistemas operacionales de los cuales se transferir la informacin seleccionada, pueden haber sido construidos utilizando manejadores de datos relacionados, manejadores de archivos jerrquicos, de archivos planos u otro tipo de manejadores. Por ello, es necesario analizar y definir cuidadosamente de los sistemas operacionales aquellos datos que representen la esencia o filosofa del negocio que se pretenda manejar, para que al transferir los datos a la bodega, ese conocimiento primordial se capture en lo que se conoce como metadatos, que son precisamente, los que describen a los datos provenientes de los sistemas operacionales.

2. Diferencias: OLTP vs. DATA WAREHOUSE:

U N

I V E R S I D A D

D E 53

Q U

I N O

O L

I V I A

FACULTAD DE CIENCIAS Y TECNOLOGA

Fig. ESQUEMA DE RELACION ENTRE OLTP Y DW Es de suma importancia comprender perfectamente estas diferencias para evitar caer en el diseo de un DW como si fuera una aplicacin de transaccin en lnea ( OLTP ). Las aplicaciones de OLTP estn organizadas para ejecutar las transacciones para los cuales fueron hechas, como por ejemplo: mover dinero entre cuentas, un cargo o abono, una devolucin de inventario, etc. Por otro lado, un DW est organizado en base a conceptos, como por ejemplo: clientes, facturas, productos, etc. Otra diferencia radica en el nmero de usuarios. Normalmente el nmero de usuarios de un DW es menor al de un OLTP. Es comn encontrar que los sistemas transaccionales son accesados por cientos de usuarios simultneamente, mientras que los DW slo por decenas. Los sistemas OLTP realizan cientos de transacciones por segundo mientras que una sola consulta de un DW puede tomar minutos. Otro factor es que frecuentemente los sistemas transaccionales son menores en tamao a lo DW, esto es debido a que un DW puede estar formado por informacin de varios OLTP. Existe tambin diferencia en el diseo, mientras que un OLTP es extremadamente normalizado, un DW tiende a ser desnormalizado. El OLTP normalmente est formado por un nmero mayor de tablas, cada una con pocas columnas, mientras que un DW el nmero de tablas es menor, pero cada una de estas tiende a ser mayor en nmero de columnas. Los OLTP son continuamente actualizados por los sistemas operacionales del da con da, mientras que los DW son actualizados en batch (back up) de manera peridica.

Las estructuras de los OLTP son muy estables, rara vez cambian, mientras que los DW sufren cambios constantes derivados de su evolucin. Esto se debe a que los tipos de consultas a los cuales estn sujetos, son muy variados y es imposible preverlos todos de antemano. OLTP Orientada a transacciones Detallada Actualizada en lnea Usuarios a nivel operativo Corre en base a repeticiones Muy sensitivo al desempeo Accesa unidades a la vez Orientado a una operacin Estructura esttica Sin redundancia Alta probabilidad de acceso Administrada como un todo Informacin bruta ( datos) Actualizada en lnea Muchas tablas con pocas columnas DATA WAREHOUSE Orientada a conceptos Sumarizada Representa valores a un tiempo Usuarios a nivel gerencial Corre heursticamente Poco sensitivo al desempeo Accesa conjuntos de unidades a la vez Orientado a anlisis Estructura flexible Con mucha redundancia Modesta probabilidad de acceso Administrada por partes Informacin procesada ( informacin ) Actualizada en batch Pocas tablas con muchas columnas

Normalmente los sistemas operacionales de los cuales se extraen datos son muy diversos y cada uno de ellos aporta varios gigabytes, por lo que es normal que las bodegas de datos contengan del orden de 20, 50, 100, 200 o ms gigabytes, aunque es posible, y en algunos casos puede ser deseable, construir un DW tan pequeo como en 200 o 500 megabytes. Los DW surgen precisamente en respuesta a los problemas asociados a realizar anlisis de datos sobre Bases de Datos del tipo OLTP. La solucin propuestas por el DW es extraer los datos de una ( o ms ) bases operacionales y moverlos a una Base de Datos independiente y orientada a consultas. Los objetivos de los sistemas OLTP y DATA WAREHOSUE para toma de decisiones son muy diferentes: tratar de disear un DATA WAREHOUSE pensando en un sistema operacional es un fracaso. El xito en la implementacin de una arquitectura de DW en las empresas radica en parte en el xito del diseo de los sistemas operacionales, ya
U N I V E R S I D A D D E 54 A Q U I N O B O L I V I A

FACULTAD DE CIENCIAS Y TECNOLOGA

que estos son los proveedores de los datos y los que se deben de adaptar rpida y flexiblemente a los cambios del negocio. Se deben tener ideas muy claras de lo siguiente: Qu datos utilizar?, cmo se deben transformar?, cmo se deben transferir?, almacenar y organizar; y finalmente, cmo se deben acceder y analizar?. Actualmente es innegable que los sistemas de informacin OLTP, construidos utilizando manejadores de bases de datos relacionados son la norma. Es una tecnologa madura que provee las facilidades necesarias. Cuando los usuarios de negocios empujados por las necesidades del mercado iniciaron con sus demandas de informacin actualizada, de proyecciones en el tiempo, de anlisis comparativos entre regiones en diferentes perodos de tiempo, los desarrolladores utilizaban herramientas y manejadores de bases de datos que tenan el alcance.

3. Una mquina o dos? Es mucho ms habitual encontrar separado el DW del OLTP, debido a factores bien especficos y de considerable relevancia para su desempeo. Los argumentos que favorecen el tener mquinas separadas el OLTP y el DW son: El DW tiene una significante y altamente variable demanda de recursos, por lo tanto puede entorpecer considerablemente el desempeo de OLTP. Los sistemas en cuestin son configurados de manera muy diferente A veces, los datos del DW son integrados de mltiples sistemas OLTP remotos, y por lo tanto el DW puede verse como un conjunto de recursos centralizados. Es obvio entonces que estn fsicamente separados ambos sistemas.

La razn para tenerlos en las misma mquina est en el hecho de que al ser la estructura bsica del DW distinta a la del OLTP, el dato tiene que ser copiado y reestructurado por el DW. Para ahorrar envos de datos entre mquinas, es mejor realizar este proceso dentro de una sola. VII. CUANDO IMPLEMENTAR DATA WAREHOUSE

7.1. Quin necesita un Data Warehouse y porqu ? El DW implica el concepto de valor de la informacin. Datos sobre el negocio son tiles cuando el tiempo es un factor en contra. Las personas que toman las decisiones claves necesitan un acceso rpido a los datos actuales aportados por diferentes sistemas de produccin y bases de datos que operan tanto de forma interna como externa para tomar decisiones claves sobre la direccin y operaciones del negocio.
U N I V E R S I D A D D E 55 A Q U I N O B O L I V I A

FACULTAD DE CIENCIAS Y TECNOLOGA

Los usuarios de la informacin corporativa: Normalmente el usuario de la informacin provista por un DW es un trabajador especializado en una concreta lnea el negocio de un departamento. Este departamento normalmente trata con una gran cantidad de transacciones y clientes. Estas actividades se reflejan en la infraestructura como bases de datos que llegan a cientos de gigabytes y contina creciendo. La mayora de las aplicaciones de DW se utilizan para alimentar proyectos de marketing que se dirigen a los clientes potenciales ms adecuados con el menor costo de venta. Estos proyectos de crecimiento o supervivencia se llevan a cabo normalmente cuando: 1. 2. Los mercados son muy dinmicos y requieren una rpida respuesta ante el cambio en la demanda, regulaciones y costos. Hablamos de clientes que demandan ms productos individualizados o servicios, que requieren gradualmente ms conocimiento de: Quines son? Cmo compran? Qu piensan de mi compaa? 3. El liderazgo competitivo requiere mejoras aceleradas en desarrollo de productos, claro entendimiento de las necesidades de los clientes para un ajuste del producto ptimo y un aumento de la habilidad para articular diferencias competitivas en las necesidades de los clientes.

Pero... cules son las necesidades ms comunes de los clientes? Aumentar el acceso de datos Aumentar la productividad del usuario Soportar decisiones complejas Mantener los datos como un recurso del negocio Integrar informacin en la empresa Mejorar los servicios al consumidor Reducir tiempo de venta Reducir los costes operativos Reducir los costes de las ventas DATA WAREHOUSE.

7.2 Tipos de aplicaciones en las que utilizar las tcnicas disponibles sobre

7.2.1

DW y Sistemas de Marketing: La aplicacin de tecnologas de DW supone un nuevo enfoque en marketing, haciendo uso del marketing de base de datos. En efecto, un sistema de marketing Warehouse implica un marketing cientfico, analtico y experto, basado en el conocimiento exhaustivo de clientes, productos, canales y mercado.

Este conocimiento se deriva de la disposicin de toda la informacin necesaria, tanto interna como externa, en un entorno DW, persiguiendo con toda esta informacin, la optimizacin de las variables controladas del Marketing Mix y el soporte a la prediccin de las variables no controlables ( mediante tcnicas de Data Mining ) Basndose en el conocimiento exhaustivo de los clientes se consigue un tratamiento personalizado de los mismos tanto en el da a da ( atencin comercial ) como en acciones de promocin especfica.

U N

I V E R S I D A D

D E 56

Q U

I N O

O L

I V I A

FACULTAD DE CIENCIAS Y TECNOLOGA

Las reas en las que se puede aplicar las tecnologas de DW a marketing son, entre otras:

Investigacin comercial Segmentacin de mercados Identificacin de necesidades no cubiertas y generacin de nuevos productos, o modificacin de productos existentes Fijacin de precios y descuentos Definicin de la estrategia de canales de comercializacin y distribucin Definicin de la estrategia de promocin y atencin al cliente Relacin con el cliente Lanzamiento de nuevos productos Campaas de ventas cruzadas, vinculacin, fidelizacin, etc. Apoyo al canal de venta con informacin cualificada.

7.2.2.

DW y Anlisis de Riesgo Financiero: El DW aplicado al anlisis de riesgos financieros ofrece capacidades avanzadas de desarrollo de aplicaciones para dar soporte a las diversas actividades de gestin de riesgos. Es posible desarrollar cualquier herramienta utilizando las funciones que incorpora la plataforma, gracias a la potencialidad estadstica aplicada al riesgo de crdito. As se puede usar para llevar a cabo las siguientes funcionalidades:

Para la gestin de la posicin: determinacin de la posicin, clculo de sensibilidades, simulaciones, monitorizacin riesgos contra lmites, etc. Para la medicin de riesgos: simulacin de escenarios histricos, simulacin de Montecarlo, modelos de valoracin, anlisis de rentabilidad, establecimiento y seguimiento de lmites, etc.

U N

I V E R S I D A D

D E 57

Q U

I N O

O L

I V I A

FACULTAD DE CIENCIAS Y TECNOLOGA

El uso del DW ofrece una gran flexibilidad para creacin y modificacin de modelos propios de valoracin y medicin de riesgos, tanto motivados por cambios en la regulacin como en avances en la modelizacin de estos instrumentos financieros. Ello por cuanto se puede almacenar y poner a disposicin informacin histrica de mercado y el uso de tcnicas de Data Mining nos simplifica la implantacin de cualquier mtodo estadstico.

7 .2 .3 .

DW y Anlisis de Riesgo de Crdito : La informacin relativa a clientes y su entorno se ha convertido en fuente de prevencin de Riesgos de Crditos. En efecto, existe una tendencia general en todos los sectores a recoger, almacenar y analizar informacin crediticia como soporte a la toma de decisiones de anlisis de riesgo de crditos. DW: Otras reas de aplicacin : Otras reas de la empresa han aplicado las soluciones que proporciona la tecnologa Data Warehouse para mejorar gran parte de sus procesos actuales, entre ellos:

7.2.4.

Control de gestin: sistema de presupuestacin, anlisis de desviaciones, etc. Logstica: mejora de la relacin con los proveedores, racionalizacin de los procesos de control de inventarios, optimizacin de los niveles de produccin, previsin de la demanda en infraestructura. Recursos humanos: planificacin de incorporaciones, gestin de carreras profesionales, asignacin de recursos a proyectos alternativos, etc. 7 .2 .5 . Quines han aplicado Data Warehouse?:

Espaa es uno de los pases que ha implementado DATA WAREHOUSE, dando as como resultados casos de xito: como la empresa BANKINTER quienes aplicaron DW en el mercado alternativo financiero.

U N

I V E R S I D A D

D E 58

Q U

I N O

O L

I V I A

FACULTAD DE CIENCIAS Y TECNOLOGA

Otro caso de xito ha sido el implementado por UNION FENOSA, empresa dedicada al negocio de sistemas elctricos y no elctricos, cuyo negocio enfrenta un mercado muy competitivo. Tambin el METRO DE MADRID ha puesto en prctica el sistema DW obteniendo ptimos resultados en el transporte de viajeros. DW fue implementado con planes de expansin para ofrecer a sus usuarios un mayor servicio. ( VER ANEXO ). VIII. COSTOS DE UN DATA WAREHOUSE: a. b. a. Costos de Construccin Costos de Operacin

Costos de construccin: Los costos de construir un DW son similares para cualquier proyecto de tecnologa de informacin. Estos pueden ser clasificados en tres categoras: 1. RRHH: la gente necesita contar con un enfoque fuerte sobre el conocimiento del rea de la empresa y de los procesos empresariales. Adems es muy importante considerar las cualidades de la gente, ya que el desarrollo del DW requiere participacin de la gente de negocios como de los especialistas tecnolgicos ; estos dos grupos de gente deben trabajar juntos, compartiendo su conocimientos y destrezas en un espritu de equipo de trabajo, para enfrentar los desafos de desarrollo del DW. TIEMPO: se debe establecer el tiempo no tan solo para la construccin y entrega de resultados de DW, si no tambin para la planeacin del proyecto y la definicin de la arquitectura. La planeacin y la arquitectura establecen un marco de referencia y un conjunto de estndares que son bsicos para la eficacia de DW. TECNOLOGIA: muchas tecnologas nuevas son introducidas por el DW. El costo de esta nueva tecnologa puede ser tan slo la inversin inicial del proyecto.

2.

3.

b.

Costos de Operacin: Una vez que est construido y entregado un DW debe ser soportado para que tenga un valor empresarial, son estas actividades de soporte, las fuentes de continuos costos operacionales para un DW. Se pueden distinguir tres costos de operacin: 1. 2. EVOLUTIVOS: Ajustes continuos del DW a travs del tiempo, como cambios de expectativas y, productos del aprendizaje del RRHH del proyecto mediante su experiencia usando el DW. CRECIMIENTO: incrementos en el tiempo en volmenes de datos, del nmero de usuario del DW, lo cual con llevar a un incremento de los recursos necesarias como a la demanda de monitoreo, administracin y sintonizacin del DW(evitando as, un incremento en los tiempos de respuesta y de recuperacin de datos, principalmente). CAMBIOS: El DW requiere soportar cambios que ocurren tanto en el origen de los datos que ste usa, como en las necesidades de la informacin que ste soporta. Los dos primeros tipos de costo de operacin, son bsicos en la mantencin de cualquier sistema de informacin; sin embargo, se debe tener esencial cuidado en los costos ,de operacin por cambio, ya que ellos consideran el impacto producto de la relacin del OLTP y del Ambiente Empresarial, con el DW.

3.

CONCLUSIONES Da a da aparecen en el mercado nuevos productos de software de ayuda a la implementacin de cada una de las etapas que conforman la arquitectura DATA WAREHOUSE, la tecnologa de apoyo, adicional a que an no es madura, involucra tecnologas y conceptos nuevos y pretender ser experto de la noche a la maana, es difcil, por lo que tratar de implementar DW pensando que ha de resolver los problemas de informacin podra llegar a ser contraproducente. Una recomendacin para quienes decidan iniciar un modelo DW en sus empresas: deben apoyarse en consultores conocedores, serios y responsables que ayuden con bases slidas a construir y mantener cada una de las etapas del proyecto. DATA WAREHOUSE es una coleccin de datos relacionados al oficio o a la actividad profesional, integrada y relacionada a la fecha en que se produjeron para poder analizarlos peridicamente. El enfoque est en la disposicin eficiente de estos datos as como la ejecucin de evaluaciones y anlisis. DATA WAREHOUSE apoya a todos los ejecutivos que tienen que tomar decisiones con informaciones rpidas.
U N I V E R S I D A D D E 59 A Q U I N O B O L I V I A

FACULTAD DE CIENCIAS Y TECNOLOGA

Los logros son evidentes: MAYOR PRODUCTIVIDAD POR DECISIONES CORRECTAS EN UN TIEMPO MAS CORTO.

DATA WAREHOUSE te permite desarrollar aplicaciones creando un resumen de tu base de datos operativa con slo la informacin realmente importante, logrando obtener consultas ms eficientes y productivas.

U N

I V E R S I D A D

D E 60

Q U

I N O

O L

I V I A

FACULTAD DE CIENCIAS Y TECNOLOGA

DIF #2/ NUEVAS TECNOLOGIAS El Data Mining Algoritmos genticos: Tcnicas de optimizacin que usan procesos tales como combinacin gentica, mutacin y seleccin natural en un diseo basado en los conceptos de evolucin natural. Anlisis de series de tiempo (time-series): Anlisis de una secuencia de medidas hechas a intervalos especficos. El tiempo es usualmente la dimensin dominante de los datos. Anlisis prospectivo de datos: Anlisis de datos que predice futuras tendencias, comportamientos o eventos basado en datos histricos. Anlisis exploratorio de datos: Uso de tcnicas estadsticas tanto grficas como descriptivas para aprender acerca de la estructura de un conjunto de datos. Anlisis retrospectivo de datos: Anlisis de datos que provee una visin de las tendencias, comportamientos o eventos basado en datos histricos. rbol de decisin: Estructura en forma de rbol que representa un conjunto de decisiones. Estas decisiones generan reglas para la clasificacin de un conjunto de datos. Ver CART y CHAID. Base de datos multidimensional: Base de datos diseada para procesamiento analtico on-line (OLAP). Estructurada como un hipercubo con un eje por dimensin. CART rboles de clasificacin y regresin: Una tcnica de rbol de decisin usada para la clasificacin de un conjunto da datos. Provee un conjunto de reglas que se pueden aplicar a un nuevo (sin clasificar) conjunto de datos para predecir cules registros darn un cierto resultado. Segmenta un conjunto de datos creando 2 divisiones. Requiere menos preparacin de datos que CHAID . CHAID Deteccin de interaccin automtica de Chi cuadrado: Una tcnica de rbol de decisin usada para la clasificacin de un conjunto de datos. Provee un conjunto de reglas que se pueden aplicar a un nuevo (sin clasificar) conjunto de datos para predecir cules registros darn un cierto resultado. Segmenta un conjunto de datos utilizando tests de chi cuadrado para crear mltiples divisiones. Antecede, y requiere ms preparacin de datos, que CART. Clasificacin: Proceso de dividir un conjunto de datos en grupos mutuamente excluyentes de tal manera que cada miembro de un grupo est lo "ms cercano" posible a otro, y grupos diferentes estn lo "ms lejos" posible uno del otro, donde la distancia est medida con respecto a variable(s) especfica(s) las cuales se estn tratando de predecir. Por ejemplo, un problema tpico de clasificacin es el de dividir una base de datos de compaas en grupos que son lo ms homogneos posibles con respecto a variables como "posibilidades de crdito" con valores tales como "Bueno" y "Malo". Clustering (agrupamiento): Proceso de dividir un conjunto de datos en grupos mutuamente excluyentes de tal manera que cada miembro de un grupo est lo "ms cercano" posible a otro, y grupos diferentes estn lo "ms lejos" posible uno del otro, donde la distancia est medida con respecto a todas las variables disponibles. Computadoras con multiprocesadores: Una computadora que incluye mltiples procesadores conectados por una red. Ver procesamiento paralelo. Data cleansing: Proceso de asegurar que todos los valores en un conjunto de datos sean consistentes y correctamente registrados. Data Mining: La extraccin de informacin predecible escondida en grandes bases de datos.
U N I V E R S I D A D D E 61 A Q U I N O B O L I V I A

FACULTAD DE CIENCIAS Y TECNOLOGA

Data Warehouse: Sistema para el almacenamiento y distribucin de cantidades masivas de datos Datos anormales: Datos que resultan de errores (por ej.: errores en el tipeado durante la carga) o que representan eventos inusuales. Dimensin: En una base de datos relacional o plana, cada campo en un registro representa una dimensin. En una base de datos multidimensional, una dimensin es un conjunto de entidades similares; por ej.: una base de datos multidimensional de ventas podra incluir las dimensiones Producto, Tiempo y Ciudad. Modelo analtico: Una estructura y proceso para analizar un conjunto de datos. Por ejemplo, un rbol de decisin es un modelo para la clasificacin de un conjunto de datos Modelo lineal: Un modelo analtico que asume relaciones lineales entre una variable seleccionada (dependiente) y sus predictores (variables independientes). Modelo no lineal: Un modelo analtico que no asume una relacin lineal en los coeficientes de las variables que son estudiadas. Modelo predictivo: Estructura y proceso para predecir valores de variables especificadas en un conjunto de datos. Navegacin de datos: Proceso de visualizar diferentes dimensiones, "fetas" y niveles de una base de datos multidimensional. Ver OLAP. OLAP Procesamiento analtico on-line (On Line Analitic prossesing): Se refiere a aplicaciones de bases de datos orientadas a array que permite a los usuarios ver, navegar, manipular y analizar bases de datos multidimensionales. Outlier: Un item de datos cuyo valor cae fuera de los lmites que encierran a la mayora del resto de los valores correspondientes de la muestra. Puede indicar datos anormales. Deberan ser examinados detenidamente; pueden dar importante informacin. Procesamiento paralelo: Uso coordinado de mltiples procesadores para realizar tareas computacionales. El procesamiento paralelo puede ocurrir en una computadora con mltiples procesadores o en una red de estaciones de trabajo o PCs. RAID: Formacin redundante de discos baratos (Redundant Array of inexpensive disks). Tecnologa para el almacenamiento paralelo eficiente de datos en sistemas de computadoras de alto rendimiento. Regresin lineal: Tcnica estadstica utilizada para encontrar la mejor relacin lineal que encaja entre una variable seleccionada (dependiente) y sus predicados (variables independientes).

CONCLUSIONES

U N

I V E R S I D A D

D E 62

Q U

I N O

O L

I V I A

FACULTAD DE CIENCIAS Y TECNOLOGA

DIF #3 Desarrollo de aplicaciones con XML Existen cuatro tipos de aplicaciones que impulsarn el desarrollo del XML: Aplicaciones que exijan que el cliente Web medie entre dos o ms bases de datos. Se har posible la integracin de bases de datos distribuidas en los navegadores que admitan XML, pudindose modificar el contenido y la estructura de esta. Actualmente implantado en amplias redes nacionales, sin embargo, se limitan las posibilidades al establecerse una intranet/extranet y con amplias bases de datos que slo permiten la visualizacin de los datos en el navegador. XML establecer una arquitectura de 3 niveles (three-tier) que est representada de la siguiente manera:

Se ir pareciendo cada vez ms a una arquitectura cliente-servidor. Aplicaciones que intentan transferir una parte significativa de la carga del proceso del servidor al cliente Web. Funcionar con un subprograma Java que se insertar en el PC del cliente. Esta carga har que muchas de las funciones de modificacin puedan desarrollarse desde el mismo navegador Web del cliente. Por ejemplo, dentro de una intranet con una aplicacin de gestin bibliotecaria sobre los documentos disponibles en el centro bibliotecario. Se establecern categoras especficas como los datos de la ficha catalogrfica, fecha de prstamo, fecha de devolucin, nombre del usuario, nmero de registro, etc. Todos estos tems se pueden agrupar por categoras y estarn descritos externamente desde los "esquemas" (schemas) o los RDF del XML. Permite actualizarse en el acto y con la posibilidad interactiva por parte del usuario en el pedido, gestin y modificacin de documentos desde su lejano navegador. El lado ms negativo es que se necesitar mayor ancho de banda y mayor potencia del procesador del equipo para poder soportar esta arquitectura de tres-niveles. Aplicaciones que precisen que el cliente Web presente diferentes versiones de los mismos datos a diferentes usuarios. Se podra aplicar un manual de diferentes grados (iniciacin, intermedio y avanzado) con sus diferentes idiomas, etctera. Esto har que este manual se pueda personalizar por los usuarios y extraer la informacin requerida de un captulo determinado, con una ordenacin y formatos concretos. Aplicaciones en las que agentes Web inteligentes intentan adaptar la bsqueda de informacin a las necesidades de los usuarios individuales. Habr una interaccin entre la informacin requerida y las preferencias del usuario de la aplicacin. Con el XML vendr una segunda generacin de robots que permitir una mayor precisin de la bsqueda requerida. Actualmente podemos encontrar aplicaciones de medios de comunicacin como los peridicos personalizados. Por otro lado, el impulso de los motores de bsqueda con XML y la creacin de buscadores de lenguaje natural. Otras aplicaciones que se desarrollarn son las operaciones para comercio electrnico con la normativa EDI. Se puede hacer ya comparacin de precios entre los distintos tiendas virtuales.

Adems de esto es importante destacar que XML aporta mucha potencia y flexibilidad a las aplicaciones basadas en la Web, proporcionando numerosas ventajas a los programadores y usuarios, como lo son:

Bsquedas con ms significado: Los datos se pueden etiquetar de forma exclusiva con XML, lo que permite que un cliente especifique libros escritos por Winston Churchill, en lugar de sobre Winston Churchill. Las bsquedas que utilizan los mtodos actuales, por el contrario, probablemente mezclaran ambos tipos de libros. Sin XML, es necesario que la aplicacin de bsqueda comprenda el esquema de cada base de datos, en el que se describe cmo se ha generado. Esto es prcticamente imposible, pues cada base de datos describe sus datos de una forma distinta. Sin embargo, con XML los libros se pueden clasificar fcilmente en categoras estndar por autor, ttulo, ISBN u otros criterios. De esta forma, los agentes podran buscar libros sobre Winston Churchill en estos sitios de libreras de una forma coherente. Programacin de aplicaciones Web flexibles: Una vez encontrados los datos, el XML se puede distribuir a otras aplicaciones, objetos y servidores de nivel medio para continuar su procesamiento, o bien se puede entregar al escritorio para su visualizacin en un explorador. XML, junto con HTML para la presentacin, las secuencias de comandos para la lgica y un modelo de objeto comn para la interaccin con los datos y la presentacin, ofrece todas las tecnologas necesarias para el desarrollo de flexibles aplicaciones Web de tres niveles. Integracin de datos procedentes de fuentes dispares: La capacidad de buscar en varias bases de datos no compatibles entre s es, hoy en da, prcticamente imposible. XML permite combinar fcilmente los datos estructurados procedentes de fuentes distintas. Se pueden utilizar agentes de software para integrar los datos en un servidor de nivel medio desde bases de datos de fondo y otras aplicaciones. A continuacin, dichos datos se pueden entregar a clientes u otros servidores para su agregacin, procesamiento y distribucin. La capacidad de ampliacin y la flexibilidad de XML le permiten describir los datos contenidos
U N I V E R S I D A D D E 63 A Q U I N O B O L I V I A

FACULTAD DE CIENCIAS Y TECNOLOGA

en una gran variedad de aplicaciones muy diversas, desde las recopilaciones descriptivas de pginas Web hasta los registros de datos. Adems, dado que los datos basados en XML son autodescriptivos, se pueden intercambiar y procesar sin necesidad de una descripcin incorporada de los datos entrantes. Computacin y manipulacin locales: Despus de entregarlos al cliente, los datos en formato XML se pueden analizar, editar y manipular de forma local, siendo las aplicaciones clientes quienes realizan los clculos. Los usuarios pueden manipular los datos de diversas formas, y no limitarse a presentarlos. El Modelo de objeto de documento (DOM) de XML tambin permite manipular datos con secuencias de comandos u otros lenguajes de programacin. Los clculos relativos a los datos se pueden realizar sin volver al servidor. La separacin entre la interfaz de usuario que ve los datos y los propios datos permite crear, de forma natural, potentes aplicaciones para el Web que antes slo se encontraban en bases de datos avanzadas, todo con un formato simple, flexible y abierto. Varias vistas de los datos: Una vez entregados los datos al escritorio, se pueden ver de varias formas. Al describir los datos estructurados de una forma simple, abierta y extensible, XML sirve de complemento para el HTML, que se utiliza ampliamente para describir las interfaces de usuario. Una vez ms, mientras que el lenguaje HTML describe el aspecto de los datos, XML describe los propios datos. Dado que la presentacin est separada de los datos, la definicin de dichos datos en XML permite especificar varias vistas, lo que significa que los datos se pueden representar de la forma adecuada. Los datos locales se pueden presentar de una forma dinmica determinada por la configuracin del cliente, las preferencias del usuario u otros criterios. CSS y XSL proporcionan mecanismos declarativos para describir una vista de los datos en particular. Actualizaciones granulares: Los datos se pueden actualizar de forma granular con XML, por lo que no es necesario volver a enviar un conjunto completo de datos estructurados cada vez que cambia parte de dichos datos. Slo es preciso enviar el elemento modificado del servidor al cliente, y los datos modificados se pueden presentar sin necesidad de actualizar toda la interfaz de usuario. En la actualidad, aunque slo cambie un elemento de los datos, es preciso volver a construir toda la pgina, incluso si la vista permanece igual, lo que reduce drsticamente la escalabilidad del servidor.

Asimismo, XML permite agregar otros datos, como las temperaturas mximas y mnimas previstas, la pluviosidad prevista y su probabilidad (expresada en porcentaje). Esta informacin adicional se puede trasladar a la vista del usuario sin que el explorador tenga que enviar una vista nueva. Si se solicitan datos adicionales, como la presin atmosfrica, se pueden enviar sin volver a generar la vista. Utilidades Futuras: En su calidad de estndar del sector para expresar datos estructurados, XML ofrece muchas ventajas a las organizaciones, desarrolladores de software, sitios Web y usuarios finales. Las oportunidades aumentarn cuantos ms formatos de datos de mercado vertical se creen para mercados claves, como el mercado de bsqueda avanzada en bases de datos, banca en lnea, mdico, legal, comercio electrnico, etc. Cuando los sitios ofrezcan datos, en lugar de limitarse a las vistas de datos, las oportunidades sern extraordinarias. Hoy en da, los servicios de atencin al cliente estn migrando de centros de llamadas y sedes fsicas a sitios Web, por lo que se beneficiarn de la slida funcionalidad de XML. Dado que la mayora de estas aplicaciones empresariales implican la manipulacin o la transferencia de datos y registros de base de datos, como pedidos de compra, facturas, informacin del cliente, citas, mapas, etc., XML va a revolucionar las posibilidades de los usuarios finales en Internet, permitiendo la implementacin de un amplio abanico de aplicaciones empresariales. Adems, la informacin que ya est almacenada en sitios Web, tanto si est guardada en documentos como en bases de datos, puede marcarse con vocabularios basados en XML y orientados a intranets. Dichos vocabularios tambin ayudan a las pequeas y medianas empresas que necesiten intercambiar informacin entre clientes y proveedores. Un mercado vital y todava por descubrir es el de las herramientas de desarrollo que simplifican a los usuarios finales la creacin de sus propios sitios Web cooperativos, lo que incluye las herramientas para generar datos XML heredados de informacin de bases de datos e interfaces de usuario ya existentes. Adems, se pueden desarrollar esquemas estndar para describir portafolios u otros datos que podran utilizar, por ejemplo, el diseo, los grficos y otras funciones de Excel o de otras hojas de clculo existentes. Las herramientas declarativas y visuales para describir XML generadas a partir de bases de datos heredadas constituyen una oportunidad muy potente. Las herramientas personalizadas para ver datos XML se pueden escribir en el sistema de programacin de Visual Basic, en Java y en C++. XML va a necesitar herramientas nuevas y potentes para la presentacin de datos XML ricos y complejos dentro de un documento. Esto se consigue asignando una capa de presentacin fcil de usar por encima de un conjunto complejo de datos jerrquicos que pueden cambiar de forma dinmica. Entre los diseos que se podrn utilizar para
U N I V E R S I D A D D E 64 A Q U I N O B O L I V I A

FACULTAD DE CIENCIAS Y TECNOLOGA

los datos XML se incluyen los esquemas contrables, las vistas dinmicas de tablas dinmicas y una sencilla hoja para cada portafolio. Los sitios Web pueden ofrecer cotizaciones de bolsa, artculos de prensa o datos sobre el trfico en tiempo real, los cuales se pueden conseguir a travs de un filtro de difusiones del Web o mediante un sondeo inteligente de un rbol de servidores que repliquen dichos sitios. Con XML se puede evitar la sobrecarga de informacin con slo redactar normas personalizadas sobre el envejecimiento de la informacin, igual que en el correo electrnico. Las herramientas basadas en XML para que los usuarios creen dichas normas, as como el software de cliente y servidor para ejecutarlas, constituyen una gran oportunidad. Un modelo de objeto estndar no podra habilitar dichas funciones, normalmente escritas en secuencias de comandos, para filtrar los mensajes entrantes, examinar los mensajes almacenados, crear mensajes salientes, obtener acceso a bases de datos, etc. Dichos agentes se pueden redactar de forma que se ejecuten en cualquier lugar de forma automtica. 8. Instalacin (Requerimientos de Hardware y Software). Software: Para desarrollar aplicaciones basadas en XML es suficiente Con un editor de textos ASCII (el Bloc de notas, por ejemplo) y con un visualizador que incluya un parser adaptado a XML (Microsoft Internet Explorer 5, por ejemplo), se pueden crear y ver documentos XML. No obstante, existen muchas nuevas herramientas que facilitan un poco la labor del diseador, algunas de ellas gratuitas, como el "Microsoft XML Notepad", que aprovecha los motores internos del Explorer para trabajar. La versin 4.x del Netscape Navigator no soporta XML, y aunque se supone que la versin 5 s lo permitir, la poltica comercial actual de Netscape no permite asegurar cundo ni cmo ser. Existen otros varios visualizadores/navegadores que admiten XML, como Amaya, HotMetal o HyBrick, aunque casi cada da estn saliendo nuevos productos (analizadores, visualizadores, motores, editores, DTDs, etc.). Aunque la versin 1.0 de XML es ya definitiva, no pasa lo mismo con las dems normativas que le acompaan, que poco a poco van pasando del estado de "borrador de trabajo" al de "recomendacin" (http://www.w3c.org). Este es otro de los motivos por los que XML no termina de generalizarse, ya que las empresas se piensan mucho invertir en productos que no estn soportados por estndares definitivos. Hardware: Ya estn empezando a aparecer servidores de Internet especialmente diseados para satisfacer los requerimientos de XML. Entre sus funciones destacan el almacenamiento y manipulacin de datos XML, caractersticas mejoradas en la bsqueda de datos, integracin de fuentes diversas de informacin en bases de datos XML unificadas. Un ejemplo de este tipo de servidor ser el BizTalk Server de Microsoft, especialmente diseado para el comercio electrnico. Empresas como Bluestone Software (www.bluestone.com), Object Design Inc (www.objectdesign.com) , o webMethods (www.webmethods.com ), disponen ya de soluciones XML Server. Microsoft pretende establecer por medio de BizTalk un marco para el comercio electrnico de empresa a consumidor. El objetivo de BizTalk es el de desarrollar una red dentro de su portal Microsoft Network, que permita poner en contacto CONCLUSIONES ..

U N

I V E R S I D A D

D E 65

Q U

I N O

O L

I V I A

FACULTAD DE CIENCIAS Y TECNOLOGA

DIF #4 Desarrollo de Data Warehouse en diferentes empresas

Caso Monsanto

MONSANTO - Integrando con calidad

En 2001, Monsanto Argentina decidi incorporar una herramienta para Extraccin, Transformacin y Carga de datos, como instancia imprescindible para la integracin de un Data Warehouse con informacin de buena calidad. Hoy, Ascential DataStage es el corazn y el motor de la aplicacin de Business Intelligence de Monsanto, a travs del cual pasa hoy el 100% de los datos que ingresan a su Data Warehouse. Monsanto es una compaa mundial de provisin de insumos para el agro. Presente en Argentina desde 1956, tiene como lneas de negocio principales la produccin y distribucin de Agroqumicos y el desarrollo y produccin de Semillas y Tecnologa Agropecuaria. Dado el peso que tiene en la economa argentina la actividad agrcola, la filial argentina tiene una posicin muy destacada dentro de Monsanto. En 2001, Monsanto Argentina decidi desarrollar un data warehouse corporativo que le permitiera unificar la informacin de la empresa, como punto de partida para la implementacin de un nuevo sistema de Business Intelligence. El proceso se inici, con toda lgica, con la evaluacin y adquisicin de una herramienta de Extraccin, Transformacin y Carga de datos, una instancia obligada para poder alimentar el data warehouse con informacin de buena calidad. Con el objetivo de optimizar la relacin con sus clientes, los distribuidores de productos agroqumicos y semillas, Monsanto necesitaba organizar sus datos en un Data Warehouse integral, para luego poder explotarlos convenientemente mediante un software de Business Intelligence. Monsanto Argentina seleccion el ETL DataStage de Ascential, la nica oferta de proveedor nico para evaluacin, cleansing, consolidacin e integracin de datos, por entender que era la herramienta ms adecuada para ordenar, integrar y ofrecer un entorno de seguridad ptimo para su Data Warehouse. Una herramienta de Extraccin, Transformacin y Carga de datos es un marco necesario, un entorno que permite organizar y basar todo el trabajo posterior, comenta Lucas
U N I V E R S I D A D D E 66 A Q U I N O B O L I V I A

FACULTAD DE CIENCIAS Y TECNOLOGA

Martnez Daz, Gerente de Business Intelligence de Monsanto. Para proyectos integrales, complejos y de gran magnitud como el armado y mantenimiento de nuestro Data Warehouse es muy importante contar con DataStage. Es importante destacar que Monsanto alimenta su DataWarehouse con Ascential DataStage accediendo en forma practica, veloz y segura a todas las fuentes de datos que utilizan: Informacin de mercado, planillas Excel, Aplicaciones transaccionales como SAP R/3 sobre Oracle, Pivotal con Microsoft SQL , My Factory Pro y tambin acceden a las aplicaciones desarrolladas in-house que corren en Sybase. El objetivo final del proyecto se materializ con la explotacin de esos datos mediante herramientas de Business Intelligence, para lo cual Monsanto seleccion el software de MicroStrategy. Ascential DataStage es empleado por Monsanto para poblar y unificar con datos su DataWarehouse sobre el que desarrollan los distintos modelos analticos orientados a la toma de decisin en distintas reas. En el rea de Ventas y Marketing, estos modelos se utilizan para realizar anlisis de distribuidores y de atencin al cliente, lo cual les permite determinar cual es el valor de cada uno de ellos, qu tipo de productos venden ms y mejor, as como tambin logran conocer qu productos compran sus clientes, sean estos de la lnea de agroqumicos o de semillas. Tambin analizan informacin a partir de los modelos de Inventario y Cobranzas, los cuales son cargados con datos desde los diversos sistemas y fuentes de informacin, utilizando DataStage. Focus Business Solutions, empresa que desarrolla los negocios de Ascential Software en el sur de Latinoamrica, acompa a Monsanto Argentina en todo el proyecto. Focus estuvo a cargo de la implementacin de DataStage, y de los servicios que le permitieron a la empresa de insumos agropecuarios desarrollar y explotar su Data Warehouse de forma tal de tomar decisiones rpidas en un mercado con escenarios tan cambiantes, partiendo de informacin valiosa, que estaba oculta detrs de los datos. Caso TGS

TRANSPORTADORA GAS DEL SUR: Integrando los datos de diferentes sistemas para tomar mejores decisiones Transportadora de Gas del Sur S.A. (TGS) opera el sistema de gasoductos ms extenso de Latinoamrica. Transporta el 60% de gas consumido en Argentina y abastece en forma directa a distribuidoras, generadoras elctricas e industrias, a travs de un sistema de gasoductos de 7.419 Km de extensin. Dentro del proceso de optimizacin de la gestin de la empresa, en el ao 1999 se dise un tablero de comando para uso de la direccin. El objetivo de ese tablero era permitir a los niveles directivos de la empresa contar con la informacin adecuada para tomar
U N I V E R S I D A D D E 67 A Q U I N O B O L I V I A

FACULTAD DE CIENCIAS Y TECNOLOGA

decisiones mejor fundamentadas. Los datos necesarios para alimentar el tablero estaban en muchos casos disponibles, pero no era posible procesarlos y acceder a ellos en forma unificada. Se inici entonces la bsqueda de una herramienta que fuera confiable y manuable, que permitiera alimentar el tablero de comando desde los mltiples sistemas que se operaban en la empresa. Una solucin que le permitiera abstraerse de la tecnolgica subyacente y lograr una consolidacin de la informacin de manera tal que pudieran tomar decisiones basndose en informacin cierta, vlida y entregada a tiempo. TGS eligi como herramienta de extraccin, transformacin y carga de datos (ETL) a DataStage versin 3.2, que en aquel momento era provista por la empresa Ardent (derivada en lo que es hoy Ascential, luego de procesos de fusin y adquisicin). DataStage es un sistema muy slido, y muy amigable para administrar, seala Jorge Barallobre, Administrador de Sistemas de Transportadora de Gas del Sur. Como demostracin de ello est la primera migracin que hicimos del sistema, a la versin 4.0, que fue conducida y realizada integralmente por nosotros. Para integrar la informacin al tablero se tomaron todos los datos en crudo, es decir, tal como estaban y sin trabajo previo. Se procesaron en DataStage, donde se acomodaron y extrajeron y se hicieron los controles de validacin, para evitar inconsistencias. El tablero definido inicialmente, que es en buena parte el que se utiliza hoy en da, permiti la generacin de informes valiosos basados en datos slidos provenientes de distintas fuentes. La mayor parte de ellos vienen de sistemas de uso interno; el sistema corporativo de gestin de la empresa es SAP-, y tambin incorpora y procesa informacin financiera y econmica de Bloomberg, fundamental para combinar con los datos disponibles en la compaa para tomar decisiones. El tablero ha permitido tambin integrar informacin entre distintos sistemas y aplicaciones de la empresa. Por ejemplo, Ascential DataStage hace posible tomar datos desde tablas del sistema de Recursos Humanos, que est tercerizado, y alimentar otros sistemas de la empresa. Soporte a la migracin de la base de datos corporativa Con la crisis de 2001/2002 hubo una fuerte modificacin en los indicadores de negocio, que requiri de una replanificacin del tablero. Otras urgencias operativas y la indefinicin de los escenarios han ido postergando esa planificacin, pero no ha mermado el empleo del tablero existente. Ms all de esa actualizacin pendiente, otra necesidad paralela es la que ha motivado recientemente la migracin a la versin 7.5 de Ascential DataStage. TGS est migrando sus bases de datos a Oracle, y la nueva versin soporta esa funcionalidad. Confiamos en el aporte fundamental que nos dar DataStage en el proceso de migracin. Es una
U N I V E R S I D A D D E 68 A Q U I N O B O L I V I A

FACULTAD DE CIENCIAS Y TECNOLOGA

herramienta que nos ha dado siempre satisfacciones y jams un problema; comenta Barallobre. Si bien TGS contaba con el know-how suficiente para realizar migraciones de versiones de DataStage, en este caso por tratarse de una migracin de largo alcance; recordemos que TGS estaba en versin 4 e instalaron la 7.5, desde Focus recomendamos la asistencia de nuestros Especialistas de Producto, quienes ayudaron a TGS a llevar adelante la migracin, agrega Alejandro Stecconi, Gerente de Cuentas de FOCUS para TGS. DataStage 7.5 corre hoy en TGS en un servidor con un procesador Intel de 2.4 Mhz y 1 Gigabyte de memoria, bajo sistema operativo Windows 2000 Server Edition. Dentro del proceso de optimizacin de la gestin de la empresa, en el ao 1999 se dise un tablero de comando para uso de la direccin. El objetivo de ese tablero era permitir a los niveles directivos de la empresa contar con la informacin adecuada para tomar decisiones mejor fundamentadas. Los datos necesarios para alimentar el tablero estaban en muchos casos disponibles, pero no era posible procesarlos y acceder a ellos en forma unificada. Se inici entonces la bsqueda de una herramienta que fuera confiable y manuable, que permitiera alimentar el tablero de comando desde los mltiples sistemas que se operaban en la empresa. Una solucin que le permitiera abstraerse de la tecnolgica subyacente y lograr una consolidacin de la informacin de manera tal que pudieran tomar decisiones basndose en informacin cierta, vlida y entregada a tiempo. TGS eligi como herramienta de extraccin, transformacin y carga de datos (ETL) a DataStage versin 3.2, que en aquel momento era provista por la empresa Ardent (derivada en lo que es hoy Ascential, luego de procesos de fusin y adquisicin). DataStage es un sistema muy slido, y muy amigable para administrar, seala Jorge Barallobre, Administrador de Sistemas de Transportadora de Gas del Sur. Como demostracin de ello est la primera migracin que hicimos del sistema, a la versin 4.0, que fue conducida y realizada integralmente por nosotros. Para integrar la informacin al tablero se tomaron todos los datos en crudo, es decir, tal como estaban y sin trabajo previo. Se procesaron en DataStage, donde se acomodaron y extrajeron y se hicieron los controles de validacin, para evitar inconsistencias. El tablero definido inicialmente, que es en buena parte el que se utiliza hoy en da, permiti la generacin de informes valiosos basados en datos slidos provenientes de distintas fuentes. La mayor parte de ellos vienen de sistemas de uso interno; el sistema corporativo de gestin de la empresa es SAP-, y tambin incorpora y procesa informacin financiera y econmica de Bloomberg, fundamental para combinar con los datos disponibles en la compaa para tomar decisiones. El tablero ha permitido tambin integrar informacin entre distintos sistemas y aplicaciones de la empresa. Por ejemplo, Ascential DataStage hace posible tomar datos
U N I V E R S I D A D D E 69 A Q U I N O B O L I V I A

FACULTAD DE CIENCIAS Y TECNOLOGA

desde tablas del sistema de Recursos Humanos, que est tercerizado, y alimentar otros sistemas de la empresa. Soporte a la migracin de la base de datos corporativa Con la crisis de 2001/2002 hubo una fuerte modificacin en los indicadores de negocio, que requiri de una replanificacin del tablero. Otras urgencias operativas y la indefinicin de los escenarios han ido postergando esa planificacin, pero no ha mermado el empleo del tablero existente. Ms all de esa actualizacin pendiente, otra necesidad paralela es la que ha motivado recientemente la migracin a la versin 7.5 de Ascential DataStage. TGS est migrando sus bases de datos a Oracle, y la nueva versin soporta esa funcionalidad. Confiamos en el aporte fundamental que nos dar DataStage en el proceso de migracin. Es una herramienta que nos ha dado siempre satisfacciones y jams un problema; comenta Barallobre. Si bien TGS contaba con el know-how suficiente para realizar migraciones de versiones de DataStage, en este caso por tratarse de una migracin de largo alcance; recordemos que TGS estaba en versin 4 e instalaron la 7.5, desde Focus recomendamos la asistencia de nuestros Especialistas de Producto, quienes ayudaron a TGS a llevar adelante la migracin, agrega Alejandro Stecconi, Gerente de Cuentas de FOCUS para TGS. DataStage 7.5 corre hoy en TGS en un servidor con un procesador Intel de 2.4 Mhz y 1 Gigabyte de memoria, bajo sistema operativo Windows 2000 Server Edition.

Faladesa comenz a trabajar con AS Software en 1997 tras adquirir el software de gestin FAS-IV. Posteriormente migr a FAS-5 consiguiendo estupendas mejoras en todas las reas de la empresa (compras, ventas, contabilidad, etc.). Ahora, la posesin de una tienda ubicada en su propia fbrica de Barcelona ha llevado a la compaa a implantar la aplicacin para Terminal Punto de Venta de AS Software con el fin de gestionar la venta al pblico en mostrador e integrarla dentro de la gestin global de la empresa. Gracias a su implementacin ha conseguido un gran avance obteniendo informacin on line y en tiempo real para poder realizar consultas de stock desde la misma tienda, as como hacer traspasos y dems gestiones on-line con la central directamente.

Igualmente para facilitar la toma de decisiones empresariales Faladesa no ha dudado en implantar el Data Warehouse desarrollado por AS Software con escenarios predefinidos de ventas, compras, contabilidad, etc. Con ello, ha conseguido explotar al mximo la informacin y aportar un mayor nivel de anlisis a sus directivos a la hora de tomar decisiones basadas en simulaciones de escenarios, experiencias pasadas y proyecciones futuras. Dicha implantacin ha sido extremadamente rpida al integrarse con FAS-5.

Ahora con la integracin de las nuevas soluciones de TPV y Data Warehouse con el ERP, Faladesa ha obtenido un mayor flujo de informacin y datos entre los distintos usuarios agilizando el trabajo cotidiano, evitando las tareas repetitivas e incrementando la comunicacin entre los distintos rganos de la empresa. Adems la compaa disfruta ya de la versin 2.0 de FAS-5 que ofrece un diseo ms atractivo, alertas configurables y programables por el propio usuario y ayudas con animacin y voz incorporadas adems de mensajera y chat integrados. Asimismo la versin 2.0 integra un gran nmero de tareas automatizadas como la posibilidad de poder enviar e-mailings masivos a
U N I V E R S I D A D D E 70 A Q U I N O B O L I V I A

FACULTAD DE CIENCIAS Y TECNOLOGA

clientes, entre otras.

Acerca de FALADESA

El grupo Faladesa est formado por empresas con ms de 40 aos de experiencia en el desarrollo de productos de iluminacin decorativa. Actualmente, los catlogos de sus 3 marcas FALADESA, Luces 7D y Spots 7D estn compuestos por ms de 1500 artculos exclusivos entre lmparas, colgantes, plafones, apliques, pies de saln, sobremesas y focos que se incrementan ao tras ao. Su poltica de Calidad responde tambin a un reconocido compromiso del grupo con sus clientes y a un continuo espritu de superacin, que ha llevado a las empresas del grupo a crear una extensa red comercial, a estar presente en los ms prestigiosos certmenes feriales del sector y a vender una extensa gama de productos de iluminacin decorativa en establecimientos de 58 pases. www.faladesa.com

Informacin corporativa

AS SOFTWARE, fundada en 1985, es lder en el desarrollo de software de gestin empresarial y en la prestacin de servicios de Data Center. Ubicada en Madrid, Barcelona y Castelldefels (Barcelona) se ha posicionado como uno de los ms antiguos desarrolladores de ERPs de mbito nacional, habiendo informatizado multitud de empresas con cinco generaciones de su conocido ERP, FAS. Asimismo la compaa comercializa y desarrolla soluciones Business Intelligence, Portales Corporativos, Data Warehouse, informtica mvil, TPV, etc.

As Software es adems la nica empresa de capital espaol que siendo desarrolladora de software de gestin empresarial ofrece servicios de Data Center propio a sus clientes como hosting, housing, etc. www.assoftware.es

CONCLUSIONES ..

U N

I V E R S I D A D

D E 71

Q U

I N O

O L

I V I A

You might also like