You are on page 1of 23

INTRODUCCIN

ste trabajo tiene como propsito definir y explicar temas que hacen nfasis a las bases de datos; stos son: Disparadores que bsicamente es un bloque de cdigo almacenado en base de datos que se activa cuando se pulsa una determinada tecla u ocurre un determinado evento automticamente. El Procedimiento Almacenado es un programa dentro de la base de datos que ejecuta una accin o conjunto de acciones especficas. La Minera de datos es el conjunto de tcnicas y tecnologas que permiten explorar grandes bases de datos. El Data warehouse es una base de datos corporativa que se caracteriza por integrar y depurar informacin de una o ms fuentes distintas. Y el almacn de datos que es una gran coleccin de datos que recoge informacin de mltiples sistemas fuentes u operacionales dispersos, y cuya actividad se centra en la Toma de Decisiones, es decir, en el anlisis de la informacin en vez de en su captura.

Adems de las definiciones se encuentran ventajas, desventajas, ejemplos y una serie de informaciones certeras y claras de los temas.

OBJETIVO GENERAL Que los estudiantes puedan conocer, analizar y comprender los distintos temas que hacen nfasis a la base de datos, y que adems pongan en prctica la informacin dada.

OBJETIVOS ESPECFICOS Conocer las definiciones sobre disparadores, procedimiento almacenado, minera de datos, data warehouse y almacn de datos. Conocer la importancia que contiene cada tema. Poner en prctica los conocimientos adquiridos.

CONTENIDO
Disparadores.
Tambin conocidos como TRIGGERS , es un bloque de cdigo almacenado en base de datos que se activa cuando se pulsa una determinada tecla u ocurre un determinado evento automticamente, se puede decir que es una orden que el sistema ejecuta de manera automtica como efecto secundario de la modificacin de la base de datos. Un disparador est asociado a una tabla y se puede: Realizar una consulta. Validar un dato. Hacer una operacin DML (insertar, modificar, borrar). Eliminar Registros de una base de datos. Para disear un mecanismo disparador hay que cumplir dos requisitos: 1. Especificar las condiciones en las que se va a ejecutar el disparador. 2. Especificar las acciones que se van a realizar cuando se ejecute el disparador. Las Bases de Datos con un conjunto de disparadores asociados se denominan Bases de Datos Activas. La descripcin de cada disparador contiene tres partes: Evento: Una modificacin de la base de datos que permite disparar el cdigo a ejecutar. Condicin: Una consulta o prueba que se ejecuta cuando se activa el disparador. Accin: un proceso o secuencia de Instrucciones que se ejecutan cuando se activa el disparador y su condicin es verdadera, es decir una vez que se han cumplido las condiciones iniciales.

Son usados para mejorar la administracin de la Base de datos, sin necesidad de contar con que el usuario ejecute la sentencia de SQL. Adems, pueden generar valores de columnas, previene errores de datos, sincroniza tablas, modifica valores de una vista, etc. Se pueden considerar a los disparadores como demonios que controlan la base de datos y se ejecutan cuando se modifica la base de datos de modo que coincidan con la especificacin del evento.

Los disparadores pueden ser activos por instrucciones de insercin, eliminacin o actualizacin independientemente del usuario o de la aplicacin que invocara la instruccin que lo activo; puede que los usuarios ni siquiera sean conscientes de que se ha ejecutado un disparador como efecto secundario de su programa. La condicin del disparador puede ser una instruccin verdadero/falso o una consulta. La consulta se interpreta como verdadera si el conjunto de respuestas no est vaco y como falsa si no tiene ninguna respuesta. Un aspecto importante de los disparadores es el momento en que se ejecuta la accin en relacin con la instruccin que ha activado el disparador. Por ejemplo: una instruccin que inserte registros en la tabla Alumnos puede activar un disparador que se emplee para conservar estadsticas sobre el nmero de alumnos menores de 18 aos insertados de una vez por una instruccin de insercin tpica. En funcin de lo que se haga exactamente el disparador, puede que se desee que la accin se ejecute antes de que se apliquen las modificaciones a la tabla Alumnos o despus. Los disparadores que inicialicen una variable empleada para contar el nmero de inserciones que cumplen la condicin establecida deben ejecutarse antes, mientras que los disparadores que se ejecuten una vez por cada registro insertado que cumpla la condicin establecida e incrementen la variable deben ejecutarse despus de la insercin de cada registro (ya que puede que deseemos examinar los valores del nuevo registro para determinar la accin correspondiente). Diseo de Bases de Datos Activas Los disparadores ofrecen un potente mecanismo para tratar las modificaciones de la base de datos, pero se deben emplear con precaucin. El efecto de un conjunto de disparadores puede ser muy complejo, y el mantenimiento de una base de datos activa puede volverse muy difcil. A menudo, el empleo juicioso de las restricciones de integridad puede sustituir el de los disparadores. En los sistemas de bases de datos activas, cuando el SGBD va a ejecutar alguna instruccin que modifique la base de datos, comprueba si esa instruccin activa algn disparador. En caso positivo, el SGBD procesa el disparador mediante la evaluacin de su condicin y, luego, (si la condicin toma el valor verdadero) la ejecucin su accin. Es importante recordar que la ejecucin de la accin de un disparador puede, a su vez, activar otro disparador. En especial, la ejecucin de la accin de un disparador puede activar nuevamente ese mismo disparador; estos disparadores se denominan disparadores recursivos.

Muchos posibles usos de los disparadores van ms all del mantenimiento de la integridad. Los disparadores pueden alertar a los usuarios de eventos infrecuentes (como se refleja en las actualizaciones de la base de datos). Por ejemplo, puede que se desee comprobar si el cliente que formula un pedido ha realizado suficientes adquisiciones el mes anterior como para tener derecho a un descuento adicional; en caso positivo, se debe informar al comercial de que puede indicrselo al cliente y, posiblemente, generar ventas adicionales. Esta informacin se puede transmitir en un disparador que compruebe las adquisiciones recientes e imprima un mensaje si el cliente tiene derecho a ese descuento. Los disparadores pueden generar un registro de los eventos para apoyar las auditorias y los controles de seguridad. Por ejemplo, cada vez que un cliente formula un pedido, se puede crear un registro con el identificador del cliente y su lmite de crdito actual e insertarlo en una tabla con el historial de los clientes. El anlisis posterior de esta tabla pudiera sugerir candidatos para un lmite de crdito ampliado. Algunos sistemas de bases de datos incluso emplean internamente los disparadores como base de la gestin de rplicas de las relaciones. Esta lista de usos posibles de los disparadores no es exhaustiva; por ejemplo, tambin se ha considerado el empleo de disparadores para la gestin de flujos de trabajo y para hacer que se cumplan las reglas de negocio. Los triggers se emplean en general para:

Generar automticamente columnas derivadas. Prevenir transacciones invlidas. Forzar autorizaciones de seguridad complejas. Forzar relaciones de integridad referencial a lo largo de los nodos de una base de datos distribuida. Forzar reglas de negocios complejas. Proveer eventos de login transparentes. Mantener el sincronismo sobre tablas replicadas. Proveer auditoras sofisticadas. Hacer estadsticas sobre el acceso de los datos.

Ventajas de los Disparadores o TRIGGER

Seguridad de los datos mejorada.

Ofrecen chequeos de seguridad basada en valores, Integridad de los datos mejorada. Fuerzan restricciones dinmicas de integridad de datos y de integridad referencial. Aseguran que las operaciones relacionadas se realizan juntas de forma implcita. Respuesta instantnea ante un evento auditado. Ofrece un mayor control sobre la B.D.

Desventajas

Hay que definir con anticipacin la tarea que realizara el trigger. Peligro de prdida en Reorganizaciones. Hay que programarlos para cada DBMS. Un Trigger nunca se llama directamente. Los triggers no se desarrollan pensando en un solo registro, los mismos deben funcionar en conjunto con los datos ya que se disparan por operacin y no por registro. Por funcionalidad, no hay que poner en uno solo las funciones de INSERT, UPDATE y DELETE. Utilizar moderadamente los triggers. No se pueden utilizar en tablas temporales. Solo se pueden aplicar a una tabla especfica, es decir, un trigger no sirve para dos o ms tablas. El trigger se crea en la base de datos que de trabajo pero desde un trigger puedes hacer referencia a otras bases de datos.

En definitiva los DISPARADORES (TIGGERS) son eventos a nivel de tabla que se ejecutan automticamente cuando se realizan ciertas operaciones sobre la tabla. SQL proporciona los siguientes tipos de Disparadores (Trigger): Trigger DML, se ejecutan cuando un usuario intenta modificar datos mediante un evento de lenguaje de manipulacin de datos (DML). Los eventos DML son instrucciones INSERT, UPDATE o DELETE de una tabla o vista. Trigger DDL, se ejecutan en respuesta a una variedad de eventos de lenguaje de definicin de datos (DDL). Estos eventos corresponden principalmente a instrucciones CREATE, ALTER y DROP de Transact-SQL,

y a determinados procedimientos almacenados del sistema que ejecutan operaciones de tipo DDL.

Existen varios tipos de disparadores, dependiendo del tipo de transaccin de disparo y el nivel en el que se ejecuta el disparador (trigger): 1.- Disparadores de nivel de fila: se ejecutan una vez para cada fila afectada por una instruccin DML. Los disparadores de nivel de fila se crean utilizando la clusula for each row en el comando create trigger. 2.- Disparadores de nivel de instruccin: se ejecutan una vez para cada instruccin DML. Los disparadores de nivel de instruccin son el tipo predeterminado que se crea con el comando create trigger. 3.- Disparadores Before y After: puesto que los disparadores son ejecutados por sucesos, puede establecerse que se produzcan inmediatamente antes (before) o despus (after) de dichos sucesos. 4.- Disparadores Instead Of: puede utilizar INSTEAD OF para indicar a Oracle lo que tiene que hacer en lugar de realizar las acciones que invoca el disparador. 5.- Disparadores de esquema: puede crear disparadores sobre operaciones en el nivel de esquema tales como create table, alter table, drop table, audit, rename, truncate y revoke. Puede incluso crear disparadores para impedir que los usuarios eliminen sus propias tablas 6.- Disparadores en nivel de base de datos: puede crear disparadores que se activen al producirse sucesos de la base de datos, incluyendo errores, inicios de sesin, conexiones y desconexiones. Puede utilizar este tipo de disparador para automatizar el mantenimiento de la base de datos o las acciones de auditora. Estructura de Disparadores Una definicin del disparador consiste en los siguientes componentes: 1.- Nombre del trigger. (create [or replace] trigger <nombre del trigger>) 2.- Punto de tiempo del trigger (before | after)

3.- Disparando eventos (insert or update [of <columnas>] or delete <tabla>) 4.- Tipo de disparador (opcional) (for each row) 5.- Restriccin del disparador (Solo para for each row disparador) (when <Condicin>) 6.- Cuerpo del disparador.

Procedimientos Almacenados
Un procedimiento Almacenado es un programa dentro de la base de datos que ejecuta una accin o conjunto de acciones especficas. Cuando se ejecuta un procedimiento, se prepara un plan de ejecucin para que la subsiguiente ejecucin sea muy rpida. Los procedimientos almacenados pueden: Incluir parmetros. Llamar a otros procedimientos. Devolver un valor de estado a un procedimiento de llamada o lote para indicar el xito o el fracaso del mismo y la razn de dicho fallo. Devolver valores de parmetros a un procedimiento de llamada o lote. Ejecutarse en SQL Server remotos.

Su implementacin vara de un gestor de bases de datos a otro. La ventaja de un procedimiento almacenado es que al ser ejecutado, en respuesta a una peticin de usuario, es ejecutado directamente en el motor de bases de datos, el cual usualmente corre en un servidor separado. Como tal, posee acceso directo a los datos que necesita manipular y slo necesita enviar sus resultados de regreso al

usuario, deshacindose de la sobrecarga resultante de comunicar grandes cantidades de datos salientes y entrantes.

Un procedimiento almacenado de SQL Server es un grupo de una o varias instrucciones Transact-SQL o una referencia a un mtodo de Common Runtime Language (CLR) de Microsoft .NET Framework. Los procedimientos se asemejan a las construcciones de otros lenguajes de programacin, porque pueden:

Aceptar parmetros de entrada y devolver varios valores en forma de parmetros de salida al programa que realiza la llamada. Contener instrucciones de programacin que realicen operaciones en la base de datos. Entre otras, pueden contener llamadas a otros procedimientos. Devolver un valor de estado a un programa que realiza una llamada para indicar si la operacin se ha realizado correctamente o se han producido errores, y el motivo de estos.

Los procedimientos de almacenados estn compuestos por algunos de estos elementos: Parmetros de entrada Parmetros de salida Declaracin de variables Cuerpo del procedimiento

Ventajas de Utilizar Procedimientos Almacenados: En la siguiente lista se describen algunas de las ventajas que brinda el uso de procedimientos. Trfico de red Los comandos de un procedimiento se ejecutan en un nico lote de cdigo. Esto puede reducir significativamente el trfico de red entre el servidor y el cliente porque nicamente se enva a travs de la red la llamada que va a ejecutar el procedimiento. Sin la encapsulacin de cdigo que proporciona un procedimiento, cada una de las lneas de cdigo tendra que enviarse a travs de la red. seguridad

Varios usuarios y programas cliente pueden realizar operaciones en los objetos de base de datos subyacentes a travs de un procedimiento, aunque los usuarios y los programas no tengan permisos directos sobre esos objetos subyacentes. El procedimiento controla qu procesos y actividades se llevan a cabo y protege los objetos de base de datos subyacentes. Esto elimina la necesidad de conceder permisos en cada nivel de objetos y simplifica los niveles de seguridad.

Compilacin La primera vez que se invoca un SP(stored Procedures, Procedimientos Almacenado), el motor lo compila y a partir de ah, se sigue usando la versin compilada del mismo, hasta que se modifique o se reinicie el servicio de SQL. Esto siginifica que se tendr un mejor rendimiento que las consultas directas que usan cadenas con las instrucciones T-SQL, que se compilan cada vez que se invocan.

Automatizacin Si tenemos un conjunto de instrucciones T-SQL, las cuales queremos ejecutar de manera ordenada, un SP es la mejor manera de hacerlo.

Administracin Cuando realizamos aplicaciones con un gran nmero de lneas de cdigo, y queremos hacer cambios, solo implica modificar un SP y no toda la aplicacin, lo que significa solo cambiamos los SP en el servidor y no tenemos que actualizar la aplicacin en todos los equipos cliente, es decir el nivel de aplicacin permanece independiente y no tiene que tener conocimiento sobre los cambios realizados en los diseos, las relaciones o los procesos de la base de datos.

Programabilidad Los Pocedimientos Almacenado admiten el uso de variables y estructuras de control como IF, Bucles, Case, etc. adems del manejo de transaccin y permite controlar excepciones.

Otras Ventajas:

El servidor de la base de datos tiene acceso directo a los datos necesarios para manipular y solo necesita enviar el resultado final al usuario. Los procedimientos almacenados pueden permitir que la lgica del negocio se encuentre como un API en la base de datos, que pueden simplificar la gestin de datos y reducir la necesidad de codificar la lgica en el resto de los programas cliente. Esto puede reducir la necesidad la probabilidad de que los datos sean corrompidos por el uso de los programas clientes defectuosos o errneos. De este modo, el motor de base de datos puede asegurar la integridad de los datos y la consistencia, con la ayuda de procedimientos almacenados.

Aumenta el rendimiento, una vez creados son compilados y almacenados en el catlogo de la base de datos. Corren ms rpido que comandos SQL enviados desde aplicaciones externas, ya que estos estn compilados.

Desventajas de Utilizar Procedimientos Almacenados: Los Procedimientos almacenado son definidos una ve, usados muchas veces. Si se necesita modificarlo, su definicin tiene que ser reemplazada totalmente.

Cualquier cambio instantneamente afecta todas las otras piezas de software, reportes, etc. (dentro o fuera del DBMS) que directa o indirectamente se refieran a este. No es siempre posible determinar con exactitud que magnitud tendr este cambio, ni que cambios pueden hacerse para corregirlo lo antes mencionado sin afectar otra cosa. Por varias razones, muchas organizaciones limitan estrictamente quienes pueden hacer consultas a la base de datos. Los programadores y otros usuarios no tienen ms opcin que implementar soluciones ineficientes a sus problemas usando los Procedimientos Almacenado que estn disponibles. Hacen que la base de datos sea mas pesada tanto para la memoria como para el procesador. En vez de estar concentrado en almacenar y devolver datos, uno puede estarle pidiendo al SGBD que realice varias operaciones lgicas, la cual no es su funcin.

Tipos de procedimientos almacenados: Procedimientos Almacenados del Sistema Los procedimientos almacenados del sistema son guardados en la base de datos Master y son tpicamente identificados por el prefijo sp_ . Ellos realizan una amplia variedad de tareas para soportar las funciones del SQL Server soportando: llamadas de aplicaciones externas para datos de las tablas del sistema, procedimientos generales para administracin de las bases de datos, y funciones de administracin de seguridad. Procedimientos Almacenados Locales Los procedimientos almacenados locales son usualmente almacenados en una base de datos y estn tpicamente diseados para completar tareas en la base de datos donde residen. Un procedimiento almacenado local se podra crear tambin para personalizar cdigo de los procedimientos almacenados del sistema. Para crear una tarea personalizada basada sobre un procedimiento almacenado del sistema, primero copie el contenido del procedimiento almacenado del sistema y guarde el nuevo procedimiento almacenado y guarde el nuevo procedimiento almacenado como un procedimiento almacenado local.

Procedimientos Almacenados Temporarios Un procedimiento almacenado temporario es similar a un procedimiento almacenado local, pero existe slo hasta que se cierre la conexin que lo cre o se d de baja el SQL Server, dependiendo del tipo de procedimiento almacenado. Estos procedimientos tienen una existencia voltil debido a que son creados y almacenados en la base de datos TempDB. TempDB se recrea cuando se reinicia el servidor; por lo tanto, todos los objetos dentro de la base de datos desaparecen despus que se cierra conexin con la base de datos. Procedimientos Almacenados Extendidos Los procedimientos almacenados extendidos permiten crear rutinas externas propias en un lenguaje de programacin como C. Estos procedimientos se

muestran ante los usuarios como procedimientos almacenados normales y se ejecutan del mismo modo. Es posible pasar parmetros a procedimientos almacenados extendidos y stos pueden devolver resultados y estados.

Procedimientos Almacenados Remotos Son los procedimientos que se ejecutan en algn servidor que se encuentre vinculado a algn cliente. SQL Server admite los procedimientos del sistema que proporcionan una interfaz de SQL Server a los programas externos para varias actividades de mantenimiento. Estos procedimientos extendidos usan el prefijo xp_. Un procedimiento almacenado (store procedure) no es ms que una secuencia ordenada de instrucciones T-SQL, que pueden recibir y proporcionar parmetros provistos por el usuario y se pueden guardar en el servidor con un nombre, para posteriormente se invocados y ejecutados, por lo regular desde una aplicacin (Escritorio o Web). Desde la versin 2005, se incorpora la posibilidad de utilizar procedimientos almacenados usando el CLR de .NET. Es decir tenemos dos tipos de procedimientos almacenados. Usos de los Procedimientos de Almacenado: En algunos sistemas se usan para controlar el manejo de transacciones. Los Procedimientos Almacenado pueden ser invocados por un trigger. Pueden ser usados para el control de gestin de operaciones, y ejecutarse dentro de una transaccin de tal manera que las transacciones sean efectivamente transparentes para ellos.

Dataware House
Un Datawarehouse es una base de datos corporativa que se caracteriza por integrar y depurar informacin de una o ms fuentes distintas, para luego procesarla permitiendo su anlisis desde infinidad de pespectivas y con grandes velocidades de respuesta. La creacin de un datawarehouse representa en la

mayora de las ocasiones el primer paso, desde el punto de vista tcnico, para implantar una solucin completa y fiable de Business Intelligence. La ventaja principal de este tipo de bases de datos radica en las estructuras en las que se almacena la informacin (modelos de tablas en estrella, en copo de nieve, cubos relacionales... etc). Este tipo de persistencia de la informacin es homognea y fiable, y permite la consulta y el tratamiento jerarquizado de la misma (siempre en un entorno diferente a los sistemas operacionales). El trmino Data warehouse fue acuado por primera vez por Bill Inmon, y se traduce literalmente como almacn de datos. No obstante, y como cabe suponer, es mucho ms que eso. Segn defini el propio Bill Inmon, un datawarehouse se caracteriza por ser: Integrado: los datos almacenados en el datawarehouse deben integrarse en una estructura consistente, por lo que las inconsistencias existentes entre los diversos sistemas operacionales deben ser eliminadas. La informacin suele estructurarse tambin en distintos niveles de detalle para adecuarse a las distintas necesidades de los usuarios. Temtico: slo los datos necesarios para el proceso de generacin del conocimiento del negocio se integran desde el entorno operacional. Los datos se organizan por temas para facilitar su acceso y entendimiento por parte de los usuarios finales. Por ejemplo, todos los datos sobre clientes pueden ser consolidados en una nica tabla del datawarehouse. De esta forma, las peticiones de informacin sobre clientes sern ms fciles de responder dado que toda la informacin reside en el mismo lugar. Histrico: el tiempo es parte implcita de la informacin contenida en un datawarehouse. En los sistemas operacionales, los datos siempre reflejan el estado de la actividad del negocio en el momento presente. Por el contrario, la informacin almacenada en el datawarehouse sirve, entre otras cosas, para realizar anlisis de tendencias. Por lo tanto, el datawarehouse se carga con los distintos valores que toma una variable en el tiempo para permitir comparaciones. No voltil: el almacn de informacin de un datawarehouse existe para ser ledo, pero no modificado. La informacin es por tanto permanente, significando la actualizacin del datawarehouse la incorporacin de los ltimos valores que tomaron las distintas variables contenidas en l sin ningn tipo de accin sobre lo que ya exista.

Otra caracterstica del datawarehouse es que contiene metadatos, es decir, datos sobre los datos. Los metadatos permiten saber la procedencia de la informacin, su periodicidad de refresco, su fiabilidad, forma de clculo... etc. Los metadatos sern los que permiten simplificar y automatizar la obtencin de la informacin desde los sistemas operacionales a los sistemas informacionales.

Los objetivos que deben cumplir los metadatos, segn el colectivo al que va dirigido, son: Dar soporte al usuario final, ayudndole a acceder al datawarehouse con su propio lenguaje de negocio, indicando qu informacin hay y qu significado tiene. Ayudar a construir consultas, informes y anlisis, mediante herramientas de Business Intelligence como DSS, EIS o CMI. Dar soporte a los responsables tcnicos del datawarehouse en aspectos de auditora, gestin de la informacin histrica, administracin del datawarehouse, elaboracin de programas de extraccin de la informacin, especificacin de las interfaces para la realimentacin a los sistemas operacionales de los resultados obtenidos... etc.

Por ltimo, destacar que para comprender ntegramente el concepto de datawarehouse, es importante entender cual es el proceso de construccin del mismo, denominado ETL (Extraccin, Transformacin y Carga), a partir de los sistemas operaciones de una compaa: Extraccin: obtencin de informacin de las distintas fuentes tanto internas como externas. Transformacin: filtrado, limpieza, depuracin, homogeneizacin y agrupacin de la informacin. Carga: organizacin y actualizacin de los datos y los metadatos en la base de datos.

Una de las claves del xito en la construccin de un datawarehouse es el desarrollo de forma gradual, seleccionando a un departamento usuario como piloto y expandiendo progresivamente el almacn de datos a los dems usuarios. Por ello es importante elegir este usuario inicial o piloto, siendo importante que sea un departamento con pocos usuarios, en el que la necesidad de este tipo de sistemas es muy alta y se puedan obtener y medir resultados a corto plazo.

Principales aportaciones de un datawarehouse Proporciona una herramienta para la toma de decisiones en cualquier rea funcional, basndose en informacin integrada y global del negocio. Facilita la aplicacin de tcnicas estadsticas de anlisis y modelizacin para encontrar relaciones ocultas entre los datos del almacn; obteniendo un valor aadido para el negocio de dicha informacin. Proporciona la capacidad de aprender de los datos del pasado y de predecir situaciones futuras en diversos escenarios. Simplifica dentro de la empresa la implantacin de sistemas de gestin integral de la relacin con el cliente. Supone una optimizacin tecnolgica y econmica en entornos de Centro de Informacin, estadstica o de generacin de informes con retornos de la inversin espectaculares.

Minera de Datos
El datamining (minera de datos), es el conjunto de tcnicas y tecnologas que permiten explorar grandes bases de datos, de manera automtica o semiautomtica, con el objetivo de encontrar patrones repetitivos, tendencias o reglas que expliquen el comportamiento de los datos en un determinado contexto. Bsicamente, el datamining surge para intentar ayudar a comprender el contenido de un repositorio de datos. La minera de datos est relacionada con la subarea de la estadstica denominada anlisis explorador de datos, que tiene objetivos parecidos y se basa en las medidas estadsticas. La minera de datos es un proceso destinado a un mejor conocimiento de la informacin disponible, a aumentar beneficios o ventas, a disminuir perdidas, es decir con un objetivo distinto al que ha motivado la recogida y almacenamiento de informacin. El trmino es una palabra de moda, y es frecuentemente mal utilizado para referirse a cualquier forma de datos a gran escala o procesamiento de la informacin (recoleccin, extraccin, almacenamiento, anlisis y estadsticas), pero tambin se ha generalizado a cualquier tipo de sistema de apoyo informtico decisin, incluyendo la inteligencia artificial, aprendizaje automtico y la inteligencia empresarial.

La tarea de minera de datos real es el anlisis automtico o semi-automtico de grandes cantidades de datos para extraer patrones interesantes hasta ahora desconocidos, como los grupos de registros de datos (anlisis cluster), registros poco usuales (la deteccin de anomalas) y dependencias (minera por reglas de asociacin). Esto generalmente implica el uso de tcnicas de bases de datos como los ndices espaciales. Estos patrones pueden entonces ser visto como una especie de resumen de los datos de entrada, y puede ser utilizado en el anlisis adicional o, por ejemplo, en la mquina de aprendizaje y anlisis predictivo. Por ejemplo, el paso de minera de datos podran identificar varios grupos en los datos, que luego pueden ser utilizados para obtener resultados ms precisos de prediccin por un sistema de soporte de decisiones. Ni la recoleccin de datos, preparacin de datos, ni la interpretacin de los resultados y la informacin son parte de la etapa de minera de datos, pero que pertenecen a todo el proceso KDD como pasos adicionales. El xito en la aplicacin de la minera de datos depende de dos factores: el planteamiento claro del problema y de los objetivos, y la disponibilidad de datos adecuados. La calidad y fiabilidad de la informacin es importante, pues numerosas tcnicas estadsticas son muy sensibles a la presencia de datos anormales o representativos.

Un proceso tpico de minera de datos consta de los siguientes pasos generales: 1. Seleccin del conjunto de datos, tanto en lo que se refiere a las variables objetivo (aquellas que se quiere predecir, calcular o inferir), como a las variables independientes (las que sirven para hacer el clculo o proceso), como posiblemente al muestreo de los registros disponibles. 2. Anlisis de las propiedades de los datos, en especial los histogramas, diagramas de dispersin, presencia de valores atpicos y ausencia de datos (valores nulos). 3. Transformacin del conjunto de datos de entrada, se realizar de diversas formas en funcin del anlisis previo, con el objetivo de prepararlo para aplicar la tcnica de minera de datos que mejor se adapte a los datos y al problema, a este paso tambin se le conoce como preprocesamiento de los datos. 4. Seleccionar y aplicar la tcnica de minera de datos, se construye el modelo predictivo, de clasificacin o segmentacin. 5. Extraccin de conocimiento, mediante una tcnica de minera de datos, se obtiene un modelo de conocimiento, que representa patrones de comportamiento observados en los valores de las variables del problema o

relaciones de asociacin entre dichas variables. Tambin pueden usarse varias tcnicas a la vez para generar distintos modelos, aunque generalmente cada tcnica obliga a un preprocesado diferente de los datos.

6. Interpretacin y evaluacin de datos, una vez obtenido el modelo, se debe proceder a su validacin comprobando que las conclusiones que arroja son vlidas y suficientemente satisfactorias. En el caso de haber obtenido varios modelos mediante el uso de distintas tcnicas, se deben comparar los modelos en busca de aquel que se ajuste mejor al problema. Si ninguno de los modelos alcanza los resultados esperados, debe alterarse alguno de los pasos anteriores para generar nuevos modelos. Un proyecto de minera de datos tiene varias fases necesarias que son, esencialmente:

Comprensin: del negocio y del problema que se quiere resolver. Determinacin, obtencin y limpieza: de los datos necesarios. Creacin de modelos matemticos. Validacin, comunicacin: de los resultados obtenidos. Integracin: si procede, de los resultados en un sistema transaccional o similar.

La relacin entre todas estas fases slo es lineal sobre el papel. En realidad, es mucho ms compleja y esconde toda una jerarqua de subfases. A travs de la experiencia acumulada en proyectos de minera de datos se han ido desarrollando metodologas que permiten gestionar esta complejidad de una manera ms o menos uniforme. Los modelos de minera de datos se pueden aplicar en escenarios como los siguientes: Pronstico: clculo de las ventas y prediccin de las cargas del servidor o del tiempo de inactividad del servidor. Riesgo y probabilidad: eleccin de los mejores clientes para la distribucin de correo directo, determinacin del punto de equilibrio probable para los escenarios de riesgo, y asignacin de probabilidades a diagnsticos y otros resultados. Recomendaciones: determinacin de los productos que se pueden vender juntos y generacin de recomendaciones.

Bsqueda de secuencias: anlisis de los artculos que los clientes han introducido en el carrito de la compra y prediccin de posibles eventos. Agrupacin: distribucin de clientes o eventos en grupos de elementos relacionados, y anlisis y prediccin de afinidades.

Los objetivos de la Minera de datos son diversos: el descubrir pautas de comportamiento o interrelaciones sistemticas entre variables, generalmente de base de datos empresariales, construir modelos predictivos, y en general extraer informacin no evidente utilizando mtodos computaciones intensivos.

Almacenes de Datos

Un Almacn de Datos es una gran coleccin de datos que recoge informacin de mltiples sistemas fuentes u operacionales dispersos, y cuya actividad se centra en la Toma de Decisiones -es decir, en el anlisis de la informacin- en vez de en su captura. Una vez reunidos los datos de los sistemas fuentes se guardan durante mucho tiempo, lo que permite el acceso a datos histricos; as los almacenes de datos proporcionan al usuario una interfaz consolidada nica para los datos, lo que hace ms fcil escribir las consultas para la toma de decisiones.

Data Warehousing es el proceso que facilita la creacin y explotacin de un Almacn de Datos. Los Sistemas de Data Warehousing incluyen funcionalidades como:

Integracin de bases de datos heterogneas (relacionales, documentales, geogrficas, archivos, etc.) Ejecucin de consultas complejas no predefinidas visualizando el resultado en forma grfica y en diferentes niveles de agrupamiento y totalizacin de datos. Agrupamiento y desagrupamiento de datos en forma interactiva. Anlisis del problema en trminos de dimensiones. Control de calidad de datos.

Caractersticas del Almacn de Datos:

Organizado en torno a temas. La informacin se clasifica en base a los aspectos que son de inters para la empresa. Integrado. Es el aspecto ms importante. La integracin de datos consiste en convenciones de nombres, codificaciones consistentes, medida uniforme de variables, etc. Dependiente del tiempo. Esta dependencia aparece de tres formas: o La informacin representa los datos sobre un horizonte largo de tiempo. o Cada estructura clave contiene (implcita o explcitamente) un elemento de tiempo (da, semana, mes, etc.). o La informacin, una vez registrada correctamente, no puede ser actualizada. No voltil. El Almacn de Datos slo permite cargar nuevos datos y acceder a los ya almacenados, pero no permite ni borrar ni modificar los datos.

Estructura lgica del Almacn de Datos La estructura lgica de un Almacn de Datos est compuesta por los siguientes niveles:

Metadatos. Describen la estructura de los datos contenidos en el almacn. o Estn en una dimensin distinta al resto de niveles. Datos detallados actuales. Obtenidos directamente del procesado de los datos. o Forman el nivel ms bajo de detalle. o Ocupan mucho espacio. o Se almacenan en disco, para facilitar el acceso. Datos detallados histricos. Igual que los anteriores, pero con datos correspondientes al pasado. o Se suelen almacenar en un medio externo, ya que su acceso es poco frecuente. Datos ligeramente resumidos. Primer nivel de agregacin de los datos detallados actuales. o Corresponden a consultas habituales. o Se almacenan en disco. Datos muy resumidos. Son el nivel ms alto de agregacin. o Corresponden a consultas que se realizan muy a menudo y que se deben obtener muy rpidamente. o Suelen estar separados del Almacn de datos, formando Supermercados de Datos (Data Marts).

Estructura fsica del Almacn de Datos La estructura fsica puede presentar cualquiera de las siguientes configuraciones:

Arquitectura centralizada. Todo el Almacn de datos se encuentra en un nico servidor. Arquitectura distribuida. Los datos del Almacn se reparten entre varios servidores. Asignando cada servidor a uno o varios temas lgicos. Arquitectura distribuida por niveles. Refleja la estructura lgica del Almacn, asignando los servidores en funcin del nivel de agregacin de los datos que contienen. Un servidor est dedicado para los datos de detalle, otro para los resumidos y otro para los muy resumidos. Cuando los datos muy resumidos se duplican en varios servidores para agilizar el acceso se habla de Supermercados de datos (Data Marts).

Bibliografa
Libro: Sistemas de Gestin de Base de Datos Tercera edicin Autor: Ramakrishnan Editorial: McGraw Hill(Espaa) Categoras: COMPUTACIN E INFORMTICA

Sitios en la Web: http://zdes.wordpress.com/2009/01/29/disparadores-o-triggers-en-una-base-dedatos/ http://cnx.org/content/m18780/latest/ http://www.slideshare.net/nesegohv/datawarehouse-2598403 http://www.slideshare.net/rauls85/mineria-de-datos-presentation http://www.monografias.com/trabajos17/data-warehouse/data-warehouse.shtml

http://www2.rhernando.net/modules/tutorials/doc/bd/dw.html http://www.sinnexus.com/business_intelligence/datawarehouse.aspx

http://exa.unne.edu.ar/depar/areas/informatica/SistemasOperativos/SDataMining.p df

You might also like