You are on page 1of 22

CONTENIDO

Qu es Data Warehousing?
Data Warehouse
Objetivos del Data Warehouse
Cmo trabaja el Data Warehouse?
En qu se lo puede usar?
OLAP Procesamiento analtico on-line
Sistemas de Data Warehouse y Oltp
Diferencias del Data Warehouse vs. OLTP
El descubrimiento del conocimiento (KDD)
Metas de KDD
Tcnicas de KDD
Data Marts
Minera de datos (md)
Aplicaciones de MD
Tcnicas de MD
Algoritmos de minera de datos

Retos de la minera de datos


Etapas principales del proceso de data mining
Extensiones del Data Mining
Por qu usar Data Mining?
Conclusiones

Qu es Data Warehousing?
Es un proceso, no un producto. Es una tcnica para consolidar y
administrar datos de variadas fuentes con el propsito de responder
preguntas de negocios y tomar decisiones, de una forma que no era
posible hasta ahora.
Consolidar datos desde una variedad de fuentes, dentro del marco
conceptual de Data Warehousing es el proceso de Transformacin de
Datos.
Manejar grandes volmenes de datos de una forma que no era posible,
o no era costo efectiva, a estos medios se agrupan en Procesamiento y
Administracin de Datos.
Acceder a los datos de una forma ms directa, en "el lenguaje del
negocio", y analizarlos para obtener relaciones complejas entre los
mismos. Estos procesos se engloban en dos categoras: Acceso a los
Datos y Descubrimiento o Data Mining.
Estos desarrollos tecnolgicos, correctamente organizados e
interrelacionados, constituyen lo que se ha dado en llamar un Data
Warehouse o Bodega de Datos.

La definicin ms conocida para el DW, fue propuesta por Inmon


[MicroSt96] (considerado el padre de las Bases de Datos) en 1992: Un
DW es una coleccin de datos orientados a temas, integrados, novoltiles y variante en el tiempo, organizados para soportar
necesidades empresariales.

Caractersticas
Segn, Bill Inmon, existen generalmente cuatro caractersticas que
describen un almacn de datos:
1.orientado al sujeto: los datos se organizan de acuerdo al sujeto en vez de
la aplicacin, por ejemplo, una compaa de seguros usando un almacn de
datos podra organizar sus datos por cliente, premios, y reclamaciones, en
lugar de por diferentes productos (automviles, vida, etc.). Los datos
organizados por sujetos contienen solo la informacin necesaria para los
procesos de soporte para la toma de decisiones.

2.integrados: cuando los datos residen en muchas aplicaciones separados


por los distintos entornos operacionales, la descodificacin de los datos es a
menudo inconsistente. Por ejemplo, en una aplicacin, la palabra gender
podra codificarse como "m" y "f" en otra como "0" y "1". Cuando los datos
fluyen de un entorno operacional a un entorno de almacn de datos o de data
warehouse, ellos asumen una codificacin consistente, por ejemplo gender
siempre se transformara a "m" y "f".

3.variacin-temporal: el almacn de datos contiene un lugar para guardar


datos con una antigedad de 5 a diez aos, o incluso ms antiguos, para
poder ser usados en comparaciones, tendencias y previsiones. Estos datos no
se modificarn.

4. no son inestables: los datos no sern modificados o cambiados de


ninguna manera una vez ellos han sido introducidos en el almacn de datos,
solamente podrn ser cargados, ledos y/o accedidos.

En 1993, Susan Osterfeldt [MicroSt96] publica una definicin que sin


duda acierta en la clave del DW: Yo considero al DW como algo que
provee dos beneficios empresariales reales: Integracin y Acceso de

datos. DW elimina una gran cantidad de datos intiles y no deseados,


como tambin el procesamiento desde el ambiente operacional
clsico.

Ir a Contenido

Data Warehouse
Es el sistema para el almacenamiento y distribucin de cantidades
masivas de datos. El Data Warehouse analtico resultante puede ser
aplicado para mejorar procesos de negocios en toda la organizacin,
en reas tales como manejo de campaas promocionales, deteccin de
fraudes, lanzamiento de nuevos productos, etc.
El punto de inicio ideal es un data warehouse que contenga una
combinacin de datos de seguimiento interno de todos los clientes
junto con datos externos de mercado acerca de la actividad de los
competidores. Informacin histrica sobre potenciales clientes tambin
provee una excelente base para prospecting. Este warehouse puede
ser implementado en una variedad de sistemas de bases relacionales y
debe ser optimizado para un acceso a los datos flexible y rpido.

Ir a
Contenido
Objetivos del Data Warehouse
Proveer una visin nica de los clientes en toda la empresa
Poner tanta informacin comercial como sea posible en manos de
tantos usuarios diferentes como sea posible
Mejorar el tiempo de espera que insumen los informes habituales
Monitorear el comportamiento de los clientes
Predecir compras de productos
Mejorar la capacidad de respuesta a problemas comerciales
Incrementar la precisin de las mediciones
Aumentar la productividad

Incrementar y distribuir las responsabilidades.

Ir a Contenido

Cmo trabaja el Data Warehouse?

Extrae la informacin operacional.

Transforma la operacin a formatos consistentes.

Automatiza las tareas de la informacin para prepararla a un


anlisis eficiente.

Ir a Contenido

En qu se lo puede usar?
o

Manejo de relaciones de marketing.

Anlisis de rentabilidad.

Reduccin de costos.

Ir a Contenido

Olap - procesamiento analtico on-line (On Line Analitic prossesing)


Se refiere a aplicaciones de bases de datos orientadas a array que
permite a los usuarios ver, navegar, manipular y analizar bases de
datos multidimensionales.
Un server multidimensional OLAP permite que un modelo de negocios
ms sofisticado pueda ser aplicado cuando se navega por el data
warehouse. Las estructuras multidimensionales permiten que el
usuario analice los datos de acuerdo a como quiera mirar el negocio,
por lnea de producto, u otras perspectivas claves para su negocio. El
server de Data Mining debe estar integrado con el data warehouse y el
server OLAP para insertar el anlisis de negocios directamente en esta
infraestructura. Un avanzado, metadato centrado en procesos define
los objetivos del Data Mining para resultados especficos tales como
manejos de campaa, prospecting, y optimizacin de promociones. La
integracin con el data warehouse permite que decisiones
operacionales sean implementadas directamente y monitoreadas.

Ir a Contenido

Sistemas de Data Warehouse y Oltp


Una base de datos para soportar procesos transaccionales en lnea
(OLTP), puede no ser adecuada para el Data Warehouse ya que ha sido
diseada para maximizar la capacidad transaccional de sus datos y
tpicamente tiene cientos de tablas la gran mayora normalizadas. Su
diseo tambin ha sido condicionado por los procesos operacionales
que deber soportar para la ptima actualizacin de sus datos,
normalmente muchas de sus tablas en constantes y continuos
cambios. Los sistemas Data Warehouse estn orientados a procesos de
consultas en contraposicin con los procesos transaccionales.

Ir a Contenido
Diferencias del Data Warehouse vs Oltp
Los sistemas tradicionales de transacciones y las aplicaciones de Data
Warehousing son polos opuestos en cuanto a sus requerimientos de
diseo y sus caractersticas de operacin.
Las aplicaciones de OLTP estn organizadas para ejecutar las
transacciones para los cuales fueron hechos, como por ejemplo: mover
dinero entre cuentas, un cargo o abono, una devolucin de inventario,
etc. Por otro lado, un Data Warehouse est organizado en base a
conceptos, como por ejemplo: clientes, facturas, productos, etc.
Otra diferencia radica en el nmero de usuarios. Normalmente, el
nmero de usuarios de un Data Warehouse es menor al de un OLTP. Es
comn encontrar que los sistemas transaccionales son accedidos por
cientos de usuarios simultneamente, mientras que los Data
Warehouse slo por decenas. Los sistemas de OLTP realizan cientos de
transacciones por segundo mientras que una sola consulta de un Data
Warehouse puede tomar minutos. Otro factor es que frecuentemente

los sistemas transaccionales son menores en tamao a los Data


Warehouses, esto es debido a que un Data Warehouse puede estar
formado por informacin de varios OLTPs.
Existen tambin diferencia en el diseo, mientras que el de un OLTP es
extremadamente normalizado, el de un Data Warehouse tiende a ser
desnormalizado. El OLTP normalmente est formado por un nmero
mayor de tablas, cada una con pocas columnas, mientras que en un
Data Warehouse el nmero de tablas es menor, pero cada una de stas
tiende a ser mayor en nmero de columnas.
Los OLTP son continuamente actualizados por los sistemas
operacionales del da con da, mientras que los Data Warehouse son
actualizados en batch de manera peridica.
Las estructuras de los OLTP son muy estables, rara vez cambian,
mientras las de los Data Warehouses sufren cambios constantes
derivados de su evolucin. Esto se debe a que los tipos de consultas a
los cuales estn sujetos son muy variados y es imposible preverlos
todos de antemano.
Mejorar la Entrega de Informacin: informacin completa, correcta,
consistente, oportuna y accesible. Informacin que la gente necesita, en el
tiempo que la necesita y en el formato que la necesita.

Mejorar el Proceso de Toma de Decisiones: con un mayor soporte de


informacin se obtienen decisiones ms rpidas; as tambin, la gente de
negocios adquiere mayor confianza en sus propias decisiones y las del resto,
y logra un mayor entendimiento de los impactos de sus decisiones.

Impacto Positivo sobre los Procesos Empresariales: cuando a la gente se


le da acceso a una mejor calidad de informacin, la empresa puede lograr por
s sola:

Eliminar los retardos de los procesos empresariales que resultan de


informacin incorrecta, inconsistente y/o no existente.
Integrar y optimizar procesos empresariales a travs del uso
compartido e integrado de las fuentes de informacin.

Eliminar la produccin y el procesamiento de datos que no son


usados ni necesarios, producto de aplicaciones mal diseados o ya no
utilizados.

Ir a Contenido
El descubrimiento del conocimiento (KDD)
Se define como la extraccin no trivial de informacin implcita,
desconocida, y potencialmente til de los datos. Hay una distincin
clara entre el proceso de extraccin de datos y el descubrimiento del
conocimiento. Bajo sus convenciones, el proceso de descubrimiento
del conocimiento toma los resultados tal como vienen de los datos
(proceso de extraer tendencias o modelos de los datos)
cuidadosamente y con precisin los transforma en informacin til y
entendible. Esta informacin no es tpicamente recuperable por las
tcnicas normales pero es descubierta a travs del uso de tcnicas de
AI.
KDD puede usarse como un medio de recuperacin de informacin, de
la misma manera que los agentes inteligentes realizan la recuperacin
de informacin en el Web. Nuevos modelos o tendencias en los datos
podrn descubrirse usando estas tcnicas. KDD tambin puede usarse
como una base para las interfaces inteligentes del maana, agregando
un componente del descubrimiento del conocimiento a una mquina
de bases de datos o integrando KDD con las hojas de clculo y
visualizaciones.
Al Descubrimiento de Conocimiento de Bases de Datos (KDD) a veces
tambin se le conoce como minera de datos (Data Mining).
Sin embargo, muchos autores se refieren al proceso de minera de
datos como el de la aplicacin de un algoritmo para extraer patrones
de datos y a KDD al proceso completo (pre-procesamiento, minera,
post-procesamiento).

El proceso de KDD consiste en usar mtodos de minera de datos


(algoritmos) para extraer (identificar) lo que se considera como
conocimiento de acuerdo a la especificacin de ciertos parmetros
usando una base de datos junto con pre-procesamientos y postprocesamientos.
Se estima que la extraccin de patrones (minera) de los datos ocupa
solo el 15% - 20% del esfuerzo total del proceso de KDD.

Ir a

Contenido
Metas de KDD
procesar automticamente grandes cantidades de datos crudos,
identificar los patrones ms significativos y relevantes, y
presentarlos como conocimiento apropiado para satisfacer las metas
del usuario.

Ir a Contenido
Tcnicas de KDD
Los algoritmos de aprendizaje son una parte integral de KDD. Las
tcnicas de aprendizaje podrn ser supervisadas o no supervisadas. En
general, las tcnicas de aprendizaje dirigidas disfrutan de un rango de
xito definido por la utilidad del descubrimiento del conocimiento. Los
algoritmos de aprendizaje son complejos y generalmente considerados
como la parte ms difcil de cualquier tcnica KDD.
El descubrimiento de la mquina es uno de los campos ms recientes
que han contribuido para KDD. Mientras el descubrimiento de la
mquina confa solamente en mtodos autnomos para el
descubrimiento de la informacin, KDD tpicamente combina mtodos
automatizados con la interaccin humana para asegurar resultados
exactos, tiles, y entendibles.
Hay muchos mtodos diferentes que son clasificados como las tcnicas
de KDD. Hay mtodos cuantitativos, como los probabilsticos y los

estadsticos. Hay mtodos que utilizan las tcnicas de visualizacin.


Hay mtodos de clasificacin como la clasificacin de Bayesian, lgica
inductiva, descubrimiento de modelado de datos y anlisis de decisin.
Otros mtodos incluyen la desviacin y tendencia al anlisis,
algoritmos genticos, redes neuronales y los mtodos hbridos que
combinan dos o ms tcnicas.
Debido a las maneras en que estas tcnicas pueden usarse y
combinarse, hay una falta de acuerdos de cmo estas tcnicas deben
categorizarse. Por ejemplo, el mtodo de Bayesian puede agruparse
lgicamente con los mtodos probabilsticos, de clasificacin o de
visualizacin. Por causa de la organizacin, cada mtodo descrito aqu
es incluido en el grupo que mejor encaje. Sin embargo, esta seleccin
no implica una categorizacin estricta.
Mtodo Probabilstico. Esta familia de tcnicas KDD utiliza modelos
de representacin grfica para comparar las diferentes
representaciones del conocimiento. Estos modelos estn
basados en las probabilidades e independencias de los
datos. Estos son tiles para aplicaciones que involucran
incertidumbre y aplicaciones estructuradas tal que una
probabilidad puede asignarse a cada uno de los
resultados o pequea cantidad del descubrimiento del
conocimiento. Las tcnicas probabilsticas pueden usarse
en los sistemas de diagnstico, planeacin y sistemas de
control. Las herramientas del probabilidad automatizadas
estn disponibles en el dominio pblico y comercial.
Mtodo estadstico. El mtodo estadstico usa la regla del
descubrimiento y se basa en las relaciones de los datos. El
algoritmo de aprendizaje inductivo puede seleccionar
automticamente trayectorias tiles y atributos para
construir las reglas de una base de datos con muchas
relaciones''. Este tipo de induccin es usado para

generalizar los modelos en los datos y construir las reglas


de los modelos nombrados. El proceso analtico en lnea
(OLAP) es un ejemplo de un mtodo orientado a la
estadstica. Las herramientas estadsticamente
automatizadas estn disponibles en el dominio pblico y
comercial.
Mtodo de clasificacin. La clasificacin es probablemente el
mtodo ms viejo y mayormente usado de todos los
mtodos de KDD. Este mtodo agrupa los datos de
acuerdo a similitudes o clases. Hay muchos tipos de
clasificacin de tcnicas y numerosas herramientas
disponible que son automatizadas.
Mtodo Bayesian de KDD "es un modelo grfico que usa directamente
los arcos exclusivamente para formar una grfica acclica". Aunque el mtodo
Bayesian usa los medios probabilsticos y grficos de representacin, tambin
es considerado un tipo de clasificacin.

Se usan muy frecuentemente las redes de Bayesian cuando la


incertidumbre se asocia con un resultado puede expresarse en
trminos de una probabilidad. Este mtodo cuenta con un dominio del
conocimiento codificado y ha sido usado para los sistemas de
diagnstico.

Ir a Contenido

Data Marts
Es un pequeo Data Warehouse, para un determinado numero de
usuarios, para un arrea funcional, especifica de la compaa. Tambin
podemos definir que un Data Marts es un subconjunto de una bodega
de datos para un propsito especifico. Su funcin es apoyar a otros
sistemas para la toma de decisiones.
Los procesos que conforma el datawarehouse son:

1-Extraccin
2-Elaboracin
3-Carga
4-Explotacin

Componentes del Data Warehouse

Ir a

Contenido

Minera de Datos
Es un mecanismo de explotacin, consistente en la bsqueda de
informacin valiosa en grandes volmenes de datos. Est muy ligada a las
bodegas de datos que proporcionan la informacin histrica con la cual los
algoritmos de minera de datos tienen la informacin necesaria para la toma
de decisiones.

La md puede ser dividida en:

minera de datos predictiva (mdp): usa primordialmente tcnicas


estadsticas.

minera de datos para descubrimiento de conocimiento (mddc):


usa principalmente tcnicas de inteligencia artificial

"La minera de datos es un proceso no trivial de identificacin vlida,


novedosa, potencialmente til y entendible de patrones comprensibles
que se encuentran ocultos en los datos" (Fayyad y otros, 1996).

"Es la integracin de un conjunto de reas que tienen como propsito


la identificacin de un conocimiento obtenido a partir de las bases de
datos que aporten un sesgo hacia la toma de decisin" (Molina y otros,
2001).
Se denomina minera de datos (data mining) al anlisis de archivos y
bitcoras de transacciones, trabaja a nivel del conocimiento con el fin
de descubrir patrones, relaciones, reglas, asociaciones o incluso
excepciones tiles para la toma de decisiones. Por ejemplo, qu
productos se comercializan mejor en la temporada navidea, en qu
regiones es productivo sembrar caf, qu reas de una zona urbana
incrementarn su demanda de escuelas primarias.
Por eso la minera de datos revela patrones o asociaciones que
usualmente nos eran desconocidas, se la ha llamado tambin
Descubrimiento de Conocimiento, este tiene sus inicios en el
Aprendizaje Automtico o la Estadstica.
Un proceso de apoyo a la toma de decisiones de negocio debe incluir 2
componentes: el de verificacin, y el de descubrimiento.
El anlisis de verificacin nos permite obtener conclusiones basadas en
el comportamiento pasado.
La minera de datos con enfoque en el descubrimiento, puede ayudar a
descubrir nuevas oportunidades de negocio.
El anlisis de verificacin nos ayuda a confirmar o rechazar los
"descubrimientos" obtenidos con el nuevo enfoque.
La minera es un tema para grandes bases de datos, ayuda a descubrir
a estas bases informacin rpida. Es una herramienta relacionada
directamente al negocio.
Se empieza a hablar de minera de datos cuando en el mercado se
pone atencin en el producto y el cliente. Esta herramienta existe hace
varios aos, el problema es que trabaja con grandes bases de datos.
La minera de datos forma parte de un proceso integrado desde el
'Data Warehouse' hasta la presentacin.

Ir a
Contenido
Aplicaciones de MD
En la actualidad, existe una gran cantidad de aplicaciones, en reas
tales como:
astronoma: clasificacin de cuerpos celestes.
aspectos climatolgicos: prediccin de tormentas, etc.
medicina: caracterizacin y prediccin de enfermedades, probabilidad
de respuesta satisfactoria a tratamiento mdico.

industria y manufactura: diagnstico de fallas.


mercadotcnia: identificar clientes susceptibles de responder a ofertas de
productos y servicios por correo, fidelidad de clientes, seleccin de sitios de
tiendas, afinidad de productos, etc.

inversin en casas de bolsa y banca: anlisis de clientes, aprobacin


de prestamos, determinacin de montos de crdito, etc.
deteccin de fraudes y comportamientos inusuales: telefnicos,
seguros, en tarjetas de crdito, de evasin fiscal, electricidad, etc.
anlisis de canastas de mercado para mejorar la organizacin de tiendas,
segmentacin de mercado (clustering)

determinacin de niveles de audiencia de programas televisivos


normalizacin automtica de bases de datos

Ir a Contenido

Tcnicas de MD
Anlisis Preliminar de datos usando Query tools: el primer paso en un
proyecto de data mining sera siempre un anlisis de los datos usando query
tools, aplicando una consulta SQL a un conjunto de datos, para rescatar
algunos aspectos visibles antes de aplicar las tcnicas. La gran mayora de la
informacin (un 80 %) puede obtenerse con SQL. El 20 % restante, mas
importante, la informacin oculta requiere tcnicas avanzadas.

Este primer anlisis en SQL es para saber cual es la distribucin de los


valores posibles de los atributos. Recin despus podemos ver la
performance del algoritmo correspondiente.
Tcnicas de Visualizacin: estas son buenas para ubicar patrones en un
conjunto de datos y puede ser usado al comienzo de un proceso de data
mining para tomar un feeling de la calidad del conjunto de datos.
rbol de Decisin: son estructuras en forma de rbol que representan
conjuntos de decisiones. Estas decisiones generan reglas para la clasificacin
de un conjunto de datos. Para poder predecir el comportamiento de un
cliente es necesario poder contar con una clasificacin previa esto implica
una prediccin de que un cliente pertenece a cierto grupo de clientes. La
complejidad es de n (Log n).

Mtodos especficos de rboles de decisin incluyen:


- CART rboles de clasificacin y regresin: tcnica usada para la
clasificacin de un conjunto da datos. Provee un conjunto de reglas
que se pueden aplicar a un nuevo (sin clasificar) conjunto de datos
para predecir cules registros darn un cierto resultado. Segmenta un
conjunto de datos creando 2 divisiones. Requiere menos preparacin
de datos que CHAID.
- CHAID Deteccin de interaccin automtica de Chi cuadrado: tcnica
similar a la anterior, pero segmenta un conjunto de datos utilizando
tests de chi cuadrado para crear mltiples divisiones.
Reglas de Asociacin: establece asociaciones en base a los perfiles de los
clientes sobre los cuales se est realizando el data mining. Las reglas de
Asociacin estn siempre definidas sobre atributos binarios. No es muy
complicado generar reglas en grandes bases de datos. El problema es que tal
algoritmo eventualmente puede dar informacin que no es relevante. Data
Mining envuelve modelos para determinar patterns a partir de los datos
observados. Los modelos juegan un rol de conocimiento inferido. Diciendo
cuando el conocimiento representa conocimiento til o no, esto es parte del

proceso de extraccin de conocimiento en bases de datos (Knowledge


Discovery in Databases-KDD).
Algoritmos Genticos: son tcnicas de optimizacin que usan procesos
tales como combinaciones genticas, mutaciones y seleccin natural en un
diseo basado en los conceptos de evolucin.
Redes Bayesianas: buscan determinar relaciones causales que expliquen
un fenmeno en base a los datos contenidos en una base de datos. Se han
usado principalmente para realizar prediccin.
Procesamiento Analtico en Lnea (OLAP): estas herramientas ofrecen un
mayor poder para revisar, graficar y visualizar informacin multidimensional,
en caractersticas temporales, espaciales o propias. Se valen de lenguajes
menos restringidos y estructurados como lo es SQL. Requieren todava de
una alta participacin de un usuario humano, pues son interactivas y
requieren la gua del experto.
Redes neuronales artificiales: son modelos predecibles, no lineales

que aprenden a travs del entrenamiento y semejan la estructura de


una red neuronal biolgica.
Mtodo del vecino ms cercano: una tcnica que clasifica cada

registro en un conjunto de datos basado en una combinacin de las


clases de k registro/s ms similar/es a l en un conjunto de datos
histricos. Algunas veces se llama la tcnica del vecino k-ms cercano.
Regla de induccin: la extraccin de reglas if-then de datos basados en
significado estadstico.

La tcnica usada para realizar estas hazaas en Data Mining se llama


Modelado: es simplemente el acto de construir un modelo en una
situacin donde usted conoce la respuesta y luego la aplica en otra
situacin de la cual desconoce la respuesta.
La minera de datos, es un proceso que invierte la dinmica del mtodo
cientfico, dado que se generan hiptesis a partir de los datos
colectados.

Las tcnicas de Minera de datos combinan la tecnologa de bases de


datos y data warehousing, con tcnicas de aprendizaje automtico y
de estadstica.
La estadstica es una herramienta poderosa, y es un elemento crucial
en el anlisis de datos. Sin embargo, a veces enfrentamos problemas
muy serios en la interpretacin de sus resultados, dado que no
recordamos que estos resultados se aplican a grupos y no a individuos.
Estos peligros se ven amplificados en el uso de software de Minera de
Datos.
La Minera de Datos es una herramienta explorativa y no explicativa.
Es decir, explora los datos para sugerir hiptesis. Es incorrecto aceptar
dichas hiptesis como explicaciones o relaciones causa-efecto. Es
necesario coleccionar nuevos datos y validar las hiptesis generadas
ante los nuevos datos, y despus descartar aquellas que no son
confirmadas por los nuevos datos.
La Minera de Datos no puede ser experimental. En muchas
circunstancias, no es posible reproducir las condiciones que generaron
los datos (especialmente si son datos del pasado, y una variable es el
tiempo).
Las Bases de Datos proporcionan la infraestructura necesaria para
almacenar, recuperar y manipular datos. La construccin y
mantenimiento de una Bodega de Datos (Data Warehouse), a pesar de
que esta es una Base de Datos, su modo de operar es muy distinto,
para soportar transacciones y la actividad de negocio en lnea, adems
hace viable la revisin y el anlisis de su informacin para el apoyo a
las decisiones ejecutivas. Tpicamente, el Data Warehouse almacena y
resume informacin sobre transacciones cotidianas a lo largo del
tiempo. Puede que contenga informacin que ya no es posible
reproducir del sistema para la operacin cotidiana, es informacin
arcaica pero til por su crnica histrica del funcionar. Las consultas a
la bodega no son tan sistemticas como las transacciones y

usualmente demandan ms recursos de cmputo. Resulta incluso


conveniente separar los equipos y sistemas de la operacin cotidiana
de transacciones en lnea de la Bodega de Datos.

Ir a Contenido

Algoritmos de Minera de Datos


Se clasifican en dos grandes categoras: supervisados o predictivos y
no supervisados o de descubrimiento del conocimiento [Weiss y
Indurkhya, 1998]. Los algoritmos supervisados o predictivos predicen
el valor de un atributo (etiqueta) de un conjunto de datos, conocidos
otros atributos (atributos descriptivos). A partir de datos cuya etiqueta
se conoce se induce una relacin entre dicha etiqueta y otra serie de
atributos. Esas relaciones sirven para realizar la prediccin en datos
cuya etiqueta es desconocida. Esta forma de trabajar se conoce como
aprendizaje supervisado y se desarrolla en dos fases: Entrenamiento
(construccin de un modelo usando un subconjunto de datos con
etiqueta conocida) y prueba (prueba del modelo sobre el resto de los
datos). Cuando una aplicacin no es lo suficientemente madura no
tiene el potencial necesario para una solucin predictiva, en ese caso
hay que recurrir a los mtodos no supervisados o del descubrimiento
del conocimiento que descubren patrones y tendencias en los datos
actuales (no utilizan datos histricos). El descubrimiento de esa
informacin sirve para llevar a cabo acciones y obtener un beneficio
(cientfico o de negocio) de ellas.

Ir a Contenido

Retos de la minera de datos


que

los productos a comercializar son, en la actualidad,

significativamente costosos, y los consumidores pueden hallar una


relacin costo/beneficio improductiva.

que

se requiera de mucha experiencia para utilizar herramientas de

la tecnologa, o que sea muy fcil hallar patrones equvocos, triviales


o no interesantes.
que

exista una reaccin del pblico por el uso indiscriminado de

datos personales para ejercicios de Minera de Datos.


tambin

es muy posible que se deseen hacer inferencias y anlisis

de datos sobre un periodo determinado, pero que durante dicho


periodo no se haya registrado el mismo nmero de variables, o que
stas no tengan la misma precisin, o carezcan de la misma
interpretacin.

Ir a Contenido

Etapas principales del proceso de data mining


1. Determinacin de los objetivos: delimitar los objetivos que el cliente
desea bajo la orientacin del especialista en data mining.

2. Preprocesamiento de los datos: se refiere a la seleccin, la limpieza, el


enriquecimiento, la reduccin y la transformacin de las bases de datos. Esta
etapa consume generalmente alrededor del setenta por ciento del tiempo
total de un proyecto de data mining.

3. Determinacin del modelo: se comienza realizando un anlisis


estadstico de los datos, y despus se lleva a cabo una visualizacin grfica
de los mismos para tener una primera aproximacin. Segn los objetivos
planteados y la tarea que debe llevarse a cabo, pueden utilizarse algoritmos
desarrollados en diferentes reas de la Inteligencia Artificial.

4. Anlisis de los resultados: verifica si los resultados obtenidos son


coherentes y los coteja con los obtenidos por el anlisis estadstico y de
visualizacin grfica. El cliente determina si son novedosos y si le aportan un
nuevo conocimiento que le permita considerar sus decisiones.

Respecto a los modelos inteligentes, se ha comprobado que en ellos se


utilizan principalmente rboles y reglas de decisin, reglas de
asociacin, redes neuronales, redes Bayesianas, conjuntos

aproximados (rough sets), algoritmos de agrupacin (clustering),


mquinas de soporte vectorial, algoritmos genticos y lgica difusa.

Ir a
Contenido
Extensiones del data mining
Web mining: consiste en aplicar las tcnicas de minera de datos a
documentos y servicios del Web (Kosala y otros, 2000). Todos los que visitan
un sitio en Internet dejan huellas digitales (direcciones de IP, navegador, etc.)
que los servidores automticamente almacenan en una bitcora de accesos
(Log). Las herramientas de Web mining analizan y procesan estos logs para
producir informacin significativa. Debido a que los contenidos de Internet
consisten en varios tipos de datos, como texto, imagen, vdeo, metadatos o
hiperligas, investigaciones recientes usan el trmino multimedia data mining
(minera de datos multimedia) como una instancia del Web mining (Zaiane y
otros, 1998) para tratar ese tipo de datos. Los accesos totales por dominio,
horarios de accesos ms frecuentes y visitas por da, entre otros datos, son
registrados por herramientas estadsticas que complementan todo el proceso
de anlisis del Web mining.
Text mining: dado que el ochenta por ciento de la informacin de una
compaa est almacenada en forma de documentos, las tcnicas como la
categorizacin de texto, el procesamiento de lenguaje natural, la extraccin y
recuperacin de la informacin o el aprendizaje automtico, entre otras,
apoyan al text mining (minera de texto). En ocasiones se confunde el text
mining con la recuperacin de la informacin (Information Retrieval o IR)
(Hearst, 1999). Esta ltima consiste en la recuperacin automtica de
documentos relevantes mediante indexaciones de textos, clasificacin,
categorizacin, etc. Generalmente se utilizan palabras clave para encontrar
una pgina relevante. En cambio, el text mining se refiere a examinar una
coleccin de documentos y descubrir informacin no contenida en ningn
documento individual de la coleccin; en otras palabras, trata de obtener
informacin sin haber partido de algo (Nasukawa y otros, 2001).

Ir a
Contenido
Por qu usar data mining?
Si bien el data mining se presenta como una tecnologa emergente,
posee ciertas ventajas, como ser:
resulta un buen punto de encuentro entre los investigadores y las
personas de negocios.
ahorra grandes cantidades de dinero a una empresa y abre nuevas
oportunidades de negocios.
trabajar con esta tecnologa implica cuidar un sin nmero de detalles
debido a que el producto final involucra "toma de decisiones".
contribuye a la toma de decisiones tcticas y estratgicas
proporcionando un sentido automatizado para identificar informacin
clave desde volmenes de datos generados por procesos tradicionales
y de e-Business.
permite a los usuarios dar prioridad a decisiones y acciones
mostrando factores que tienen un mayor en un objetivo, qu
segmentos de clientes son desechables y qu unidades de negocio son
sobrepasados y por qu.
proporciona poderes de decisin a los usuarios del negocio que mejor
entienden el problema y el entorno y es capaz de medir la acciones y
los resultados de la mejor forma.
genera Modelos descriptivos: en un contexto de objetivos definidos
en los negocios permite a empresas, sin tener en cuenta la industria o
el tamao, explorar automticamente, visualizar y comprender los
datos e identificar patrones, relaciones y dependencias que impactan
en los resultados finales de la cuenta de resultados (tales como el
aumento de los ingresos, incremento de los beneficios, contencin de
costes y gestin de riesgos).

genera Modelos predictivos: permite que relaciones no descubiertas


e identificadas a travs del proceso del Data Mining sean expresadas
como reglas de negocio o modelos predictivos. Estos outputs pueden
comunicarse en formatos tradicionales (presentaciones, informes,
informacin electrnica compartida, embebidos en aplicaciones, etc.)
para guiar la estrategia y planificacin de la empresa.

Ir a Contenido
Conclusiones
El desarrollo de la tecnologa de Minera de Datos est en un momento
crtico. Existe una serie de elementos que la hacen operable, sin
embargo, existen algunos factores que pueden crear un descrdito a la
Minera de Datos, como ser:
que los productos a comercializar son, en la actualidad,
significativamente costosos, y los consumidores pueden hallar una
relacin costo/beneficio improductiva
que se requiera de mucha experiencia para utilizar herramientas de
la tecnologa, o que sea muy fcil hallar patrones equvocos, triviales o
no interesantes,
que no sea posible resolver los aspectos tcnicos de hallar patrones
en tiempo o en espacio,
adems, hoy en da, las corporaciones comercializan con millones de
perfiles personales, sin que aquellos a que se refieren los datos
intercambiados, estn en posibilidad de intervenir, entonces, se llega a
pensar que presenta un peligro o riesgo para la privacidad de los clientes

You might also like