Data Mining

ASOCIACINUNIVERSIDAD PRIVADA
SAN JUAN BAUTISTA

FACULTAD DE INGENIERA
ESCUELA PROFESIONAL DE INGENIERA DE COMPUTACIN Y SISTEMAS
DATA MINING MINERIA DE DATOS

PROYECTO DE TITULACION
PRESENTADO POR:
Xxxxxxxxxxx
Xxxxxxxxxxx
xxxxxxxxxxxx
TITULO
PARA OPTAR EL TTULO PROFESIONAL DE
INGENIERA DE COMPUTACIN Y SISTEMAS
LIMA PER
2013
DEDICATORIA
Se lo dedicamos a nuestros padres
por el apoyo incondicionales a y
nuestros profesores por formanos
como profesionales
AGRADECIMIENTOS
En el camino recorrido hasta aqu tuve la oportunidad de conocer a muchas

personas que contribuyeron en mayor o menor medida a la realizacin de este
trabajo. Quiero agradecerles a todas ellas por el tiempo y dedicacin prestados.
Prof. Zico Alexis
Dr.Miller Liendo, Profesor y autor de Datawearhouse por la informacin

proporcionada.
Jefe de Word Place Externo Leopoldo Rijavec por el apoyo solicitado.
INDICE
INTRODUCCIN................................................................................................... 5
3
CAPITULO I - CONCEPTOS BSICOS..................................................................7

1.2
Historia.................................................................................................... 7
1.3
Antecedentes y necesidades.......................................................................8
1.4
Los Fundamentos del Data Mining...............................................................8
1.5
Principales caractersticas y objetivos de la Minera de Datos..........................9
1.6
Alcance de Data Mining............................................................................12
1.7
Extraccin de conocimiento en bases de datos............................................13
1.8
Tcnicas de Minera de Datos...................................................................14
CAPITULO II - ARQUITECTURA DATA MINING.....................................................17

2.1
Una arquitectura para Data Mining.............................................................17
2.2
Fases de un Proyecto..............................................................................18
2.3
Filtrado de datos...................................................................................... 19
2.4
Seleccin de variables.............................................................................. 19
2.5
Algoritmos de Extraccin de Conocimiento..................................................20
2.6
Interpretacin y evaluacin.......................................................................21
CAPITULO III - Aplicaciones de Casos del Data Mining............................................22

4.1.
Gobierno................................................................................................ 22
4.2.
Empresa................................................................................................ 23
4.3.
Universidad............................................................................................ 25
4.4.
Investigaciones Espaciales.......................................................................26
4.5.
Clubes Deportivos................................................................................... 26
CAPITULO IV - SOFTWARE WEKA....................................................................28

4.1.
Software de minera de datos en Java........................................................28
4.2.
WEKA Knowledge Explorer.......................................................................30
4.3.
El algoritmo J4.8...................................................................................... 31
CONCLUSIN..................................................................................................... 33
BIBLIOGRAFA.................................................................................................... 34
GLOSARIO DE TRMINOS...................................................................................35
INTRODUCCIN
El Data Mining surgi como una tcnica novedosa a la situacin en la cual se

contaban con grandes volmenes de datos en los cuales no se aprovechaba toda
la informacin til, ya que esta se encontraba oculta de alguna forma.
El
descubrimiento de esta data til se logra a travs de procesos de redes

neuronales, rboles de decisin, modelos estadsticos y agrupamientos, lo cuales
permiten hallar patrones de conducta en los datos, y de esta forma realizar
predicciones para dar soporte a la toma de decisiones en el mbito en el que fue
aplicado.
Es importante destacar que el uso de esta tcnica no va dirigida a un pblico
especfico, sino que cualquier persona con un buen dominio de las herramientas
de extraccin puede ejercer el rol de minero, as mismo el entorno de la minera de
datos suele desarrollarse bajo una arquitectura cliente-servidor.
En la minera de datos se desarrollarn tpicos como, el proceso de extraccin de
conocimiento, para luego dar pie al concepcin del data mining seguidamente se
hondar en las principales caractersticas y objetivos del mismo, tomando en
cuenta el alcance que posee y la arquitectura en la cual se desarrolla.
De igual manera se deben resaltar las fases de un proyecto de data mining y las
aplicaciones que se le pueden dar a la tcnica mencionada.
Los procesos de la minera de datos pueden agruparse en 4 pasos generales
independientemente de la tcnica que se use, estos son: Filtrado de datos,
Seleccin de variables, Extraccin de Conocimiento e Interpretacin y evaluacin.
5
Dentro de estas enormes masas de datos existe una gran cantidad de informacin
oculta, de gran importancia estratgica, a la que no se puede acceder por las
tcnicas clsicas de recuperacin de la informacin. El descubrimiento de esta
informacin oculta es posible gracias a la Minera de Datos (DataMining), que
entre otras sofisticadas tcnicas aplica la inteligencia artificial para encontrar
patrones y relaciones dentro de los datos permitiendo la creacin de modelos, es
decir, representaciones abstractas de la realidad, pero es el descubrimiento del
conocimiento (KDD, por sus siglas en ingls) que se encarga de la preparacin de
los datos y la interpretacin de los resultados obtenidos, los cuales dan un
significado a estos patrones encontrados.
Los pasos generales de un proceso de extraccin de conocimiento se pueden
observar en la siguiente figura (Figura 1).
Figura 1
CAPITULO I - CONCEPTOS BSICOS

I.2
Historia
La idea de data mining no es nueva. Ya desde los aos sesenta los
estadsticos manejaban trminos como data fishing, data mining o data
archaeology con la idea de encontrar correlaciones sin una hiptesis previa
en bases de datos con ruido. A principios de los aos ochenta, Rakesh
Agrawal, Gio Wiederhold, Robert Blum y Gregory Piatetsky-Shapiro, entre
otros, empezaron a consolidar los trminos de data mining y KDD. A finales
de los aos ochenta slo existan un par de empresas dedicadas a esta
tecnologa; en 2002 existen ms de 100 empresas en el mundo que ofrecen
alrededor de 300 soluciones. Las listas de discusin sobre este tema las
forman investigadores de ms de ochenta pases. Esta tecnologa ha sido
un buen punto de encuentro entre personas pertenecientes al mbito
acadmico y al de los negocios.
El data mining es una tecnologa compuesta por etapas que integra varias
reas y que no se debe confundir con un gran software. Rene las ventajas
de varias reas como la Estadstica, la Inteligencia Artificial, la Computacin
Grfica, las Bases de Datos y el Procesamiento Masivo, principalmente
usando como materia prima las bases de datos.
7
Una definicin tradicional es la siguiente: Un proceso no trivial de

identificacin vlida, novedosa, potencialmente til y entendible de patrones
comprensibles que se encuentran ocultos en los datos (Fayyad y otros,
1996).
I.3
Antecedentes y necesidades
El xito de una organizacin en un entorno globalizado depende en gran
medida del conocimiento de sus miembros y de sus habilidades para hacer
negocios. Sin embargo, las organizaciones no solo necesitan de
conocimiento, sino tambin necesitan tener la capacidad de actualizar
dinmicamente el conocimiento y ponerlo en prctica.
En esencia, deben ser capaces de resolver problemas, aprender de
experiencias propias y tambin de experiencias de otros, transfiriendo el
conocimiento y la informacin de forma rpida y eficiente a toda la
organizacin.
En nuestros das, la gran mayora de las organizaciones tienen la capacidad
de generar grandes volmenes de datos, esto de una forma rpida y
creciente como resultado de sus operaciones diarias, no obstante, pocas
son las organizaciones que producen informacin de verdadero valor.
Dentro de este contexto, surge la urgente necesidad de contar con una
nueva generacin de teoras y herramientas computacionales que ayuden
al ser humano a extraer informacin til (conocimiento) de los crecientes
volmenes de datos digitales.
I.4
Los Fundamentos del Data Mining

La minera de datos o Data mining proporciona un nuevo sistema para el
manejo de grandes bases de datos, gracias a un campo situado entre la
estadstica,
la
tecnologa
de
bases
de
datos,
los
patrones
de
reconocimiento, el aprendizaje de las mquinas, la visualizacin de datos y

los sistemas expertos. Las bases de datos se organizan de forma que
8
puedan ser fcilmente consultadas, actualizadas o utilizadas para extraer

informacin. Un manager de bases de datos permite realizar estas
funciones, con pequeas bases pero sobre todo con enormes cantidades
de datos, difciles de manejar con otros mtodos. La minera de datos no
necesita ningn nmero determinado de variables ni estima que stas se
comporten de una manera concreta mediante funciones de distribucin. As
mismo combina gran cantidad de tcnicas y mtodos, y aplica sus
algoritmos, directamente sobre los datos lo que aporta un manejo y
procesamiento de informacin ms eficiente. Se aplican as algoritmos o
razonamientos que, originalmente no fueron diseados para ese tipo de
datos aunque se tiende a modificar la aplicacin de forma que la
terminologa y el campo de trabajo se adecuen a la nueva aplicacin.
Data Mining est listo para su aplicacin en la comunidad de negocios
porque est soportado por tres tecnologas que ya estn suficientemente
maduras:
Recoleccin masiva de datos.
Potentes computadoras con multiprocesadores.
Algoritmos de Data Mining.
I.5
Principales caractersticas y objetivos de la Minera de Datos

Explorar los datos que se encuentran en las profundidades de las
bases de datos, como los almacenes de datos, que algunas veces
contienen informacin almacenada durante varios aos.
En algunos casos, los datos se consolidan en un almacn de datos y
en mercados de datos; en otros, se mantienen en servidores de
Internet e Intranet.
El entorno de la minera de datos suele tener una arquitectura clienteservidor.
Las herramientas de la minera de datos ayudan a extraer el mineral
de la informacin enterrado en archivos corporativos o en registros
pblicos, archivados.
9
El minero es, muchas veces un usuario final con poca o ninguna

habilidad de programacin, facultado por barrenadoras de datos y
otras poderosas herramientas indagatorias para efectuar preguntas
ad-hoc y obtener rpidamente respuestas.
Hurgar y sacudir a menudo implica el descubrimiento de resultados
valiosos e inesperados.
Las herramientas de la minera de datos se combinan fcilmente y
pueden analizarse y procesarse rpidamente.
Debido a la gran cantidad de datos, algunas veces resulta necesario
usar procesamiento en paralelo para la minera de datos.
La minera de datos produce cinco tipos de informacin:
o Asociaciones.
o Secuencias.
o Clasificaciones.
o Agrupamientos.
o Pronsticos.
Los mineros de datos usan varias herramientas y tcnicas.
En la minera de datos, se coleccionan los datos y se espera que de ellos
emerjan hiptesis (al contrario de la dinmica del mtodo cientfico). Se
busca que los datos describan o indiquen por qu son como son. Luego
entonces, se valida esa hiptesis inspirada por los datos en los datos
mismos, ser numricamente significativa, pero experimentalmente invlida.
De ah que la minera de datos debe presentar un enfoque exploratorio, y

no confirmador.
OBJETIVO
PREDICCION
SUPERVISADO
Regresin logstica
Redes neuronales
Arboles de decisin
Razonamiento basado en la
NO SUPERVISADO
No factible
10
memoria
Maquinas de soporte vectorial
Arboles de decisin
CLASIFICACION Redes neuronales
Anlisis discriminante
Ensamblados
Clasificados
Arboles de decisin
EXPLORACION
Clustering
Networks o mapas
autoorganizaciones
Clustering
Principales componentes
Link Analysis
Asociaciones
Secuencias
Analisis factorial
El proceso mediante el cual funciona la minera de datos puede ser

entendido como un conjunto de herramientas que se aplican es decir,
muestra, exploracin, modificacin, creacin de modelos y asesoramiento.
Estos cinco escalones consisten en dibujar una muestra estadsticamente
significativa de los datos, aplicarle tcnicas de exploracin, estadsticas y de
visualizacin, maniobras de modificacin o manipulacin para seleccionar o
transformar las variables ms significativas y predictivas, modelar estas
variables para la prediccin de resultados y confirmar , por ltimo, el ajuste
del modelo. El proceso se puede repetir las veces que sea necesario. El fin
ltimo de la minera de datos es generalizar los resultados obtenidos.
Se detalla los procesos de la minera de datos
11
I.6
Alcance de Data Mining

El nombre de Data Mining deriva de las similitudes entre buscar valiosa
informacin de negocios en grandes bases de datos - por ej.: encontrar
informacin de la venta de un producto entre grandes montos de Gigabytes
almacenados - y minar una montaa para encontrar una veta de metales
valiosos. Ambos procesos requieren examinar una inmensa cantidad de
material, o investigar inteligentemente hasta encontrar exactamente donde
residen los valores.
Dadas bases de datos de suficiente tamao y calidad, la tecnologa de Data
Mining puede generar nuevas oportunidades de negocios al proveer estas
capacidades:
Prediccin automatizada de tendencias y comportamientos. Data
Mining automatiza el proceso de encontrar informacin predecible en
grandes bases de datos. Preguntas que tradicionalmente requeran un
intenso anlisis manual, ahora pueden ser contestadas directa y
rpidamente desde los datos. Un tpico ejemplo de problema
predecible es el marketing apuntado a objetivos (targeted marketing).
12
Data Mining usa datos en mailing promocionales anteriores para

identificar posibles objetivos para maximizar los resultados de la
inversin en futuros mailing. Otros problemas predecibles incluyen
pronsticos de problemas financieros futuros y otras formas de
incumplimiento,
identificar
segmentos
de
poblacin
que
probablemente respondan similarmente a eventos dados.

Descubrimiento
automatizado
de
modelos
previamente
desconocidos. Las herramientas de Data Mining barren las bases de

datos e identifican modelos previamente escondidos en un slo paso.
Otros problemas de descubrimiento de modelos incluye detectar
transacciones fraudulentas de tarjetas de crditos e identificar datos
anormales que pueden representar errores de tipiado en la carga de
datos.
I.7
Extraccin de conocimiento en bases de datos

Histricamente, a la nocin de encontrar patrones tiles en los datos se le
ha dado una gran variedad de nombres, como minera de datos, extraccin
de
conocimiento,
descubrimiento
de
informacin,
recoleccin
de
informacin, arqueologa de datos, y procesamiento de patrones en datos.

El trmino minera de datos se ha usado con mayor frecuencia en las
comunidades de estadstica, anlisis de datos y sistemas de administracin
de la informacin. Dicho trmino tambin ha ganado popularidad en el
campo de las bases de datos. Sin embargo, en estricto sentido, la minera
de datos y la extraccin de conocimiento en bases de datos no son
conceptos equivalentes.
I.8
Tcnicas de Minera de Datos

En los ltimos aos han existido muchos avances en las investigaciones y
desarrollos relacionados con la minera de datos, como resultado, se han
desarrollado diversas tcnicas y sistemas relativos al data mining.
13
Diferentes esquemas de clasificacin pueden ser usados para categorizar

mtodos y sistemas de minado de datos, como el tipo de base de datos a
estudiar (relacional, orientada a objetos, multimedia, etc.), el tipo de
conocimiento que se quiere extraer (reglas de asociacin, reglas de
clasificacin, clustering, etc.), as como las tcnicas que sern aplicadas en
el proceso (basadas en patrones, teora estadstica, teora matemtica,
enfoques integradores, etc.).
En la prctica, los mtodos de data mining ms utilizados caen dentro de la
categora de tipo de conocimiento a extraer. Las tcnicas de minado de
datos pertenecientes a esta categora buscan hacer prediccin y/o
descripcin de un fenmeno determinado.
La prediccin implica utilizar algunas variables o campos de una base de
datos para predecir valores desconocidos o futuros de otras variables de
inters, mientras que la descripcin est enfocada a encontrar patrones
humano-interpretables que describen los datos. Aunque las fronteras entre
la prediccin y la descripcin no sean muy marcadas (parte de los modelos
predictivos pueden ser descriptivos, al grado de que estos sean
entendibles, y viceversa), la distincin es til para entender la meta general
de la extraccin de conocimiento. La importancia relativa de la prediccin y
la descripcin para aplicaciones particulares de minando datos puede variar
considerablemente. Las metas de la prediccin y la descripcin se pueden
lograr utilizando una variedad de mtodos particulares de data mining.
1.8.1 Reglas de asociacin
Mediante el minado de reglas de asociacin se pueden encontrar

interesantes relaciones de asociacin o correlacin en los datos.
Dada la gran cantidad de datos que continuamente se recolectan y
almacenan, muchas industrias se han interesado por encontrar
reglas de asociacin en sus bases de datos. El descubrimiento de
interesantes relaciones de asociacin en grandes cantidades de
14
registros transaccionales, puede ayudar en diversos procesos de

toma de decisiones relacionados con el negocio, tales como el
diseo de catlogos, la venta cruzada, y el anlisis loss-leader.
Una regla de asociacin es un criterio que implica ciertas relaciones
de asociacin entre distintos objetos de una base de datos, tales
como ocurren juntos o uno implica al otro.
1.8.2 Clasificacin y prediccin
La clasificacin y la prediccin son dos formas de anlisis de datos

que pueden ser usadas para extraer modelos que describen
importantes clases de datos o predicen valores futuros.
En la clasificacin de datos se desarrolla una descripcin o modelo
para cada una de las clases presentes en la base de datos. Existen
muchos mtodos de clasificacin tales como los rboles de decisin,
los mtodos estadsticos, las redes neuronales, y los conjuntos
difusos, entre otros.
La prediccin puede ser vista como la construccin y uso de modelos
para evaluar las clases de una muestra sin clasificaciones, o para
evaluar el valor, o rango de valores, que un atributo debera de tener
para una muestra determinada.70 En el primer caso se dice que se
est haciendo una clasificacin de los datos, mientras que en el
segundo, se dice que se est haciendo una prediccin valores, en
otras palabras, la clasificacin se refiere a poder predecir valores
discretos o nominales, mientras que la prediccin, propiamente
dicha, se refiere al pronstico de valores continuos.
1.8.3 Clustering
El Clustering identifica grupos de datos que son similares. La

similitud
puede
medirse
mediante
funciones
de
distancia
especificadas por los usuarios o por expertos.

15
CAPITULO II - ARQUITECTURA DATA MINING

2.1
Arquitectura para Data Mining

Para aplicar mejor estas tcnicas avanzadas, stas deben estar totalmente
integradas con el data warehouse as como con herramientas flexibles e
interactivas para el anlisis de negocios. Varias herramientas de Data
Mining actualmente operan fuera del warehouse, requiriendo pasos extra
para extraer, importar y analizar los datos. Adems, cuando nuevos
conceptos requieren implementacin operacional, la integracin con el
warehouse simplifica la aplicacin de los resultados desde Data Mining.
16
El punto de inicio ideal es un data warehouse que contenga una

combinacin de datos de seguimiento interno de todos los clientes junto con
datos externos de mercado acerca de la actividad de los competidores.
Informacin histrica sobre potenciales clientes tambin provee una
excelente base para prospecting. Este warehouse puede ser implementado
en una variedad de sistemas de bases relacionales y debe ser optimizado
para un acceso a los datos flexible y rpido.
Un server multidimensional OLAP permite que un modelo de negocios ms
sofisticado pueda ser aplicado cuando se navega por el data warehouse.
Las estructuras multidimensionales permiten que el usuario analice los
datos de acuerdo a como quiera mirar el negocio resumido por lnea de
producto, u otras perspectivas claves para su negocio.
El server de Data Mining debe estar integrado con el data warehouse y el
server OLAP para insertar el anlisis de negocios directamente en esta
infraestructura. Un avanzado, metadata centrado en procesos define los
objetivos del Data Mining para resultados especficos tales como manejos
de campaa, prospecting, y optimizacin de promociones. La integracin
con el data warehouse permite que decisiones operacionales sean
implementadas directamente y monitoreadas. A medida que el data
warehouse crece con nuevas decisiones y resultados, la organizacin
puede "minar" las mejores prcticas y aplicarlas en futuras decisiones.
Este diseo representa una transferencia fundamental desde los sistemas
de soporte de decisin convencionales. Ms que simplemente proveer
datos a los usuarios finales a travs de software de consultas y reportes, el
server de Anlisis Avanzado aplica los modelos de negocios del usuario
directamente al warehouse y devuelve un anlisis proactivo de la
informacin ms relevante. Estos resultados mejoran los metadatos en el
server OLAP proveyendo un estrato de metadatos que representa una vista
fraccionada de los datos. Generadores de reportes, visualizadores y otras
17
herramientas de anlisis pueden ser aplicadas para planificar futuras

acciones y confirmar el impacto de esos planes.
2.2
Fases de un Proyecto
Los pasos a seguir para la realizacin de un proyecto de minera de datos
son siempre los mismos, independientemente de la tcnica especfica de
extraccin de conocimiento usada.
El proceso de minera de datos pasa por las siguientes fases:
Filtrado de datos.
Seleccin de Variables.
Extraccin de Conocimiento.
Interpretacin y Evaluacin.
Figura 2
2.3
Filtrado de datos
El formato de los datos contenidos en la fuente de datos (base de datos,
Data Warehouse...) nunca es el idneo, y la mayora de las veces no es
posible ni siquiera utilizar ningn algoritmo de minera sobre los datos en
bruto.
Mediante el preprocesado, se filtran los datos (de forma que se eliminan
valores incorrectos, no vlidos, desconocidos... segn las necesidades y el
algoritmo a usar), se obtienen muestras de los mismos (en busca de una
mayor velocidad de respuesta del proceso), o se reducen el nmero de
valores posibles (mediante redondeo, clustering,etc).
18
2.4
Seleccin de variables
An despus de haber sido preprocesados, en la mayora de los casos se
tiene una cantidad muy grande de datos. La seleccin de caractersticas
reduce el tamao de los datos eligiendo las variables ms influyentes en el
problema, sin apenas sacrificar la calidad del modelo de conocimiento
obtenido del proceso de minera.
Los mtodos para la seleccin de caractersticas son bsicamente dos:
Aquellos basados en la eleccin de los mejores atributos del
problema,
Y aquellos que buscan variables independientes mediante tests de
sensibilidad, algoritmos de distancia o heursticos.
2.5
Algoritmos de Extraccin de Conocimiento

Mediante una tcnica de minera de datos, se obtiene un modelo de
conocimiento, que representa patrones de comportamiento observados en
los valores de las variables del problema o relaciones de asociacin entre
dichas variables. Tambin pueden usarse varias tcnicas a la vez para
generar distintos modelos, aunque generalmente cada tcnica obliga a un
preprocesado diferente de los datos.
Las tcnicas ms representativas son:
Redes
neuronales:
Son
un
paradigma
de
aprendizaje
procesamiento automtico inspirado en la forma en que funciona el

sistema nervioso de los animales. Se trata de un sistema de
interconexin de neuronas en una red que colabora para producir un
estmulo de salida.
Algunos ejemplos de red neuronal son:
o El Perceptrn.
o El Perceptrn multicapa.
o Los Mapas Autoorganizados, tambin conocidos como redes
de Kohonen.
19
rboles de decisin: Un rbol de decisin es un modelo de

prediccin utilizado en el mbito de la inteligencia artificial, dada una
base de datos se construyen estos diagramas de construcciones
lgicas, muy similares a los sistemas de prediccin basados en reglas,
que sirven para representar y categorizar una serie de condiciones
que suceden de forma sucesiva, para la resolucin de un problema.
Ejemplos:
o Algoritmo ID3.
o Algoritmo C4.5.
Modelos estadsticos: Es una expresin simblica en forma de
igualdad o ecuacin que se emplea en todos los diseos
experimentales y en la regresin para indicar los diferentes factores
que modifican la variable de respuesta.
Agrupamiento o Clustering: Es un procedimiento de agrupacin de
una serie de vectores segn criterios habitualmente de distancia; se
tratar de disponer los vectores de entrada de forma que estn ms
cercanos aquellos que tengan caractersticas comunes.
Ejemplos:
o Algoritmo K-means.
o Algoritmo K-medoids.
2.6
Interpretacin y evaluacin
Una vez obtenido el modelo, se debe proceder a su validacin,
comprobando que las conclusiones que arroja son vlidas y suficientemente
satisfactorias. En el caso de haber obtenido varios modelos mediante el uso
de distintas tcnicas, se deben comparar los modelos en busca de aquel
que se ajuste mejor al problema. Si ninguno de los modelos alcanza los
resultados esperados, debe alterarse alguno de los pasos anteriores para
generar nuevos modelos.
20
CAPITULO III - Aplicaciones de Casos del Data Mining

Cada ao, en los diferentes congresos, simposios y talleres que se realizan en el
mundo se renen investigadores con aplicaciones muy diversas. Sobre todo en
los Estados Unidos, el data mining se ha ido incorporando a la vida de empresas,
gobiernos, universidades, hospitales y diversas organizaciones que estn
interesadas en explorar sus bases de datos.
4.1. Gobierno
El FBI analizar las bases de datos comerciales para detectar
terroristas.
A principios del mes de julio de 2002, el director del Federal Bureau of
Investigation (FBI), John Aschcroft, anunci que el Departamento de
Justicia comenzar a introducirse en la vasta cantidad de datos comerciales
referentes a los hbitos y preferencias de compra de los consumidores, con
el fin de descubrir potenciales terroristas antes de que ejecuten una accin.
Algunos expertos aseguran que, con esta informacin, el FBI unir todas las
21
bases de datos probablemente mediante el nmero de la Seguridad Social

y permitir saber si una persona fuma, qu talla y tipo de ropa usa, su
registro de arrestos, su salario, las revistas a las que est suscrito, su altura
y peso, sus contribuciones a la Iglesia, grupos polticos u organizaciones no
gubernamentales, sus enfermedades crnicas (como diabetes o asma), los
libros que lee, los productos de supermercado que compra, si tom clases
de vuelo o si tiene cuentas de banco abiertas, entre otros. La inversin
inicial ronda los setenta millones de dlares estadounidenses para
consolidar los almacenes de datos, desarrollar redes de seguridad para
compartir informacin e implementar nuevo software analtico y de
visualizacin.
4.2. Empresa
Deteccin de fraudes en las tarjetas de crdito.
En 2001, las instituciones financieras a escala mundial perdieron ms de
2.000 millones de dlares estadounidenses en fraudes con tarjetas de
crdito y dbito. El Falcon Fraud Manager es un sistema inteligente que
examina transacciones, propietarios de tarjetas y datos financieros para
detectar y mitigar fraudes. En un principio estaba pensado, en instituciones
financieras de Norteamrica, para detectar fraudes en tarjetas de crdito.
Sin embargo, actualmente se le han incorporado funcionalidades de anlisis
en las tarjetas comerciales, de combustibles y de dbito. El sistema Falcon
ha permitido ahorrar ms de 600 millones de dlares estadounidenses cada
ao y protege aproximadamente ms de 450 millones de pagos con tarjeta
en todo el mundo -aproximadamente el 65% de todas las transacciones con
tarjeta de crdito.
Descubriendo el porqu de la desercin de clientes de una compaa

operadora de telefona mvil.
Este estudio fue desarrollado en una operadora espaola que bsicamente
situ sus objetivos en dos puntos: el anlisis del perfil de los clientes que se
22
dan de baja y la prediccin del comportamiento de sus nuevos clientes. Se

analizaron los diferentes histricos de clientes que haban abandonado la
operadora (12,6%) y de clientes que continuaban con su servicio (87,4%).
Tambin se analizaron las variables personales de cada cliente (estado civil,
edad, sexo, nacionalidad, etc.). De igual forma se estudiaron, para cada
cliente, la morosidad, la frecuencia y el horario de uso del servicio, los
descuentos y el porcentaje de llamadas locales, interprovinciales,
internacionales y gratuitas. Al contrario de lo que se podra pensar, los
clientes que abandonaban la operadora generaban ganancias para la
empresa; sin embargo, una de las conclusiones ms importantes radic en
el hecho de que los clientes que se daban de baja reciban pocas
promociones y registraban un mayor nmero de incidencias respecto a la
media. De esta forma se recomend a la operadora hacer un estudio sobre
sus ofertas y analizar profundamente las incidencias recibidas por esos
clientes. Al descubrir el perfil que presentaban, la operadora tuvo que
disear un trato ms personalizado para sus clientes actuales con esas
caractersticas. Para poder predecir el comportamiento de sus nuevos
clientes se dise un sistema de prediccin basado en la cantidad de datos
que se poda obtener de los nuevos clientes comparados con el
comportamiento de clientes anteriores.
Hbitos de compra en supermercados.
Un estudio muy citado detect que los viernes haba una cantidad
inusualmente elevada de clientes que adquiran a la vez paales y cerveza.
Se detect que se deba a que dicho da solan acudir al supermercado
padres jvenes cuya perspectiva para el fin de semana consista en
quedarse en casa cuidando de su hijo y viendo la televisin con una
cerveza en la mano. El supermercado pudo incrementar sus ventas de
cerveza colocndolas prximas a los paales para fomentar las ventas
compulsivas.
Prediciendo el tamao de las audiencias televisivas.
23
La British Broadcasting Corporation (BBC) del Reino Unido emplea un

sistema para predecir el tamao de las audiencias televisivas para un
programa propuesto, as como el tiempo ptimo de exhibicin (Brachman y
otros, 1996). El sistema utiliza redes neuronales y rboles de decisin
aplicados a datos histricos de la cadena para determinar los criterios que
participan segn el programa que hay que presentar. La versin final se
desempea tan bien como un experto humano con la ventaja de que se
adapta ms fcilmente a los cambios porque es constantemente reentrenada con datos actuales.
4.3. Universidad
Conociendo si los recin titulados de una universidad llevan a cabo
actividades profesionales relacionadas con sus estudios.
Se hizo un estudio sobre los recin titulados de la carrera de Ingeniera en
Sistemas Computacionales del Instituto Tecnolgico de Chihuahua II, en
Mjico (Rodas, 2001). Se quera observar si sus recin titulados se
insertaban en actividades profesionales relacionadas con sus estudios y, en
caso negativo, se buscaba saber el perfil que caracteriz a los exalumnos
durante su estancia en la universidad. El objetivo era saber si con los
planes de estudio de la universidad y el aprovechamiento del alumno se
haca una buena insercin laboral o si existan otras variables que
participaban en el proceso. Dentro de la informacin considerada estaba el
sexo, la edad, la escuela de procedencia, el desempeo acadmico, la zona
econmica donde tena su vivienda y la actividad profesional, entre otras
variables. Mediante la aplicacin de conjuntos aproximados se descubri
que existan cuatro variables que determinaban la adecuada insercin
laboral, que son citadas de acuerdo con su importancia: zona econmica
donde habitaba el estudiante, colegio de donde provena, nota al ingresar y
promedio final al salir de la carrera. A partir de estos resultados, la
universidad tendr que hacer un estudio socioeconmico sobre grupos de
alumnos que pertenecan a las clases econmicas bajas para dar posibles
24
soluciones, debido a que tres de las cuatro variables no dependan de la

universidad.
4.4. Investigaciones Espaciales

Proyecto SKYCAT.
Durante seis aos, el Second Palomar Observatory Sky Survey (POSS-II)
coleccion tres terabytes de imgenes que contenan aproximadamente dos
millones de objetos en el cielo. Tres mil fotografas fueron digitalizadas a
una resolucin de 16 bits por pxel con 23.040 x 23.040 pxeles por imagen.
El objetivo era formar un catlogo de todos esos objetos. El sistema Sky
Image Cataloguing and Analysis Tool (SKYCAT) se basa en tcnicas de
agrupacin (clustering) y rboles de decisin para poder clasificar los
objetos en estrellas, planetas, sistemas, galaxias, etc. con una alta
confiabilidad (Fayyad y otros, 1996). Los resultados han ayudado a los
astrnomos a descubrir diecisis nuevos qusars con corrimiento hacia el
rojo que los incluye entre los objetos ms lejanos del universo y, por
consiguiente, ms antiguos. Estos qusars son difciles de encontrar y
permiten saber ms acerca de los orgenes del universo.
4.5. Clubes Deportivos
Los equipos de la NBA utilizan aplicaciones inteligentes para apoyar a
su cuerpo de entrenadores.
El Advanced Scout es un software que emplea tcnicas de data mining y
que han desarrollado investigadores de IBM para detectar patrones
estadsticos y eventos raros. Tiene una interfaz grfica muy amigable
orientada a un objetivo muy especfico: analizar el juego de los equipos de
la National Basketball Association (NBA). El software utiliza todos los
registros guardados de cada evento en cada juego: pases, encestes,
rebotes y doble marcaje (double team) a un jugador por el equipo contrario,
25
entre otros. El objetivo es ayudar a los entrenadores a aislar eventos que no

detectan cuando observan el juego en vivo o en pelcula.
Un resultado interesante fue uno hasta entonces no observado por los
entrenadores de los Knicks de Nueva York. El doble marcaje a un jugador
puede generalmente dar la oportunidad a otro jugador de encestar ms
fcilmente. Sin embargo, cuando los Bulls de Chicago jugaban contra los
Knicks, se encontr que el porcentaje de encestes despus de que al centro
de los Knicks, Patrick Ewing, le hicieran doble marcaje era extremadamente
bajo, indicando que los Knicks no reaccionaban correctamente a los dobles
marcajes. Para saber el porqu, el cuerpo de entrenadores estudi
cuidadosamente todas las pelculas de juegos contra Chicago. Observaron
que los jugadores de Chicago rompan su doble marcaje muy rpido de tal
forma que podan tapar al encestador libre de los Knicks antes de
prepararse para efectuar su tiro. Con este conocimiento, los entrenadores
crearon estrategias alternativas para tratar con el doble marcaje.
26
CAPITULO IV - SOFTWARE WEKA

4.1.
Software de minera de datos en Java

WEKA fue desarrollado en la Universidad de Waikato en Nueva Zelanda. El
sistema esta desarrollado en Java, un lenguaje de programacin orientado
a objetos disponible para lamayora de las plataformas de cmputo. WEKA
ha sido probado bajo sistemas operativos como Linux, Windows y
Macintosh. El lenguaje Java permite ofrecer una interfase uniforme a los
diferentes algoritmos de aprendizaje, todos ellos con mtodos de
preproceso, postproceso y evaluacin de resultados de los diferentes
esquemas de aprendizaje.
27
Grfica 3.6 WEKA (Waikato Environment for Knowledge Analysis)
Hay diferentes niveles en los que WEKA puede ser utilizado. El primero, ofrece
Implementaciones de los algoritmos de aprendizaje pertenecientes al estado del
arte, los cuales pueden ser aplicados a conjuntos de datos mediante una lnea de
comandos. Tambin se incluyen una gran variedad de herramientas para
transformar datos, como los algoritmos de desratizacin. Asimismo se puede
preprocesar un conjunto de datos, alimentndolo dentro de un esquema de
aprendizaje, analizando el clasificador resultante y su desempeo, todo ello sin
escribir una sola lnea de cdigo.
Cabe sealar que el enfoque principal de WEKA est en los algoritmos de
clasificacin y filtrado.
Sin embargo, tambin incluye implementaciones de algoritmos de reglas de
asociacin y clustering.
28
4.2.
WEKA Knowledge Explorer
Dentro del ambiente grfico de WEKA se encuentra el mdulo exploracin de

datos el cual permite preprocesar, clasificar, asociar y visualizar datos de una
manera fcil e intuitiva.
WEKA cuenta con una gran variedad de algoritmos de clasificacin entre los que
destacan los mtodos bayesianos, las reglas de clasificacin los mtodos de
regresin (Regresin Lineal, Regresin Logstica, etc.) y los rboles de decisin.
Grfica 3.7 WEKA Knowledge Explorer
29
4.3.
El algoritmo J4.8
El algoritmo J4.8 induce rboles de decisin. Es la implementacin en WEKA del

algoritmo C4.5 revisin 8, la cual fue la ltima versin pblica de esta familia de
algoritmos, posteriormente apareci la primera implementacin comercial, es decir,
el algoritmo C5.0.
Dentro de las opciones que J4.8 soporta estn:
La poda de rboles
La especificacin de factores de confianza para la poda
La especificacin de un mnimo de instancias en las hojas
La poda de rboles con error reducido
La especificacin del nmero de datos en podas con error reducido
El uso de particiones binarias en atributos nominales
A continuacin se presenta la salida de un rbol de decisin producido por el

algoritmo J4.8:
30
31
CONCLUSIN
El Data Mining es una tcnica de extraccin de informacin valiosa.

El Data Mining no se debe confundir con un software, aunque integre varias
reas.
En el Data Mining se busca que de los datos emerjan hiptesis.
El Data Mining requiere tecnologa adecuada y una buena organizacin de
los datos para garantizar su ptimo desempeo.

El usuario del Data Mining puede tener o no un alto conocimiento de
programacin para aplicar esta tcnica.

El Data Mining y los Almacenes de Datos estn fuertemente relacionados,
en lo que arquitectura se refiere.

Segn el objetivo del anlisis de los datos, los algoritmos utilizados se
clasifican en supervisados y no supervisados.

El Data Mining puede ser aplicado en distintos entornos como: el gobierno,
la empresa, la universidad, los deportes, etc.
BIBLIOGRAFA
1. Vallejos, S. J. (2006). Minera de Datos. Obtenido de Universidad Nacional del

Nordeste:
http://exa.unne.edu.ar/depar/areas/informatica/SistemasOperativos/Mineria_Da
tos_Vallejos.pdf
32
2. Saiz, M. D. Tesis Doctorial Mineria de datos para el anlisis de los

antecedentes familiares de la conducta suicida.
3. Pyle, Doriam (1999). Data preparation for Data Mining. Morgan Kaufmann.
4. Zeleznikow, J., 2005. Using Data Mining to Detect Criminal Networks.
URL:http://www.aic.gov.au/conferences/occasional/2005-04.zeleznikow.html.
Acceso mayo 2007.
5. Witten, I. H. y Frank, E. (2000). Data Mining: Practical machine learning tools
and techniques with java implementations. San Francisco: Morgan Kaufmann
Publishers.
6. Smith, K. A., Willis, R. J. y Brooks, M. (2000). An analysis of customer retention
and insurance claim patterns using data mining: a case study. Journal of the
OperationalResearch Society, 51 (5), 532-541.
GLOSARIO DE TRMINOS
Algoritmos genticos: Tcnicas de optimizacin que usan procesos tales

como combinacin gentica, mutacin y seleccin natural en un diseo
basado en los conceptos de evolucin natural.
33
rbol de decisin: Estructura en forma de rbol que representa un

conjunto de decisiones. Estas decisiones generan reglas para la
clasificacin de un conjunto de datos. Ver CART y CHAID.
Base de datos multidimensional: Base de datos diseada para

procesamiento analtico on-line (OLAP). Estructurada como un hipercubo
con un eje por dimensin.
Clasificacin: Proceso de dividir un conjunto de datos en grupos

mutuamente excluyentes de tal manera que cada miembro de un grupo
est lo "ms cercano" posible a otro, y grupos diferentes estn lo "ms
lejos" posible uno del otro, donde la distancia est medida con respecto a
variable(s) especfica(s) las cuales se estn tratando de predecir. Por
ejemplo, un problema tpico de clasificacin es el de dividir una base de
datos de compaas en grupos que son lo ms homogneos posibles con
respecto a variables como "posibilidades de crdito" con valores tales como
"Bueno" y "Malo".
Clustering (agrupamiento): Proceso de dividir un conjunto de datos en

grupos mutuamente excluyentes de tal manera que cada miembro de un
grupo est lo "ms cercano" posible a otro, y grupos diferentes estn lo
"ms lejos" posible uno del otro, donde la distancia est medida con
respecto a todas las variables disponibles.
Data cleansing: Proceso de asegurar que todos los valores en un conjunto

de datos sean consistentes y correctamente registrados.
Data Mining: La extraccin de informacin predecible escondida en

grandes bases de datos.
Data Warehouse: Sistema para el almacenamiento y distribucin de

cantdades masivas de datos
Dimensin: En una base de datos relacional o plana, cada campo en un

registro representa una dimensin. En una base de datos multidimensional,
una dimensin es un conjunto de entidades similares; por ej.: una base de
34
datos multidimensional de ventas podra incluir las dimensiones Producto,

Tiempo y Ciudad.
Modelo analtico: Una estructura y proceso para analizar un conjunto de

datos. Por ejemplo, un rbol de decisin es un modelo para la clasificacin
de un conjunto de datos
Modelo lineal: Un modelo analtico que asume relaciones lineales entre

una variable seleccionada (dependiente) y sus predictores (variables
independientes).
Modelo no lineal: Un modelo analtico que no asume una relacin lineal en

los coeficientes de las variables que son estudiadas.
Modelo predictivo: Estructura y proceso para predecir valores de variables

especificadas en un conjunto de datos.
Navegacin de datos: Proceso de visualizar diferentes dimensiones,

"fetas" y niveles de una base de datos multidimensional. Ver OLAP.
OLAP Procesamiento analtico on-line (On Line Analitic prossesing):

Se refiere a aplicaciones de bases de datos orientadas a array que permite
a los usuarios ver, navegar, manipular y analizar bases de datos
multidimensionales.
Procesamiento paralelo: Uso coordinado de mltiples procesadores para

realizar tareas computacionales. El procesamiento paralelo puede ocurrir en
una computadora con mltiples procesadores o en una red de estaciones
de trabajo o PCs.
35

Data Mining

Uploaded by

Document Information

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

Data Mining

Uploaded by

Copyright:

Available Formats

ASOCIACINUNIVERSIDAD PRIVADA

SAN JUAN BAUTISTA

DATA MINING MINERIA DE DATOS

En el camino recorrido hasta aqu tuve la oportunidad de conocer a muchas

Prof. Zico Alexis

Dr.Miller Liendo, Profesor y autor de Datawearhouse por la informacin

Jefe de Word Place Externo Leopoldo Rijavec por el apoyo solicitado.

CAPITULO I - CONCEPTOS BSICOS..................................................................7

Los Fundamentos del Data Mining...............................................................8

Principales caractersticas y objetivos de la Minera de Datos..........................9

Alcance de Data Mining............................................................................12

Extraccin de conocimiento en bases de datos............................................13

Tcnicas de Minera de Datos...................................................................14

CAPITULO II - ARQUITECTURA DATA MINING.....................................................17

Una arquitectura para Data Mining.............................................................17

Algoritmos de Extraccin de Conocimiento..................................................20

CAPITULO III - Aplicaciones de Casos del Data Mining............................................22

CAPITULO IV - SOFTWARE WEKA....................................................................28

Software de minera de datos en Java........................................................28

WEKA Knowledge Explorer.......................................................................30

El Data Mining surgi como una tcnica novedosa a la situacin en la cual se

descubrimiento de esta data til se logra a travs de procesos de redes

CAPITULO I - CONCEPTOS BSICOS

Una definicin tradicional es la siguiente: Un proceso no trivial de

Los Fundamentos del Data Mining

reconocimiento, el aprendizaje de las mquinas, la visualizacin de datos y

puedan ser fcilmente consultadas, actualizadas o utilizadas para extraer

Principales caractersticas y objetivos de la Minera de Datos

El minero es, muchas veces un usuario final con poca o ninguna

De ah que la minera de datos debe presentar un enfoque exploratorio, y

El proceso mediante el cual funciona la minera de datos puede ser

Alcance de Data Mining

Data Mining usa datos en mailing promocionales anteriores para

probablemente respondan similarmente a eventos dados.

desconocidos. Las herramientas de Data Mining barren las bases de

Extraccin de conocimiento en bases de datos

informacin, arqueologa de datos, y procesamiento de patrones en datos.

Tcnicas de Minera de Datos

Diferentes esquemas de clasificacin pueden ser usados para categorizar

Mediante el minado de reglas de asociacin se pueden encontrar

registros transaccionales, puede ayudar en diversos procesos de

La clasificacin y la prediccin son dos formas de anlisis de datos

El Clustering identifica grupos de datos que son similares. La

especificadas por los usuarios o por expertos.

CAPITULO II - ARQUITECTURA DATA MINING

Arquitectura para Data Mining

El punto de inicio ideal es un data warehouse que contenga una

herramientas de anlisis pueden ser aplicadas para planificar futuras

Algoritmos de Extraccin de Conocimiento

procesamiento automtico inspirado en la forma en que funciona el

rboles de decisin: Un rbol de decisin es un modelo de

CAPITULO III - Aplicaciones de Casos del Data Mining

bases de datos probablemente mediante el nmero de la Seguridad Social

Descubriendo el porqu de la desercin de clientes de una compaa

dan de baja y la prediccin del comportamiento de sus nuevos clientes. Se

La British Broadcasting Corporation (BBC) del Reino Unido emplea un

soluciones, debido a que tres de las cuatro variables no dependan de la

4.4. Investigaciones Espaciales

entre otros. El objetivo es ayudar a los entrenadores a aislar eventos que no

CAPITULO IV - SOFTWARE WEKA

Software de minera de datos en Java

Grfica 3.6 WEKA (Waikato Environment for Knowledge Analysis)

WEKA Knowledge Explorer

Dentro del ambiente grfico de WEKA se encuentra el mdulo exploracin de