Professional Documents
Culture Documents
DEDICATORIA
Se lo dedicamos a nuestros padres
por el apoyo incondicionales a y
nuestros profesores por formanos
como profesionales
AGRADECIMIENTOS
INDICE
INTRODUCCIN................................................................................................... 5
3
Historia.................................................................................................... 7
1.3
Antecedentes y necesidades.......................................................................8
1.4
1.5
1.6
1.7
1.8
2.2
Fases de un Proyecto..............................................................................18
2.3
Filtrado de datos...................................................................................... 19
2.4
Seleccin de variables.............................................................................. 19
2.5
2.6
Interpretacin y evaluacin.......................................................................21
Gobierno................................................................................................ 22
4.2.
Empresa................................................................................................ 23
4.3.
Universidad............................................................................................ 25
4.4.
Investigaciones Espaciales.......................................................................26
4.5.
Clubes Deportivos................................................................................... 26
4.2.
4.3.
El algoritmo J4.8...................................................................................... 31
CONCLUSIN..................................................................................................... 33
BIBLIOGRAFA.................................................................................................... 34
GLOSARIO DE TRMINOS...................................................................................35
INTRODUCCIN
El
Dentro de estas enormes masas de datos existe una gran cantidad de informacin
oculta, de gran importancia estratgica, a la que no se puede acceder por las
tcnicas clsicas de recuperacin de la informacin. El descubrimiento de esta
informacin oculta es posible gracias a la Minera de Datos (DataMining), que
entre otras sofisticadas tcnicas aplica la inteligencia artificial para encontrar
patrones y relaciones dentro de los datos permitiendo la creacin de modelos, es
decir, representaciones abstractas de la realidad, pero es el descubrimiento del
conocimiento (KDD, por sus siglas en ingls) que se encarga de la preparacin de
los datos y la interpretacin de los resultados obtenidos, los cuales dan un
significado a estos patrones encontrados.
Los pasos generales de un proceso de extraccin de conocimiento se pueden
observar en la siguiente figura (Figura 1).
Figura 1
Historia
La idea de data mining no es nueva. Ya desde los aos sesenta los
estadsticos manejaban trminos como data fishing, data mining o data
archaeology con la idea de encontrar correlaciones sin una hiptesis previa
en bases de datos con ruido. A principios de los aos ochenta, Rakesh
Agrawal, Gio Wiederhold, Robert Blum y Gregory Piatetsky-Shapiro, entre
otros, empezaron a consolidar los trminos de data mining y KDD. A finales
de los aos ochenta slo existan un par de empresas dedicadas a esta
tecnologa; en 2002 existen ms de 100 empresas en el mundo que ofrecen
alrededor de 300 soluciones. Las listas de discusin sobre este tema las
forman investigadores de ms de ochenta pases. Esta tecnologa ha sido
un buen punto de encuentro entre personas pertenecientes al mbito
acadmico y al de los negocios.
El data mining es una tecnologa compuesta por etapas que integra varias
reas y que no se debe confundir con un gran software. Rene las ventajas
de varias reas como la Estadstica, la Inteligencia Artificial, la Computacin
Grfica, las Bases de Datos y el Procesamiento Masivo, principalmente
usando como materia prima las bases de datos.
7
Antecedentes y necesidades
El xito de una organizacin en un entorno globalizado depende en gran
medida del conocimiento de sus miembros y de sus habilidades para hacer
negocios. Sin embargo, las organizaciones no solo necesitan de
conocimiento, sino tambin necesitan tener la capacidad de actualizar
dinmicamente el conocimiento y ponerlo en prctica.
En esencia, deben ser capaces de resolver problemas, aprender de
experiencias propias y tambin de experiencias de otros, transfiriendo el
conocimiento y la informacin de forma rpida y eficiente a toda la
organizacin.
En nuestros das, la gran mayora de las organizaciones tienen la capacidad
de generar grandes volmenes de datos, esto de una forma rpida y
creciente como resultado de sus operaciones diarias, no obstante, pocas
son las organizaciones que producen informacin de verdadero valor.
Dentro de este contexto, surge la urgente necesidad de contar con una
nueva generacin de teoras y herramientas computacionales que ayuden
al ser humano a extraer informacin til (conocimiento) de los crecientes
volmenes de datos digitales.
I.4
la
tecnologa
de
bases
de
datos,
los
patrones
de
SUPERVISADO
Regresin logstica
Redes neuronales
Arboles de decisin
Razonamiento basado en la
NO SUPERVISADO
No factible
10
memoria
Maquinas de soporte vectorial
Arboles de decisin
CLASIFICACION Redes neuronales
Anlisis discriminante
Ensamblados
Clasificados
Arboles de decisin
EXPLORACION
Clustering
Networks o mapas
autoorganizaciones
Clustering
Principales componentes
Link Analysis
Asociaciones
Secuencias
Analisis factorial
11
I.6
identificar
segmentos
de
poblacin
que
automatizado
de
modelos
previamente
I.7
conocimiento,
descubrimiento
de
informacin,
recoleccin
de
puede
medirse
mediante
funciones
de
distancia
16
Fases de un Proyecto
Los pasos a seguir para la realizacin de un proyecto de minera de datos
son siempre los mismos, independientemente de la tcnica especfica de
extraccin de conocimiento usada.
El proceso de minera de datos pasa por las siguientes fases:
Filtrado de datos.
Seleccin de Variables.
Extraccin de Conocimiento.
Interpretacin y Evaluacin.
Figura 2
2.3
Filtrado de datos
El formato de los datos contenidos en la fuente de datos (base de datos,
Data Warehouse...) nunca es el idneo, y la mayora de las veces no es
posible ni siquiera utilizar ningn algoritmo de minera sobre los datos en
bruto.
Mediante el preprocesado, se filtran los datos (de forma que se eliminan
valores incorrectos, no vlidos, desconocidos... segn las necesidades y el
algoritmo a usar), se obtienen muestras de los mismos (en busca de una
mayor velocidad de respuesta del proceso), o se reducen el nmero de
valores posibles (mediante redondeo, clustering,etc).
18
2.4
Seleccin de variables
An despus de haber sido preprocesados, en la mayora de los casos se
tiene una cantidad muy grande de datos. La seleccin de caractersticas
reduce el tamao de los datos eligiendo las variables ms influyentes en el
problema, sin apenas sacrificar la calidad del modelo de conocimiento
obtenido del proceso de minera.
Los mtodos para la seleccin de caractersticas son bsicamente dos:
Aquellos basados en la eleccin de los mejores atributos del
problema,
Y aquellos que buscan variables independientes mediante tests de
sensibilidad, algoritmos de distancia o heursticos.
2.5
neuronales:
Son
un
paradigma
de
aprendizaje
Interpretacin y evaluacin
Una vez obtenido el modelo, se debe proceder a su validacin,
comprobando que las conclusiones que arroja son vlidas y suficientemente
satisfactorias. En el caso de haber obtenido varios modelos mediante el uso
de distintas tcnicas, se deben comparar los modelos en busca de aquel
que se ajuste mejor al problema. Si ninguno de los modelos alcanza los
resultados esperados, debe alterarse alguno de los pasos anteriores para
generar nuevos modelos.
20
26
27
Hay diferentes niveles en los que WEKA puede ser utilizado. El primero, ofrece
Implementaciones de los algoritmos de aprendizaje pertenecientes al estado del
arte, los cuales pueden ser aplicados a conjuntos de datos mediante una lnea de
comandos. Tambin se incluyen una gran variedad de herramientas para
transformar datos, como los algoritmos de desratizacin. Asimismo se puede
preprocesar un conjunto de datos, alimentndolo dentro de un esquema de
aprendizaje, analizando el clasificador resultante y su desempeo, todo ello sin
escribir una sola lnea de cdigo.
Cabe sealar que el enfoque principal de WEKA est en los algoritmos de
clasificacin y filtrado.
Sin embargo, tambin incluye implementaciones de algoritmos de reglas de
asociacin y clustering.
28
4.2.
29
4.3.
El algoritmo J4.8
30
31
CONCLUSIN
reas.
En el Data Mining se busca que de los datos emerjan hiptesis.
El Data Mining requiere tecnologa adecuada y una buena organizacin de
BIBLIOGRAFA
GLOSARIO DE TRMINOS
34
35