Professional Documents
Culture Documents
Qu es la minera de datos?
Aplicaciones
KDD (Knowledge
(Knowledge Discovery in Databases)
Databases)
Fuentes de datos
Evaluacin de resultados
Sistemas de minera de datos
1
Qu es la minera de datos?
Extraccin de patrones (conocimiento)
en grandes bases de datos.
Qu es la minera de datos?
Extraccin de conocimiento
en grandes bases de datos.
Requisitos
No trivial
Implcito
Previamente desconocido
Potencialmente til
3
Qu es la minera de datos?
Definiciones
Qu es la minera de datos?
How can I analyze this data?
Knowledge
Data rich,
Information poor
Conocimiento
(patrones interesantes)
5
Aplicaciones
KDD
KDD
Integracin de datos
(combinacin de mltiples fuentes de datos)
Reduccin/Seleccin de datos
(identificacin de datos relevantes para el problema)
Transformacin de datos
(preparacin de los datos para su anlisis)
Minera de datos
(tcnicas de extraccin de patrones y medidas de inters)
Presentacin de resultados
(tcnicas de visualizacin y de representacin del conocimiento)
8
KDD
KDD
Carcter multidisciplinar
Evaluacin de resultados
Resumen de datos
Bases de datos
Estadstica
Data Mining
IA
Aprendizaje
Representacin del conocimiento
KDD
Visualizacin
Presentacin de resultados
10
I keep saying the sexy job in the next ten years will be
statisticians. People think Im joking, but who wouldve
guessed that computer engineers wouldve been the sexy
job of the 1990s? The ability to take data
datato be able to
understand it, to process it, to extract value from it, to
visualize it, to communicate it
itthats going to be a hugely
important skill in the next decades
Because now we really do have essentially free and
ubiquitous data. So the complimentary scarce factor is the
ability to understand that data and extract value from it.
Hal R. Varian
Googles Chief Economist
Professor of Information Sciences, Business, and Economics
at the University of California at Berkeley
11
KDD
12
13
Modelos descriptivos
(describen el comportamiento de los datos de forma
que sea interpretable por un usuario experto).
Modelos predictivos
(adems de describir los datos, se utilizan para
predecir el valor de algn atributo desconocido).
14
15
Caracterizacin o resumen
Discriminacin o contraste
Patrones frecuentes, asociaciones y correlaciones
Clasificacin y prediccin
Deteccin de agrupamientos (clustering
(clustering))
Deteccin de anomalas (outliers
(outliers))
Anlisis de tendencias (series temporales)
16
el dominio de aplicacin
17
Fuentes de datos
Fuentes de datos
18
Fuentes de datos
Fuentes de datos
Evaluacin de resultados
Evaluacin de resultados
20
Evaluacin de resultados
Un resultado es interesante si
es comprensible (por seres humanos)
es vlido con cierto grado de certeza
es potencialmente til
es novedoso o sirve para validar una hiptesis
El inters de los resultados se puede evaluar
objetivamente (criterios estadsticos)
subjetivamente (perspectiva del usuario)
21
Interfaz de usuario
Evaluacin de patrones
Motor de minera de datos
Base de
conocimiento
Base de datos o
data warehouse
DB
DW
WWW
22
Datos relevantes
(lo que hay que analizar)
Tipo de conocimiento
(lo que se desea obtener)
Conocimiento previo
(background knowledge, para guiar el proceso)
Medidas de inters
(para evaluar los resultados obtenidos)
Tcnicas de representacin
(para representar los resultados obtenidos)
23
24
Temas de investigacin
Escalabilidad
Tcnicas incrementales
Algoritmos paralelos
Bibliografa
Pang-Ning Tan,
PangMichael Steinbach
& Vipin Kumar:
Kumar:
Introduction to Data Mining
Addison--Wesley
Addison
Wesley,, 2006.
ISBN 0321321367
Jiawei Han
& Micheline Kamber:
Kamber:
Data Mining:
Mining:
Concepts and Techniques
Morgan Kaufmann,
Kaufmann, 2006.
ISBN 1558609016
26
Bibliografa (investigacin)
Revistas
Congresos
27