Professional Documents
Culture Documents
Minera de Datos
Conceptos Importantes
Dato
Sistema OLTP
Informacin
Base de Datos
Minera de Datos
Conceptos Importantes
nuevo
recurso
de
la
Datos Internos (legacy systems) y Externos Conocimiento Data Warehouse: modelo multidimensional Nuevos Sistemas de Informacin (OLAP, DM, etc.)
Datos Externos
Minera de Datos
Conocimiento
BDs
Archivos
DW
Datos Internos
Minera de Datos
Definicin
Conocido tambin como descubrimiento de la informacin, permite moverse a travs de los conjuntos de datos para encontrar las tendencias, patrones y correlaciones que pueden guiar la toma de decisiones estratgicas. La idea es que el usuario inicie el proceso de minera de datos y espere el resultado final, el que puede ser parcial o aproximado, y susceptible de ser ajustado mediante una serie de consultas interactivas.
Minera de Datos
Objetivos
Descubrimiento de nuevos modelos que permitan predecir comportamiento futuro (modelos predictivos). Descripcin de los datos para ayudar al usuario a entenderlos mejor (modelos descriptivos).
Minera de Datos
Datos
Preparacin de Datos
Anlisis de Resultados
Minera de Datos
Taxonoma de las Tcnicas
Minera de Datos Dirigida por la Verificacin Verificacin SQL Generador SQL Dirigida por el Descubrimiento Predicc Prediccin Regresi Regresin Estadstica
Query Tools OLAP Visualizacin Visualizacin Segmentacin Asociacin Asociacin Asociacin Secuencial Secuenc
Minera de Datos
Taxonoma de las Tcnicas: ejemplo descriptivo
#Ej 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 Sueldo 10000 20000 15000 30000 10000 40000 25000 20000 20000 30000 50000 8000 20000 10000 8000 Casado S No S S S No No No S S No S No No No Coche No S S S S S No S S S No S No S S Hijos 0 1 2 1 0 0 0 0 3 2 0 2 0 0 0 Alq/Prop Alquiler Alquiler Prop Alquiler Prop Alquiler Alquiler Prop Prop Prop Alquiler Prop Alquiler Alquiler Alquiler Sindic. No S S No S S S S No No No No No S No Bajas/Ao 7 3 5 15 1 3 0 2 7 1 2 3 27 0 3 Antigedad 15 3 10 7 6 16 8 6 5 20 12 1 5 7 2 Sexo H M H M H M H M H H M H M H H
Minera de Datos
Taxonoma de las Tcnicas: ejemplo descriptivo (2)
cluster 1: 5 examples Sueldo : 22600 Casado : No -> 0.8 S -> 0.2 Coche : No -> 0.8 S -> 0.2 Hijos : 0 Alq/Prop : Alquiler -> 1.0 Sindic. : No -> 0.8 S -> 0.2 Bajas/Ao : 8 Antigedad : 8 Sexo : H -> 0.6 M -> 0.4 cluster 2: 4 examples Sueldo : 22500 Casado : No -> 1.0 Coche : S -> 1.0 Hijos : 0 Alq/Prop : Alquiler -> 0.75 Prop -> 0.25 Sindic. : S -> 1.0 Bajas/Ao : 2 Antigedad : 8 Sexo : H -> 0.25 M -> 0.75 cluster 3: 6 examples Sueldo : 18833 Casado : S -> 1.0 Coche : S -> 1.0 Hijos : 2 Alq/Prop : Alquiler -> 0.17 Prop -> 0.83 Sindic. : No -> 0.67 S -> 0.33 Bajas/Ao : 5 Antigedad : 8 Sexo : H -> 0.83 M -> 0.17
GRUPO 1: Sin hijos y de alquiler. Poco sindicalizados. Muchas bajas. GRUPO 2: Sin hijos y con coche. Muy sindicalizados. Pocas bajas. Normalmente de alquiler y mujeres.
9 GRUPO 3: Con hijos, casados y con coche. Propietarios. Poco sindicados. Hombres.
Minera de Datos
Taxonoma de las Tcnicas: ejemplo predictivo
10
Minera de Datos
Un breve ejemplo
Ejemplo: Cierto nmero de pacientes sufren la misma enfermedad, pero se tratan con un abanico de medicamentos. Cinco medicamentos diferentes estn disponibles, y dichos pacientes han respondido de manera distinta a ellos. Pregunta: qu medicamento es apropiado para un nuevo paciente?.
11
Minera de Datos
Un breve ejemplo
Primer Paso: ACCEDIENDO LOS DATOS Se leen los datos, por ejemplo de un archivo con delimitadores. Se nombran los campos Se pueden combinar los datos; por ejemplo aadiendo un nuevo atributo llamado Na/K.
age sex BP Cholesterol Na K drug edad sexo presin sangunea (High, Normal, Low) colesterol (Normal, High) concentracin de sodio en la sangre. concentracin de potasio en la sangre. medicamento al cual el paciente respondi satisfactoriamente.
12
Minera de Datos
Un breve ejemplo
FAMILIARIZACIN
CON
LOS
13
Minera de Datos
Un breve ejemplo
para seleccionar campos o filtrar los datos. para ver propiedades de los datos. Por ejemplo, la proporcin de casos respondi a cada medicamento.
14
Minera de Datos
Un breve ejemplo
para encontrar relaciones. Por ejemplo, la relacin entre sodio y potasio se muestra en un grfico de puntos.
Se puede observar que pacientes con alto cuociente Na/K responden mejor al medicamento Y.
15
Minera de Datos
Un breve ejemplo
Tercer Paso: CONSTRUCCIN DEL MODELO Se filtran los campos no deseados. Se definen los tipos para los atributos. Se genera un flujo de trabajo, para terminar en el modelo deseado.
16
Minera de Datos
Un breve ejemplo
y la herramienta entrega sus resultados. Las reglas extienden el mismo criterio que se haba descubierto previamente, o sea, el medicamento Y es recomendable para los pacientes con alto cuociente Na/K. Pero se aaden nuevas reglas al resto.
17
Proceso KDD
Realidad actual nuevas necesidades en el anlisis de grandes volmenes de datos.
Tanto la cantidad como la variedad de los datos almacenados en bases de datos aumenta constantemente. Una parte importante de dichos datos considera informacin histrica (memoria histrica, til para predecir informacin futura). Anlisis estadstico tradicional no escala bien, a grandes volmenes de datos.
18
Proceso KDD
Es el proceso de usar la base de datos en conjunto con cualquier seleccin, proprocesamiento, sub-muestreo, y transformaciones de ella; para aplicar mtodos (algoritmos) de minera de datos y enumerar patrones desde ella; y para evaluar los productos de la minera de datos que identifican el subconjunto de patrones enumerados que llegarn a ser el conocimiento.
19
Proceso KDD
Relacin con otras Disciplinas
KDD nace como interfaz y se nutre de diferentes disciplinas: Estadstica bases de datos. Inteligencia artificial (aprendizaje automtico) visualizacin de datos. computacin paralela / distribuida. interfaces usuarias
20
20
Proceso KDD
21
Proceso KDD
El descubrimiento de conocimiento puede ser: de Descripcin: patrones para explicar lo que sucede en un formato entendible por el ser humano. de Prediccin: patrones para predecir comportamientos futuros.
22
Proceso KDD
23
Proceso KDD
1) Desarrollar un entendimiento del dominio de la aplicacin, y el conocimiento previo relevante, e identificar el objetivo del proceso KDD desde la perspectiva del cliente. 2) Crear un conjunto de datos objetivo: seleccionando un conjunto de datos, o enfocndose sobre un conjunto de variables o muestras de datos, sobre el cual el descubrimiento deber hacerse.
24
Proceso KDD
3) Limpiar los datos y Preprocesarlos: operaciones bsicas como eliminar del ruido; recolectar de la informacin necesaria para modelar o contabilizar el ruido; decidir sobre estrategias para manejar campos de datos perdidos; contabilizar la informacin en las secuencias de tiempo y cambios.
25
zona de ventas
nmero de producto
cdigo de vendedor
12M65431
alumno(RUT, nombre, direccin, carrera) vs. alumno(RUT, nombre, calle, nmero, ciudad, carrera)
26
Proceso KDD
4) Reducir los datos y Proyectarlos: encontrar caractersticas tiles para representar los datos dependiendo de los objetivos del trabajo. Usar mtodos de transformacin o de reduccin de la multidimensionalidad, para disminuir el nmero efectivo de variables bajo consideracin o bien, encontrar representaciones invariantes de los datos.
2 1
S9 S7 S5 Tbco. Clstrl. S3 Tnsn. Obsd. Alcl. Prcd. S1 Strss Rsg Casos S11 S13
Factores
27
Proceso KDD
5) Crear un conjunto de datos objetivo: seleccionando un conjunto de datos, o enfocndose sobre un conjunto de variables o muestras de datos, sobre el cual el descubrimiento deber hacerse.
28
Proceso KDD
6) Comparar los objetivos de la primera etapa del proceso KDD con los de un mtodo particular de minera de datos:
Asociacin Segmentacin Clasificacin Regresin Pronsticos
7) Elegir el o los algoritmos de minera de datos, de acuerdo al mtodo escogido para identificar los patrones en los datos.
29
Proceso KDD
8) Minera de Datos: para buscar los patrones en una forma de representacin particular o en un conjunto de ellas (reglas o rboles de clasificacin, regresin, segmentacin, etc.).
30
Proceso KDD
9) Interpretar los patrones obtenidos, posiblemente retornando a pasos anteriores. Esta etapa tambin puede implicar la visualizacin de los modelos/patrones obtenidos, o la visualizacin de los datos dados por stos.
Entwicklung DQ
100,0 95,0 NL Sd 90,0 % 85,0 80,0 75,0 70,0 August Monat September PZ NR1 PZ M1 PZ M2 TB T
31
Proceso KDD
10) Consolidar el conocimiento descubierto: incorporndolo en otro sistema para acciones adicionales, o simplemente documentndolo y reportndolo a las partes interesadas. Tambin incluye chequear y resolver potenciales conflictos con el conocimiento previamente creido o extraido.
32
Ventas / Marketing:
Anlisis de las canastas (carritos) de compra Segmentacin de los clientes para ofrecer promociones especficas, de acuerdo a sus intereses Anlisis de resultados de campaas Generacin de patrones de compra para el envo de mensajes ms exactos a la audiencia
33
Banca / Finanzas:
Deteccin de patrones de uso fraudulento de tarjetas de crdito Anlisis de la fidelizacin de clientes leales Prediccin de clientes con alta probabilidad de fuga Determinacin de los gastos en tarjeta de crdito por grupos Anlisis de financieros las correlaciones entre indicadores
34
Salud y Medicina:
Identificacin de terapias mdicas satisfactorias para diferentes enfermedades Asociacin de sntomas y clasificacin diferencial de patologas Estudio de factores (genticos, precedentes, hbitos, alimenticios, etc.) de riesgo/salud en distintas patologas Segmentacin de pacientes para una atencin ms inteligente segn su grupo
35
36
Procesos Industriales:
Extraccin de modelos sobre comportamiento de compuestos Deteccin de piezas con fallas Prediccin de fallos Generacin de modelos de calidad. Estimacin de composiciones ptimas en mezclas. Extraccin de modelos de costos y de produccin.
37
Minera de Datos
Ejemplos de su Aplicacin
Caso 1: Universidad.
Se hizo un estudio sobre los recin titulados de la carrera de Ingeniera en Sistemas Computacionales del Instituto Tecnolgico de Chihuahua II, en Mjico (Rodas, 2001). Se quera observar si sus recin titulados se insertaban en actividades profesionales relacionadas con sus estudios y, en caso negativo, se buscaba saber el perfil que caracteriz a los exalumnos durante su estancia en la universidad. El objetivo era saber si con los planes de estudio de la universidad y el aprovechamiento del alumno se haca una buena insercin laboral o si existan otras variables que participaban en el proceso. Dentro de la informacin considerada estaba el sexo, la edad, la escuela de procedencia, el desempeo acadmico, la zona econmica donde tena su vivienda y la actividad profesional, entre otras variables. Mediante la aplicacin de conjuntos aproximados se descubri que...
38
Minera de Datos
Ejemplos de su Aplicacin
... existan cuatro variables que determinaban la adecuada insercin laboral, que son citadas de acuerdo con su importancia: zona econmica donde habitaba el estudiante, colegio de donde provena, nota al ingresar y promedio final al salir de la carrera. A partir de estos resultados, la universidad tendr que hacer un estudio socioeconmico sobre grupos de alumnos que pertenecan a las clases econmicas bajas para dar posibles soluciones, debido a que tres de las cuatro variables no dependan de la universidad.
39
Minera de Datos
Ejemplos de su Aplicacin
40
Minera de Datos
Ejemplos de su Aplicacin
41
Minera de Datos
Ejemplos de su Aplicacin
con lo anterior, el club intenta ahorrar dinero evitando comprar jugadores que presenten una alta probabilidad de lesin, lo que hara incluso renegociar su contrato. Por otra parte, el sistema pretende encontrar las diferencias entre las lesiones de atletas de ambos sexos, as como saber si una determinada lesin se relaciona con el estilo de juego de un pas concreto donde se practica el ftbol.
42
Minera de Datos
Otras reas
43
Minera de Datos
Otras reas
Minera de Textos:
bsqueda de conocimiento en grandes colecciones de documentos no estructurados considera, fundamentalmente, la aplicacin de tcnicas de recuperacin de informacin, adems de tcnicas estadsticas y lingsticas
44
Minera de Datos
Otras reas
45
Minera de Datos
Otras reas
46
Minera de Datos
Otras reas
Minera del Web (2): se puede organizar en bases a las siguientes fases
Descubrimiento de recursos: localizacin documentos relevantes o no usuales en la red de
Extraccin de informacin determinada a partir de un documento (HTML, XML, texto, ps, PDF, LaTeX) Generalizacin: descubrir patrones generales a partir de sitios web individuales: segmentacin, asociaciones entre documentos, etc. Anlisis, validacin e interpretacin de los patrones
47
Minera de Datos
Otras reas
48
Minera de Datos
Otras reas
49