You are on page 1of 49

Unidad 1 Minera de Datos y Proceso de Descubrimiento del Conocimiento en Bases de Datos (KDD)

Minera de Datos
Conceptos Importantes

Informacin como recurso de la organizacin: organizacin:


Dato Informacin Base de Datos: modelo relacional, SQL Sistema de Informacin (OLTP)

Dato

Sistema OLTP

Informacin

Base de Datos

Minera de Datos
Conceptos Importantes

Conocimiento organizacin: organizacin:

nuevo

recurso

de

la

Datos Internos (legacy systems) y Externos Conocimiento Data Warehouse: modelo multidimensional Nuevos Sistemas de Informacin (OLAP, DM, etc.)
Datos Externos

Minera de Datos

Conocimiento

BDs

Archivos

DW

Datos Internos

Minera de Datos
Definicin

Conocido tambin como descubrimiento de la informacin, permite moverse a travs de los conjuntos de datos para encontrar las tendencias, patrones y correlaciones que pueden guiar la toma de decisiones estratgicas. La idea es que el usuario inicie el proceso de minera de datos y espere el resultado final, el que puede ser parcial o aproximado, y susceptible de ser ajustado mediante una serie de consultas interactivas.

Minera de Datos
Objetivos

Descubrimiento de nuevos modelos que permitan predecir comportamiento futuro (modelos predictivos). Descripcin de los datos para ayudar al usuario a entenderlos mejor (modelos descriptivos).

Verificacin de una hiptesis referida a los lmites del sistema.

Minera de Datos

Datos

Preparacin de Datos

Algoritmo de Minera de Datos

Anlisis de Resultados

Comparacin de la Minera normal y la de Datos

Minera de Datos
Taxonoma de las Tcnicas
Minera de Datos Dirigida por la Verificacin Verificacin SQL Generador SQL Dirigida por el Descubrimiento Predicc Prediccin Regresi Regresin Estadstica

Descripcin Descripcin Clasificacin Clasificacin

Query Tools OLAP Visualizacin Visualizacin Segmentacin Asociacin Asociacin Asociacin Secuencial Secuenc

rbol de Decisin Decisin Induccin de Reglas Redes Neuronales Neuronales

Minera de Datos
Taxonoma de las Tcnicas: ejemplo descriptivo
#Ej 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 Sueldo 10000 20000 15000 30000 10000 40000 25000 20000 20000 30000 50000 8000 20000 10000 8000 Casado S No S S S No No No S S No S No No No Coche No S S S S S No S S S No S No S S Hijos 0 1 2 1 0 0 0 0 3 2 0 2 0 0 0 Alq/Prop Alquiler Alquiler Prop Alquiler Prop Alquiler Alquiler Prop Prop Prop Alquiler Prop Alquiler Alquiler Alquiler Sindic. No S S No S S S S No No No No No S No Bajas/Ao 7 3 5 15 1 3 0 2 7 1 2 3 27 0 3 Antigedad 15 3 10 7 6 16 8 6 5 20 12 1 5 7 2 Sexo H M H M H M H M H H M H M H H

Minera de Datos
Taxonoma de las Tcnicas: ejemplo descriptivo (2)
cluster 1: 5 examples Sueldo : 22600 Casado : No -> 0.8 S -> 0.2 Coche : No -> 0.8 S -> 0.2 Hijos : 0 Alq/Prop : Alquiler -> 1.0 Sindic. : No -> 0.8 S -> 0.2 Bajas/Ao : 8 Antigedad : 8 Sexo : H -> 0.6 M -> 0.4 cluster 2: 4 examples Sueldo : 22500 Casado : No -> 1.0 Coche : S -> 1.0 Hijos : 0 Alq/Prop : Alquiler -> 0.75 Prop -> 0.25 Sindic. : S -> 1.0 Bajas/Ao : 2 Antigedad : 8 Sexo : H -> 0.25 M -> 0.75 cluster 3: 6 examples Sueldo : 18833 Casado : S -> 1.0 Coche : S -> 1.0 Hijos : 2 Alq/Prop : Alquiler -> 0.17 Prop -> 0.83 Sindic. : No -> 0.67 S -> 0.33 Bajas/Ao : 5 Antigedad : 8 Sexo : H -> 0.83 M -> 0.17

GRUPO 1: Sin hijos y de alquiler. Poco sindicalizados. Muchas bajas. GRUPO 2: Sin hijos y con coche. Muy sindicalizados. Pocas bajas. Normalmente de alquiler y mujeres.
9 GRUPO 3: Con hijos, casados y con coche. Propietarios. Poco sindicados. Hombres.

Minera de Datos
Taxonoma de las Tcnicas: ejemplo predictivo

10

Minera de Datos
Un breve ejemplo

Ejemplo: Cierto nmero de pacientes sufren la misma enfermedad, pero se tratan con un abanico de medicamentos. Cinco medicamentos diferentes estn disponibles, y dichos pacientes han respondido de manera distinta a ellos. Pregunta: qu medicamento es apropiado para un nuevo paciente?.

11

Minera de Datos
Un breve ejemplo

Primer Paso: ACCEDIENDO LOS DATOS Se leen los datos, por ejemplo de un archivo con delimitadores. Se nombran los campos Se pueden combinar los datos; por ejemplo aadiendo un nuevo atributo llamado Na/K.
age sex BP Cholesterol Na K drug edad sexo presin sangunea (High, Normal, Low) colesterol (Normal, High) concentracin de sodio en la sangre. concentracin de potasio en la sangre. medicamento al cual el paciente respondi satisfactoriamente.

12

Minera de Datos
Un breve ejemplo

Segundo Paso: DATOS Los datos se visualizan

FAMILIARIZACIN

CON

LOS

13

Minera de Datos
Un breve ejemplo

para seleccionar campos o filtrar los datos. para ver propiedades de los datos. Por ejemplo, la proporcin de casos respondi a cada medicamento.

14

Minera de Datos
Un breve ejemplo

para encontrar relaciones. Por ejemplo, la relacin entre sodio y potasio se muestra en un grfico de puntos.

Se puede observar que pacientes con alto cuociente Na/K responden mejor al medicamento Y.

15

Minera de Datos
Un breve ejemplo

Tercer Paso: CONSTRUCCIN DEL MODELO Se filtran los campos no deseados. Se definen los tipos para los atributos. Se genera un flujo de trabajo, para terminar en el modelo deseado.

16

Minera de Datos
Un breve ejemplo

y la herramienta entrega sus resultados. Las reglas extienden el mismo criterio que se haba descubierto previamente, o sea, el medicamento Y es recomendable para los pacientes con alto cuociente Na/K. Pero se aaden nuevas reglas al resto.
17

Proceso KDD
Realidad actual nuevas necesidades en el anlisis de grandes volmenes de datos.
Tanto la cantidad como la variedad de los datos almacenados en bases de datos aumenta constantemente. Una parte importante de dichos datos considera informacin histrica (memoria histrica, til para predecir informacin futura). Anlisis estadstico tradicional no escala bien, a grandes volmenes de datos.

18

Proceso KDD
Es el proceso de usar la base de datos en conjunto con cualquier seleccin, proprocesamiento, sub-muestreo, y transformaciones de ella; para aplicar mtodos (algoritmos) de minera de datos y enumerar patrones desde ella; y para evaluar los productos de la minera de datos que identifican el subconjunto de patrones enumerados que llegarn a ser el conocimiento.

19

Proceso KDD
Relacin con otras Disciplinas

KDD nace como interfaz y se nutre de diferentes disciplinas: Estadstica bases de datos. Inteligencia artificial (aprendizaje automtico) visualizacin de datos. computacin paralela / distribuida. interfaces usuarias
20

20

Proceso KDD

21

Proceso KDD
El descubrimiento de conocimiento puede ser: de Descripcin: patrones para explicar lo que sucede en un formato entendible por el ser humano. de Prediccin: patrones para predecir comportamientos futuros.

22

Proceso KDD

23

Proceso KDD
1) Desarrollar un entendimiento del dominio de la aplicacin, y el conocimiento previo relevante, e identificar el objetivo del proceso KDD desde la perspectiva del cliente. 2) Crear un conjunto de datos objetivo: seleccionando un conjunto de datos, o enfocndose sobre un conjunto de variables o muestras de datos, sobre el cual el descubrimiento deber hacerse.

24

Proceso KDD
3) Limpiar los datos y Preprocesarlos: operaciones bsicas como eliminar del ruido; recolectar de la informacin necesaria para modelar o contabilizar el ruido; decidir sobre estrategias para manejar campos de datos perdidos; contabilizar la informacin en las secuencias de tiempo y cambios.

25

Cdigo de producto = 12M65431345


12M65431 12-m-65421 12m65421 12m65421

cdigo del pas

zona de ventas

nmero de producto

cdigo de vendedor

12M65431

h,m f,m hombre, mujer cm inches

1,000 GBP FF 9,990

alumno(RUT, nombre, direccin, carrera) vs. alumno(RUT, nombre, calle, nmero, ciudad, carrera)

26

Proceso KDD
4) Reducir los datos y Proyectarlos: encontrar caractersticas tiles para representar los datos dependiendo de los objetivos del trabajo. Usar mtodos de transformacin o de reduccin de la multidimensionalidad, para disminuir el nmero efectivo de variables bajo consideracin o bien, encontrar representaciones invariantes de los datos.
2 1
S9 S7 S5 Tbco. Clstrl. S3 Tnsn. Obsd. Alcl. Prcd. S1 Strss Rsg Casos S11 S13

Factores

27

Proceso KDD
5) Crear un conjunto de datos objetivo: seleccionando un conjunto de datos, o enfocndose sobre un conjunto de variables o muestras de datos, sobre el cual el descubrimiento deber hacerse.

28

Proceso KDD
6) Comparar los objetivos de la primera etapa del proceso KDD con los de un mtodo particular de minera de datos:
Asociacin Segmentacin Clasificacin Regresin Pronsticos

7) Elegir el o los algoritmos de minera de datos, de acuerdo al mtodo escogido para identificar los patrones en los datos.

29

Proceso KDD
8) Minera de Datos: para buscar los patrones en una forma de representacin particular o en un conjunto de ellas (reglas o rboles de clasificacin, regresin, segmentacin, etc.).

30

Proceso KDD
9) Interpretar los patrones obtenidos, posiblemente retornando a pasos anteriores. Esta etapa tambin puede implicar la visualizacin de los modelos/patrones obtenidos, o la visualizacin de los datos dados por stos.
Entwicklung DQ
100,0 95,0 NL Sd 90,0 % 85,0 80,0 75,0 70,0 August Monat September PZ NR1 PZ M1 PZ M2 TB T

31

Proceso KDD
10) Consolidar el conocimiento descubierto: incorporndolo en otro sistema para acciones adicionales, o simplemente documentndolo y reportndolo a las partes interesadas. Tambin incluye chequear y resolver potenciales conflictos con el conocimiento previamente creido o extraido.

32

Minera de Datos y Proceso KDD


Algunas Aplicaciones Generales

Ventas / Marketing:
Anlisis de las canastas (carritos) de compra Segmentacin de los clientes para ofrecer promociones especficas, de acuerdo a sus intereses Anlisis de resultados de campaas Generacin de patrones de compra para el envo de mensajes ms exactos a la audiencia

33

Minera de Datos y Proceso KDD


Algunas Aplicaciones Generales

Banca / Finanzas:
Deteccin de patrones de uso fraudulento de tarjetas de crdito Anlisis de la fidelizacin de clientes leales Prediccin de clientes con alta probabilidad de fuga Determinacin de los gastos en tarjeta de crdito por grupos Anlisis de financieros las correlaciones entre indicadores

34

Minera de Datos y Proceso KDD


Algunas Aplicaciones Generales

Salud y Medicina:
Identificacin de terapias mdicas satisfactorias para diferentes enfermedades Asociacin de sntomas y clasificacin diferencial de patologas Estudio de factores (genticos, precedentes, hbitos, alimenticios, etc.) de riesgo/salud en distintas patologas Segmentacin de pacientes para una atencin ms inteligente segn su grupo

35

Minera de Datos y Proceso KDD


Algunas Aplicaciones Generales

Salud y Medicina (2):


Predicciones temporales de los centros asistenciales para el mejor uso de recursos, consultas, salas y habitaciones Anlisis de rendimientos de campaas de informacin, prevencin, sustitucin de frmacos, etc. Generacin de patrones para el diagnstico y la asignacin de tratamientos adecuados

36

Minera de Datos y Proceso KDD


Algunas Aplicaciones Generales

Procesos Industriales:
Extraccin de modelos sobre comportamiento de compuestos Deteccin de piezas con fallas Prediccin de fallos Generacin de modelos de calidad. Estimacin de composiciones ptimas en mezclas. Extraccin de modelos de costos y de produccin.

37

Minera de Datos
Ejemplos de su Aplicacin

Caso 1: Universidad.
Se hizo un estudio sobre los recin titulados de la carrera de Ingeniera en Sistemas Computacionales del Instituto Tecnolgico de Chihuahua II, en Mjico (Rodas, 2001). Se quera observar si sus recin titulados se insertaban en actividades profesionales relacionadas con sus estudios y, en caso negativo, se buscaba saber el perfil que caracteriz a los exalumnos durante su estancia en la universidad. El objetivo era saber si con los planes de estudio de la universidad y el aprovechamiento del alumno se haca una buena insercin laboral o si existan otras variables que participaban en el proceso. Dentro de la informacin considerada estaba el sexo, la edad, la escuela de procedencia, el desempeo acadmico, la zona econmica donde tena su vivienda y la actividad profesional, entre otras variables. Mediante la aplicacin de conjuntos aproximados se descubri que...

38

Minera de Datos
Ejemplos de su Aplicacin

... existan cuatro variables que determinaban la adecuada insercin laboral, que son citadas de acuerdo con su importancia: zona econmica donde habitaba el estudiante, colegio de donde provena, nota al ingresar y promedio final al salir de la carrera. A partir de estos resultados, la universidad tendr que hacer un estudio socioeconmico sobre grupos de alumnos que pertenecan a las clases econmicas bajas para dar posibles soluciones, debido a que tres de las cuatro variables no dependan de la universidad.

39

Minera de Datos
Ejemplos de su Aplicacin

Caso 2: Investigacin Espacial.


Durante seis aos, el Second Palomar Observatory Sky Survey (POSSII) coleccion tres terabytes de imgenes que contenan aproximadamente dos millones de objetos en el cielo. Tres mil fotografas fueron digitalizadas a una resolucin de 16 bits por pxel con 23.040 x 23.040 pxeles por imagen. El objetivo era formar un catlogo de todos esos objetos. El sistema Sky Image Cataloguing and Analysis Tool (SKYCAT) se basa en tcnicas de agrupacin (clustering) y rboles de decisin para poder clasificar los objetos en estrellas, planetas, sistemas, galaxias, etc. con una alta confiabilidad (Fayyad y otros, 1996). Los resultados han ayudado a los astrnomos a descubrir diecisis nuevos qusars. Estos qusars son difciles de encontrar y permiten saber ms acerca de los orgenes del universo.

40

Minera de Datos
Ejemplos de su Aplicacin

Caso 3: Club Deportivo.


En el 2003, el AC de Miln comenz a usar redes neuronales para prevenir lesiones y optimizar el acondicionamiento de cada atleta. Esto ayudar a seleccionar el fichaje de un posible jugador o a alertar al mdico del equipo de una posible lesin. El sistemaes alimentado por datos de cada jugador, relacionados con su rendimiento, alimentacin y respuesta a estmulos externos, que se obtienen y analizan cada quince das. El jugador lleva a cabo determinadas actividades que son monitoreadas por veinticuatro sensores conectados al cuerpo y que transmiten seales de radio que posteriormente son almacenadas en una base de datos. Actualmente el sistema dispone de 5.000 casos registrados que permiten predecir alguna posible lesin

41

Minera de Datos
Ejemplos de su Aplicacin

con lo anterior, el club intenta ahorrar dinero evitando comprar jugadores que presenten una alta probabilidad de lesin, lo que hara incluso renegociar su contrato. Por otra parte, el sistema pretende encontrar las diferencias entre las lesiones de atletas de ambos sexos, as como saber si una determinada lesin se relaciona con el estilo de juego de un pas concreto donde se practica el ftbol.

42

Minera de Datos
Otras reas

Datos complejos: geogrficos, temporales basada en genticos Modelos Evolutivos: algoritmos

basada en Lgica Difusa.

43

Minera de Datos
Otras reas

Minera de Textos:
bsqueda de conocimiento en grandes colecciones de documentos no estructurados considera, fundamentalmente, la aplicacin de tcnicas de recuperacin de informacin, adems de tcnicas estadsticas y lingsticas

44

Minera de Datos
Otras reas

Minera de Textos (2):


el trabajo vara dependiendo de la representacin de la informacin:
Bag of Words: cada palabra constituye una posicin de un vector y el valor corresponde con la cantidad de veces que ha aparecido. N-gramas o frases: permite tener en cuenta el orden de las palabras. Trata mejor frases negativas ... excepto ..., ... pero no..., que tomaran en otro caso las palabras que le siguen como relevantes. Representacin relacional (primer orden): permite detectar patrones ms complejos (si la palabra X est a la izquierda de la palabra Y en la misma frase...). Categoras de conceptos.

45

Minera de Datos
Otras reas

Minera del Web:


se refiere al proceso de descubrir informacin o conocimiento potencialmente til y previamente desconocido a partir de datos de la Web. combina tcnicas de la Minera de Datos, con aqullas propias de la Recuperacin de Informacin, Procesamiento del Lenguaje Natural, Tecnologas del WWW y de Agentes, entre otros.

46

Minera de Datos
Otras reas

Minera del Web (2): se puede organizar en bases a las siguientes fases
Descubrimiento de recursos: localizacin documentos relevantes o no usuales en la red de

Extraccin de informacin determinada a partir de un documento (HTML, XML, texto, ps, PDF, LaTeX) Generalizacin: descubrir patrones generales a partir de sitios web individuales: segmentacin, asociaciones entre documentos, etc. Anlisis, validacin e interpretacin de los patrones

47

Minera de Datos
Otras reas

Minera del Web (3): tipos


a) Minera del Contenido: considerando de Textos: si los documentos son textuales (planos) de Hypertextos: si hay enlaces a otros documentos o a s mismos de Marcas (Markup): si los documentos son semiestructurados de Multimedios: imgenes, audio, vdeo, ...

48

Minera de Datos
Otras reas

Minera del Web (4): tipos


b) Minera de la Estructura: se intenta descubrir un modelo a partir de la topologa de enlaces de la red. Este modelo puede ser til para clasificar o agrupar documentos c) Minera del Uso: se intenta extraer informacin (hbitos, preferencias, etc. de los usuarios o contenidos y relevancia de documentos) a partir de las sesiones y comportamientos de los usuarios y navegantes.

49

You might also like