You are on page 1of 47

Minera de Datos

Dra. Masun Nabhan Homsi


mnabhan@usb.ve

https://sites.google.com/site/mineria
dedatosabriljulio2017

Universidad Simn Bolivar


Tabla de Contenido
Datos, Informacin y Conocimiento.
Motivacin: Por qu la Minera de datos?
Qu es Minera de datos?
Minera de datos : Con cul tipo de datos se utiliza?
Minera de Datos y otras disciplinas
Tipologa de Tcnicas de Minera de Datos
rea de aplicacin de la Minera de datos.
Datos, Informacin y Conocimiento.

+ estructura + experiencia

Datos Informacin Conocimiento


datos elaborados con un el resultado de mentes
no tienen significado + inteligentes trabajando:
significado, con un propsito
entender y utilizar.

menos ms
Valor
Dato, Informacin y Conocimiento.
Ejemplos
AGENTE en un BANCO:
Debo conceder el crdito a este cliente?
GERENTE de un SUPERMERCADO:
Cundo se compran huevos, se suele comprar
tambin aceite?
DIRECTOR de RR.HH. de una EMPRESA:
Qu tipos de empleados tengo?
COMERCIAL de una EMPRESA DE
COMERCIALIZACIN:
Cuntos televisores planos se estima vender el
mes que viene?
Ejemplos
Ejemplos
Ejemplos
Ejemplos
Motivacin La necesidad es la madre de
la Invencin
Problema de explosin de
datos.
Los sistemas automticos de
informacin la madurez de la
tecnologa de Bases de Datos e
Internet,el bajo costo de los
computadores, lleva a que
actualmente se cuente con
cantidades importantes de
datos almacenados en diversos
repositorios.
Motivacin
Nos estamos ahogando en informacin, pero
estamos hambrientos de conocimiento
-- John Naisbitt
Informacin es histrica : representa la memoria de
la organizacin. Es til para predecir la
informacin futura.
Tamao de datos poco habitual para algoritmos
clsicos:
nmero de registros (ejemplos) muy largo (108-1012
bytes).
datos altamente dimensionales (n de columnas
/atributos): 102-104.
Motivacin
El usuario final no es un experto en aprendizaje
automtico ni en estadstica.
El usuario no puede perder ms tiempo
analizando los datos.
Los sistemas clsicos de estadstica son difciles
de usar y no escalan al nmero de datos tpicos
en bases de datos.
Solucin
la minera de datos
La Evolucin de la Tecnologa de Bases
de Datos
60 y antes :
Coleccin de datos y creacin de bases de datos,
procesamiento primitivo de archivos.
70 y principio de los 80:
Sistemas de BDs relacionales (RDBM), lenguaje
de consulta (SQL).
Mediado 80 Presente :
modelo avanzado de datos, Aplicaciones avanzada
de bases de datos.
La Evolucin de la Tecnologa de Bases
de Datos
Finales de 80 Presente:
Data warehouse
Minera de datos
Asociacin, clasificacin, agrupamiento,
Aplicaciones avanzadas de Minera de datos
Minera de texto, Minera de web, deteccin de
intrusos,
Minera de datos y la sociedad
Preservacin de la privacidad en minera de datos
Qu es la minera de datos?
Extraccin de conocimiento en
grandes bases de datos.

Anlisis de grandes volmenes de


datos para encontrar relaciones no
triviales, y para resumirlos de
manera que sean entendibles y
tiles.
Hand, Mannila y Smyth

Extraccin de patrones y modelos


interesantes, potencialmente tiles
y datos en base de datos de gran
tamao.
Hand
Qu es la minera de datos?
Non-trivial extraction of implicit, previously
unknown and potentially useful information from
data.
Frawley, Piatetsky-Shapiro & Matheus: Knowledge
Discovery in Databases: An Overview. MIT Press,
1991.
Exploration and analysis, by automatic or semi-
automatic means, of large quantities of data in order
to discover meaningful patterns.
Berry & Linoff:
Data Mining Techniques.
Wiley, 1997
Conocimiento: Modelo vs. Patrn

Hand, Mannila y Smyth

Modelo: Habla de todo el conjunto de datos

Patrn: Habla de una regin particular de datos.


Qu es la minera de datos?

Data Conocimiento
Qu es la minera de datos?
Otras denominaciones :
Knowledge discovery(mining) in databases (KDD)
Descubrimiento de conocimiento en bases de datos.
knowledge extraction
Extraccin de Conocimiento.
Data/pattern analysis
Anlisis de datos / patrones
Data archeology
Arqueologa de Datos.
Data dredging
Dragado de Datos
Information harvesting
Cosecha de Informacin
business intelligence
Inteligencia de Negocios
La minera de
Datos es el
corazn del
proceso de
descubrimiento
de conocimiento.
El proceso de extraccin de
conocimiento
Limpieza de datos
(eliminacin de ruido e inconsistencias)
Integracin de datos
(combinacin de mltiples fuentes de datos)
Reduccin/Seleccin de datos
(identificacin de datos relevantes para el problema)
Transformacin de datos
(preparacin de los datos para su anlisis)
Minera de datos
(tcnicas de extraccin de patrones y medidas de inters)
Presentacin de resultados
(tcnicas de visualizacin y de representacin del
conocimiento)
23

Data Mining and Business Intelligence


Increasing potential
to support
business decisions End User
Decision
Making

Data Presentation Business


Analyst
Visualization Techniques
Data Mining Data
Information Discovery Analyst

Data Exploration
Statistical Summary, Querying, and Reporting

Data Preprocessing/Integration, Data Warehouses


DBA
Data Sources
Paper, Files, Web documents, Scientific experiments, Database Systems
Arquitectura de un sistema de Minera
de Datos
Interfaz de usuario

Evaluacin

Base de
Conocimiento
Motor de Minera de Datos

Base de datos o Data Warehouse

Data Otros
Base de Datos WWW
Warehouse repositorios
Cross Industry Standard Process for
Data Mining
Se trata de un modelo de proceso de minera de
datos que describe los enfoques comunes que
utilizan los expertos en minera de datos.
CRISP-DM fue concebido en 1996. En 1997 se
puso en marcha como un proyecto de la Unin
Europea bajo la iniciativa de financiacin
ESPRIT. El proyecto fue dirigido por cinco
empresas: SPSS, Teradata, Daimler AG, NCR
Corporation y Ohra, una compaa de seguros.
Cross Industry Standard Process for
Data Mining
Comprensin del negocio
Esta fase inicial se centra
en la comprensin de los
objetivos y requisitos del
proyecto desde una
perspectiva empresarial, y
luego convertir este
conocimiento en una
definicin del problema de
minera de datos, y un plan
preliminar diseado para
alcanzar los objetivos.
Cross Industry Standard Process for
Data Mining
Comprensin de Datos
Esta fase comienza con una
coleccin inicial de datos y
procesos con actividades
con el objetivo de
familiarizarse con los
datos, identificar la calidad
de los problemas, para
descubrir las primeras
seales dentro de los datos
y detectar temas
interesantes para poder
formular hiptesis de
informacin oculta.
Cross Industry Standard Process for
Data Mining
Preparacin de datos
Esta fase cubre todas las
actividades para construir
el conjunto de datos. Estas
tareas son ejecutadas en
mltiples oportunidades y
sin orden. Las tareas
incluyen seleccin y
transformacin de tablas,
registros y atributos y
limpieza de datos para las
herramientas de modelado.
Cross Industry Standard Process for
Data Mining
Modelado
En esta fase se seleccionan
y aplican varias tcnicas de
modelado y se calibran los
parmetros para obtener
ptimos resultados. Hay
varias tcnicas que tienen
requerimientos especficos
para la forma de los datos,
por lo que frecuentemente
es necesario volver a la fase
de preparacin de datos.
Cross Industry Standard Process for
Data Mining
Evaluacin
En esta etapa en el
proyecto ha construido
un modelo (o modelos)
que parece tener gran
calidad, desde una
perspectiva de anlisis de
datos.
Cross Industry Standard Process for
Data Mining
Despliegue
Esta fase depende de los
requerimientos,
pudiendo ser simple
como la generacin de un
reporte o compleja como
la implementacin de un
proceso de explotacin
de informacin que
atraviese a toda la
organizacin.
Minera de datos : Con cul tipo de
datos se utiliza?
Bases de datos relacionales
Bases de datos multidimensionales (Data
warehouses)
Bases de datos Transaccionales
Base de datos avanzadas y repositorios de
informacin.
Datos estructurados (grafos, redes sociales)
Datos espaciales y espaciotemporales
Series temporales (los datos climticos, de las acciones
de bolsa), secuencias y data streams (computer
network traffic, phone conversations, ATM
transactions, web searches)
Textos e hipertextos (p.ej. Web)
Bases de datos multimedia (p.ej. Imgenes)
La Minera de Datos y Otras disciplinas
Database
Technology Statistics

Machine Visualization
Data Mining
Learning

Pattern
Recognition Other
Algorithm Disciplines
Tipologa de Tcnicas de Minera de
Datos
Un modelo predictivo responde preguntas sobre
datos futuros.
Cules sern las ventas el ao prximo?
Es esta transaccin fraudulenta?
Qu tipo de seguro es ms probable que contrate el cliente
X?
Un modelo descriptivo proporciona informacin
sobre las relaciones entre los datos y sus
caractersticas. Genera informacin del tipo:
Los clientes que compran paales suelen comprar cerveza.
El tabaco y el alcohol son los factores ms importantes en la
enfermedad Y.
Los clientes sin televisin y con bicicleta tienen
caractersticas muy diferenciadas del resto.
Tipologa de Tcnicas de Minera de
Datos
Ejemplos
Reglas de asociacin (modelo descriptivo)
Los compradores de paales tambin suelen comprar
cerveza.
Clustering (modelo descriptivo)
Segmentacin de los clientes de un hipermercado:
Clientes ocasionales que gastan mucho.
Clientes habituales con presupuesto limitado.
Clientes ocasionales con presupuesto limitado.
Clasificacin (modelo predictivo):
Datagramas que corresponden a intentos de intrusin.
Perfil de un cliente de alto riesgo para prstamos
bancarios.
Tipologa de Tcnicas de Minera de
Datos
Asociacin:
Interesa obtener automticamente reglas que
relacionen unos atributos de la base de datos con
otros, en base a alguna asociacin:
Ejemplo - Base de datos de clientes de un banco.
Regla de Asociacin:
if STATUS = married and INCOME > 10000
and HOUSE_OWNER = yes then
INVESTMENT_TYPE = good
Tipologa de Tcnicas de Minera de
Datos
Clasificacin:
Un sistema de minera de datos aprende de los datos
cmo particionar o clasificar los mismos en base a
reglas de clasificacin:
Ejemplo - Base de datos de clientes de un banco.
Pregunta - Un cliente que solicita un
prstamo, es una buena inversin?
Regla tpica formulada:
if STATUS = married and INCOME > 10000
and HOUSE_OWNER = yes then
INVESTMENT_TYPE = good
Tipologa de Tcnicas de Minera de
Datos
Ejemplo
obtener para qu pacientes una operacin de
ciruga ocular es satisfactoria segn los atributos
edad, nmero de miopas y astigmatismo
Tipologa de Tcnicas de Minera de
Datos
Clustering
es un procedimiento de agrupacin de una serie de
vectores de acuerdo con un criterio de cercana.
Esta cercana se define en trminos de una
determinada funcin de distancia, como la
eucldea.
Tipologa de Tcnicas de Minera de
Datos
Tipologa de Tcnicas de Minera de
Datos
Tendencias/Regresin:
El objetivo es predecir los valores de una variable
continua a partir de la evolucin sobre una o ms
variable continua. Una de ellas puede ser el
tiempo.
Ejemplo, se intenta predecir el nmero de
clientes o pacientes, los ingresos, llamadas,
ganancias, costes, etc. a partir de los resultados de
semanas, meses o aos anteriores.
Tipologa de Tcnicas de Minera de
Datos
Correspondencia Tarea / Tcnica
rea de aplicacin de la Minera de
Datos.
Marketing
Identificar patrones de compra de los clientes.
Segmentacin de clientes.
Predecir respuestas a campaas de mailing.
Anlisis de cestas de la compra.
Banca
Detectar patrones de uso fraudulento de tarjetas de crdito.
Identificar clientes leales.
Predecir clientes con probabilidad de cambiar su afiliacin.
Determinar gasto en tarjeta de crdito por grupos.
Encontrar correlaciones entre indicadores financieros.
Identificar reglas de mercado de valores a partir de
histricos.
rea de aplicacin de la Minera de
Datos.
Transportes
Determinar la planificacin de la distribucin entre tiendas.
Analizar patrones de carga.
Seguros y Salud Privada
Predecir qu clientes compran nuevas plizas.
Identificar comportamiento fraudulento.
Medicina
Segmentacin de pacientes para una atencin ms
inteligente segn su grupo.
Asociacin de sntomas y clasificacin diferencial de
patologas.
rea de aplicacin de la Minera de
Datos
Procesos Industriales
Deteccin de piezas con trabas
Prediccin de fallos
Modelos de calidad
Estimacin de composiciones ptimas en mezclas.

You might also like