Professional Documents
Culture Documents
a la Empresa
Cursada 2012
POR QU?
Sociedad del Conocimiento
Mercados altamente dinmicos y competitivos.
Necesidad de tomar decisiones rpidamente.
Las empresas recogen datos de todos los procesos
Las empresas de todos los tamaos necesitan aprender de sus datos para crear una
relacin uno-a-uno con sus clientes.
El conocimiento en la empresa es un activo ms.
hardware
Crecientes
volmenes
MULTIDIMENSIONALIDAD
de
informacin
disponible:
Definicin Intuitiva
La Minera de Datos (en este contexto) es el anlisis y
exploracin, por medios automticos o semiautomticos de
grandes cantidades de datos para descubrir patrones
significativos (tiles), y reglas.
La meta es permitir a la organizacin mejorar sus ventas, sus
campaas de marketing, las operaciones de soporte a los
clientes, a travs de una mejor comprensin de sus clientes.
Qu es la Minera de Datos?
Por qu ahora?
Las tcnicas de Minera de Datos existan hace aos pero la
convergencia de los siguientes factores:
Cantidad de datos producida
Los datos estn integrados (data warehouse o almacn de datos)
La potencia de las computadoras
Fuerte presin de la competencia
Software de minera de datos ha hecho que ahora se vuelva a hablar
de ellas
Minera de Datos:
Confluencia de reas
Algoritmos,*, otras
disciplinas
Bases de
Datos
Computacin
paralela y
distribuida
Teora de la
Informacin
Minera de Datos
Estadstica
Inteligencia
ArtificialAprendizaje
Automtico
Visualizacin
Medir
los resultados
Actuar basndonos
en la informacin
Importante
La promesa de Minera de Datos es encontrar los
patrones.
Simplemente el hallazgo de los patrones no es suficiente.
Debemos ser capaces de entender los patrones.
responder a ellos, actuar sobre ellos, para finalmente
convertir los datos en informacin, la informacin en
accin y la accin en valor para la empresa.
Es el
identificar los patrones vlidos,
novedosos,
potencialmente
tiles y en ltima instancia,
comprensibles a partir de un
conjunto de datos [Fayyad et al
96]
INTERPRETACIN Y EVALUACIN
Minera de Datos
Conocimiento
Modelos
CODIFICACIN
Datos Transformados
LIMPIEZA
Datos Procesados
SELECCIN
Datos objetivo
Datos
Compresin
del problema
Implantacin
Compresin
de los datos.
Preparacin de
los datos
Modelado
Evaluacin
CRoss-Industry Standard Process for Data Mining
Antecedentes
Objetivos del negocio
Criterios de xito del proyecto (perspectiva del negocio)
Evaluar la situacin
Recursos,
Requerimientos, suposiciones, restricciones
Riesgos y contingencias
Terminologa
Costos y beneficios
a analizar
Las medidas tienen un perodo de caducidad y se toman en
unas circunstancias
Tipos de datos
Cuantitativas.
Discretas (nmero de empleados)
Continuas (sueldo, ...)
Cualitativas.
Nominales. Nombrar el objeto al que se refieren (estado civil,
gnero)
Ordinales. Se puede establecer un orden en sus valores (alto,
medio, bajo)
Fases y Salidas:
Seleccin de datos
Informe de los motivos de la seleccin
Limpieza de datos
Informe de la limpieza de los datos
Distribucin de variables
Histogramas
90
80
70
60
Este
Oeste
Norte
50
40
30
Pie charts
20
10
1e
r
2d
o
0
1er trim.
2do trim.
3er trim.
Variables cualitativas
100
90
80
70
60
50
40
30
20
10
0
Este
Oeste
Norte
Preparacin: Transformacin
Conseguir una
de los datos
Los datos hay que refinarlos para que cumplan con los
Conversin de variables
Discretizacin / generalizacin
Modelado
En esta fase se seleccionan distintas tcnicas de minera y
se aplican calibrando sus parmetros para conseguir los
valores ptimos. Hay distintas tcnicas para el mismo
tipo de problema la diferencia muchas veces radica en los
requisitos que han de cumplir los datos de entrada por
ello a menudo es necesario volver a la fase de
preparacin de datos.
Modelado (II)
Seleccin de la tcnica de modelado
Tcnica elegida
Requisitos de la tcnica elegida
Construir el modelo
Parmetros elegidos
Modelo y descripcin
Evaluar el modelo
Evaluacin del modelo
Parmetros revisados
Evaluacin
En este momento se dispone de al menos un modelo que
parece tener buena calidad desde la perspectiva del anlisis de
datos. Antes de la implantacin es importante revisar el
proceso para cerciorarse de que tambin ha logrado los
objetivos de negocio. Es importante en este punto
determinar si algn aspecto de negocio no ha sido tenido
suficientemente en consideracin. Al final de la fase se tendr
la decisin sobre el uso de los resultados de minera.
Evaluacin (II)
Evaluar los resultados
Contrastar los resultados de minera con los criterios de xito del
negocio
Modelos aprobados
Proceso de revisin
Revisin del proceso
Implantacin
La creacin del modelo no es el final del proyecto. Incluso
cuando se trata de incrementar el conocimientos, este se
tiene que poner en orden y presentarlo de manera que se
pueda hacer uso del mismo. Esta fase por tanto, puede ser tan
simple como la generacin de un informe o tan compleja
como la implantacin de un proceso de minera en toda la
empresa. Es importante que al cliente se le deje claro las
acciones necesarias para hacer uso efectivo del los modelos
obtenidos.
Implantacin (II)
Desarrollo del plan de implantacin
Plan de Implantacin
mantenimiento
Plan de seguimiento
Informe final
Experiencia
Documentacin
Descripcin
Clasificacin
Estimacin
Asociacin
Clustering
Descubrimiento Directo
Se selecciona el atributo y se le pide al algoritmo que
estime, clasifique, o prediga el atributo.
Es orientado por la meta a descubrir
Ejemplos:
Quien es el probable comprador de seguros de vida?
Cual es el valor potencial de este nuevo cliente?
Perfil del cliente que va a cambiarse a la competencia
Descubrimiento Indirecto
No hay atributo objetivo.
Simplemente se le pide al algoritmo que identifique patrones
significativos en los datos.
Ejemplos:
Qu productos se compran juntos?
Resumen
La Minera de Datos es un proceso.
Todas las fases son igualmente significativas.
Sin una preparacin adecuada los resultados perdern calidad.
El conocimiento del dominio es muy importante!!!