You are on page 1of 32

Knowledge Discovery in Databases

Metodologa aplicada al estudio de problemas en minera de datos

Jaime Miranda
Departamento de Ingeniera Industrial Universidad de Chile IN47B Ingeniera de Operaciones

EMPECEMOS CON EN EJEMPLO PROBLEMA


Una empresa multinacional de seguros cansada por el enorme y creciente nmero de clientes que no cancelan sus deudas ,desea poder detectar que clientes son los mejores a la hora de incorporarlos a su cartera de clientes con la finalidad de disminuir las prdidas por estos conceptos. La empresa posee un Datawerehouse con la informacin de los clientes y de sus transacciones. Tamao de la cartera ~150.000.

EMPECEMOS CON EN EJEMPLO

PREGUNTAS
Qu informacin tenemos a nuestro alcance? Cul es la calidad de esta informacin? En qu difiere un buen de un mal cliente? Cmo es posible caracterizar a un cliente? Cuntos clientes en promedio no pagan en un mes?

Comprender el entorno y los objetivos del problema

DESCRIPCIN DEL PROBLEMA

EMPRESA: Multinacional de Seguros DIVISIN: Crditos Hipotecarios GIRO DEL NEGOCIO


Financiamiento hipotecario mediante mutuos endosables. Mutuo endosable Crdito en $ para la compra o ampliacin de una propiedad urbana, nueva o usada. Es endosable, ya que se puede ceder a algunas instituciones autorizadas por la ley.

DESCRIPCIN DEL PROBLEMA (2)

CARACTERSTICAS
Cada cierto tiempo algunas instituciones financieras (bancos) andan en bsqueda de liquidez ($). Liquidan parte de sus carteras y transan las deudas hipotecarias de sus clientes. La empresa no posee ningn apoyo para la toma de decisin sobre la compra de alguna cartera en especial. La empresa no conoce el comportamiento de pago pasado de los clientes que potencialmente comprara. Al momento de compra todos los clientes parecen buenos clientes

SITUACIN ACTUAL

M e s e s d e p rim e r a tra s o
25 20 15 10 5 0 1999 2000 2001 2002 2003

PROCESO KDD

SELECCIN DE VARIABLES

FUENTES DE INFORMACIN
Informes Data Warehouse Data Mart. Expertos del negocio

VARIABLES IMPORTANTES
Juicio experto. Heursticas de seleccin. Problema NPC.

DATA WAREHOUSE DATA MART

CARACTERISTICAS
Rene datos esenciales provenientes de bases de datos heterogneas desde todas las reas de negocio (Ventas, finanzas, RRHH, etc.) Organiza los datos para apoyar decisiones de gestin. Maneja elevados volmenes de informacin. Permite el mejor funcionamiento de los mtodos de Data Mining.

DATA WAREHOUSE DATA MART (2)

DATAWAREHOUSE: Coleccin de objetos


Orientada al sujeto:
Organizada en torno a los datos ms importantes de la empresa. Es bueno para realizar filtros y eliminar informacin poco importante.

Unificada:
Basada en unin de informacin de varias fuentes. Asegura la consistencia de la informacin.

Variante en el tiempo
Guarda informacin a travs del tiempo. Posee actualizaciones temporales agregadas: no hay actualizaciones diarias.

DIAGRAMA GENERAL

Extraccin Transformacin Transporte Extraccin Transformacin Transporte

ESQUEMA ESTRELLA

ESQUEMA COPO DE NIEVE

ARQUITECTURA MULTICAPAS

INFORMACION HETEROGENEA

HERRAMIENTAS DE ANALISIS

METADATOS

PREPROCESAMIENTO

GENERACION DE CRITERIOS Valores perdidos


Objetos sin informacin en una o ms variables.

Valores fuera de rango


Valores raros en una o ms variables que definen al objeto.

BASE DE TRABAJO MUTUOS


Posee una cartera de 7.664 clientes. Existe un enorme cantidad de valores perdidos la base. Ms del 80% de la base (6.488), posea algn valor perdido.

PREPROCESAMIENTO (2)

% de valores perdidos respecto al total


90% 80% 70% 60% 50% 40% 30% 20% 10% 0%
PLAZO E_CIVIL TASA ANTIGEDAD RENTA TOTAL SEXO VAL_DIVI EDAD CREDITO NIV_EDUC VAL_COM DIV/RENTA

PREPROCESAMIENTO (3)

SOLUCIONES BSICAS
Eliminacin de objetos con algn problema. Llenado con valores promedio o modas.

SOLUCIONES AVANZADAS
Modelos predictivos. Heursticas especializadas.

EJEMPLO DE MODELOS MIXTOS: RENTA

1 componente

2 componentes

3 componentes

4 componentes

SELECCIN DE ATRIBUTOS

MTODO: Clamping de atributos


Heurstica especializada Generar un ranking de importancia de atributos

Prominencia ( salience), S ( xi ) = 1

g ( x| xi = mean _ value ) g ( x)

TRANSFORMACIN

NORMALIZACIONES
Escalamiento [0,1] - Rango Estandarizaciones. N(0,1)

CATEGORIZACIONES
Variables string a nmeros: Nivel educacional Generacin de rangos en las variables

NUEVAS VARIABLES
Relaciones nuevas basadas en variables originales Variaciones %.

ALGUNAS DEFINICIONES

APRENDIZAJE
El aprendizaje es una habilidad de la que disponen gran parte de los sistemas naturales para adaptarse al entorno en el que vive. Adquisicin de conocimiento de un proceso por medio del analisis, ejercicio o experiencia. Un proceso por el cual los parmetros libres del sistema se adaptan a travs de un proceso continuo de estimulacin a partir del entorno en el que el sistema est inmerso.

EVALUACIN DE UN SISTEMA DE APRENDIZAJE

GENERALIDAD
Modelo representativo, el cual puede predecir el comportamiento a nuevos objetos.

COMPRENSIBILIDAD
Fcil de inspeccionar y entendible. Con fciles mejoras de capacidad de generalizaron

DISCRIMINANTES

CONCEPTOS BSICOS
Medida de distancia Prototipo o centro de clase ms cercana. Hipersuperficies Clasificacin de acuerdo a si los objetos estn a uno u otro lado de una hipersuperficie o conjunto de hiperplanos.

X2

X1

METODOS DE DATA MINING

MTODOS SUPERVISADOS
Redes neuronales rboles de decisin.

MTODOS NO SUPERVISADOS
Cluster: Fuzzy C-means Mapas de Kohonen (SOM)

APRENDIZAJE SUPERVISADO

Algunas nociones
Necesidad de una entrada (inputs) y una salida (outputs). Determinar el output a travs de combinaciones de los inputs. Encontarr una funcin que describa el proceso. Uso de la experiencia para describir algn patrn caracterstico.

Conjuntos
Entrenamiento. Test

DIAGRAMA DE APRENDIZAJE SUPERVISADO

Respuesta deseada

MAESTRO

INFORMACION

+
MEDIO AMBIENTE
Vector que describe el Medio Ambiente Respuesta calculada

RELACIONES

CONOCIMIENTO DEL NEGOCIO

SISTEMA DE APRENDIZAJE

Error

APRENDIZAJE NO SUPERVISADO

Algunas nociones
Necesidad solo de una entrada (inputs) No necesita una salida (outputs) explicita. Encontrar una funcin que describa el proceso. Uso de la experiencia para describir algn patrn caracterstico.

DIAGRAMA DE APRENDIZAJE SUPERVISADO

INFORMACION

MEDIO
RELACIONES CONOCIMIENTO DEL NEGOCIO

AMBIENTE

Respuesta calculada

Vector que describe el Medio Ambiente

SISTEMA DE APRENDIZAJE
Error

Salida del Sistema

Sistema no supervisado

CASO N1: SCORING CREDITICIO

DESCRIPCIN
Los bancos en busca de liquidez venden parte de su cartera de negocio. Se busca construir un modelo que genere un scoring sobre el riesgo crediticio de un cliente que es vendido por una institucin financiera. Se conoce el comportamiento de pago solo de los clientes que compone la cartera de la empresa. Se busca identificar que clientes (buenos) comprar a lainstitucin financiera con el fin de minimizar las perdidads por mora.

CASO N2: FUGA DE CUENTACORRENTISTAS

DESCRIPCIN
Existe un creciente aumento en el nmero de cierres voluntarios de cuentacorrientes de una institucin financiera. Se busca un modelo de prediccin de fugas, para aumentar eficiencia y eficacia de las polticas comerciales y de retencin. Se desea disminuir el nmero de clientes fugados.

CASO N3: OFERTAS FOCALIZADAS

DESCRIPCIN
Cansados de fallidos y bajos radios de retorno del envi de descuentos y ofertas por correo, una importante empresa de retail desea construir un modelo de prediccin de compra (ofertas focalizadas). Se desea mandar un descuento para un televisor La empresa posee historiales de compras de sus clientes que han comprado alguna vez un televisor de esas caractersticas. Se desea minimizar los costos de envi del descuento.

Knowledge Discovery in Databases


Metodologa aplicada al estudio de problemas en minera de datos

Jaime Miranda
Departamento de Ingeniera Industrial Universidad de Chile IN47B Ingeniera de Operaciones

You might also like