Professional Documents
Culture Documents
Jaime Miranda
Departamento de Ingeniera Industrial Universidad de Chile IN47B Ingeniera de Operaciones
PREGUNTAS
Qu informacin tenemos a nuestro alcance? Cul es la calidad de esta informacin? En qu difiere un buen de un mal cliente? Cmo es posible caracterizar a un cliente? Cuntos clientes en promedio no pagan en un mes?
CARACTERSTICAS
Cada cierto tiempo algunas instituciones financieras (bancos) andan en bsqueda de liquidez ($). Liquidan parte de sus carteras y transan las deudas hipotecarias de sus clientes. La empresa no posee ningn apoyo para la toma de decisin sobre la compra de alguna cartera en especial. La empresa no conoce el comportamiento de pago pasado de los clientes que potencialmente comprara. Al momento de compra todos los clientes parecen buenos clientes
SITUACIN ACTUAL
M e s e s d e p rim e r a tra s o
25 20 15 10 5 0 1999 2000 2001 2002 2003
PROCESO KDD
SELECCIN DE VARIABLES
FUENTES DE INFORMACIN
Informes Data Warehouse Data Mart. Expertos del negocio
VARIABLES IMPORTANTES
Juicio experto. Heursticas de seleccin. Problema NPC.
CARACTERISTICAS
Rene datos esenciales provenientes de bases de datos heterogneas desde todas las reas de negocio (Ventas, finanzas, RRHH, etc.) Organiza los datos para apoyar decisiones de gestin. Maneja elevados volmenes de informacin. Permite el mejor funcionamiento de los mtodos de Data Mining.
Unificada:
Basada en unin de informacin de varias fuentes. Asegura la consistencia de la informacin.
Variante en el tiempo
Guarda informacin a travs del tiempo. Posee actualizaciones temporales agregadas: no hay actualizaciones diarias.
DIAGRAMA GENERAL
ESQUEMA ESTRELLA
ARQUITECTURA MULTICAPAS
INFORMACION HETEROGENEA
HERRAMIENTAS DE ANALISIS
METADATOS
PREPROCESAMIENTO
PREPROCESAMIENTO (2)
PREPROCESAMIENTO (3)
SOLUCIONES BSICAS
Eliminacin de objetos con algn problema. Llenado con valores promedio o modas.
SOLUCIONES AVANZADAS
Modelos predictivos. Heursticas especializadas.
1 componente
2 componentes
3 componentes
4 componentes
SELECCIN DE ATRIBUTOS
Prominencia ( salience), S ( xi ) = 1
g ( x| xi = mean _ value ) g ( x)
TRANSFORMACIN
NORMALIZACIONES
Escalamiento [0,1] - Rango Estandarizaciones. N(0,1)
CATEGORIZACIONES
Variables string a nmeros: Nivel educacional Generacin de rangos en las variables
NUEVAS VARIABLES
Relaciones nuevas basadas en variables originales Variaciones %.
ALGUNAS DEFINICIONES
APRENDIZAJE
El aprendizaje es una habilidad de la que disponen gran parte de los sistemas naturales para adaptarse al entorno en el que vive. Adquisicin de conocimiento de un proceso por medio del analisis, ejercicio o experiencia. Un proceso por el cual los parmetros libres del sistema se adaptan a travs de un proceso continuo de estimulacin a partir del entorno en el que el sistema est inmerso.
GENERALIDAD
Modelo representativo, el cual puede predecir el comportamiento a nuevos objetos.
COMPRENSIBILIDAD
Fcil de inspeccionar y entendible. Con fciles mejoras de capacidad de generalizaron
DISCRIMINANTES
CONCEPTOS BSICOS
Medida de distancia Prototipo o centro de clase ms cercana. Hipersuperficies Clasificacin de acuerdo a si los objetos estn a uno u otro lado de una hipersuperficie o conjunto de hiperplanos.
X2
X1
MTODOS SUPERVISADOS
Redes neuronales rboles de decisin.
MTODOS NO SUPERVISADOS
Cluster: Fuzzy C-means Mapas de Kohonen (SOM)
APRENDIZAJE SUPERVISADO
Algunas nociones
Necesidad de una entrada (inputs) y una salida (outputs). Determinar el output a travs de combinaciones de los inputs. Encontarr una funcin que describa el proceso. Uso de la experiencia para describir algn patrn caracterstico.
Conjuntos
Entrenamiento. Test
Respuesta deseada
MAESTRO
INFORMACION
+
MEDIO AMBIENTE
Vector que describe el Medio Ambiente Respuesta calculada
RELACIONES
SISTEMA DE APRENDIZAJE
Error
APRENDIZAJE NO SUPERVISADO
Algunas nociones
Necesidad solo de una entrada (inputs) No necesita una salida (outputs) explicita. Encontrar una funcin que describa el proceso. Uso de la experiencia para describir algn patrn caracterstico.
INFORMACION
MEDIO
RELACIONES CONOCIMIENTO DEL NEGOCIO
AMBIENTE
Respuesta calculada
SISTEMA DE APRENDIZAJE
Error
Sistema no supervisado
DESCRIPCIN
Los bancos en busca de liquidez venden parte de su cartera de negocio. Se busca construir un modelo que genere un scoring sobre el riesgo crediticio de un cliente que es vendido por una institucin financiera. Se conoce el comportamiento de pago solo de los clientes que compone la cartera de la empresa. Se busca identificar que clientes (buenos) comprar a lainstitucin financiera con el fin de minimizar las perdidads por mora.
DESCRIPCIN
Existe un creciente aumento en el nmero de cierres voluntarios de cuentacorrientes de una institucin financiera. Se busca un modelo de prediccin de fugas, para aumentar eficiencia y eficacia de las polticas comerciales y de retencin. Se desea disminuir el nmero de clientes fugados.
DESCRIPCIN
Cansados de fallidos y bajos radios de retorno del envi de descuentos y ofertas por correo, una importante empresa de retail desea construir un modelo de prediccin de compra (ofertas focalizadas). Se desea mandar un descuento para un televisor La empresa posee historiales de compras de sus clientes que han comprado alguna vez un televisor de esas caractersticas. Se desea minimizar los costos de envi del descuento.
Jaime Miranda
Departamento de Ingeniera Industrial Universidad de Chile IN47B Ingeniera de Operaciones