You are on page 1of 129

UNIVERSIDAD NACIONAL JORGE BASADRE GROHMANN - TACNA

Facultad de Ingeniera

Escuela Acadmico Profesional de Ingeniera en Informtica y Sistemas MI TITULI TITULO

EXAMEN PROFESIONAL "APLICACIN DE MINERA DE DATOS PARA DETERMINAR CLIENTES CON RIESGO CREDITICIO"

PRESENTADO POR:

Bach. Maritza del Pilar Serrano Cahuana

Para optar el Ttulo Profesional de:

INGENIERO EN INFORMTICA Y SISTEMAS TACNA - PER 2013

UNIVERSIDAD NACIONAL JORGE BASADRE GROHMANN FACULTAD DE INGENIERA JURADO CALIFICADOR Y CALIFICACIN DEL EXAMEN ORAL DE EXAMEN PROFESIONAL

MONOGRAFA N ____

TITULO PROFESIONAL DE: Ingeniero en Informtica y Sistemas

La Secretara Acadmica Administrativa de la Facultad de Ingeniera, certifica que por Resolucin de Facultad N ____-2006-FACI/UNJBG, fueron designados como jurados para Sustentacin Oral del Examen de Suficiencia Profesional del tema: APLICACIN DE MINERA DE DATOS PARA DETERMINAR CLIENTES CON RIESGO CREDITICIO. El mismo est conformado por: Presidente Secretario Vocal : : : MSc. Edilberto Pablo Mamani Lpez MSc. Juan Ubaldo Jimenez Castilla Ing. Ivn Pino Telleria

Para calificar la sustentacin del tema de la monografa en acto pblico el da 16 de Marzo del 2006. Presentada por la seorita Maritza del Pilar Serrano Cahuana de la Escuela Acadmico Profesional de Ingeniera en Informtica y Sistemas. El Jurado Calificador en forma secreta e individual emiti su calificativo sobre el tema monogrfico expuesto y procedi a obtener el promedio que arrojo el calificativo APROBADO / REGULAR con la nota de ONCE (11). Para ratificar lo detallado firman.

MSc. Edilberto Pablo Mamani Lpez Presidente

MSc. Juan Ubaldo Jimenez Castilla Secretario

Ing. Ivn Pino Telleria Vocal

ii

DEDICATORA

A mis Padres, quienes en todo momento han sido mi fortaleza y apoyo, guiando mis pasos para salir adelante, demostrndome que no hay nada que no se pueda conseguir con esfuerzo y dedicacin. A mi Hermano por su confianza y amor. A mi Novio que desde el Cielo me ha impulsado a lo lograr lo inimaginable. A mi Universidad y Profesores. Gracias por lo que hemos logrado. Mas la senda de los justos es como la luz de la aurora, que va en aumento hasta que el da es perfecto Proverbios 4:18

iii

CONTENIDO

RESUMEN ______________________________________________________ 1 I. INTRODUCCIN ______________________________________________ 1 II. OBJETIVOS __________________________________________________ 4 2.1. 2.2. Objetivo General _________________________________________ 4 Objetivos Especficos _____________________________________ 4

III. DESARROLLO DEL TEMA ___________________________________ 6 3.1. Fundamento terico ______________________________________ 6

3.1.1. Qu es minera de datos? _________________________________ 6 3.1.2. Limitaciones de minera de datos __________________________ 10 3.1.3. Diferencias entre minera de datos y estadstica _______________ 11 3.1.4. Minera de datos y KDD _________________________________ 14 3.1.5. Metodologas de minera de datos__________________________ 17 3.1.6. Aplicaciones de la minera de datos ________________________ 27 3.1.7. Tcnicas de la minera de datos ___________________________ 28 3.1.8. Software para minera de datos ____________________________ 59 3.2. Caso prctico ___________________________________________ 62

3.2.1. Descripcin del problema ________________________________ 62

iv

3.2.2. Justificacin___________________________________________ 66 3.2.3. Alcances _____________________________________________ 67 3.2.4. Finalidad del proyecto ___________________________________ 67 3.2.5. Evaluacin de la situacin ________________________________ 68 3.2.6. Determinacin de criterios de xito ________________________ 71 3.2.7. Entendimiento de los datos _______________________________ 75 3.2.8. Generacin de modelos __________________________________ 79 3.2.9. Evaluacin de los resultados _____________________________ 102 IV. CONCLUSIONES __________________________________________ 107 V. RECOMENDACIONES ______________________________________ 109 VI. BIBLIOGRAFA ___________________________________________ 111 VII. ANEXOS _________________________________________________ 120

NDICE DE FGURAS

Figura N 01. Etapas del descubrimiento de conocimientos. ............................. 15 Figura N 02. Fases de la metodologa SEMMA. .............................................. 17 Figura N 03. Metodologa SEMMA. ................................................................ 20 Figura N 04. Fases de metodologa CRISP-DM. .............................................. 22 Figura N 05. Interrelacin entre las fases de las metodologas SEMMA y CRISPDM. ........................................................................................................ 26 Figura N 06. Comparacin de clculo de distancias. ........................................ 35 Figura N 07. rbol de decisin. ....................................................................... 38 Figura N 08. rbol de ramificacin "Clima General". ..................................... 47 Figura N 09. rbol final. .................................................................................. 48

vi

NDICE DE TABLAS

Tabla 1. Diferencia Minera de datos vs. Estadstica ......................................... 13 Tabla 3. Informacin de climas para ejemplo. ................................................... 42 Tabla 4. Tabla de probabilidades del ejemplo. .................................................. 52 Tabla 5. Software de minera y sus tcnicas. ..................................................... 62 Tabla 6. Objetivos Especficos vs. Criterios de xito ........................................ 72 Tabla 7. Actividades Plan de Proyecto (Continuacin) ..................................... 74 Tabla 8. Tabla de Atributos de Clientes. ........................................................... 77 Tabla 9. Evaluacin Algoritmo J48. ................................................................ 103 Tabla 10. Evaluacin del Algoritmo REPTree ................................................ 105

vii

RESUMEN

El presente trabajo enfatiza el uso de la tecnologa Data Mining (extraccin de informacin til o no evidente de grandes bases de datos) para el descubrimiento del conocimiento y su uso predominante en el nivel empresarial, a fin de contribuir en la toma de decisiones tcticas y estratgicas en una organizacin.

Se parte definiendo Qu es Data Mining?, objetivos y caractersticas, fases para generar un proyecto, principales tcnicas que utiliza, y se termina indicando sus principales mbitos de aplicacin.

Finalmente, se presenta el caso: Aplicacin de minera de datos para determinar clientes con riesgo crediticio, que permite analizar informacin relativa a clientes y su entorno, el mismo que se ha convertido en fuente de prevencin de riesgos crediticios durante el otorgamiento de crditos.

I. INTRODUCCIN

La Minera de Datos es una herramienta til y con creciente demanda en el mercado y consiste esencialmente en el proceso de extraccin, transformacin y anlisis de datos, con el fin de obtener conocimiento de los mismos.

En sus inicios la minera de datos solo era utilizada en empresas dedicadas al anlisis de los datos con un campo de estudio muy especfico, sin embargo hoy en da la penetracin en todos los mbitos comerciales es muy significativa. Da con da ms empresas utilizan este proceso con el fin de conocer ms a sus clientes, dar un mejor servicio, identificar las reas de oportunidad, todo con el fin de ser ms competentes en el mercado.

El presente trabajo tiene como objetivo introducir y guiar al lector al estudio de la minera de datos, mediante aplicaciones y ejemplos prcticos. Utilizando las tcnicas ms conocidas y las diferentes soluciones respecto a software que ofrecen las empresas lderes en este ramo.

El capitulo dos se citan los objetivos planteados para el desarrollo de este proyecto, tanto objetivo general como objetivos especficos.

En el captulo tres se refiere a la historia de la minera de datos, se citan diferentes definiciones de la minera de datos. Se menciona la diferencia entre la minera de datos y la estadstica, las etapas y proceso para el descubrimiento de conocimiento a partir de un conjunto de datos, se citan las metodologas ms usuales de la minera de datos: la metodologa SEMMA y CRISP-DM. Se mencionan algunas tcnicas ms usuales de la minera de datos:

rboles de decisin. Redes Neuronales. Clustering o agrupamiento. Series temporales. Redes bayesianas.

As tambin, se citan algunos software que contienen utilidades para preprocesamiento, clasificacin, agrupamiento, visualizacin, etctera; algunos de estos de uso libre. Se detalla los ms usuales como: Data Engine, Enterprise Miner, Clementine y Weka.

Por ltimo, se define el problema para el caso asignado, se da a conocer los antecedentes del mismo, se justifica la necesidad, se determina el alcance del proyecto a desarrollar y se presenta un caso prctico de aplicacin de minera de datos haciendo uso de la Herramienta Weka, que genera un modelo y lo prueba clasificando los datos en un rbol de decisin, indicando el grado de certeza obtenido, el cual nos permite la clasificacin de clientes con riesgo crediticio.

Finalmente, se da a conocer las conclusiones y recomendaciones a las cuales se llega al trmino del desarrollo del presente tema.

II. OBJETIVOS

2.1. Objetivo General

Implementar un sistema de soporte a la toma de decisiones, con la ayuda de una herramienta basada en Data mining para la exploracin de datos, a fin de encontrar caractersticas comunes entre los clientes que recibieron crditos para poder reducir el riesgo de no pago de un crdito en Caja Arequipa.

2.2. Objetivos Especficos

Minimizar los porcentajes de morosidad en los crditos que se otorguen a clientes en las zonas donde se inauguren nuevas agencias. Ayudar a resaltar aquellas debilidades u obstculos que ser necesario corregir y vencer para alcanzar los objetivos estratgicos, en el tiempo propuesto y con los recursos disponibles. Mantener un proceso continuo de calificacin y recalificacin de las operaciones crediticias.

Clasificar a una persona que solicita un crdito en cliente moroso o cliente pagador. Generacin de un rbol de decisin basado en un algoritmo clasificatorio.

III. DESARROLLO DEL TEMA

3.1. Fundamento terico

3.1.1. Qu es minera de datos?

Existen varias definiciones de minera de datos, a continuacin se mencionaran algunas:

Definicin 1. Minera de datos es el proceso por el cual generamos un modelo, que sirva para la prediccin, este modelo se genera con base en los datos que se encuentran en una base de datos aplicndoles algn algoritmo que construya el modelo.

Definicin 2. La minera de datos es un proceso no trivial de identificacin vlida, novedosa, potencialmente til y entendible de patrones comprensibles que se encuentran ocultos en los datos (Vieria, Ortiz, & Ramirez, 2009, p.11).

Definicin 3. Es la integracin de un conjunto de reas que tienen como propsito la identificacin de un conocimiento obtenido a partir de las bases de datos que aporten un sesgo hacia la toma de decisin a corto y largo plazo, en un ambiente de competencia (Palma, Palma, & Perz, 2009, p. 37).

Definicin 4. Es un mecanismo de explotacin, consistente en la bsqueda de informacin valiosa en grandes volmenes de datos. Est muy ligada a las bodegas de datos que proporcionan la informacin histrica con la cual los algoritmos de minera de datos tienen la informacin necesaria para la toma de decisiones (Trujillo, Mazn, & Pardillo, 2011, p. 82).

En la definicin 1 y 2, se dice que la minera de datos es un proceso; en la definicin 3 se describe como una integracin de reas y en la definicin 4 como un mecanismo de explotacin. Las cuatro definiciones se complementan una con otra as como los propsitos que se citan en cada una de ellas.

Entonces concluimos que la minera de datos es un proceso que integra diferentes reas sirviendo como mecanismo de explotacin para

identificacin de informacin valiosa, novedosa y til; as como para prediccin de comportamientos. Por tanto el objetivo fundamental de sta es aprovechar el valor de la informacin localizada y usar patrones preestablecidos para que los directivos tengan un mejor conocimiento de su negocio y se tomen decisiones ms confiables. El resultado de la minera ser un modelo que se tendr que evaluar para ver qu tan certero ser con respecto a sus predicciones y posteriormente se utilizar para predecir el patrn de comportamiento de cualquier dato nuevo (esto se hace calificando los nuevos datos basndose en el modelo generado) que llegue a la base de datos.

Las aplicaciones de minera de datos utilizan una gran variedad de parmetros para examinar los datos:

La asociacin (los patrones de un evento que est conectado a otro evento, como la compra de una pluma y la compra de papel).

La secuencia (patrones donde un evento lleva a otro, como el nacimiento de un hijo y la compra de paales).

La

clasificacin

(identificacin de nuevos patrones,

como

coincidencias entre la compra de cinta adhesiva para conductos y la compra de lminas de plstico).

Las agrupaciones (encontrar y documentar visualmente grupos de hechos anteriormente desconocidos, como ubicacin geogrfica y las preferencias de marca).

Los pronsticos (el descubrimiento de patrones a partir de los cuales se hacen predicciones en relacin con las actividades futuras, tales como, la prediccin de que las personas que pertenecen a un club de atletismo tome clases de ejercicio).

Las principales caractersticas y objetivos de la minera de datos son:

Explorar los datos para encontrar informacin valiosa que est oculta dentro de las grandes bases de datos. El entorno de la minera de datos suele tener una arquitectura cliente servidor, es decir la informacin se encuentra en un servidor con accesos restringidos y las consultas se hacen por medio de otra aplicacin independiente. Las herramientas de minera de datos ayudan a explotar los datos con los que se cuenta, para encontrar patrones, crear predicciones, etctera. La informacin obtenida a travs de la minera de datos ayuda a los usuarios a elegir cursos de accin y a definir estrategias competitivas, porque conocen informacin qu slo ellos emplean.

Explorar, a menudo implica el descubrimiento de resultados valiosos e inesperados.

Debido a la gran cantidad de datos, algunas veces resulta necesario usar procesamiento en paralelo para la minera de datos.

La minera de datos es un proceso que invierte la dinmica del mtodo cientfico, el cual consiste en formular una hiptesis y luego se disea el experimento para confirmarla o refutarla; y en minera de datos primero se disea y realiza el experimento y finalmente se obtiene el nuevo conocimiento.

3.1.2. Limitaciones de minera de datos

Las limitaciones de la minera de datos son los primeros datos o datos puros, y no tanto la tecnologa o herramientas para el anlisis, es decir depende mucho de la limpieza de los datos y de la definicin de las variables, si los datos no estn correctos el modelo creado no servir. Del mismo modo la validez de los patrones descubiertos depende de cmo se apliquen al mundo real o a las circunstancias.

10

3.1.3. Diferencias entre minera de datos y estadstica

La minera de datos como enfoque para el anlisis y descubrimiento de la informacin o conocimiento a realizar en grandes bases de datos combina tcnicas como: Estadstica (anlisis factorial, discriminante, regresivo, de correlaciones), redes neuronales, sistemas expertos o basados en el conocimiento, sistemas de reglas de induccin, lgica difusa, algoritmos genticos, algoritmos matemticos (teora de fractales y del caos, simulacin).

El uso de metodologas estadsticas y de minera de datos a veces suelen confundirse entre ellas.

La minera de datos se presenta como una disciplina nueva, ligada a la Inteligencia Artificial y diferenciada de la Estadstica. Por otro lado, en el mundo estadstico ms acadmico, la minera de datos ha sido considerada en su inicio como una moda ms, conocida desde haca tiempo bajo el nombre de data fishing. sta conlleva la promesa de exploracin y el encuentro de relaciones subyacentes en los datos, por tanto se dice que la esencia de la minera de datos se encuentra en la posibilidad del descubrimiento de informacin insospechada, pero

11

sumamente valiosa, esto significa que la minera de datos es exploratoria y las reas de la estadstica son confirmatorias (confirmar hiptesis).

Con la estadstica se hacen manipulaciones de datos de manera directa; en minera de datos no es as, se necesita una serie de algoritmos numricos. Otra diferencia entre estadstica y minera de datos es que a la minera no le concierne la seleccin de la informacin y en la estadstica es cuestin fundamental el cmo seleccionar la muestra de la mejor manera, de tal forma que sea representativa de la poblacin, la minera de datos supone que los datos ya han sido recolectados y se aboca al descubrimiento de informacin o patrones.

En la tabla 1 se muestran las caractersticas de la estadstica y la minera de forma comparativa para visualizar las diferencias entre ambas.

12

Tabla 1. Diferencia Minera de datos vs. Estadstica


Minera de Datos Trabaja sobre grandes bases de datos. Los datos vienen dados, no proceden de una experimentacin previa, son oportunistas. Hay multitud de valores no informados e inconsistentes. Las variables siguen distribuciones no investigadas en la estadstica. Para predecir un evento se disponen de cientos de variables explicativas. El objetivo es disponer de un modelo que describa y prediga bien y con sentido de negocio. Las hiptesis son establecidas despus de tabular los datos y son pragmticamente analizadas. Estadstica Clsica Trabaja sobre muestras definidas. En muchas ocasiones los datos proceden de estudios prediseados. Los datos estn depurados y no presentan anomalas. Las variables siguen distribuciones estudiadas (normales, binomiales). El nmero de variables explicativas es muy bajo, no es necesaria una seleccin previa. El objetivo es obtener un modelo con alto rigor estadstico (usando contrastes de hiptesis, distribuciones estadsticas, etctera.). Establece hiptesis para ser empricamente contrastadas.

Fuente: Elaboracin propia basada en revisin documental.

En conclusin en la estadstica se desarrolla una hiptesis y, a continuacin se usan los datos para probar o refutar la hiptesis. La eficacia de este enfoque se ve limitado por la creatividad del usuario a desarrollar diversas hiptesis, as como la estructura del software que sea utilizado.

En contraste, la minera de datos utiliza un enfoque de descubrimiento, en los algoritmos que son usados para examinar varias relaciones en bases de datos multidimensionales de manera simultnea, identificar a aquellos que se presentan con frecuencia.

13

3.1.4. Minera de datos y KDD

La minera de datos revela patrones o asociaciones que son desconocidos para el usuario, por sta razn, entra o se asocia con el contexto de Knowledge Discovery in Database (KDD) o

descubrimiento de conocimientos en las bases de datos. ste trmino es originado de la Inteligencia Artificial (Al).

Qu es conocimiento? Desde el punto de vista de las organizaciones, se define el conocimiento como aquella informacin que permite generar acciones asociadas a satisfacer las demandas del mercado, y apoyar las nuevas oportunidades a travs de la explotacin de las competencias centrales de la organizacin. El conocimiento es una combinacin de valores, informacin contextualizada y

experiencias que proporcionan un marco para evaluar e incorporar nuevas experiencias e informacin. En las organizaciones, el conocimiento reside en documentos y bases de datos y tambin en los procesos, prcticas y normas corporativas.

14

Informacin

Seleccin

Preprocesado

Transformacin de Informacin

Minera de Datos

Evaluacin

Modelo Conocimiento

Datos

Figura N 01. Etapas del descubrimiento de conocimientos. Ntese que el proceso de minera de datos es solo una etapa del proceso de extraccin del conocimiento a partir de datos (KDD). Fuente: Elaboracin propia basada en revisin documental.

La figura 1 muestra las etapas del descubrimiento de conocimientos. Segn Perz y Santn (2007, p. 4-5), el proceso de descubrimiento de conocimiento en bases de datos involucra varios pasos:

a. Seleccin de datos. Es la primera etapa para extraer conocimiento, se define la fuente de datos a analizar y esto depende del objetivo del estudio, se parte de una pregunta o hiptesis. Los atributos o campos seleccionados son significativos para el conocimiento que se desea obtener, en cuanto al nmero de registros, a veces es suficiente realizar el anlisis sobre un subconjunto o muestra. b. Pre-procesar la informacin. sta etapa tiene por objetivo preparar los datos para que sean sometidos a la etapa siguiente del proceso. Dentro de las tcnicas para realizar el preprocesamiento cabe mencionar: limpieza de datos, a fin de remover ruido e inconsistencias ya que estos datos nos llevan a un modelo errneo;

15

integracin de datos, para generar un nico almacn de datos coherente en aquellos casos donde los datos provienen de diferentes fuentes; transformaciones de datos, para normalizarlos; y reduccin de datos, a fin de reducir el tamao de los datos, por ejemplo, eliminando caractersticas redundantes. c. Transformacin de la informacin. sta es la que insume mayor tiempo, aproximadamente el 60% del esfuerzo total; ya que es necesario tener el conocimiento del negocio, as como el objetivo del proyecto o hacia donde se quiere llegar. d. Patrones. Antes de comenzar con sta etapa, se define el tipo de conocimiento que se desea obtener, a partir de ste se elige la tcnica y finalmente el algoritmo. La minera tiene diferentes objetivos como predictivo (estimacin de valores futuros o desconocidos de variables de inters a partir de otras variables independientes) o descriptivo (identificacin de patrones en los datos que los explican o resumen). e. Conocimiento. Una vez que se tenga el modelo de minera de datos, se da un informe de los resultados obtenidos por medio de presentaciones, reportes, cuadros comparativos, graficas, etctera. Para evaluar si los resultados son los esperados.

16

3.1.5. Metodologas de minera de datos

Dentro de las principales metodologas utilizadas por los analistas en los proyectos de minera de datos se tiene:

A. Metodologa SEMMA

Segn

Matignon (2005), SAS Institute desarrollador de sta

metodologa, la define como el proceso de seleccin, exploracin y modelado de grandes cantidades de datos para descubrir patrones de negocio desconocidos (p. 233). El nombre de sta metodologa corresponde a sus letras inciales en ingls: Sample (Muestreo), Explore (Exploracin), Modify (Manipulacin), Model (Modelado) y Asses (Valoracin).

Muestreo (SAMPLE)

Exploracin (EXPLORE)

Manipulacin (MODIFY)

Modelado (MODEL)

Valoracin (ASSES)

Figura N 02. Fases de la metodologa SEMMA. Fuente: Elaboracin propia basada en revisin documental.

Como se observa en la figura 2 el proceso se inicia con la extraccin de la poblacin muestral sobre la que se va a aplicar el

17

anlisis. El objetivo de sta fase consiste en seleccionar una muestra representativa del problema en estudio.

La metodologa establece que para cada muestra considerada para el anlisis del proceso asocia el nivel de confianza de la muestra. Una vez determinada una muestra o conjunto de muestras representativas de la poblacin en estudio, la metodologa indica que se procede a una exploracin de la informacin disponible con el fin de simplificar el problema y optimizar la eficiencia del modelo. Para lograr este objetivo se propone la utilizacin de herramientas de visualizacin de tcnicas estadsticas que ayuden a poner de manifiesto relaciones entre variables.

La tercera fase de la metodologa consiste en la manipulacin de los datos, con los resultados de la exploracin realizada, de forma que se definan y tengan el formato adecuado de los datos que sern introducidos en el modelo.

Una vez que se han definido las entradas del modelo, con el formato adecuado para la aplicacin de la tcnica de modelado, se procede al anlisis y modelado de los datos. El objetivo de sta fase

18

consiste en establecer una relacin entre las variables explicativas y las variables objetivo, que posibiliten inferir el valor de las mismas con un nivel de confianza determinado.

Las tcnicas utilizadas para el modelado de los datos incluyen mtodos estadsticos tradicionales (tales como anlisis

discriminante, mtodos de agrupamiento, y anlisis de regresin), as como tcnicas basadas en datos tales como redes neuronales, tcnicas adaptativas, lgica difusa, rboles de decisin, reglas de asociacin y computacin evolutiva.

Finalmente, la ltima fase del proceso consiste en la valoracin de los resultados mediante el anlisis de bondad del modelo o modelos, contrastado con otros mtodos estadsticos o con nuevas poblaciones mustrales. En la figura 3 se observa un esquema de la dinmica general de la metodologa.

19

Figura N 03. Metodologa SEMMA. Fuente: Elaboracin propia basada en revisin documental.

En conclusin, la metodologa consiste en los siguientes pasos: tomar los datos o una muestra en caso de que la cantidad de datos sea muy grande, se exploran, modifican, modelan y se evalan en el modelo o los modelos resultantes para elegir el ms adecuado.

B. Metodologa CRISP-DM

CRISP-DM es una organizacin europea creada por tres grandes jugadores en proyectos de minera de datos que son SPSS, NCR y

20

Daimler Chrysler. Lo que trata sta metodologa es desarrollar los proyectos de minera de datos bajo un proceso estandarizado de definicin y validacin de tal forma que se desarrollen proyectos minimizando los costos que impliquen y con un alto impacto en el negocio.

La metodologa CRISP-DM proporciona dos documentos distintos como herramienta de ayuda en el desarrollo del proyecto de minera de datos: el modelo de referencia y la gua del usuario.

El documento del modelo de referencia describe de forma general las fases, tareas generales y salidas de un proyecto de minera en general.

La gua del usuario proporciona informacin ms detallada sobre la aplicacin prctica del modelo de referencia a proyectos de minera de datos especficos, proporcionando consejos y listas de comprobacin sobre las tareas correspondientes a cada fase.

Segn Gallardo (2000), la metodologa CRISP-DM estructura el ciclo de vida de un proyecto de minera de datos en seis fases, que

21

interactan entre ellas de forma iterativa durante el desarrollo del proyecto (p. 4).

Figura N 04. Fases de metodologa CRISP-DM. Fuente: Elaboracin propia basada en revisin documental.

En la figura 4, las flechas indican relaciones ms habituales entre las fases, aunque podamos establecer relaciones entre cualquier fase. El crculo exterior simboliza la naturaleza cclica del proceso de modelado.

La primera fase anlisis del problema, incluye la comprensin de los objetivos y requerimientos del proyecto desde una perspectiva

22

empresarial, con el fin de convertirlos en objetivos tcnicos y en una planificacin.

La segunda fase de anlisis de datos comprende la recoleccin inicial de datos, en orden a que se establezca un primer contacto con el problema, identificando la calidad de los datos y estableciendo las relaciones ms evidentes que permitan establecer las primeras hiptesis. Una vez realizado el anlisis de datos, la metodologa establece que se proceda la preparacin de los datos, de tal forma que sean tratados por las tcnicas de modelado. La preparacin de datos incluye las tareas generales de seleccin de datos a los que se va a aplicar la tcnica de modelado (variables y muestras), limpieza de los datos, generacin de variables adicionales, integracin de diferentes orgenes de datos y cambios de formato.

La fase de preparacin de los datos, se encuentra muy relacionada con la fase de modelado. Independientemente de la tcnica de modelado, los datos necesitan ser procesados en diferentes formas. Por lo tanto las fases de preparacin y modelado interactan de forma sistemtica.

23

En la fase de modelado se seleccionan las tcnicas de modelado ms apropiadas para el proyecto de minera de datos especfico.

En la fase de evaluacin se evala el modelo escogido, no desde el punto de vista general, sino del cumplimiento de los objetivos del negocio. Se revisa el proceso teniendo en cuenta los resultados obtenidos, para repetir alguna fase en caso que se hayan cometido errores. Si el modelo generado es vlido en funcin de los criterios de xito establecidos en la primera fase y de la precisin del mismo, se procede al despliegue de ste en caso se requiera.

La fase de explotacin es en la cual se muestra el resumen de evaluacin de los resultados, las relaciones y patrones encontrados para que stos sean utilizados en la traza de estrategias y toma de decisiones.

C. Comparacin de Metodologas

Las metodologas SEMMA y CRISP-DM comparten la misma esencia, estructurando el proyecto de minera de datos en fases que

24

se encuentran interrelacionadas entre s, convirtiendo el proceso en iterativo e interactivo.

La metodologa SEMMA se centra ms en las caractersticas tcnicas del desarrollo del proceso, mientras que la metodologa CRISP-DM, mantiene una perspectiva ms amplia respecto a los objetivos empresariales del proyecto. sta diferencia se establece ya desde la primera fase del proyecto de minera de datos donde la metodologa SEMMA comienza realizando un muestreo de datos, mientras que la metodologa CRISP-DM comienza realizando un anlisis del problema empresarial para su transformacin en un problema. Entonces la metodologa CRISP-DM est ms cercana al concepto real de proyecto, integrada con una Metodologa de Gestin de Proyectos especfica que completara las tareas administrativas y tcnicas.

Otra diferencia significativa entre la metodologa SEMMA y la metodologa CRISP-DM radica en su relacin con herramientas comerciales. La metodologa SEMMA slo es abierta en sus aspectos generales ya que est muy ligada a los productos SAS donde se encuentra implementada. Por su parte la metodologa

25

CRISP-DM ha sido diseada como una metodologa neutra respecto a la herramienta que se utilice para el desarrollo de minera de datos siendo su distribucin libre y gratuita.

En la figura 5 se muestra la interrelacin entre ambas metodologas.

Figura N 05. Interrelacin entre las fases de las metodologas SEMMA y CRISPDM. Fuente: Elaboracin propia basada en revisin documental.

26

3.1.6. Aplicaciones de la minera de datos

La minera de datos se utiliza para varios pronsticos tanto en el sector pblico como privado, industrias como la banca, los seguros, la medicina, para la reduccin de costos, mejorar la investigacin, y aumentar las ventas (Ordoez, 2008, p. 11-15).

Por ejemplo, las industrias de seguros y banca, usan aplicaciones de minera de datos para detectar el fraude y ayuda a la evaluacin del riesgo (credit scoring). Utilizando los datos de clientes recabados a lo largo de varios aos, las empresas desarrollan modelos que predicen si un cliente tienen alto riesgo crediticio (por ejemplo hoy en da se cuenta con el bur de crdito), o si un crdito es fraudulento y tiene que ser investigado ms a fondo.

As tambin, la comunidad mdica a veces utiliza a la minera de datos para ayudar a predecir la eficacia de un procedimiento o medicamento. Las empresas farmacuticas usan la minera de datos de compuestos qumicos y material gentico para ayudar a guiar la investigacin en nuevos tratamientos para las enfermedades.

27

3.1.7. Tcnicas de la minera de datos

Segn Moreno, Quintales, Garcia y Polo (2001, p. 2),la minera de datos ha dado lugar a una paulatina sustitucin del anlisis de datos por un enfoque de anlisis de datos. La principal diferencia entre ambos se encuentra en que en el ltimo se descubre informacin sin necesidad de formular previamente una hiptesis. La aplicacin automatizada de algoritmos de minera de datos permite detectar fcilmente patrones en los datos, razn por la cual esta tcnica es mucho ms eficiente que el anlisis dirigido a la verificacin cuando se intenta explorar datos procedentes de repositorios de gran tamao y complejidad elevada.

Segn Gutierrez (2010, p. 1), las tareas de la minera de datos se clasifican en:

a. Predictivas: Estimacin de valores futuros o desconocidos de variables de inters (variables objetivo) a partir de otras variables independientes (predictivas). El objetivo de las tareas predictivas es generar modelos que me permitan realizar predicciones para nuevos ejemplos de datos. Por ejemplo el anlisis de ventas cruzadas, que descubre qu objetos tienden a ser comprados juntos para crear

28

recomendaciones y determinar cmo el posicionamiento del producto contribuye directamente a su lnea inferior. En stas tareas se resuelven con tcnicas como: agrupamiento o clustering, regresin, series de tiempo, anlisis de secuencias, entre otras. b. Descriptivas: Identificacin de patrones en los datos que lo explican o resumen. El objetivo de las tareas descriptivas es caracterizar las propiedades generales de los datos. Por ejemplo, la previsin de ventas que optimiza el funcionamiento de su almacn, manteniendo un stock de cada producto que sea suficiente para poder servir rpidamente los pedidos de sus clientes. As la organizacin dispone de informacin sobre las ventas de cada producto en cada mes del ltimo ao. En este tipo de anlisis se usa tcnicas como: anlisis de asociaciones, rboles de decisin, redes neuronales, anlisis de grupos, etctera.

La seleccin de la tcnica a utilizar en el anlisis depende de los datos con los que se cuente y el objetivo del estudio.

A. Tcnica de deteccin de anomalas (Outlier)

La meta principal en la deteccin de anomalas, es encontrar objetos que sean diferentes de los dems. Frecuentemente estos objetos

29

son conocidos como anomalas (outlier). La deteccin de anomalas tambin es conocida como deteccin de desviaciones, porque objetos anmalos tienen valores de atributos con una desviacin significativa respecto a los valores tpicos esperados. Este conocimiento puede generar aplicaciones de alto valor agregado si el proceso de Minera de Datos es entendido apropiadamente desde una perspectiva del negocio.

Aplicaciones tales como deteccin de anomalas para la prevencin de fraudes y abusos, anlisis de fidelizacin, crossselling, optimizacin de la cadena de suministro; o conceptos tales como clasificadores y regresiones basados en redes neuronales han emergido profusamente durante los ltimos aos en el vocabulario de muchas empresas como una forma de reflejar el potencial que ellas podran alcanzar con esta tecnologa aplicada a sus datos (Cravero & Sepulveda, 2009, p. 1). En trminos de salida, las tcnicas actuales de deteccin de anomalas se clasifican en:

Tcnicas basadas en Modelos. Se basan en el campo de estadsticas, dada la premisa de conocer la distribucin de los datos. Entre estas tcnicas se resalta: el mtodo de convex hull el cual consiste en encontrar el polgono convexo ms pequeo

30

que incluye a todos los datos, dado un conjunto S de puntos. Se dice que una figura es convexa si cada vez que tomamos dos puntos en ella, el segmento que los une pertenece tambin a dicha figura. Tcnicas basadas en proximidad. sta tcnica se basa fundamentalmente en el manejo de distancias entre objetos, entre mayor sea la distancia del objeto respecto a los dems, ste es considerado como una anomala. Entre los principales mtodos se encuentra: la distancia de Mahalanobis y la distancia Euclidiana. Tcnicas basadas en densidad. sta tcnica se basa en la estimacin de densidad de los objetos, para ello, los objetos localizados en regiones de baja densidad y que son relativamente distantes de sus vecinos se consideran anmalos. Entre los principales mtodos se encuentra: LOF (Local Outlier Factor), est tcnica de minera de datos generalmente es de aprendizaje no supervisado, ya que en la mayora de los casos, no se conoce la clase, para ello se asigna una calificacin a cada instancia que refleja el grado con el cual la instancia es anmala. Por lo general sta tcnica es considerada para identificar errores en los

31

datos bien para anlisis muy en particular, por ejemplo, para el descubrimiento de fraudes.

B. Agrupamiento (Clustering)

El anlisis de grupos (cluster) consiste en la divisin de los datos en grupos de objetos similares. Cuando se representan la informacin obtenida a travs de clusters se pierden algunos detalles de los datos, pero a la vez se simplifica dicha informacin.

El agrupamiento de acuerdo a la similitud es una tcnica muy poderosa, la clave para esto es trasladar alguna medida intuitiva de similitud dentro de una medida cuantitativa.

El objetivo es agrupar elementos en grupos de manera que los elementos dentro de un mismo grupo sean lo ms parecidos, mientras que elementos de distintos grupos sean lo ms diferentes (Vega, 2012, p. 2).

32

La obtencin de dichos grupos depende del criterio o distancia considerados. Por ejemplo, una baraja de cartas espaolas se podra dividir de distintos modos:

En cuatro grupos (los cuatro palos). En ocho grupos (los cuatro palos y segn sean figuras o nmeros). En dos grupos (figuras y nmeros).

El agrupamiento presenta las siguientes etapas del anlisis:

Eleccin de las variables: Los tipos de variables dependern del planteamiento del problema, stas son: variables cualitativas, ordinales (grado de estudio), nominales (grupo), variables cuantitativas, variables discretas (nmero de alumnos), variables continuas (estaturas). Eleccin de la medida de asociacin o similitud: En realidad, es bastante subjetivo el hecho de elegir una medida de similitud ya que depende de las escalas de medida. Las observaciones se agrupan segn la similitud expresada en trminos de una distancia.

33

Algunas formulas de distancia ms usadas son:

Distancia euclidiana: Es llamada tambin distancia clsica, como la longitud de la recta que une dos puntos en el espacio. La misma que se obtiene mediante la ecuacin 1 (Krajewski & Ritzman, 2000, p. 360):

Eucl ( x, y)

i 1

( xi y i ) 2

(1)

o Distancia de Manhattan: Es llamada tambin distancia por cuadras (city block), est hace referencia a recorrer un camino no en diagonal (por el camino ms corto) si no zigzagueando, como se hara en Manhattan. La misma que se obtiene mediante la ecuacin 2 (Guisande, Barreiro, Maneiro, Riveiro, Vergara, & Vaamonde, 2006, p. 211):

Manh( x, y) i 1 xi yi
d

(2)

o Distancia de Mahalanobis: Es una distancia ms robusta que utiliza la matriz de covarianzas D. La misma que se

34

obtiene mediante la ecuacin 3 (Rodriguez, lvarez, & Bravo, 2001, p. 47):

Mahalanobis( x, y) ( x y)Cov( D) 1 ( x y)

(3)

Visualmente las distancias se observan en la figura 6.

Distancia Mahalanobis

Figura N 06. Comparacin de clculo de distancias. Ntese que las lneas roja, azul y amarilla tienen la misma longitud (12 espacios). En la geometra Euclidiana, la lnea verde es el nico camino ms corto. Fuente: Elaboracin propia basada en revisin documental.

Eleccin de las tcnicas de grupos: Existen diferentes tcnicas de grupo, la seleccin depender del resultado que se espera. Validacin de los resultados: Evaluar que tan bueno es el ajuste, es decir si el nmero de agrupaciones es el adecuado as como la contribucin de las variables al agrupamiento.

35

Las tcnicas ms usadas para agrupamiento son:

Mapas autoorganizativos (Kohonen): La caracterstica ms importante del modelo es el concepto de aprendizaje en un vecindario o agrupacin prximo a la neurona ganadora, tiene variables de entrada pero no de salida. Esto es porque el mismo Clustering se considera la salida o el resultado en s. Consiste en una matriz de nodos, que compiten entre s para ganar una mayor activacin y atraer los datos de entrada (Nettleton, 2005, p. 153).

K-Medias (K-Means): Es un mtodo de agrupacin de casos que se basa en las distancias existentes entre ellos en un conjunto de variables (este mtodo no permite agrupar variables). El objetivo de este algoritmo es intentar situar los prototipos de forma tal que aquellos patrones cercanos (distancia eucldea) sean similares entre s (Rodriguez & Saborio, 2008, p. 53).

C. rboles de decisin

Un rbol de decisin es un modelo de prediccin y se define como un conjunto de condiciones organizadas en una estructura

36

jerrquica, de tal manera que la decisin final a tomar se determina siguiendo las condiciones que se cumplen desde la raz del rbol hasta sus hojas.

Se utilizan comnmente cuando se necesitan detectar reglas del negocio que puedan ser fcilmente traducidas al lenguaje natural o SQL, o en la construccin de modelos predictivos. Por esta razn es la tcnica ms usada.

De forma ms concreta, refirindonos al mbito empresarial, los rboles de decisin son diagramas (procesos) de decisiones secuenciales y muestran sus posibles resultados. stos ayudan a las empresas a determinar cules son sus opciones al mostrarles las distintas decisiones y sus resultados (Vicens, Poler, Albarracn, & Palmer, 1997, p. 59). La opcin que evita una prdida o produce un beneficio extra tiene un valor. La habilidad de crear una opcin, por lo tanto, tiene un valor que es comprado o vendido. Su nombre proviene de la forma que adopta el modelo, parecido a un rbol. El modelo est conformado por mltiples nodos cuadrados, representan puntos de decisin, y de los cuales surgen ramas (que deben leerse de izquierda a derecha), que representan las

37

distintas alternativas. Las ramas que salen de nodos circulares, o casuales, representan los eventos (Marquez, 2011, p. 5).

Figura N 07. rbol de decisin. Ntese que un rbol de decisin es una forma grfica y analtica de representar todos los eventos (sucesos) que pueden surgir a partir de una decisin en cierto momento. Fuente: Elaboracin propia basada en revisin documental.

En la figura 7 se observa un ejemplo de rbol el cual contiene dos variables: edad y antigedad. Se interpreta de la siguiente manera:

Primero pregunta por la edad. Si es menos a 25 aos el cliente es rechazado. Si su edad es igual o mayor a 25 aos el rbol pregunta por la antigedad. Si es menor a 18 meses el cliente es rechazado. En

38

cambio, si su antigedad es igual o mayor a 18 meses entonces el cliente es aceptado.

Segn Bravo & Ruilova (2008, p. 2), se tienen los siguientes conceptos de la metodologa:

o Entropa: Es la medida de la incertidumbre que hay en un sistema. Es decir, ante una determinada situacin, la probabilidad de que ocurra cada uno de los posibles resultados. o Ganancia de informacin: Es la diferencia entre la entropa de un nodo y la de uno de sus descendientes. Los atributos de prueba son seleccionados en base a una heurstica o medida estadstica.

Segn

Bravo y Ruilova (2008, p. 1), entre los algoritmos o

tcnicas ms usuales se encuentra:

o CART. Se basa en el lema "divide y vencers", son mtodos que construyen rboles binarios basados en el criterio de particin GINI

39

y que sirven para clasificacin como para regresin. La poda se basa en una estimacin de la complejidad del error.

El proceso general es:

Paso 1. El nodo raz es dividido en subgrupos (dos o ms) determinados por la particin de una variable predictora elegida, generando nodos hijos. Paso 2. Los nodos hijos son divididos usando la particin de una nueva variable. El proceso recursivo se repite para los nuevos nodos hijos sucesivamente hasta que se cumpla alguna condicin de parada. Paso 3. Algunos de los nodos resultantes son terminales, mientras que otros nodos continan dividindose hasta llegar a un nodo terminal. Paso 4. En cada rbol se cumple la propiedad de tener un camino nico entre el nodo raz y cada uno de los dems nodos del rbol.

o ID3. Propuesto por Quinlan en 1986, el ID3 es considerado el rbol de decisin ms simple, realiza divisiones sobre los

40

posibles valores de la clase predoctora y usa un criterio de ganancia de informacin como funcin de divisin. El rbol crece hasta encontrar un nodo final. No emplea procedimientos de poda ni manejo de valores perdidos.

El objetivo es construir un rbol de decisin que explique cada instancia de la secuencia de entrada de la manera ms compacta posible, segn los criterios de coste y bondad. En cada momento elige el mejor atributo.

El algoritmo general se define mediante un ejemplo:

Se toma la decisin de asistir a un juego o no, considerando los factores climatolgicos definidos en la tabla 3:

41

Tabla 3. Informacin de climas para ejemplo. Caso 1 2 3 4 5 6 7 8 9 10 11 12 13 14 Clima_general Soleado Soleado Nublado Lluvioso Lluvioso Lluvioso Nublado Soleado Soleado Lluvioso Soleado Nublado Nublado Lluvioso Temperatura Caliente Caliente Caliente Templada Fra Fra Fra Templada Fra Templada Templada Templada Caliente Templada Humedad Alta Alta Alta Alta Normal Normal Normal Alta Normal Normal Normal Alta Normal Alta Viento No Si No No No Si Si No No No Si Si No Si Tipo_clase N N P P P N P N P P P P P N

Fuente: Elaboracin propia.

Analizando la informacin se ve que se tiene 9 con clase P y 5 con clase N.

Paso 1. Se calcula la informacin requerida para la clasificacin general con la ecuacin 4:

42

I ( p, n) (

p p n n ) log 2 ( )( ) log 2 ( ) (4) ( p n) ( p n) ( p n) ( p n)

I (p, n) = - (9/14) * log2 (9/14) - (5/14) * log2 (5/14) = 0,940 bits

Paso 2. Se calcula para cada atributo, se comienza con clima general, se observa que tiene 3 valores (v=3), para el primer valor (Soleado) hay 5 objetos de los cuales 2 son de clase P y 3 de clase N, entonces:

Para el valor de Soleado p 1 = 2, n 1 = 2 I (p1, n1) = (2/5) * log2 (2/5) (3/5) * log2 (3/5) = 0,971

Para el valor de Nublado p2 = 4, n2 = 0 I (p2, n2) = (4/4) * log2 (4/4) (0/4) * log2 (0/4) = 0

Para el valor de Lluvioso p 3 = 3, n3 =1 I (p3, n3) = (3/4) * log2 (3/4) (1/4) * log2 (1/4) = 0,971

43

Paso 3. Se calcula la entropa total de los atributos, haciendo uso de la ecuacin 5:

E(A)=

(p1+n1)*I(p1+n1)+(p2+n2)*I(p2+n2)++(pv+nv)*I(pv+nv) (p+n)

(5)

E(Clima_General)= [5*I(p1+n1)+4*I(p2+n2) + 5*I(p3+n3)]/14 E(Clima_General)= 0,694

Paso 4. Se obtienen la ganancia que es la diferencia entre la entropa de un nodo y la de uno de sus descendientes y sirve para la eleccin del mejor atributo en cada nodo que es que gana la mayor informacin. La ganancia se calcula haciendo uso de la ecuacin 6:

Ganancia ( A ) = I ( p , n ) Entropa ( A)

(6)

Ganancia (Clima_General)= 0,940 - E(Clima_General) Ganancia (Clima_General)= 0,940 - 0,694 = 0,246

Paso 5. El mismo procedimiento es aplicado a los otros tres atributos, por tanto se contina con temperatura.

44

Caliente

p1 = 2, n1 = 2

I (p1, n1)= (2/4) * log2 (2/4) (2/4) * log2 (2/4) =1

Templada p2 = 4 p1 = 4, n2 = 2 I (p2, n2)= (4/6) * log2 (4/6) (2/6) * log2 (2/6) = 0,918

Fra

p3 = 3, n3 =1

I (p3, n3) = (3/4) * log2 (3/4) (1/4) * log2 (1/4) = 0,811

Se calcula ahora la entropa del atributo temperatura. E (Temperatura)= [4*I(p1, n1)+6*(p2,n2)+4*l(p3,n3)]/14 E (Temperatura)= [4 * (1)+ 6 * (0,918)+ 4 * (0,811)]/ 14 = 0,911

Paso 6. Se calcula la ganancia.

Ganancia (Temperatura) = 0,940 E (Temperatura) = 0,029 Ganancia (Temperatura) = 0,940 -0,911=0,029

Paso 7. Ahora se contina con el atributo de humedad:

45

Alt a

p 1 = 3, n 1 = 4

I (p1, n1) = (3/7) * log2 (3/7) (4/7) * log2 (4/7) = 0,985

Normal

p2 = 6, n2 =1

I (p2, n2) = (6/7) * log2 (6 /7) (1/7) * log2 (1/7) = 0,591

Paso 8. Se calcula su entropa. E (Humedad)= [7*I(p1, n1) + 7*I(p2,n2)] /14 E (Humedad)= [7 * (0,985) + 7 * (0,591)] / 14 = 0,788

Paso 9. Y finalmente su ganancia. Ganancia (Humedad) = 0,940 E (Humedad) = 0,151 Ganancia (Humedad)= 0,940-0,788=0,151

Paso 10. Se hacen los clculos correspondientes para viento.

Si

p 1 = 3, n 1 = 3

I (p1, n1) = (3/6) * log2 (3/6) (3/6) * log2 (3/6) = 0,1

No p2 = 6, n2 = 2 I (p2, n2) = (6/8) * log2 (6/8) (2/8) * log2 (2/8) = 0,811

46

Paso 11. Se calcula la entropa y su ganancia.

E (Viento) = [6* I(p1,n1) + 8*I(p2, n2)]/14 E (Viento) = [6 * (0,1) + 8 * (0,811)]/14 = 0,892

Ganancia (Viento)= 0,940-E (viento)= 0,048 Ganancia (viento)= 0,940-0,892=0,048

Paso 12. Una vez realizado los clculos para todos los atributos, se identifica la tupla con mayor ganancia que en este caso es Clima_General para que sea tomada como nodo inicial, el rbol queda de la siguiente manera, como se observa en la figura 8:

Figura N 08. rbol de ramificacin "Clima General". Fuente: Elaboracin propia basada en revisin documental.

47

Paso 13. Este proceso se hace para cada nodo del rbol. Obteniendo un rbol final, como se observa en la figura 9:

Figura N 09. rbol final. Fuente: Elaboracin propia basada en revisin documental

o C4.5. Algoritmo que es la evolucin del ID3, presentado por Quinlan en 1993. Usa como criterio de separacin el radio de ganancia (gain ratio) o proporcin de ganancia. De esta manera se consigue evitar que las variables con mayor nmero de posibles valores salgan beneficiadas en la decisin. Permite trabajar con valores continuos para los atributos, separando los posibles resultados en dos ramas en funcin de un umbral. Los arboles son menos frondosos porque cada hoja no cubre una clase en particular sino una distribucin de clases (Piedra, 2005, p. 276).

48

D. Redes Bayesianas

Una red bayesiana es un grafo acclico dirigido en el que cada nodo representa una variable y cada arco una dependencia probabilstica, en la cual se especifica la probabilidad condicional de cada variable dados sus padres (Rum, 2003, p. 9). La variable a la que apunta el arco es dependiente (causa-efecto) de la que est en el origen de ste. La topologa o estructura de la red nos da informacin sobre las dependencias probabilsticas entre las variables pero tambin sobre las independencias condicionales de una variable (o conjunto de variables) dada otra variable(s). Dichas independencias, simplifican la representacin del conocimiento (menos parmetros) y el razonamiento (propagacin de las probabilidades).

Las redes bayesianas trabajan con el teorema de Bayes el cual es ampliamente usado en la teora de la probabilidad; el teorema es derivado de la frmula de probabilidad condicional y permite establecer la probabilidad a posteriori de una variable Y, dado un conjunto de eventos X.

49

El teorema de Bayes se presenta en la ecuacin 7 (Luceo & Gonzalez, 2004, p. 62):

P*(Y)= P(Y | X)=

( P( X | Y) P( Y) P(X)

(7)

Entonces una red bayesiana es un grafo a cclico dirigido (GAD) tal que los nodos representan las variables del problema X = {X1,X2,..,Xn} y los arcos representan las dependencias

probabilsticas, esto se representa en la ecuacin 8.

P = {p(X1 | pa(X1)),...p(Xn | pa(Xn))}

(8)

Es

un

conjunto

de

distribuciones

de

probabilidad

condicionada, una para cada variable, siendo pa(Xi) el conjunto de padres del nodo en el grafo D. Donde adems el clculo de la probabilidad conjunta del problema se obtiene mediante el producto de los elementos representado en la ecuacin 9, tal que:

P( x) p( xi pa( X i ))
I 1

(9)

50

Con las redes bayesianas se hacen predicciones para problemas multiclase, en los cuales hay varios resultados posibles. Por ejemplo, se construye un modelo para averiguar si un cliente en una organizacin o empresa ser fiel o cambiar de proveedores.

Como ejemplo de una red bayesiana se tiene que: A la salida de un congreso de 50 personas de 3 universidades distintas (23,18, 9) nos encontramos un profesor entonces se desea:

a. Probabilidad de que sea de la tercera universidad? b. Y si es de Economa Cul sera?

Se cuenta con la siguiente informacin:

Congreso con 50 personas de 3 universidades (23,18, 9) 1a. 30% Ciencias, 40% de Ingenieras, 25% humanidades y 5% Economa. 2a.25% Ciencias, 35% Ingenieras, 30% Humanidades y 10% Economa. 3a. 20% Ciencias, 50% Ingenieras, 10% Humanidades y 20% Economa.

51

Solucin: c. d. Se calcula la prioridad a priori: P(x) =9/50 = 0,18 = 18%. Se disea en la tabla 4: (x = universidad | y = especialidad)

Tabla 4. Tabla de probabilidades del ejemplo. P(y|x) y^c Y^i Y^h Y^e x^1 0,3 0,4 0,25 0,05 x^2 0,25 0,35 0,3 0,1 x^3 0,2 0,5 0,1 0,2

Fuente: Elaboracin propia.

Aplicando Bayes, ecuacin 3, se tiene:

P( x ) P( x y )
3 3 e

P( x 3 ) * P( y e x 3 )

P( x) * P( y
x

x3 )

(0,18*0,20)/(0,46*0,05+0,36*0,10+0,18*0,20) = 0,0379 = 37,9%

E. Redes neuronales

Una red neuronal es un sistema de procesadores paralelos conectados entre s en forma de grafo dirigido. Esquemticamente cada elemento de procesamiento (neuronas) de la red se representa como un nodo. Estas conexiones establecen una estructura

52

jerrquica que tratando de emular la fisiologa del cerebro busca nuevos modelos de procesamiento para solucionar problemas concretos del mundo real (Flrez & Frnandez, 2008, p. 17).

Lo importante en el desarrollo de la tcnica de las RNA o red neuronal artificial es su til comportamiento al aprender, reconocer y aplicar relaciones entre objetos y tramas de objetos propios del mundo real.

Las entradas se representan por el vector de entrada x, y el rendimiento mediante el vector de pesos w, entonces el valor de salida es dado por aplicando la ecuacin 10:

y = f( iwixi ) = f ( w, x) = f ( wT x)

(10)

Donde f es la funcin de activacin. Cuando se tiene una red de neuronas, las salidas de unas se conectan con las entradas de otras. Si el peso entre dos neuronas es positivo, el efecto producido es de excitacin y si fuera negativo entonces es de inhibicin.

53

El potencial de las redes neuronales proviene de la capacidad por proporcionar el empleo de muchas de stas unidades simples y robustas al actuar en paralelo.

Segn Sanchz (2009, p. 285), las redes neuronales tienen dos fases principales de operacin: aprendizaje o entrenamiento, recuerdo o ejecucin o prueba.

Durante el entrenamiento se aplican "ejemplos", generalmente un conjunto de datos conocidos que definen una solucin conocida, que mediante una regla de aprendizaje modifican los diferentes pesos de cada neurona en funcin de cmo difiera la respuesta de la red de la solucin esperada. Los valores de estos pesos representan el grado de conocimiento. El entrenamiento concluye cuando el margen de error entre la salida de la red y la salida real es aceptable. Despus, en la fase de ejecucin, se aplican nuevos datos con solucin desconocida y se espera que la red est preparada para dar una solucin verdadera con lo aprendido durante el entrenamiento. Generalmente en esta fase cesa el aprendizaje, por lo que no se modifican los pesos.

54

Por ejemplo los "ejemplos" son fotografas de pacientes con cncer de pulmn y sanos y la red "descubrir" patrones en ellas. Luego, se pasa una nueva foto y se puede discernir si hay cncer o no. Unos datos de entrada ms comunes podran ser edad, sexo, peso, altura, color de piel, color de ojos, color de pelo, grupo sanguneo, y la salida la raza a la que pertenece el sujeto; figuras geomtrica, bien sea mediante imgenes o las coordenadas de sus puntos y lneas en el plano. Las posibilidades son infinitas.

F. Series de tiempo

Segn Prez (2007), una serie de tiempo es una secuencia ordenada de valores de una variable en intervalos de tiempo peridicos y consecutivos (p. 13. Algunas definiciones que se usan en la tcnica son:

o Tendencia: Es un patrn de comportamiento de los elementos de un entorno particular durante un periodo de tiempo. Si los datos muestran una tendencia, se ajustan estos con algn tipo de curva o recta y modelar los residuales. Como el propsito del ajuste es

55

simplemente remover la tendencia a largo plazo, una lnea recta es suficiente. o Estacionalidad: Son fluctuaciones peridicas, por ejemplo cuando hay picos de ventas en la navidad y despus declinan. La serie de tiempo de ventas mostrar un incremento durante septiembre a diciembre y una declinacin durante enero y febrero.

Un supuesto en muchas tcnicas de series de tiempo es que los datos son estacionarios, donde su media, variancia y auto correlacin no cambia en el tiempo, tampoco se presentan patrones de estacionalidad, sin embargo en la prctica algunas veces si se presentan estos patrones de tendencia y de estacionalidad y es necesario contar con modelos que las consideren.

Para comparar la efectividad de diferentes modelos utilizados existen ciertos indicadores como son: MAPE, MAD y MSD.

MAPE: es el porcentaje promedio absoluto de error, mide la exactitud de los valores estimados de la serie de tiempo.

56

MAD: Desviacin media absoluta, mide la exactitud de los valores estimados de la serie de tiempo. Expresa la exactitud en las mismas unidades de los datos. MSD: Desviacin cuadrtica media, es ms sensible a errores anormales de pronstico que el MAD.

Se busca el valor menor en estos ya que representa un mejor ajuste del modelo.

Los mtodos de series de tiempo incluyen mtodos de pronstico y de suavizamiento simples, mtodos de anlisis de correlacin y mtodos de Box Jenkins ARIMA (Hanke & Wichern, 2006, p. 105).

o Promedio mvil: Un promedio mvil se construye sustituyendo cada valor de una serie por la media obtenida con esa observacin y algunos de los valores inmediatamente anteriores y posteriores. Se considerar el promedio mvil a partir de las tres observaciones ms recientes. o Promedios mviles ponderados: El mtodo consiste en asignar un factor de ponderacin distinto para cada dato. Generalmente, a la observacin o dato ms reciente a partir del que se quiere hacer el

57

pronstico, se le asigna el mayor peso, y este peso disminuye en los valores de datos ms antiguos. o Suavizamiento exponencial: El suavizamiento exponencial emplea un promedio ponderado de la serie de tiempo pasada como pronstico; es un caso especial del mtodo de promedios mviles ponderados en el cual slo se selecciona un peso o factor de ponderacin: el de la observacin ms reciente. o Mtodos de pronstico ARIMA (Autoregressive Integrated Moving Average): usan patrones de datos, sin embargo a veces no son tan fcilmente visibles en la serie de tiempo. El modelo usa funciones de diferencias, auto correlacin y auto correlacin parcial para ayudar a identificar un modelo aceptable. El Modelo ARIMA se utiliza para modelar series de tiempo con o sin componentes de tendencia o estacionalidad y proporcionar pronsticos. El perfil de pronstico depende del modelo de ajuste. Tiene la ventaja de ser ms flexible que los mtodos de suavizamiento para el ajuste de los datos, sin embargo la identificacin del modelo adecuado consume tiempo y no es tan fcil automatizado.

58

3.1.8. Software para minera de datos

Segn Turmero (2011), en la actualidad existen productos de software para minera de datos que generan resultados de alta confiabilidad. Los cuales se clasifican en Comerciales y de Cdigo Libre (p. 41). Como software Comercial ms usado se tiene:

o Intelligent Miner / DB2 Data Warehouse: Herramienta es creada por IBM, comprende un conjunto de funciones estadsticas, de proceso y de minera de datos y ofrece herramientas de visualizacin. Tiene una amplia gama de algoritmos de minera y algoritmos de minera escalable (Gomez, 2007, p. 50). o PASW Modeler: El software es creado por SPSS (Statistical Package for the Social Sciences). Apoya en el descubrimiento de informacin oculta en los datos. Adquiere este nombre en la versin de Abril 2009 antes era conocido como Clementine. Es uno de los sistemas de Minera de Datos ms conocidos, posee una herramienta visual que tiene una arquitectura cliente/servidor. o Enterprise Miner: Es una herramienta creada por SAS, muy eficaz para procesos de minera de datos y sumamente preciso para crear modelos descriptivos y predictivos basados en el anlisis de grandes

59

bases de datos. Cuenta con una variedad de herramientas de anlisis, herramientas de bodegas de datos y algoritmos mltiples de minera de datos (Sarma, 2007, p. 1-2). o DataEngine: Es una herramienta para el anlisis inteligente de datos, es un producto de la empresa alemana MIT (Managment Intelligenter Technologien GmbH), algunos de sus clientes son BMW, Mercedes Benz o Deutsche Telecom. DataEngine funciona mediante el uso de redes neuronales, lgica difusa y mtodos estadsticos proporcionando las tcnicas ms avanzadas para el anlisis de datos. o Oracle Datamining: Es una herramienta de Oracle. Se accede a toda la funcionalidad minera de datos a travs de la API Java que incluye la base de datos, de manera que las aplicaciones puedan sacar el mximo partido de las funciones disponibles. Al estar integrado en la base de datos, Oracle Data Minig simplifica el proceso de extraccin de conclusiones basadas en grandes cantidades de datos, ya que se elimina la necesidad de movimientos de datos para el proceso de anlisis. Pero es una desventaja cuando se trabaja con otras bases como DB2, SQL Server.

Existen varias aplicaciones de uso libre, siendo las ms usadas:

60

o WEKA: Desarrollado en Java por la Universidad de Waikato. Y es una coleccin de algoritmos de aprendizaje automtico para tareas de minera de datos. Los algoritmos se aplican directamente en la data set o llamado desde el propio cdigo java. Weka contiene herramientas para pre-procesar los datos, clasificar, regresin, agrupamiento, reglas de asociacin y visualizacin (Hernandez & Ferri, 2006, p. 2). Los requerimientos de instalacin y

funcionamiento es tener Java 1.4 ( ms reciente). Es una herramienta bsica para la minera de datos ya que no usa muchas tcnicas, adems por su estructura no se trabaja con bases de datos muy grandes adems de que requiere la informacin en archivo plano y permite conexin a bases de datos pero solo a SQL Server. o RapidMiner: Es una herramienta desarrollada en Java, de uso libre y contiene varios algoritmos de clasificacin, de agrupamiento y de regresin. Adems incluye mdulos de text mining y anlisis de datos. RapidMiner trabaja con libreras de minera de datos de la herramienta WEKA. o Excel: Aunque no es una herramienta puramente de minera es muy til para la explotacin de informacin la desventaja es que se trabajan muy pocos registros.

61

En la tabla 5 se muestra la lista del software comercial de ms uso con sus tecnicismos usuales para minera de datos.

Tabla 5. Software de minera y sus tcnicas.


Algoritmos / Software rboles de Decisin Estadstica Bayes x Reglasde Induccin x Series de Tiempo Descubrim. secuencial

K Means (K-medias) Reglas de Asociacin

Mapade Kohonen

Clementine Enterprise Miner

Intelligent X Miner Fuente: Elaboracin

propia basada en revisin documental.

3.2. Caso prctico

3.2.1. Descripcin del problema

A. Antecedentes

Tomar mejores decisiones de negocios rpidamente es la llave para el xito en el mercado competitivo que se vive actualmente. Comprendiendo esto, las empresas estn buscando mejorar sus sistemas de toma de decisiones ya que pueden ser rebasados por el

62

volumen y la complejidad de los datos disponibles provenientes de sus sistemas de produccin y transaccionales. El permitir que todos estos datos estn disponibles para toda la audiencia a lo largo de la empresa es hoy por hoy uno de los retos ms significativos para los profesionales involucrados en las tecnologas de informacin.

A lo largo del tiempo en el desarrollo de sistemas, se ha tratado de dar solucin a esa necesidad intrnseca de la Alta Gerencia de poseer la informacin de manera resumida o digerida, que le permita en un vistazo corto y rpido, darse cuenta de todo lo que pasa en los sistemas transaccionales de los niveles bajos de la empresa, sin embargo, esto ya no es suficiente, ya que actualmente se requiere conocer lo que sucede en todos y cada uno de los procesos tanto crticos como triviales que se dan lugar en una empresa, ya que es el conocimiento de stos lo que da una visin clara de lo que ocurre en ella. Buscando la administracin de se conocimiento tan importante en nuestros das, surge una de las opciones que se han implementado para cubrir sta necesidad de las empresas, que es lo que se conoce desde hace tiempo como Data Warehouse (DWH), el cual, es el proceso de extraer datos de diferentes sistemas, funciones, y lugares de la empresa, agregando, filtrando,

63

resumiendo, estandarizando, transformando y clarificando los datos extrados e integrarlos despus en una base consolidada.

Cada vez ms investigaciones dentro de la inteligencia artificial estn enfocadas a la induccin de conocimiento en bases de datos. Consecuencia de esta creciente necesidad ha aparecido un nuevo campo de inters: la minera de datos ( data mining), que incluye nuevos mtodos matemticos, herramientas y tcnicas para el anlisis inteligente de datos.

Con esto, cada vez podemos aprovechar ms la tecnologa disponible para conocer mejor a los clientes a fin de discriminar los buenos de los malos prospectos al otorgar un crdito. Una de las necesidades ms importantes de las entidades financieras es contar con criterios confiables para determinar a quin y de que monto debe otorgarse un crdito; de ah la razn por la que es importante tener un instrumento con el cual medir el riesgo que se corre al otorgar un crdito y poder reducir lo ms posible este riesgo al aceptar nuevos clientes.

64

B. Formulacin del problema

La Caja Arequipa, es una Entidad Financiera, creada con el objetivo estratgico de constituirse en un elemento fundamental de descentralizacin financiera y democratizacin del crdito, su cobertura no slo es a las micro empresas urbanas sino tambin rurales, otorgando as crditos a ms de 10000 clientes en menos de 4 aos.

En la actualidad se encuentra inaugurando nuevas agencias en diversas ciudades del Per, y si bien es cierto que se ha dado curso de capacitacin intensiva a los nuevos ejecutivos de crditos, stos no cuentan con la experiencia en el campo requerida por lo que surge el temor de que se otorguen crditos de forma desmedida a clientes con un perfil de riesgo muy alto.

Es por eso que se plantea la siguiente pregunta Cmo se puede ayudar a los nuevos ejecutivos de crditos para minimizar el otorgamiento de crditos a clientes con riesgo crediticio?

65

Con el desarrollo de este proyecto se quiere evitar el riesgo crediticio que es la posibilidad de que la entidad incurra en prdidas y se disminuya el valor de sus activos, como consecuencia de que sus deudores o contraparte fallen en el cumplimiento oportuno o cumplan imperfectamente los trminos acordados en los contratos de crdito

3.2.2. Justificacin

Algo peor que no tener informacin disponible, es tener mucha informacin y no saber qu hacer con ella. La aplicacin de Data mining es la solucin a ese problema, pues por medio de dicha informacin podemos generar escenarios, pronsticos y reportes que apoyen a la toma de decisiones de la Alta Gerencia, como ventaja competitiva de una empresa.

La clave para Data mining es la informacin y uno de sus mayores beneficios es la posibilidad de utilizarla en la toma de decisiones en las distintas reas de la empresa, tales como, crditos, marketing, etc.

66

La Caja Arequipa, desea realizar una segmentacin de su cartera de clientes para determinar los clientes con mayor aporte de valor, respecto a las Colocaciones de Crditos.

3.2.3. Alcances

El alcance previsto para este trabajo, es de entender y generar un modelo de minera de datos mediante el uso de herramientas disponibles en el mercado, que nos permite analizar la informacin resguardada en su base de datos, permitiendo con sus resultados efectuar una mejor reclasificacin de clientes para el otorgamiento de crditos.

3.2.4. Finalidad del proyecto

Abordar el problema que tienen las entidades financieras, en este caso Caja Arequipa, en discriminar los buenos de los malos prospectos al otorgar un crdito. Mediante el uso de la minera de datos, herramienta Weka, se desea determinar la probabilidad en que un cliente falle en devolver el crdito que le ha sido otorgado o incumpla con los pagos durante un tiempo determinado.

67

3.2.5. Evaluacin de la situacin

A. Recursos Hardware: Para el correcto anlisis y desarrollo de este proyecto de Minera de datos, se cuenta con una computadora Core 2 Duo, de 3GB de RAM, con el fin que pueda manejar alto volumen de datos sin problemas. Software: Se requiere el Software de Data Mining Weka Version 3.5, que se ejecuta en plataforma Java, Microsoft Excel para el manejo de data estadstica y el editor de textos Notepad++ para poder editar el archivo arff para colocar los atributos correspondientes. Fuente de Datos: La fuente de datos que se utiliza para este proyecto proviene de la Base de Datos Caja_Arequipa. Se cuenta con los datos almacenados a lo largo de cuatro aos desde el 2005 de los diferentes clientes y el monto de los crditos otorgados. Humanos: Se cuenta con los servicios de dos personas del departamento de informtica para el proceso de Data Mining, El administrador de la Base de datos para otorgarnos la data necesaria y el apoyo del Jefe de Crditos.

68

B. Requerimientos

Se requiere un anlisis de la informacin asociada de los diferentes clientes (ingreso bruto mensual, estado civil, nmero de hijos y actividad econmica en la que se desempea) y de los crditos otorgados, los diferentes tipos de crditos con el respectivo monto otorgado, cuotas aprobadas, tasas de inters, frecuencia de pago y das de atraso por cuota.

Lo que se quiere es encontrar atributos significativos para poder clasificar a los diferentes clientes de la Caja Arequipa.

C. Supuestos

Se dispone de informacin de crditos de los ltimos 4 aos desde el 2005, y se da por supuesto que la informacin brindada por los clientes es verdadera bajo responsabilidad de los ejecutivos de crdito.

D. Restricciones

Los registros fueron depurados por un proceso previo de ETL (Herramienta para la Extraer, Transformar y Cargar datos), por lo

69

tanto solo habr restricciones de registros que no sean necesarios para generar el anlisis, y se descartarn para una mejor compresin de la informacin.

Es por eso que se desea aprovechar los datos almacenados en cuatro aos para poder definir reglas de clasificacin y poder predecir el riesgo que un potencial cliente puede tener.

E. Riesgos

El Riesgo siempre se encuentra presente en un proyecto, si bien se ha tratado de eliminar a travs de un proceso de limpieza y estandarizacin de la informacin, el principal riesgo para este proyecto es que no se encuentren los resultados esperados al generar un modelo de datos muy lejano de la realidad o incomprensible para la mayora de colaboradores de la empresa y que por lo tanto no se pueda lograr una buena interpretacin de los datos para la mejor toma de decisiones.

70

3.2.6. Determinacin de criterios de xito

Teniendo como base los objetivos planteados para el desarrollo del presente proyecto, se procede a establecer los criterios de xitos para el mismo. Asimismo, se procede a describir el plan de actividades del proyecto que permiti desarrollar el modelado y generacin de algoritmo a utilizar.

A. Criterios de xito

En la tabla 6 se describe los criterios de xito de este proyecto de minera de datos.

71

Tabla 6. Objetivos Especficos vs. Criterios de xito Objetivos Especficos Minimizar los porcentajes de Criterio de xito Etiquetar a los clientes como buenos o malos, permitir a los ejecutivos evaluar con mayor

morosidad en los crditos que se otorguen a clientes en las zonas donde se inauguren nuevas agencias

precisin la capacidad de pago para el crdito solicitado.

Ayudar a resaltar aquellas debilidades u obstculos que ser necesario

Los resultados de calificacin de clientes obtenidos, permitir a los ejecutivos cumplir de sus crditos metas lograr de

corregir y vencer para alcanzar los objetivos estratgicos, en el tiempo propuesto disponibles Mantener un proceso continuo de calificacin y recalificacin de las operaciones crediticias. y con los recursos

colocaciones.

La

retroalimentacin

para

el

proceso de recalificacin ser en base a como un cliente

etiquetado a travs del tiempo en el sistema financiero. Clasificar a una persona que solicita un crdito en cliente moroso o cliente pagador. El 100% de las personas

solicitantes de un crdito sean etiquetadas como cliente moroso o como cliente pagador despus de la aplicacin del rbol de decisin.

Generacin de un rbol de decisin basado en un algoritmo clasificatorio. Fuente: Elaboracin propia.

Obtener un modelo predictivo con una certeza mayor o igual al 70%.

72

B. Plan de Proyecto

En la tabla 7 se procede a detallar las actividades que se desarrollaron como parte del presente proyecto.

Tabla 7. Actividades Plan de Proyecto

Actividades

Recurs os -

Entrada

Producto

Dependencia

Reunin con el Gerente de TI y el administrador de la BD. Definicin de requerimientos, restricciones y riesgos. Definicin de los objetivos Data Mining con criterios de xito. Reunin con el administrador de la BD y el jefe de crditos. Estudio junto con el jefe de crditos de los atributos a tomar en cuenta en un primer momento para la generacin del modelo.

-Objetivos del proyecto

-Evaluacin de la situacin

Objetivos del proyecto

-Listado de Objetivos y sus respectivos criterios de xito -Base de datos de los crditos otorgados

Listado de Objetivos de Data Mining

-BD -PC -Excel

Base de datos de los crditos otorgados

-Atributos para la generacin del archivo arff

Fuente: Elaboracin propia.

73

Tabla 7. Actividades Plan de Proyecto (Continuacin)


N 6 Actividades Preparacin de los datos para la generacin del archivo arff. Recursos -BD -PC -Excel Notepad ++ -WEKA 7 Reunin para determinar que algoritmos utilizar. -PC -archivo arff -PC -Excel -Archivo .arff -Algoritmos para generacin de rbol de decisin -Atributos seleccionados -Algoritmos para la generacin del rbol de decisin -Atributos ms relevantes 6 Entrada -Atributos seleccionados Producto -Archivo .arff Dependencia 5

Reunin con jefe de crditos para determinar atributos a utilizar para la generacin del modelo de datos Generacin del rbol de decisin.

-PC -Archivo arff -Weka

-Algoritmos seleccionados -Atributos

-rbol de decisin. -Evaluacin estadstica del modelo realizada por WEKA -Modelo de datos validado

10

Estudio y validacin de la evaluacin estadstica del modelo realizada por WEKA.

-PC -Archivo arff -Weka

-rbol de decisin -Evaluacin estadstica del modelo segn WEKA

Fuente: Elaboracin propia.

74

3.2.7. Entendimiento de los datos

A. Conocimiento

Para poder ayudar al nuevo personal de la institucin financiera, se desea extraer el conocimiento a partir de los datos almacenados en varias bases de datos, en s el conocimiento es el poder predecir si una persona que solicita un crdito podr devolverlo o no.

B. Tarea La tarea a realizar es la clasificacin de los clientes, es una tarea de tipo predictiva ya que lo que se quiere es clasificar a un cliente como un cliente de riesgo o un cliente buen pagador al que se le puede otorgar crditos con seguridad de ser recuperados.

C. Tcnica

Para poder predecir si un cliente puede o no cancelar un crdito, se debe generar un conjunto de reglas predictivas en forma de rboles de decisin, se eligi esta tcnica porque lo que se quiere es que el personal de la institucin y no solamente el departamento de sistemas pueda comprender un modelo de datos sencillo.

75

D. Algoritmo

Considerando la herramienta WEKA disponible y segn los datos almacenados, hemos utilizado los algoritmos clasificadores J48 y REPtree, ya que estos utilizan un solo atributo de tipo discreto que sirve para la prediccin que se le denomina variable objetivo.

E. Recoleccin Inicial de los Datos

Se obtuvieron un total de 15000 registros de los diferentes crditos otorgados en los aos 2005, 2006, 2007 y 2008, en los datos se les aplic el siguiente formato:

Para las fechas se aplic el formato: AAAA-mm-dd. Para los valores numricos, se aplic el formato 9999,99 sin utilizar comillas. Para los valores de tipo string o discretos se revis que no tuvieran espacios y si algn valor tena 2 o ms palabras se unieron con un subguin, esto para simplificar el archivo arff ya que si un valor es compuesto debe ir entre comillas.

76

En la tabla 8 se describe los principales atributos utilizados de la data de Clientes.

Tabla 8. Tabla de Atributos de Clientes. Atributo CUENTA CODIGO_CLIENTE INGRESO_MENSUAL ACTIVIDAD_ECONOMICA Descripcin Nmero de pagar Cdigo del cliente a quien se le otorg el crdito Ingreso bruto mensual del cliente Actividad econmica en la que se desempea el cliente Tipo de crdito otorgado (normal, recurrente, paralelo, plus) Si es agrcola, pyme, para consumo, comercial, hipotecario. Analista que otorg el crdito Fecha de aprobacin del crdito Tasa de inters mensual pactada Capital cancelado por el cliente Monto total prestado al cliente (no incluye intereses) Indica si se cancel el ntegro del crdito (SI/NO)

TIPO_CREDITO

DESCRIPCION_CREDITO ANALISTA FECHA_APROBACION TASA_INTERES CAPITAL_PAGADO CAPITAL

TOTAL_CANCELADO

La descripcin que corresponde a los atributos de esta tabla fue extrada de su diccionario de datos. Fuente: Base de Datos Caja Arequipa; Elaboracin propia.

Se elimin un 13% aproximadamente del total de los registros obtenidos ya que tenan datos errneos o valores nulos.

77

F. Criterios de Seleccin

Teniendo ya definido qu algoritmos se van a utilizar para la generacin del modelo predictivo, se requiri la ayuda del jefe de crditos de la institucin junto con l se definieron los atributos ms relevantes.

La herramienta WEKA permite modificar y escoger los atributos que el usuario considere conveniente, se gener el archivo crditos.arff, de los datos a ser utilizados para la generacin del modelo, se consideraron los siguientes atributos:

Total_cancelado (variable objetivo): Variable de tipo discreto, describe si el crdito fue cancelado o no en su totalidad, los valores que puede tomar es {SI, NO}. Ingreso_mensual: Variable de tipo real, describe el ingreso promedio mensual del cliente. Actividad_economica: Variable de tipo discreto, describe la actividad econmica a la que se dedica el cliente que solicit el crdito, puede tomar los valores:
{ADMINISTRACION_PUBLICA, AGRICULTURA_GANADERIA, ARTESANIA, COMERCIO, CONSTRUCCION, ENSENIANZA,

78

HOGARES_PRIV_CON_SERV, HOSPEDAJE_Y_ALIMENTACION, INDUSTRIA, INMOBILIARIAS_EMP, INTERMEDIACION_FINANCIERA, MINERIA, PESQUERIA, SERV_OTROS, SERV_SOC_Y_SALUD, TRANSPORTE}.

Tipo_credito: Variable de tipo discreto, describe el tipo de crdito que solicit el cliente, puede tomar los valores: {normal, paralelo, plus, recurrente}. Tasa_interes: Variable de tipo real, describe el porcentaje de inters otorgado a un crdito en un mes. Capital: Variable de tipo real, describe el monto que se prest al cliente.

3.2.8. Generacin de modelos

Utilizando la herramienta WEKA Explorer aplicamos la validacin simple y no la validacin cruzada porque disponemos de 15000 registros los cuales hemos considerado como un conjunto grande de ejemplos.

79

Para la generacin de los modelos que utilizan el algoritmo J48 y REPTree, hemos elegido la opcin Use Training Set ya que se seleccionaron los atributos relevantes previamente descritos:

ALGORITMO J48 === Run information === Scheme: weka.classifiers.trees.J48 -C 0.25 -M 2 Relation: creditos-weka.filters.unsupervised.attribute.Remove-R1-6,8,11-15,17-21 Instances: 13118 Attributes: 6 INGRESO_MENSUAL ACTIVIDAD_ECONOMICA TIPO_CREDITO TASA_INTERES CAPITAL TOTAL_CANCELADO Test mode: evaluate on training data

=== Classifier model (full training set) === J48 pruned tree ------------------

TASA_INTERES <= 3,5 | TASA_INTERES <= 3,3 | | CAPITAL <= 4858,94 | | | INGRESO_MENSUAL <= 5040 | | | | ACTIVIDAD_ECONOMICA = ADMINISTRACION_PUBLICA: SI (2,0) | | | | ACTIVIDAD_ECONOMICA = AGRICULTURA_GANADERIA: SI (36,0/11,0) | | | | ACTIVIDAD_ECONOMICA = ARTESANIA | | | | | CAPITAL <= 2500: SI (5,0/1,0) | | | | | CAPITAL > 2500: NO (5,0) | | | | ACTIVIDAD_ECONOMICA = COMERCIO | | | | | TASA_INTERES <= 1,65 | | | | | | TASA_INTERES <= 1,25: SI (57,0/12,0) | | | | | | TASA_INTERES > 1,25 | | | | | | | TASA_INTERES <= 1,6 | | | | | | | | TIPO_CREDITO = normal: NO (30,0/10,0) | | | | | | | | TIPO_CREDITO = paralelo | | | | | | | | | TASA_INTERES <= 1,4: SI (59,0/27,0) | | | | | | | | | TASA_INTERES > 1,4: NO (5,0/1,0) | | | | | | | | TIPO_CREDITO = plus: NO (0,0)

80

| | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | |

| | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | |

| | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | |

| | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | |

| | | | TIPO_CREDITO = recurrente | | | | | CAPITAL <= 1350: NO (6,0/1,0) | | | | | CAPITAL > 1350: SI (42,0/18,0) | | | TASA_INTERES > 1,6: NO (8,0) | TASA_INTERES > 1,65 | | TASA_INTERES <= 2,9: SI (1185,0/375,0) | | TASA_INTERES > 2,9 | | | TIPO_CREDITO = normal: NO (16,0/7,0) | | | TIPO_CREDITO = paralelo | | | | CAPITAL <= 2250: SI (21,0/4,0) | | | | CAPITAL > 2250 | | | | | CAPITAL <= 3700: NO (10,0/2,0) | | | | | CAPITAL > 3700: SI (3,0) | | | TIPO_CREDITO = plus: SI (0,0) | | | TIPO_CREDITO = recurrente: NO (38,0/16,0) ACTIVIDAD_ECONOMICA = CONSTRUCCION: SI (0,0) ACTIVIDAD_ECONOMICA = ENSENIANZA | TIPO_CREDITO = normal: SI (1,0) | TIPO_CREDITO = paralelo: NO (2,0) | TIPO_CREDITO = plus: NO (0,0) | TIPO_CREDITO = recurrente | | INGRESO_MENSUAL <= 2362,5: SI (2,0) | | INGRESO_MENSUAL > 2362,5: NO (2,0) ACTIVIDAD_ECONOMICA = HOGARES_PRIV_CON_SERV: SI (0,0) ACTIVIDAD_ECONOMICA = HOSPEDAJE_Y_ALIMENTACION | INGRESO_MENSUAL <= 2520: NO (107,0/46,0) | INGRESO_MENSUAL > 2520 | | CAPITAL <= 2400: SI (43,0/9,0) | | CAPITAL > 2400 | | | TIPO_CREDITO = normal | | | | TASA_INTERES <= 2,5: NO (5,0/1,0) | | | | TASA_INTERES > 2,5: SI (15,0/5,0) | | | TIPO_CREDITO = paralelo | | | | TASA_INTERES <= 3,1 | | | | | TASA_INTERES <= 2,2 | | | | | | TASA_INTERES <= 2,05 | | | | | | | INGRESO_MENSUAL <= 4567,5: SI (4,0) | | | | | | | INGRESO_MENSUAL > 4567,5: NO (2,0) | | | | | | TASA_INTERES > 2,05: NO (4,0/1,0) | | | | | TASA_INTERES > 2,2: SI (9,0/1,0) | | | | TASA_INTERES > 3,1: NO (2,0) | | | TIPO_CREDITO = plus: SI (0,0) | | | TIPO_CREDITO = recurrente | | | | CAPITAL <= 3550 | | | | | TASA_INTERES <= 1,8: NO (3,0) | | | | | TASA_INTERES > 1,8: SI (50,0/19,0) | | | | CAPITAL > 3550: NO (14,0/2,0) ACTIVIDAD_ECONOMICA = INDUSTRIA | CAPITAL <= 1507,3: SI (66,0/20,0) | CAPITAL > 1507,3 | | TIPO_CREDITO = normal

81

| | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | |

| | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | |

| | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | |

| | | | TASA_INTERES <= 2,2: NO (4,0) | | | | TASA_INTERES > 2,2 | | | | | TASA_INTERES <= 2,9 | | | | | | TASA_INTERES <= 2,5 | | | | | | | CAPITAL <= 1850: NO (2,0) | | | | | | | CAPITAL > 1850: SI (4,0) | | | | | | TASA_INTERES > 2,5 | | | | | | | INGRESO_MENSUAL <= 2835 | | | | | | | | CAPITAL <= 1850: SI (2,0) | | | | | | | | CAPITAL > 1850: NO (16,0/6,0) | | | | | | | INGRESO_MENSUAL > 2835: SI (12,0/3,0) | | | | | TASA_INTERES > 2,9: NO (2,0) | | | TIPO_CREDITO = paralelo | | | | TASA_INTERES <= 2,2: SI (6,0/1,0) | | | | TASA_INTERES > 2,2: NO (8,0/2,0) | | | TIPO_CREDITO = plus: NO (0,0) | | | TIPO_CREDITO = recurrente: NO (34,0/13,0) | ACTIVIDAD_ECONOMICA = INMOBILIARIAS_EMP: SI (117,0/40,0) | ACTIVIDAD_ECONOMICA = INTERMEDIACION_FINANCIERA: SI (0,0) | ACTIVIDAD_ECONOMICA = MINERIA: SI (2,0/1,0) | ACTIVIDAD_ECONOMICA = PESQUERIA | | TIPO_CREDITO = normal | | | INGRESO_MENSUAL <= 2362,5: NO (3,0/1,0) | | | INGRESO_MENSUAL > 2362,5: SI (6,0/1,0) | | TIPO_CREDITO = paralelo: NO (3,0) | | TIPO_CREDITO = plus: NO (0,0) | | TIPO_CREDITO = recurrente: NO (4,0/1,0) | ACTIVIDAD_ECONOMICA = SERV_OTROS | | TASA_INTERES <= 2 | | | TIPO_CREDITO = normal | | | | CAPITAL <= 2400: SI (24,0/7,0) | | | | CAPITAL > 2400 | | | | | TASA_INTERES <= 1,95 | | | | | | TASA_INTERES <= 1,5: NO (2,0) | | | | | | TASA_INTERES > 1,5: SI (10,0/3,0) | | | | | TASA_INTERES > 1,95: NO (19,0/5,0) | | | TIPO_CREDITO = paralelo: SI (52,0/22,0) | | | TIPO_CREDITO = plus: SI (0,0) | | | TIPO_CREDITO = recurrente: SI (273,0/108,0) | | TASA_INTERES > 2 | | | TASA_INTERES <= 3,2 | | | | TASA_INTERES <= 2,9: SI (144,0/31,0) | | | | TASA_INTERES > 2,9: NO (12,0) | | | TASA_INTERES > 3,2 | | | | CAPITAL <= 3650: SI (131,0/33,0) | | | | CAPITAL > 3650: NO (22,0/7,0) | ACTIVIDAD_ECONOMICA = SERV_SOC_Y_SALUD | | TASA_INTERES <= 3: SI (20,0/2,0) | | TASA_INTERES > 3: NO (19,0/8,0) | ACTIVIDAD_ECONOMICA = TRANSPORTE: NO (36,0/9,0) INGRESO_MENSUAL > 5040: SI (862,0/209,0)

82

| | CAPITAL > 4858,94 | | | CAPITAL <= 20600 | | | | INGRESO_MENSUAL <= 21630 | | | | | TASA_INTERES <= 2,25 | | | | | | CAPITAL <= 6100 | | | | | | | ACTIVIDAD_ECONOMICA = ADMINISTRACION_PUBLICA: SI (0,0) | | | | | | | ACTIVIDAD_ECONOMICA = AGRICULTURA_GANADERIA | | | | | | | | INGRESO_MENSUAL <= 5775: SI (3,0) | | | | | | | | INGRESO_MENSUAL > 5775: NO (6,0/2,0) | | | | | | | ACTIVIDAD_ECONOMICA = ARTESANIA: NO (3,0/1,0) | | | | | | | ACTIVIDAD_ECONOMICA = COMERCIO | | | | | | | | TASA_INTERES <= 1,25 | | | | | | | | | TASA_INTERES <= 1,05: NO (3,0) | | | | | | | | | TASA_INTERES > 1,05: SI (57,0/7,0) | | | | | | | | TASA_INTERES > 1,25 | | | | | | | | | TASA_INTERES <= 1,7 | | | | | | | | | | TIPO_CREDITO = normal: SI (26,0/11,0) | | | | | | | | | | TIPO_CREDITO = paralelo | | | | | | | | | | | TASA_INTERES <= 1,45 | | | | | | | | | | | | CAPITAL <= 5200: NO (33,0/14,0) | | | | | | | | | | | | CAPITAL > 5200: SI (23,0/6,0) | | | | | | | | | | | TASA_INTERES > 1,45: NO (7,0/1,0) | | | | | | | | | | TIPO_CREDITO = plus: SI (0,0) | | | | | | | | | | TIPO_CREDITO = recurrente: SI (62,0/24,0) | | | | | | | | | TASA_INTERES > 1,7 | | | | | | | | | | TASA_INTERES <= 1,9: SI (282,0/76,0) | | | | | | | | | | TASA_INTERES > 1,9 | | | | | | | | | | | INGRESO_MENSUAL <= 6825: NO (60,0/25,0) | | | | | | | | | | | INGRESO_MENSUAL > 6825 | | | | | | | | | | | | CAPITAL <= 5750 | | | | | | | | | | | | | CAPITAL <= 5200: SI (11,0/1,0) | | | | | | | | | | | | | CAPITAL > 5200: NO (3,0) | | | | | | | | | | | | CAPITAL > 5750: SI (8,0) | | | | | | | ACTIVIDAD_ECONOMICA = CONSTRUCCION: SI (1,0) | | | | | | | ACTIVIDAD_ECONOMICA = ENSENIANZA | | | | | | | | TIPO_CREDITO = normal: NO (2,0) | | | | | | | | TIPO_CREDITO = paralelo: SI (2,0/1,0) | | | | | | | | TIPO_CREDITO = plus: SI (0,0) | | | | | | | | TIPO_CREDITO = recurrente: SI (2,0) | | | | | | | ACTIVIDAD_ECONOMICA = HOGARES_PRIV_CON_SERV: SI (0,0) | | | | | | | ACTIVIDAD_ECONOMICA = HOSPEDAJE_Y_ALIMENTACION | | | | | | | | INGRESO_MENSUAL <= 6300: NO (51,0/18,0) | | | | | | | | INGRESO_MENSUAL > 6300: SI (9,0/2,0) | | | | | | | ACTIVIDAD_ECONOMICA = INDUSTRIA: NO (41,0/18,0) | | | | | | | ACTIVIDAD_ECONOMICA = INMOBILIARIAS_EMP | | | | | | | | TIPO_CREDITO = normal | | | | | | | | | INGRESO_MENSUAL <= 6037,5: NO (2,0) | | | | | | | | | INGRESO_MENSUAL > 6037,5: SI (5,0/1,0) | | | | | | | | TIPO_CREDITO = paralelo: SI (4,0/2,0)

83

| | | | | | | | | | | | | | | | | | | | | | | | | (0,0) | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | NO (0,0) | | | | |

| | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | |

| | | | |

| TIPO_CREDITO = plus: SI (0,0) | TIPO_CREDITO = recurrente | | INGRESO_MENSUAL <= 8610: NO (9,0/3,0) | | INGRESO_MENSUAL > 8610: SI (2,0) ACTIVIDAD_ECONOMICA = INTERMEDIACION_FINANCIERA: SI

| ACTIVIDAD_ECONOMICA = MINERIA: SI (2,0/1,0) | ACTIVIDAD_ECONOMICA = PESQUERIA | | INGRESO_MENSUAL <= 5827,5: NO (3,0) | | INGRESO_MENSUAL > 5827,5: SI (4,0/1,0) | ACTIVIDAD_ECONOMICA = SERV_OTROS | | TASA_INTERES <= 2 | | | TIPO_CREDITO = normal: NO (20,0/6,0) | | | TIPO_CREDITO = paralelo: NO (18,0/8,0) | | | TIPO_CREDITO = plus: SI (0,0) | | | TIPO_CREDITO = recurrente: SI (137,0/63,0) | | TASA_INTERES > 2: SI (32,0/4,0) | ACTIVIDAD_ECONOMICA = SERV_SOC_Y_SALUD: SI (3,0/1,0) | ACTIVIDAD_ECONOMICA = TRANSPORTE: NO (1,0) CAPITAL > 6100 | TASA_INTERES <= 1,85 | | TASA_INTERES <= 1,2: NO (46,0) | | TASA_INTERES > 1,2 | | | TASA_INTERES <= 1,7 | | | | INGRESO_MENSUAL <= 6825 | | | | | TASA_INTERES <= 1,35: SI (3,0/1,0) | | | | | TASA_INTERES > 1,35: NO (41,0/2,0) | | | | INGRESO_MENSUAL > 6825 | | | | | CAPITAL <= 10700 | | | | | | TIPO_CREDITO = normal: SI (10,0/4,0) | | | | | | TIPO_CREDITO = paralelo | | | | | | | CAPITAL <= 7100: SI (9,0/3,0) | | | | | | | CAPITAL > 7100: NO (23,0/5,0) | | | | | | TIPO_CREDITO = plus: NO (0,0) | | | | | | TIPO_CREDITO = recurrente | | | | | | | CAPITAL <= 9500: NO (14,0/4,0) | | | | | | | CAPITAL > 9500 | | | | | | | | INGRESO_MENSUAL <= 14991,69 | | | | | | | | | INGRESO_MENSUAL <= 13440 | | | | | | | | | | TASA_INTERES <= 1,6: SI (21,0/9,0) | | | | | | | | | | TASA_INTERES > 1,6: NO (47,0/18,0) | | | | | | | | | INGRESO_MENSUAL > 13440: NO (3,0) | | | | | | | | INGRESO_MENSUAL > 14991,69: SI (21,0/5,0) | | | | | CAPITAL > 10700: NO (204,0/55,0) | | | TASA_INTERES > 1,7: NO (90,0/5,0) | TASA_INTERES > 1,85 | | CAPITAL <= 15900 | | | INGRESO_MENSUAL <= 16275 | | | | ACTIVIDAD_ECONOMICA = ADMINISTRACION_PUBLICA:

| | | | | ACTIVIDAD_ECONOMICA =

84

AGRICULTURA_GANADERIA: SI (1,0) | | | | | | | | | | ACTIVIDAD_ECONOMICA = ARTESANIA: SI (1,0) | | | | | | | | | | ACTIVIDAD_ECONOMICA = COMERCIO | | | | | | | | | | | INGRESO_MENSUAL <= 7770 | | | | | | | | | | | | TASA_INTERES <= 1,9: SI (9,0/2,0) | | | | | | | | | | | | TASA_INTERES > 1,9: NO (16,0/4,0) | | | | | | | | | | | INGRESO_MENSUAL > 7770: SI (37,0/11,0) | | | | | | | | | | ACTIVIDAD_ECONOMICA = CONSTRUCCION: NO (0,0) | | | | | | | | | | ACTIVIDAD_ECONOMICA = ENSENIANZA: NO (0,0) | | | | | | | | | | ACTIVIDAD_ECONOMICA = HOGARES_PRIV_CON_SERV: NO (0,0) | | | | | | | | | | ACTIVIDAD_ECONOMICA = HOSPEDAJE_Y_ALIMENTACION | | | | | | | | | | | INGRESO_MENSUAL <= 8610: NO (2,0) | | | | | | | | | | | INGRESO_MENSUAL > 8610: SI (4,0/1,0) | | | | | | | | | | ACTIVIDAD_ECONOMICA = INDUSTRIA: SI (6,0/1,0) | | | | | | | | | | ACTIVIDAD_ECONOMICA = INMOBILIARIAS_EMP: SI (4,0/1,0) | | | | | | | | | | ACTIVIDAD_ECONOMICA = INTERMEDIACION_FINANCIERA: NO (0,0) | | | | | | | | | | ACTIVIDAD_ECONOMICA = MINERIA: NO (1,0) | | | | | | | | | | ACTIVIDAD_ECONOMICA = PESQUERIA: NO (4,0/1,0) | | | | | | | | | | ACTIVIDAD_ECONOMICA = SERV_OTROS | | | | | | | | | | | TASA_INTERES <= 1,9 | | | | | | | | | | | | CAPITAL <= 12000 | | | | | | | | | | | | | INGRESO_MENSUAL <= 13020: NO (112,0/41,0) | | | | | | | | | | | | | INGRESO_MENSUAL > 13020: SI (33,0/5,0) | | | | | | | | | | | | CAPITAL > 12000 | | | | | | | | | | | | | INGRESO_MENSUAL <= 14070: NO (32,0/4,0) | | | | | | | | | | | | | INGRESO_MENSUAL > 14070 | | | | | | | | | | | | | | CAPITAL <= 13500: SI (11,0/3,0) | | | | | | | | | | | | | | CAPITAL > 13500: NO (86,0/29,0) | | | | | | | | | | | TASA_INTERES > 1,9 | | | | | | | | | | | | TASA_INTERES <= 1,95: NO (130,0/63,0) | | | | | | | | | | | | TASA_INTERES > 1,95: SI (82,0/34,0) | | | | | | | | | | ACTIVIDAD_ECONOMICA = SERV_SOC_Y_SALUD: NO (0,0) | | | | | | | | | | ACTIVIDAD_ECONOMICA = TRANSPORTE: NO (0,0) | | | | | | | | | INGRESO_MENSUAL > 16275: SI (46,0/2,0) | | | | | | | | CAPITAL > 15900: NO (161,0/45,0) | | | | | TASA_INTERES > 2,25 | | | | | | TASA_INTERES <= 2,7: NO (293,0/4,0) | | | | | | TASA_INTERES > 2,7 | | | | | | | TASA_INTERES <= 3,2 | | | | | | | | TASA_INTERES <= 3,1 | | | | | | | | | TIPO_CREDITO = normal: SI (78,0/25,0) | | | | | | | | | TIPO_CREDITO = paralelo: SI (62,0/25,0) | | | | | | | | | TIPO_CREDITO = plus: NO (0,0) | | | | | | | | | TIPO_CREDITO = recurrente: NO (153,0/55,0) | | | | | | | | TASA_INTERES > 3,1: NO (274,0/37,0) | | | | | | | TASA_INTERES > 3,2

85

| | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | (0,0) | | | | | | | | | | | | | | |

| | | | | INGRESO_MENSUAL <= 12075: NO (113,0/46,0) | | | | | INGRESO_MENSUAL > 12075 | | | | | | INGRESO_MENSUAL <= 20475 | | | | | | | CAPITAL <= 13700: SI (90,0/23,0) | | | | | | | CAPITAL > 13700: NO (96,0/45,0) | | | | | | INGRESO_MENSUAL > 20475: SI (12,0) | INGRESO_MENSUAL > 21630 | | TASA_INTERES <= 1,8 | | | TIPO_CREDITO = normal | | | | INGRESO_MENSUAL <= 54600: NO (2,0) | | | | INGRESO_MENSUAL > 54600: SI (2,0) | | | TIPO_CREDITO = paralelo | | | | TASA_INTERES <= 1,2: NO (15,0) | | | | TASA_INTERES > 1,2 | | | | | INGRESO_MENSUAL <= 40950: NO (33,0/6,0) | | | | | INGRESO_MENSUAL > 40950: SI (9,0/3,0) | | | TIPO_CREDITO = plus: NO (0,0) | | | TIPO_CREDITO = recurrente | | | | INGRESO_MENSUAL <= 38850 | | | | | TASA_INTERES <= 1,35: NO (4,0) | | | | | TASA_INTERES > 1,35 | | | | | | INGRESO_MENSUAL <= 30450: SI (19,0/7,0) | | | | | | INGRESO_MENSUAL > 30450: NO (14,0/5,0) | | | | INGRESO_MENSUAL > 38850 | | | | | TASA_INTERES <= 1,35 | | | | | | CAPITAL <= 13800: NO (2,0) | | | | | | CAPITAL > 13800: SI (3,0/1,0) | | | | | TASA_INTERES > 1,35: SI (19,0) | | TASA_INTERES > 1,8: SI (175,0/28,0) CAPITAL > 20600 | TASA_INTERES <= 2,8: NO (356,0/66,0) | TASA_INTERES > 2,8 | | ACTIVIDAD_ECONOMICA = ADMINISTRACION_PUBLICA: SI (0,0) | | ACTIVIDAD_ECONOMICA = AGRICULTURA_GANADERIA: SI (1,0) | | ACTIVIDAD_ECONOMICA = ARTESANIA: SI (0,0) | | ACTIVIDAD_ECONOMICA = COMERCIO: SI (81,0/32,0) | | ACTIVIDAD_ECONOMICA = CONSTRUCCION: SI (0,0) | | ACTIVIDAD_ECONOMICA = ENSENIANZA: NO (1,0) | | ACTIVIDAD_ECONOMICA = HOGARES_PRIV_CON_SERV: SI (0,0) | | ACTIVIDAD_ECONOMICA = HOSPEDAJE_Y_ALIMENTACION | | | INGRESO_MENSUAL <= 32865: NO (5,0) | | | INGRESO_MENSUAL > 32865: SI (2,0) | | ACTIVIDAD_ECONOMICA = INDUSTRIA: SI (4,0/2,0) | | ACTIVIDAD_ECONOMICA = INMOBILIARIAS_EMP: NO (2,0) | | ACTIVIDAD_ECONOMICA = INTERMEDIACION_FINANCIERA: SI | | | | | | | | | | ACTIVIDAD_ECONOMICA = MINERIA: NO (1,0) ACTIVIDAD_ECONOMICA = PESQUERIA: NO (3,0/1,0) ACTIVIDAD_ECONOMICA = SERV_OTROS | INGRESO_MENSUAL <= 38850: NO (2,0) | INGRESO_MENSUAL > 38850: SI (3,0/1,0)

86

| | | | | ACTIVIDAD_ECONOMICA = SERV_SOC_Y_SALUD: SI (0,0) | | | | | ACTIVIDAD_ECONOMICA = TRANSPORTE: SI (0,0) | TASA_INTERES > 3,3 | | INGRESO_MENSUAL <= 5145: NO (956,0/67,0) | | INGRESO_MENSUAL > 5145 | | | CAPITAL <= 7400: NO (83,0/27,0) | | | CAPITAL > 7400: SI (16,0/2,0) TASA_INTERES > 3,5 | TASA_INTERES <= 3,7 | | INGRESO_MENSUAL <= 9030 | | | ACTIVIDAD_ECONOMICA = ADMINISTRACION_PUBLICA: SI (0,0) | | | ACTIVIDAD_ECONOMICA = AGRICULTURA_GANADERIA: NO (8,0/1,0) | | | ACTIVIDAD_ECONOMICA = ARTESANIA: SI (0,0) | | | ACTIVIDAD_ECONOMICA = COMERCIO | | | | TIPO_CREDITO = normal: SI (42,0/18,0) | | | | TIPO_CREDITO = paralelo | | | | | INGRESO_MENSUAL <= 6037,5: NO (6,0) | | | | | INGRESO_MENSUAL > 6037,5 | | | | | | CAPITAL <= 6700: SI (13,0/3,0) | | | | | | CAPITAL > 6700: NO (8,0/1,0) | | | | TIPO_CREDITO = plus: SI (0,0) | | | | TIPO_CREDITO = recurrente | | | | | CAPITAL <= 4300: NO (6,0) | | | | | CAPITAL > 4300: SI (177,0/66,0) | | | ACTIVIDAD_ECONOMICA = CONSTRUCCION: NO (2,0) | | | ACTIVIDAD_ECONOMICA = ENSENIANZA: NO (3,0/1,0) | | | ACTIVIDAD_ECONOMICA = HOGARES_PRIV_CON_SERV: SI (0,0) | | | ACTIVIDAD_ECONOMICA = HOSPEDAJE_Y_ALIMENTACION: SI (78,0/30,0) | | | ACTIVIDAD_ECONOMICA = INDUSTRIA | | | | INGRESO_MENSUAL <= 4725: NO (3,0) | | | | INGRESO_MENSUAL > 4725 | | | | | CAPITAL <= 5500: SI (16,0/3,0) | | | | | CAPITAL > 5500 | | | | | | INGRESO_MENSUAL <= 6825: NO (5,0/1,0) | | | | | | INGRESO_MENSUAL > 6825: SI (14,0/6,0) | | | ACTIVIDAD_ECONOMICA = INMOBILIARIAS_EMP: NO (29,0/12,0) | | | ACTIVIDAD_ECONOMICA = INTERMEDIACION_FINANCIERA: SI (0,0) | | | ACTIVIDAD_ECONOMICA = MINERIA: SI (8,0/3,0) | | | ACTIVIDAD_ECONOMICA = PESQUERIA | | | | INGRESO_MENSUAL <= 6720: NO (15,0/4,0) | | | | INGRESO_MENSUAL > 6720: SI (19,0/6,0) | | | ACTIVIDAD_ECONOMICA = SERV_OTROS: SI (66,0/12,0) | | | ACTIVIDAD_ECONOMICA = SERV_SOC_Y_SALUD: SI (0,0) | | | ACTIVIDAD_ECONOMICA = TRANSPORTE: SI (0,0) | | INGRESO_MENSUAL > 9030: SI (140,0/24,0) | TASA_INTERES > 3,7: SI (3519,0/847,0) Number of Leaves : 231 Size of the tree : 361 Time taken to build model: 0,92 seconds

87

ALGORITMO REPTREE === Run information === Scheme: weka.classifiers.trees.REPTree -M 2 -V 0.0010 -N 3 -S 1 -L -1 Relation: creditos-weka.filters.unsupervised.attribute.Remove-R1-6,8,11-15,17-21 Instances: 13118 Attributes: 6 INGRESO_MENSUAL ACTIVIDAD_ECONOMICA TIPO_CREDITO TASA_INTERES CAPITAL TOTAL_CANCELADO Test mode: evaluate on training data

=== Classifier model (full training set) === REPTree ============ TASA_INTERES < 3,55 | TASA_INTERES < 3,4 | | CAPITAL < 4879,47 | | | INGRESO_MENSUAL < 4777,5 | | | | ACTIVIDAD_ECONOMICA = ADMINISTRACION_PUBLICA : SI (1/0) [1/0] | | | | ACTIVIDAD_ECONOMICA = AGRICULTURA_GANADERIA : SI (21/5) [15/6] | | | | ACTIVIDAD_ECONOMICA = ARTESANIA | | | | | CAPITAL < 2500 : SI (3/1) [2/0] | | | | | CAPITAL >= 2500 : NO (5/0) [0/0] | | | | ACTIVIDAD_ECONOMICA = COMERCIO | | | | | CAPITAL < 1645 | | | | | | INGRESO_MENSUAL < 1627,5 | | | | | | | TIPO_CREDITO = normal | | | | | | | | CAPITAL < 1100 : SI (62/23) [28/15] | | | | | | | | CAPITAL >= 1100 : NO (34/12) [14/6] | | | | | | | TIPO_CREDITO = paralelo : SI (31/6) [18/7] | | | | | | | TIPO_CREDITO = plus : SI (0/0) [0/0] | | | | | | | TIPO_CREDITO = recurrente : SI (102/33) [53/21] | | | | | | INGRESO_MENSUAL >= 1627,5 : SI (176/33) [71/14] | | | | | CAPITAL >= 1645 | | | | | | TASA_INTERES < 2,9 | | | | | | | INGRESO_MENSUAL < 3158,51 : SI (353/138) [202/63] | | | | | | | INGRESO_MENSUAL >= 3158,51 | | | | | | | | CAPITAL < 2400 : SI (21/0) [14/4] | | | | | | | | CAPITAL >= 2400 | | | | | | | | | CAPITAL < 3375 : SI (43/9) [16/6] | | | | | | | | | CAPITAL >= 3375

88

| | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | [0/0]

| | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | |

| | | | | | TIPO_CREDITO = normal : NO (23/9) [17/6] | | | | | | TIPO_CREDITO = paralelo : SI (32/8) [14/5] | | | | | | TIPO_CREDITO = plus : SI (0/0) [0/0] | | | | | | TIPO_CREDITO = recurrente | | | | | | | TASA_INTERES < 2,1 : SI (12/3) [9/5] | | | | | | | TASA_INTERES >= 2,1 | | | | | | | | INGRESO_MENSUAL < 4252,5 : SI (45/20) [21/5] | | | | | | | | INGRESO_MENSUAL >= 4252,5 : NO (8/3) [4/1] | | TASA_INTERES >= 2,9 : NO (31/10) [12/5] ACTIVIDAD_ECONOMICA = CONSTRUCCION : SI (0/0) [0/0] ACTIVIDAD_ECONOMICA = ENSENIANZA | INGRESO_MENSUAL < 2362,5 : SI (2/1) [1/0] | INGRESO_MENSUAL >= 2362,5 : NO (2/0) [2/1] ACTIVIDAD_ECONOMICA = HOGARES_PRIV_CON_SERV : SI (0/0) [0/0] ACTIVIDAD_ECONOMICA = HOSPEDAJE_Y_ALIMENTACION | CAPITAL < 3950 | | INGRESO_MENSUAL < 2572,5 | | | TIPO_CREDITO = normal | | | | INGRESO_MENSUAL < 1155 : NO (8/1) [4/2] | | | | INGRESO_MENSUAL >= 1155 | | | | | CAPITAL < 1350 : SI (3/0) [1/0] | | | | | CAPITAL >= 1350 : NO (17/7) [10/4] | | | TIPO_CREDITO = paralelo : NO (8/1) [2/0] | | | TIPO_CREDITO = plus : NO (0/0) [0/0] | | | TIPO_CREDITO = recurrente : NO (39/18) [15/9] | | INGRESO_MENSUAL >= 2572,5 | | | CAPITAL < 2450 | | | | TIPO_CREDITO = normal : SI (6/0) [5/0] | | | | TIPO_CREDITO = paralelo | | | | | INGRESO_MENSUAL < 4147,5 : SI (10/1) [2/0] | | | | | INGRESO_MENSUAL >= 4147,5 : SI (3/2) [3/2] | | | | TIPO_CREDITO = plus : SI (0/0) [0/0] | | | | TIPO_CREDITO = recurrente : SI (8/2) [5/2] | | | CAPITAL >= 2450 : SI (55/22) [28/13] | CAPITAL >= 3950 | | TIPO_CREDITO = normal : NO (2/0) [2/1] | | TIPO_CREDITO = paralelo : SI (6/2) [1/0] | | TIPO_CREDITO = plus : NO (0/0) [0/0] | | TIPO_CREDITO = recurrente : NO (12/1) [0/0] ACTIVIDAD_ECONOMICA = INDUSTRIA | TASA_INTERES < 2,05 : SI (4/0) [6/2] | TASA_INTERES >= 2,05 | | TASA_INTERES < 2,23 | | | TIPO_CREDITO = normal : NO (3/0) [1/0] | | | TIPO_CREDITO = paralelo : SI (2/1) [1/0] | | | TIPO_CREDITO = plus : NO (0/0) [0/0] | | | TIPO_CREDITO = recurrente : NO (4/1) [3/1] | | TASA_INTERES >= 2,23 : SI (84/35) [48/22] ACTIVIDAD_ECONOMICA = INMOBILIARIAS_EMP : SI (72/20) [44/19] ACTIVIDAD_ECONOMICA = INTERMEDIACION_FINANCIERA : SI (0/0)

89

| | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | [0/0] | | | [2/1] | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | |

| ACTIVIDAD_ECONOMICA = MINERIA : SI (0/0) [2/1] | ACTIVIDAD_ECONOMICA = PESQUERIA | | TIPO_CREDITO = normal : SI (5/0) [4/3] | | TIPO_CREDITO = paralelo : NO (2/0) [1/0] | | TIPO_CREDITO = plus : SI (0/0) [0/0] | | TIPO_CREDITO = recurrente : NO (3/1) [1/0] | ACTIVIDAD_ECONOMICA = SERV_OTROS | | CAPITAL < 2875 | | | CAPITAL < 2550 | | | | INGRESO_MENSUAL < 4515 | | | | | TASA_INTERES < 2,03 | | | | | | TASA_INTERES < 1,95 : SI (56/16) [34/12] | | | | | | TASA_INTERES >= 1,95 | | | | | | | INGRESO_MENSUAL < 3176,25 | | | | | | | | CAPITAL < 2050 : SI (55/24) [33/12] | | | | | | | | CAPITAL >= 2050 : NO (14/5) [8/3] | | | | | | | INGRESO_MENSUAL >= 3176,25 : SI (3/0) [0/0] | | | | | TASA_INTERES >= 2,03 : SI (125/33) [67/12] | | | | INGRESO_MENSUAL >= 4515 : NO (2/0) [2/0] | | | CAPITAL >= 2550 : SI (8/0) [4/4] | | CAPITAL >= 2875 : SI (189/89) [79/22] | ACTIVIDAD_ECONOMICA = SERV_SOC_Y_SALUD | | TASA_INTERES < 2,05 : SI (10/0) [3/1] | | TASA_INTERES >= 2,05 | | | CAPITAL < 2750 : SI (10/3) [3/1] | | | CAPITAL >= 2750 : NO (9/3) [3/1] | ACTIVIDAD_ECONOMICA = TRANSPORTE : NO (20/5) [16/4] INGRESO_MENSUAL >= 4777,5 | CAPITAL < 1865 : SI (145/18) [79/13] | CAPITAL >= 1865 | | ACTIVIDAD_ECONOMICA = ADMINISTRACION_PUBLICA : SI (0/0) | | ACTIVIDAD_ECONOMICA = AGRICULTURA_GANADERIA : SI (1/0) | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | ACTIVIDAD_ECONOMICA = ARTESANIA : SI (1/0) [0/0] ACTIVIDAD_ECONOMICA = COMERCIO | TASA_INTERES < 1,25 : SI (14/0) [8/2] | TASA_INTERES >= 1,25 | | TASA_INTERES < 1,8 | | | TASA_INTERES < 1,42 : SI (51/15) [15/6] | | | TASA_INTERES >= 1,42 : NO (11/4) [5/2] | | TASA_INTERES >= 1,8 | | | TIPO_CREDITO = normal : SI (27/2) [10/0] | | | TIPO_CREDITO = paralelo : SI (97/23) [43/13] | | | TIPO_CREDITO = plus : SI (0/0) [0/0] | | | TIPO_CREDITO = recurrente | | | | CAPITAL < 3400 | | | | | TASA_INTERES < 2,55 : SI (30/2) [18/1] | | | | | TASA_INTERES >= 2,55 | | | | | | INGRESO_MENSUAL < 5512,5 | | | | | | | CAPITAL < 2850 : SI (5/1) [0/0]

90

| | | | | | | | | | | | CAPITAL >= 2850 : NO (3/1) [1/0] | | | | | | | | | | | INGRESO_MENSUAL >= 5512,5 : SI (3/0) [0/0] | | | | | | | | | CAPITAL >= 3400 : SI (25/8) [13/2] | | | | | ACTIVIDAD_ECONOMICA = CONSTRUCCION : SI (0/0) [0/0] | | | | | ACTIVIDAD_ECONOMICA = ENSENIANZA : SI (0/0) [1/0] | | | | | ACTIVIDAD_ECONOMICA = HOGARES_PRIV_CON_SERV : SI (0/0) [0/0] | | | | | ACTIVIDAD_ECONOMICA = HOSPEDAJE_Y_ALIMENTACION : SI (43/15) [27/12] | | | | | ACTIVIDAD_ECONOMICA = INDUSTRIA : SI (20/5) [12/5] | | | | | ACTIVIDAD_ECONOMICA = INMOBILIARIAS_EMP : SI (24/8) [5/2] | | | | | ACTIVIDAD_ECONOMICA = INTERMEDIACION_FINANCIERA : SI (0/0) [0/0] | | | | | ACTIVIDAD_ECONOMICA = MINERIA : SI (0/0) [1/0] | | | | | ACTIVIDAD_ECONOMICA = PESQUERIA : SI (1/0) [1/1] | | | | | ACTIVIDAD_ECONOMICA = SERV_OTROS | | | | | | INGRESO_MENSUAL < 6037,5 | | | | | | | TASA_INTERES < 1,85 : NO (2/0) [1/0] | | | | | | | TASA_INTERES >= 1,85 : SI (24/11) [9/3] | | | | | | INGRESO_MENSUAL >= 6037,5 : SI (71/19) [34/10] | | | | | ACTIVIDAD_ECONOMICA = SERV_SOC_Y_SALUD | | | | | | TASA_INTERES < 1,55 : NO (2/0) [1/0] | | | | | | TASA_INTERES >= 1,55 : SI (4/0) [0/0] | | | | | ACTIVIDAD_ECONOMICA = TRANSPORTE : NO (1/0) [0/0] | | CAPITAL >= 4879,47 | | | CAPITAL < 21100 | | | | TASA_INTERES < 2,25 | | | | | CAPITAL < 6050 | | | | | | ACTIVIDAD_ECONOMICA = ADMINISTRACION_PUBLICA : SI (0/0) [0/0] | | | | | | ACTIVIDAD_ECONOMICA = AGRICULTURA_GANADERIA | | | | | | | INGRESO_MENSUAL < 5775 : SI (3/0) [0/0] | | | | | | | INGRESO_MENSUAL >= 5775 : SI (3/2) [3/2] | | | | | | ACTIVIDAD_ECONOMICA = ARTESANIA : SI (1/0) [2/2] | | | | | | ACTIVIDAD_ECONOMICA = COMERCIO | | | | | | | TASA_INTERES < 1,73 | | | | | | | | TASA_INTERES < 1,23 | | | | | | | | | TASA_INTERES < 1,07 : NO (2/0) [3/0] | | | | | | | | | TASA_INTERES >= 1,07 : SI (35/5) [22/2] | | | | | | | | TASA_INTERES >= 1,23 | | | | | | | | | TASA_INTERES < 1,58 | | | | | | | | | | TASA_INTERES < 1,35 | | | | | | | | | | | INGRESO_MENSUAL < 5512,5 : NO (40/18) [21/10] | | | | | | | | | | | INGRESO_MENSUAL >= 5512,5 : SI (44/16) [22/8] | | | | | | | | | | TASA_INTERES >= 1,35 : SI (7/1) [5/1] | | | | | | | | | TASA_INTERES >= 1,58 | | | | | | | | | | TASA_INTERES < 1,67 : NO (6/0) [1/0] | | | | | | | | | | TASA_INTERES >= 1,67 | | | | | | | | | | | TIPO_CREDITO = normal : SI (1/0) [1/0] | | | | | | | | | | | TIPO_CREDITO = paralelo : NO (4/1) [1/0] | | | | | | | | | | | TIPO_CREDITO = plus : SI (0/0) [0/0]

91

| | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | [0/0] | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | (0/0) [0/0] | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | |

| | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | |

| | | | | TIPO_CREDITO = recurrente : SI (4/1) [1/0] | TASA_INTERES >= 1,73 | | TASA_INTERES < 1,92 | | | INGRESO_MENSUAL < 6615 | | | | INGRESO_MENSUAL < 5827,5 : SI (90/26) [47/13] | | | | INGRESO_MENSUAL >= 5827,5 | | | | | TIPO_CREDITO = normal : SI (18/3) [11/5] | | | | | TIPO_CREDITO = paralelo | | | | | | TASA_INTERES < 1,88 | | | | | | | CAPITAL < 5800 : SI (7/1) [1/0] | | | | | | | CAPITAL >= 5800 : SI (3/2) [5/3] | | | | | | TASA_INTERES >= 1,88 : SI (27/2) [12/3] | | | | | TIPO_CREDITO = plus : SI (0/0) [0/0] | | | | | TIPO_CREDITO = recurrente : SI (35/9) [14/6] | | | INGRESO_MENSUAL >= 6615 : SI (11/0) [7/3] | | TASA_INTERES >= 1,92 | | | INGRESO_MENSUAL < 6825 | | | | TIPO_CREDITO = normal : SI (11/5) [9/4] | | | | TIPO_CREDITO = paralelo : NO (5/1) [0/0] | | | | TIPO_CREDITO = plus : NO (0/0) [0/0] | | | | TIPO_CREDITO = recurrente : NO (25/10) [10/3] | | | INGRESO_MENSUAL >= 6825 : SI (26/4) [6/1] ACTIVIDAD_ECONOMICA = CONSTRUCCION : SI (1/1) [1/0] ACTIVIDAD_ECONOMICA = ENSENIANZA : SI (3/1) [3/2] ACTIVIDAD_ECONOMICA = HOGARES_PRIV_CON_SERV : SI (0/0) ACTIVIDAD_ECONOMICA = HOSPEDAJE_Y_ALIMENTACION | INGRESO_MENSUAL < 9712,5 | | TASA_INTERES < 1,73 : NO (4/0) [2/0] | | TASA_INTERES >= 1,73 | | | TIPO_CREDITO = normal : SI (8/4) [2/0] | | | TIPO_CREDITO = paralelo : NO (12/3) [4/1] | | | TIPO_CREDITO = plus : NO (0/0) [0/0] | | | TIPO_CREDITO = recurrente : NO (16/7) [5/2] | INGRESO_MENSUAL >= 9712,5 : SI (4/0) [1/1] ACTIVIDAD_ECONOMICA = INDUSTRIA | TASA_INTERES < 1,73 : NO (5/0) [2/1] | TASA_INTERES >= 1,73 : SI (30/15) [8/3] ACTIVIDAD_ECONOMICA = INMOBILIARIAS_EMP : SI (16/8) [6/3] ACTIVIDAD_ECONOMICA = INTERMEDIACION_FINANCIERA : SI ACTIVIDAD_ECONOMICA = MINERIA : SI (2/1) [1/0] ACTIVIDAD_ECONOMICA = PESQUERIA : SI (4/1) [3/3] ACTIVIDAD_ECONOMICA = SERV_OTROS | TASA_INTERES < 2,03 | | INGRESO_MENSUAL < 5512,5 | | | TASA_INTERES < 1,78 : SI (2/0) [2/0] | | | TASA_INTERES >= 1,78 | | | | TIPO_CREDITO = normal : NO (6/1) [8/3] | | | | TIPO_CREDITO = paralelo : NO (2/0) [3/2] | | | | TIPO_CREDITO = plus : NO (0/0) [0/0]

92

| | | | | | | | | | TIPO_CREDITO = recurrente | | | | | | | | | | | INGRESO_MENSUAL < 5344,5 | | | | | | | | | | | | TASA_INTERES < 1,98 | | | | | | | | | | | | | TASA_INTERES < 1,92 | | | | | | | | | | | | | | TASA_INTERES < 1,88 : SI (5/3) [4/3] | | | | | | | | | | | | | | TASA_INTERES >= 1,88 : SI (2/1) [1/0] | | | | | | | | | | | | | TASA_INTERES >= 1,92 : NO (21/8) [15/7] | | | | | | | | | | | | TASA_INTERES >= 1,98 : SI (2/1) [1/0] | | | | | | | | | | | INGRESO_MENSUAL >= 5344,5 : NO (4/1) [1/1] | | | | | | | | INGRESO_MENSUAL >= 5512,5 : SI (67/28) [28/13] | | | | | | | TASA_INTERES >= 2,03 : SI (18/1) [14/3] | | | | | | ACTIVIDAD_ECONOMICA = SERV_SOC_Y_SALUD : SI (2/1) [1/0] | | | | | | ACTIVIDAD_ECONOMICA = TRANSPORTE : NO (0/0) [1/0] | | | | | CAPITAL >= 6050 | | | | | | TASA_INTERES < 1,53 | | | | | | | ACTIVIDAD_ECONOMICA = ADMINISTRACION_PUBLICA : NO (0/0) [0/0] | | | | | | | ACTIVIDAD_ECONOMICA = AGRICULTURA_GANADERIA : SI (2/0) [0/0] | | | | | | | ACTIVIDAD_ECONOMICA = ARTESANIA : NO (0/0) [0/0] | | | | | | | ACTIVIDAD_ECONOMICA = COMERCIO | | | | | | | | TASA_INTERES < 1,48 | | | | | | | | | TASA_INTERES < 1,27 | | | | | | | | | | INGRESO_MENSUAL < 50925 : NO (28/0) [20/1] | | | | | | | | | | INGRESO_MENSUAL >= 50925 | | | | | | | | | | | CAPITAL < 13950 : NO (2/0) [1/0] | | | | | | | | | | | CAPITAL >= 13950 : SI (2/1) [1/0] | | | | | | | | | TASA_INTERES >= 1,27 : NO (21/7) [16/5] | | | | | | | | TASA_INTERES >= 1,48 : NO (20/0) [6/1] | | | | | | | ACTIVIDAD_ECONOMICA = CONSTRUCCION : NO (0/0) [0/0] | | | | | | | ACTIVIDAD_ECONOMICA = ENSENIANZA : NO (0/0) [0/0] | | | | | | | ACTIVIDAD_ECONOMICA = HOGARES_PRIV_CON_SERV : NO (0/0) [0/0] | | | | | | | ACTIVIDAD_ECONOMICA = HOSPEDAJE_Y_ALIMENTACION : NO (4/0) [1/0] | | | | | | | ACTIVIDAD_ECONOMICA = INDUSTRIA : NO (3/0) [2/1] | | | | | | | ACTIVIDAD_ECONOMICA = INMOBILIARIAS_EMP : NO (10/2) [4/0] | | | | | | | ACTIVIDAD_ECONOMICA = INTERMEDIACION_FINANCIERA : NO (0/0) [0/0] | | | | | | | ACTIVIDAD_ECONOMICA = MINERIA : NO (0/0) [0/0] | | | | | | | ACTIVIDAD_ECONOMICA = PESQUERIA : NO (0/0) [0/0] | | | | | | | ACTIVIDAD_ECONOMICA = SERV_OTROS : NO (11/0) [6/0] | | | | | | | ACTIVIDAD_ECONOMICA = SERV_SOC_Y_SALUD : NO (0/0) [0/0] | | | | | | | ACTIVIDAD_ECONOMICA = TRANSPORTE : NO (0/0) [0/0] | | | | | | TASA_INTERES >= 1,53 | | | | | | | INGRESO_MENSUAL < 23152,5 | | | | | | | | TASA_INTERES < 1,88 | | | | | | | | | TASA_INTERES < 1,73 | | | | | | | | | | ACTIVIDAD_ECONOMICA = ADMINISTRACION_PUBLICA

93

: NO (0/0) [0/0] | | | | | | | | | | ACTIVIDAD_ECONOMICA = AGRICULTURA_GANADERIA : NO (4/0) [0/0] | | | | | | | | | | ACTIVIDAD_ECONOMICA = ARTESANIA : NO (0/0) [0/0] | | | | | | | | | | ACTIVIDAD_ECONOMICA = COMERCIO | | | | | | | | | | | TIPO_CREDITO = normal : SI (9/4) [2/1] | | | | | | | | | | | TIPO_CREDITO = paralelo : NO (16/1) [12/4] | | | | | | | | | | | TIPO_CREDITO = plus : NO (0/0) [0/0] | | | | | | | | | | | TIPO_CREDITO = recurrente | | | | | | | | | | | | CAPITAL < 8500 : NO (2/0) [1/1] | | | | | | | | | | | | CAPITAL >= 8500 | | | | | | | | | | | | | CAPITAL < 15750 | | | | | | | | | | | | | | CAPITAL < 10500 | | | | | | | | | | | | | | | INGRESO_MENSUAL < 14700 : SI (31/16) [16/10] | | | | | | | | | | | | | | | INGRESO_MENSUAL >= 14700 : SI (7/1) [3/0] | | | | | | | | | | | | | | CAPITAL >= 10500 : NO (72/30) [29/8] | | | | | | | | | | | | | CAPITAL >= 15750 : NO (2/0) [2/0] | | | | | | | | | | ACTIVIDAD_ECONOMICA = CONSTRUCCION : SI (2/1) [0/0] | | | | | | | | | | ACTIVIDAD_ECONOMICA = ENSENIANZA : NO (1/0) [1/0] | | | | | | | | | | ACTIVIDAD_ECONOMICA = HOGARES_PRIV_CON_SERV : NO (0/0) [0/0] | | | | | | | | | | ACTIVIDAD_ECONOMICA = HOSPEDAJE_Y_ALIMENTACION : NO (26/8) [9/3] | | | | | | | | | | ACTIVIDAD_ECONOMICA = INDUSTRIA | | | | | | | | | | | TIPO_CREDITO = normal : NO (2/0) [0/0] | | | | | | | | | | | TIPO_CREDITO = paralelo : NO (8/1) [0/0] | | | | | | | | | | | TIPO_CREDITO = plus : NO (0/0) [0/0] | | | | | | | | | | | TIPO_CREDITO = recurrente | | | | | | | | | | | | TASA_INTERES < 1,58 : NO (8/3) [5/0] | | | | | | | | | | | | TASA_INTERES >= 1,58 : SI (7/1) [1/0] | | | | | | | | | | ACTIVIDAD_ECONOMICA = INMOBILIARIAS_EMP : NO (11/3) [6/2] | | | | | | | | | | ACTIVIDAD_ECONOMICA = INTERMEDIACION_FINANCIERA : NO (0/0) [0/0] | | | | | | | | | | ACTIVIDAD_ECONOMICA = MINERIA : SI (3/2) [3/2] | | | | | | | | | | ACTIVIDAD_ECONOMICA = PESQUERIA : NO (1/0) [1/0] | | | | | | | | | | ACTIVIDAD_ECONOMICA = SERV_OTROS | | | | | | | | | | | CAPITAL < 9250 : SI (2/0) [1/0] | | | | | | | | | | | CAPITAL >= 9250 : NO (16/3) [5/1] | | | | | | | | | | ACTIVIDAD_ECONOMICA = SERV_SOC_Y_SALUD : NO (0/0) [0/0] | | | | | | | | | | ACTIVIDAD_ECONOMICA = TRANSPORTE : NO (0/0) [0/0] | | | | | | | | | TASA_INTERES >= 1,73 | | | | | | | | | | INGRESO_MENSUAL < 6825 : SI (4/2) [1/0] | | | | | | | | | | INGRESO_MENSUAL >= 6825 : NO (61/1) [30/2] | | | | | | | | TASA_INTERES >= 1,88 | | | | | | | | | CAPITAL < 15950 | | | | | | | | | | INGRESO_MENSUAL < 16485 | | | | | | | | | | | ACTIVIDAD_ECONOMICA = ADMINISTRACION_PUBLICA : NO (0/0) [0/0]

94

| | | | | | | | | | | ACTIVIDAD_ECONOMICA = AGRICULTURA_GANADERIA : SI (1/0) [0/0] | | | | | | | | | | | ACTIVIDAD_ECONOMICA = ARTESANIA : SI (1/0) [0/0] | | | | | | | | | | | ACTIVIDAD_ECONOMICA = COMERCIO | | | | | | | | | | | | INGRESO_MENSUAL < 15744,75 | | | | | | | | | | | | | CAPITAL < 7400 | | | | | | | | | | | | | | TASA_INTERES < 1,95 : SI (6/1) [3/1] | | | | | | | | | | | | | | TASA_INTERES >= 1,95 : NO (15/5) [4/0] | | | | | | | | | | | | | CAPITAL >= 7400 : SI (20/6) [7/2] | | | | | | | | | | | | INGRESO_MENSUAL >= 15744,75 : SI (3/0) [4/1] | | | | | | | | | | | ACTIVIDAD_ECONOMICA = CONSTRUCCION : NO (0/0) [0/0] | | | | | | | | | | | ACTIVIDAD_ECONOMICA = ENSENIANZA : NO (0/0) [0/0] | | | | | | | | | | | ACTIVIDAD_ECONOMICA = HOGARES_PRIV_CON_SERV : NO (0/0) [0/0] | | | | | | | | | | | ACTIVIDAD_ECONOMICA = HOSPEDAJE_Y_ALIMENTACION : NO (2/0) [4/3] | | | | | | | | | | | ACTIVIDAD_ECONOMICA = INDUSTRIA : SI (2/0) [4/1] | | | | | | | | | | | ACTIVIDAD_ECONOMICA = INMOBILIARIAS_EMP : SI (0/0) [4/1] | | | | | | | | | | | ACTIVIDAD_ECONOMICA = INTERMEDIACION_FINANCIERA : NO (0/0) [0/0] | | | | | | | | | | | ACTIVIDAD_ECONOMICA = MINERIA : NO (0/0) [1/0] | | | | | | | | | | | ACTIVIDAD_ECONOMICA = PESQUERIA : NO (2/1) [2/0] | | | | | | | | | | | ACTIVIDAD_ECONOMICA = SERV_OTROS | | | | | | | | | | | | CAPITAL < 12350 | | | | | | | | | | | | | INGRESO_MENSUAL < 12279,75 | | | | | | | | | | | | | | CAPITAL < 9350 | | | | | | | | | | | | | | | INGRESO_MENSUAL < 10027,5 | | | | | | | | | | | | | | | | INGRESO_MENSUAL < 6709,5 : NO (7/1) [4/1] | | | | | | | | | | | | | | | | INGRESO_MENSUAL >= 6709,5 | | | | | | | | | | | | | | | | | CAPITAL < 6850 : SI (10/2) [6/1] | | | | | | | | | | | | | | | | | CAPITAL >= 6850 | | | | | | | | | | | | | | | | | | INGRESO_MENSUAL < 7360,5: SI (24/12) [6/0] | | | | | | | | | | | | | | | | | | INGRESO_MENSUAL >= 7360,5 | | | | | | | | | | | | | | | | | | | INGRESO_MENSUAL < 8058,75 : NO (8/1) [14/6] | | | | | | | | | | | | | | | | | | | INGRESO_MENSUAL >= 8058,75 | | | | | | | | | | | | | | | | | | | | CAPITAL < 7775 : SI (4/1) [1/0] | | | | | | | | | | | | | | | | | | | | CAPITAL >= 7775 : NO (30/12) [27/13] | | | | | | | | | | | | | | | INGRESO_MENSUAL >= 10027,5 : SI (11/1) [5/1] | | | | | | | | | | | | | | CAPITAL >= 9350 : NO (74/27) [50/18] | | | | | | | | | | | | | INGRESO_MENSUAL >= 12279,75 : SI (50/17) [21/6] | | | | | | | | | | | | CAPITAL >= 12350 : NO (85/27) [53/20] | | | | | | | | | | | ACTIVIDAD_ECONOMICA = SERV_SOC_Y_SALUD : NO (0/0) [0/0] | | | | | | | | | | | ACTIVIDAD_ECONOMICA = TRANSPORTE : NO (0/0) [0/0] | | | | | | | | | | INGRESO_MENSUAL >= 16485 : SI (38/3) [14/0]

95

| | | | | | | | | CAPITAL >= 15950 : NO (116/32) [61/22] | | | | | | | INGRESO_MENSUAL >= 23152,5 : SI (84/22) [39/10] | | | | TASA_INTERES >= 2,25 | | | | | TASA_INTERES < 2,72 : NO (191/2) [116/2] | | | | | TASA_INTERES >= 2,72 | | | | | | INGRESO_MENSUAL < 11392,5 | | | | | | | TASA_INTERES < 3,05 : SI (80/32) [57/24] | | | | | | | TASA_INTERES >= 3,05 : NO (238/49) [130/27] | | | | | | INGRESO_MENSUAL >= 11392,5 | | | | | | | INGRESO_MENSUAL < 27825 | | | | | | | | CAPITAL < 10900 | | | | | | | | | TIPO_CREDITO = normal : SI (10/2) [1/0] | | | | | | | | | TIPO_CREDITO = paralelo | | | | | | | | | | ACTIVIDAD_ECONOMICA = ADMINISTRACION_PUBLICA : SI (0/0) [0/0] | | | | | | | | | | ACTIVIDAD_ECONOMICA = AGRICULTURA_GANADERIA : NO (1/0) [0/0] | | | | | | | | | | ACTIVIDAD_ECONOMICA = ARTESANIA : SI (0/0) [0/0] | | | | | | | | | | ACTIVIDAD_ECONOMICA = COMERCIO | | | | | | | | | | | INGRESO_MENSUAL < 14542,5 : SI (4/0) [1/0] | | | | | | | | | | | INGRESO_MENSUAL >= 14542,5 | | | | | | | | | | | | INGRESO_MENSUAL < 21262,5 : NO (13/4) [5/1] | | | | | | | | | | | | INGRESO_MENSUAL >= 21262,5 : SI (4/0) [2/0] | | | | | | | | | | ACTIVIDAD_ECONOMICA = CONSTRUCCION : SI (0/0) [0/0] | | | | | | | | | | ACTIVIDAD_ECONOMICA = ENSENIANZA : SI (0/0) [0/0] | | | | | | | | | | ACTIVIDAD_ECONOMICA = HOGARES_PRIV_CON_SERV : SI (0/0) [0/0] | | | | | | | | | | ACTIVIDAD_ECONOMICA = HOSPEDAJE_Y_ALIMENTACION : SI (4/2) [1/0] | | | | | | | | | | ACTIVIDAD_ECONOMICA = INDUSTRIA : SI (2/0) [3/1] | | | | | | | | | | ACTIVIDAD_ECONOMICA = INMOBILIARIAS_EMP : SI (5/1) [0/0] | | | | | | | | | | ACTIVIDAD_ECONOMICA = INTERMEDIACION_FINANCIERA : SI (0/0) [0/0] | | | | | | | | | | ACTIVIDAD_ECONOMICA = MINERIA : SI (0/0) [0/0] | | | | | | | | | | ACTIVIDAD_ECONOMICA = PESQUERIA : SI (0/0) [0/0] | | | | | | | | | | ACTIVIDAD_ECONOMICA = SERV_OTROS : NO (1/0) [0/0] | | | | | | | | | | ACTIVIDAD_ECONOMICA = SERV_SOC_Y_SALUD : SI (0/0) [0/0] | | | | | | | | | | ACTIVIDAD_ECONOMICA = TRANSPORTE : SI (0/0) [0/0] | | | | | | | | | TIPO_CREDITO = plus : SI (0/0) [0/0] | | | | | | | | | TIPO_CREDITO = recurrente : SI (30/2) [9/0] | | | | | | | | CAPITAL >= 10900 | | | | | | | | | TASA_INTERES < 3,25 | | | | | | | | | | ACTIVIDAD_ECONOMICA = ADMINISTRACION_PUBLICA : NO (0/0) [0/0] | | | | | | | | | | ACTIVIDAD_ECONOMICA = AGRICULTURA_GANADERIA : NO (1/0) [0/0] | | | | | | | | | | ACTIVIDAD_ECONOMICA = ARTESANIA : NO (0/0) [0/0] | | | | | | | | | | ACTIVIDAD_ECONOMICA = COMERCIO

96

| | | | | | | | | | | TIPO_CREDITO = normal : SI (4/0) [1/0] | | | | | | | | | | | TIPO_CREDITO = paralelo | | | | | | | | | | | | INGRESO_MENSUAL < 25200 : SI (12/6) [6/1] | | | | | | | | | | | | INGRESO_MENSUAL >= 25200 : NO (2/0) [0/0] | | | | | | | | | | | TIPO_CREDITO = plus : NO (0/0) [0/0] | | | | | | | | | | | TIPO_CREDITO = recurrente : NO (33/10) [13/4] | | | | | | | | | | ACTIVIDAD_ECONOMICA = CONSTRUCCION : NO (1/0) [0/0] | | | | | | | | | | ACTIVIDAD_ECONOMICA = ENSENIANZA : SI (1/0) [0/0] | | | | | | | | | | ACTIVIDAD_ECONOMICA = HOGARES_PRIV_CON_SERV : NO (0/0) [0/0] | | | | | | | | | | ACTIVIDAD_ECONOMICA = HOSPEDAJE_Y_ALIMENTACION : NO (12/1) [5/2] | | | | | | | | | | ACTIVIDAD_ECONOMICA = INDUSTRIA : NO (9/1) [2/0] | | | | | | | | | | ACTIVIDAD_ECONOMICA = INMOBILIARIAS_EMP : NO (3/1) [1/0] | | | | | | | | | | ACTIVIDAD_ECONOMICA = INTERMEDIACION_FINANCIERA : NO (0/0) [0/0] | | | | | | | | | | ACTIVIDAD_ECONOMICA = MINERIA : SI (2/1) [0/0] | | | | | | | | | | ACTIVIDAD_ECONOMICA = PESQUERIA : NO (1/0) [1/0] | | | | | | | | | | ACTIVIDAD_ECONOMICA = SERV_OTROS : NO (11/1) [6/1] | | | | | | | | | | ACTIVIDAD_ECONOMICA = SERV_SOC_Y_SALUD : NO (0/0) [0/0] | | | | | | | | | | ACTIVIDAD_ECONOMICA = TRANSPORTE : NO (0/0) [0/0] | | | | | | | | | TASA_INTERES >= 3,25 : SI (111/48) [67/28] | | | | | | | INGRESO_MENSUAL >= 27825 : SI (35/3) [18/1] | | | CAPITAL >= 21100 | | | | TASA_INTERES < 2,85 | | | | | ACTIVIDAD_ECONOMICA = ADMINISTRACION_PUBLICA : NO (0/0) [0/0] | | | | | ACTIVIDAD_ECONOMICA = AGRICULTURA_GANADERIA : NO (3/0) [1/0] | | | | | ACTIVIDAD_ECONOMICA = ARTESANIA : NO (0/0) [0/0] | | | | | ACTIVIDAD_ECONOMICA = COMERCIO : NO (111/13) [45/8] | | | | | ACTIVIDAD_ECONOMICA = CONSTRUCCION : SI (1/0) [0/0] | | | | | ACTIVIDAD_ECONOMICA = ENSENIANZA : NO (1/0) [0/0] | | | | | ACTIVIDAD_ECONOMICA = HOGARES_PRIV_CON_SERV : NO (0/0) [0/0] | | | | | ACTIVIDAD_ECONOMICA = HOSPEDAJE_Y_ALIMENTACION : NO (10/2) [6/1] | | | | | ACTIVIDAD_ECONOMICA = INDUSTRIA : NO (10/1) [2/0] | | | | | ACTIVIDAD_ECONOMICA = INMOBILIARIAS_EMP : NO (4/0) [3/1] | | | | | ACTIVIDAD_ECONOMICA = INTERMEDIACION_FINANCIERA : NO (0/0) [0/0] | | | | | ACTIVIDAD_ECONOMICA = MINERIA : NO (1/0) [2/0] | | | | | ACTIVIDAD_ECONOMICA = PESQUERIA : NO (0/0) [0/0] | | | | | ACTIVIDAD_ECONOMICA = SERV_OTROS | | | | | | TASA_INTERES < 1,83 : NO (25/0) [6/1] | | | | | | TASA_INTERES >= 1,83 | | | | | | | CAPITAL < 26600 | | | | | | | | INGRESO_MENSUAL < 27667,5 : NO (38/12) [23/8]

97

| | | | | | | | INGRESO_MENSUAL >= 27667,5 : SI (4/0) [2/0] | | | | | | | CAPITAL >= 26600 | | | | | | | | INGRESO_MENSUAL < 31605 | | | | | | | | | INGRESO_MENSUAL < 28875 : NO (4/0) [2/0] | | | | | | | | | INGRESO_MENSUAL >= 28875 | | | | | | | | | | TASA_INTERES < 2,03 | | | | | | | | | | | INGRESO_MENSUAL < 30607,5 : NO (10/1) [2/1] | | | | | | | | | | | INGRESO_MENSUAL >= 30607,5 : SI (2/1) [1/0] | | | | | | | | | | TASA_INTERES >= 2,03 : NO (2/0) [1/0] | | | | | | | | INGRESO_MENSUAL >= 31605 : NO (6/0) [4/2] | | | | | ACTIVIDAD_ECONOMICA = SERV_SOC_Y_SALUD : NO (0/0) [0/0] | | | | | ACTIVIDAD_ECONOMICA = TRANSPORTE : NO (0/0) [0/0] | | | | TASA_INTERES >= 2,85 | | | | | ACTIVIDAD_ECONOMICA = ADMINISTRACION_PUBLICA : SI (0/0) [0/0] | | | | | ACTIVIDAD_ECONOMICA = AGRICULTURA_GANADERIA : SI (1/0) [0/0] | | | | | ACTIVIDAD_ECONOMICA = ARTESANIA : SI (0/0) [0/0] | | | | | ACTIVIDAD_ECONOMICA = COMERCIO : SI (50/20) [29/12] | | | | | ACTIVIDAD_ECONOMICA = CONSTRUCCION : SI (0/0) [0/0] | | | | | ACTIVIDAD_ECONOMICA = ENSENIANZA : NO (0/0) [1/0] | | | | | ACTIVIDAD_ECONOMICA = HOGARES_PRIV_CON_SERV : SI (0/0) [0/0] | | | | | ACTIVIDAD_ECONOMICA = HOSPEDAJE_Y_ALIMENTACION : SI (3/2) [4/3] | | | | | ACTIVIDAD_ECONOMICA = INDUSTRIA : SI (4/2) [0/0] | | | | | ACTIVIDAD_ECONOMICA = INMOBILIARIAS_EMP : NO (2/0) [0/0] | | | | | ACTIVIDAD_ECONOMICA = INTERMEDIACION_FINANCIERA : SI (0/0) [0/0] | | | | | ACTIVIDAD_ECONOMICA = MINERIA : NO (0/0) [1/0] | | | | | ACTIVIDAD_ECONOMICA = PESQUERIA : NO (2/1) [1/0] | | | | | ACTIVIDAD_ECONOMICA = SERV_OTROS : SI (3/2) [2/1] | | | | | ACTIVIDAD_ECONOMICA = SERV_SOC_Y_SALUD : SI (0/0) [0/0] | | | | | ACTIVIDAD_ECONOMICA = TRANSPORTE : SI (0/0) [0/0] | TASA_INTERES >= 3,4 | | INGRESO_MENSUAL < 5197,5 : NO (642/46) [314/21] | | INGRESO_MENSUAL >= 5197,5 | | | CAPITAL < 7400 | | | | TIPO_CREDITO = normal : SI (4/1) [3/1] | | | | TIPO_CREDITO = paralelo | | | | | CAPITAL < 1750 | | | | | | ACTIVIDAD_ECONOMICA = ADMINISTRACION_PUBLICA : SI (0/0) [0/0] | | | | | | ACTIVIDAD_ECONOMICA = AGRICULTURA_GANADERIA : SI (0/0) [0/0] | | | | | | ACTIVIDAD_ECONOMICA = ARTESANIA : SI (0/0) [0/0] | | | | | | ACTIVIDAD_ECONOMICA = COMERCIO : SI (8/4) [2/1] | | | | | | ACTIVIDAD_ECONOMICA = CONSTRUCCION : SI (0/0) [0/0] | | | | | | ACTIVIDAD_ECONOMICA = ENSENIANZA : SI (0/0) [0/0] | | | | | | ACTIVIDAD_ECONOMICA = HOGARES_PRIV_CON_SERV : SI (0/0) [0/0]

98

| | | | | | ACTIVIDAD_ECONOMICA = HOSPEDAJE_Y_ALIMENTACION : NO (3/1) [1/0] | | | | | | ACTIVIDAD_ECONOMICA = INDUSTRIA : SI (2/1) [0/0] | | | | | | ACTIVIDAD_ECONOMICA = INMOBILIARIAS_EMP : SI (1/0) [0/0] | | | | | | ACTIVIDAD_ECONOMICA = INTERMEDIACION_FINANCIERA : SI (0/0) [0/0] | | | | | | ACTIVIDAD_ECONOMICA = MINERIA : SI (0/0) [0/0] | | | | | | ACTIVIDAD_ECONOMICA = PESQUERIA : SI (0/0) [0/0] | | | | | | ACTIVIDAD_ECONOMICA = SERV_OTROS : NO (0/0) [1/0] | | | | | | ACTIVIDAD_ECONOMICA = SERV_SOC_Y_SALUD : SI (0/0) [0/0] | | | | | | ACTIVIDAD_ECONOMICA = TRANSPORTE : SI (0/0) [0/0] | | | | | CAPITAL >= 1750 | | | | | | ACTIVIDAD_ECONOMICA = ADMINISTRACION_PUBLICA : NO (0/0) [0/0] | | | | | | ACTIVIDAD_ECONOMICA = AGRICULTURA_GANADERIA : NO (1/0) [0/0] | | | | | | ACTIVIDAD_ECONOMICA = ARTESANIA : NO (0/0) [0/0] | | | | | | ACTIVIDAD_ECONOMICA = COMERCIO : NO (13/0) [8/1] | | | | | | ACTIVIDAD_ECONOMICA = CONSTRUCCION : NO (0/0) [0/0] | | | | | | ACTIVIDAD_ECONOMICA = ENSENIANZA : NO (0/0) [0/0] | | | | | | ACTIVIDAD_ECONOMICA = HOGARES_PRIV_CON_SERV : NO (0/0) [0/0] | | | | | | ACTIVIDAD_ECONOMICA = HOSPEDAJE_Y_ALIMENTACION : SI (2/1) [1/0] | | | | | | ACTIVIDAD_ECONOMICA = INDUSTRIA : SI (1/1) [2/1] | | | | | | ACTIVIDAD_ECONOMICA = INMOBILIARIAS_EMP : NO (5/0) [0/0] | | | | | | ACTIVIDAD_ECONOMICA = INTERMEDIACION_FINANCIERA : NO (0/0) [0/0] | | | | | | ACTIVIDAD_ECONOMICA = MINERIA : NO (0/0) [0/0] | | | | | | ACTIVIDAD_ECONOMICA = PESQUERIA : NO (0/0) [0/0] | | | | | | ACTIVIDAD_ECONOMICA = SERV_OTROS : SI (1/0) [1/0] | | | | | | ACTIVIDAD_ECONOMICA = SERV_SOC_Y_SALUD : NO (0/0) [0/0] | | | | | | ACTIVIDAD_ECONOMICA = TRANSPORTE : NO (0/0) [0/0] | | | | TIPO_CREDITO = plus : NO (0/0) [0/0] | | | | TIPO_CREDITO = recurrente : NO (18/7) [5/1] | | | CAPITAL >= 7400 : SI (11/2) [5/0] TASA_INTERES >= 3,55 | CAPITAL < 3625 | | INGRESO_MENSUAL < 3727,5 | | | ACTIVIDAD_ECONOMICA = ADMINISTRACION_PUBLICA : NO (0/0) [1/0] | | | ACTIVIDAD_ECONOMICA = AGRICULTURA_GANADERIA : SI (17/4) [8/3] | | | ACTIVIDAD_ECONOMICA = ARTESANIA : SI (6/1) [2/0] | | | ACTIVIDAD_ECONOMICA = COMERCIO | | | | TASA_INTERES < 3,75 : NO (5/0) [4/0] | | | | TASA_INTERES >= 3,75 | | | | | TIPO_CREDITO = normal | | | | | | TASA_INTERES < 4,15 | | | | | | | INGRESO_MENSUAL < 2205 : SI (68/30) [40/17] | | | | | | | INGRESO_MENSUAL >= 2205 | | | | | | | | CAPITAL < 2350 : SI (13/0) [4/0] | | | | | | | | CAPITAL >= 2350

99

| | | | | | | | | TASA_INTERES < 3,85 : SI (21/5) [19/13] | | | | | | | | | TASA_INTERES >= 3,85 | | | | | | | | | | INGRESO_MENSUAL < 2782,5 : SI (8/2) [3/1] | | | | | | | | | | INGRESO_MENSUAL >= 2782,5 : NO (17/7) [10/3] | | | | | | TASA_INTERES >= 4,15 : SI (93/22) [41/11] | | | | | TIPO_CREDITO = paralelo : SI (121/21) [57/15] | | | | | TIPO_CREDITO = plus : SI (1/0) [0/0] | | | | | TIPO_CREDITO = recurrente : SI (677/161) [288/60] | | | ACTIVIDAD_ECONOMICA = CONSTRUCCION | | | | INGRESO_MENSUAL < 2362,5 : NO (2/0) [0/0] | | | | INGRESO_MENSUAL >= 2362,5 : SI (3/1) [1/0] | | | ACTIVIDAD_ECONOMICA = ENSENIANZA | | | | TIPO_CREDITO = normal : NO (8/1) [1/1] | | | | TIPO_CREDITO = paralelo : NO (0/0) [0/0] | | | | TIPO_CREDITO = plus : NO (0/0) [0/0] | | | | TIPO_CREDITO = recurrente : SI (10/3) [2/0] | | | ACTIVIDAD_ECONOMICA = HOGARES_PRIV_CON_SERV : SI (0/0) [0/0] | | | ACTIVIDAD_ECONOMICA = HOSPEDAJE_Y_ALIMENTACION | | | | TASA_INTERES < 3,83 : SI (48/20) [28/7] | | | | TASA_INTERES >= 3,83 | | | | | INGRESO_MENSUAL < 1627,5 | | | | | | TASA_INTERES < 4,1 | | | | | | | INGRESO_MENSUAL < 1155 : NO (16/7) [4/1] | | | | | | | INGRESO_MENSUAL >= 1155 : SI (21/6) [4/1] | | | | | | TASA_INTERES >= 4,1 : SI (21/4) [10/3] | | | | | INGRESO_MENSUAL >= 1627,5 : SI (85/13) [50/11] | | | ACTIVIDAD_ECONOMICA = INDUSTRIA : SI (107/19) [54/11] | | | ACTIVIDAD_ECONOMICA = INMOBILIARIAS_EMP : SI (57/13) [40/9] | | | ACTIVIDAD_ECONOMICA = INTERMEDIACION_FINANCIERA : SI (0/0) [0/0] | | | ACTIVIDAD_ECONOMICA = MINERIA : SI (3/1) [2/1] | | | ACTIVIDAD_ECONOMICA = PESQUERIA | | | | TIPO_CREDITO = normal : SI (32/15) [14/4] | | | | TIPO_CREDITO = paralelo : NO (4/1) [3/0] | | | | TIPO_CREDITO = plus : SI (0/0) [0/0] | | | | TIPO_CREDITO = recurrente : SI (43/12) [12/5] | | | ACTIVIDAD_ECONOMICA = SERV_OTROS | | | | TASA_INTERES < 3,7 : SI (16/1) [9/0] | | | | TASA_INTERES >= 3,7 | | | | | TASA_INTERES < 3,95 | | | | | | TIPO_CREDITO = normal : NO (9/4) [3/0] | | | | | | TIPO_CREDITO = paralelo : SI (5/2) [2/1] | | | | | | TIPO_CREDITO = plus : SI (0/0) [0/0] | | | | | | TIPO_CREDITO = recurrente : SI (18/5) [10/5] | | | | | TASA_INTERES >= 3,95 : SI (37/9) [19/7] | | | ACTIVIDAD_ECONOMICA = SERV_SOC_Y_SALUD : SI (1/0) [1/0] | | | ACTIVIDAD_ECONOMICA = TRANSPORTE : SI (3/1) [0/0] | | INGRESO_MENSUAL >= 3727,5 : SI (426/47) [205/22] | CAPITAL >= 3625 | | ACTIVIDAD_ECONOMICA = ADMINISTRACION_PUBLICA : SI (0/0) [0/0] | | ACTIVIDAD_ECONOMICA = AGRICULTURA_GANADERIA

100

| | | INGRESO_MENSUAL < 9450 | | | | INGRESO_MENSUAL < 4987,5 : NO (3/0) [3/1] | | | | INGRESO_MENSUAL >= 4987,5 | | | | | TASA_INTERES < 3,75 : NO (5/1) [2/0] | | | | | TASA_INTERES >= 3,75 : SI (3/1) [1/0] | | | INGRESO_MENSUAL >= 9450 : SI (2/0) [1/0] | | ACTIVIDAD_ECONOMICA = ARTESANIA : NO (2/0) [1/1] | | ACTIVIDAD_ECONOMICA = COMERCIO | | | TIPO_CREDITO = normal | | | | INGRESO_MENSUAL < 9712,5 | | | | | TASA_INTERES < 3,85 : SI (52/23) [31/7] | | | | | TASA_INTERES >= 3,85 : NO (5/1) [2/0] | | | | INGRESO_MENSUAL >= 9712,5 : SI (3/0) [1/0] | | | TIPO_CREDITO = paralelo | | | | TASA_INTERES < 3,75 | | | | | INGRESO_MENSUAL < 5775 : NO (2/0) [1/0] | | | | | INGRESO_MENSUAL >= 5775 : SI (33/11) [26/11] | | | | TASA_INTERES >= 3,75 : SI (39/3) [32/7] | | | TIPO_CREDITO = plus : SI (0/0) [1/0] | | | TIPO_CREDITO = recurrente : SI (318/93) [144/38] | | ACTIVIDAD_ECONOMICA = CONSTRUCCION : NO (2/0) [1/0] | | ACTIVIDAD_ECONOMICA = ENSENIANZA : NO (9/4) [0/0] | | ACTIVIDAD_ECONOMICA = HOGARES_PRIV_CON_SERV : SI (0/0) [0/0] | | ACTIVIDAD_ECONOMICA = HOSPEDAJE_Y_ALIMENTACION : SI (121/45) [55/17] | | ACTIVIDAD_ECONOMICA = INDUSTRIA : SI (46/14) [31/8] | | ACTIVIDAD_ECONOMICA = INMOBILIARIAS_EMP | | | INGRESO_MENSUAL < 9712,5 | | | | TASA_INTERES < 3,75 : NO (21/8) [7/3] | | | | TASA_INTERES >= 3,75 | | | | | TIPO_CREDITO = normal : SI (5/0) [6/1] | | | | | TIPO_CREDITO = paralelo : SI (4/2) [2/1] | | | | | TIPO_CREDITO = plus : SI (0/0) [0/0] | | | | | TIPO_CREDITO = recurrente | | | | | | INGRESO_MENSUAL < 4725 : NO (2/0) [3/1] | | | | | | INGRESO_MENSUAL >= 4725 : SI (9/2) [0/0] | | | INGRESO_MENSUAL >= 9712,5 : SI (3/0) [1/0] | | ACTIVIDAD_ECONOMICA = INTERMEDIACION_FINANCIERA : SI (0/0) [0/0] | | ACTIVIDAD_ECONOMICA = MINERIA : SI (9/5) [2/1] | | ACTIVIDAD_ECONOMICA = PESQUERIA : SI (36/18) [18/7] | | ACTIVIDAD_ECONOMICA = SERV_OTROS : SI (53/20) [41/9] | | ACTIVIDAD_ECONOMICA = SERV_SOC_Y_SALUD : SI (1/0) [0/0] | | ACTIVIDAD_ECONOMICA = TRANSPORTE : SI (1/0) [2/1] Size of the tree : 609 Time taken to build model: 0,27 seconds

101

3.2.9. Evaluacin de los resultados

Una de las caractersticas de la herramienta Weka Explorer es que genera el modelo y lo prueba clasificando los datos del archivo arff en el rbol de decisin generado, indicando el grado de certeza obtenido, Weka define la precisin mediante la ecuacin 11:

Precisin =

(11)

o x: Nmero de ejemplos del conjunto de prueba que han sido clasificados correctamente por el modelo. o y: Nmero de ejemplos del conjunto de prueba.

La tabla 9 muestra la evaluacin del Algoritmo J48, se puede apreciar que clasific correctamente 9815 instancias o ejemplos y predijo de forma incorrecta 3303 registros, donde aplicando la frmula de precisin nos da como resultado una precisin del 74,8209 %.

Analizando la matriz de confusin podemos determinar lo siguiente:

102

6493 registros fueron clasificados correctamente como buenos clientes (Verdaderos Positivos). 3322 registros fueron clasificados correctamente como clientes morosos (Verdaderos Negativos). 2413 registros fueron clasificados como buenos clientes cuando en realidad son clientes morosos (Falsos Positivos). 890 registros fueron clasificados como clientes morosos cuando en realidad son buenos clientes (Falsos Negativos).

Tabla 9. Evaluacin Algoritmo J48. Algoritmo J48 === Evaluation on training set === === Summary === Correctly Classified Instances 9815 Incorrectly Classified Instances 3303 Kappa statistic 0,4727 Mean absolute error 0,3529 Root mean squared error 0,4201 Relative absolute error 71,7159 % Root relative squared error 84,6853 % Total Number of Instances 13118

74,8209 % 25,1791 %

=== Detailed Accuracy By Class === TP Rate FP Rate Precision Recall F-Measure ROC Area Class 0,879 0,421 0,729 0,879 0,797 0,783 SI 0,579 0,121 0,789 0,579 0,668 0,783 NO === Confusion Matrix === a b <-- classified as 6493 890 | a = SI 2413 3322 | b = NO Fuente: Sistema Weka basado en datos de Caja Arequipa; Elaboracin propia.

103

La tabla 10 nos muestra la evaluacin del Algoritmo REPTree, podemos apreciar que clasific correctamente 9811 instancias o ejemplos y predijo de forma incorrecta 3307 registros, donde aplicando la frmula de precisin nos da como resultado una precisin del 74,7904 %.

Analizando la matriz de confusin podemos determinar lo siguiente:

6618 registros fueron clasificados correctamente como buenos clientes (Verdaderos Positivos). 3193 registros fueron clasificados correctamente como clientes morosos (Verdaderos Negativos). 2542 registros fueron clasificados como buenos clientes cuando en realidad son clientes morosos (Falsos Positivos). 765 registros fueron clasificados como clientes morosos cuando en realidad son buenos clientes (Falsos Negativos).

104

Tabla 10. Evaluacin del Algoritmo REPTree

Algoritmo REPTREE === Evaluation on training set === === Summary === Correctly Classified Instances 9811 Incorrectly Classified Instances 3307 Kappa statistic 0,4694 Mean absolute error 0,3419 Root mean squared error 0,416 Relative absolute error 69,4842 % Root relative squared error 83,8728 % Total Number of Instances 13118 === Detailed Accuracy By Class === TP Rate FP Rate Precision Recall F-Measure ROC Area Class 0,896 0,443 0,722 0,896 0,8 0,803 SI 0,557 0,104 0,807 0,557 0,659 0,803 NO === Confusion Matrix === a b <-- classified as 6618 765 | a = SI 2542 3193 | b = NO Fuente: Sistema Weka basado en datos de Caja Arequipa; Elaboracin propia. 74,7904 % 25,2096 %

Finalmente, habiendo evaluado los resultados obtenidos se concluye, que:

Como experiencia se ha notado que la precisin de los rboles de decisin generados por los algoritmos J48 y REPTree aument cuando se consideraba ms atributos de tipo discreto.

105

Al manipular entre 10000 y 15000 registros, se debe ejecutar WEKA asignndole exclusivamente 512 MB de memoria sino puede ocurrir un desbordamiento y salida del programa

inesperadamente. Existen otros algoritmos para generar rboles de decisin pero utilizan como variable objetivo una de tipo numrico por lo que no lo considero conveniente ya que este trabajo debe clasificar a un cliente en moroso o buen cliente (variable discreta). El algoritmo J48 fue ms preciso por 0,0305 % por lo que se puede concluir que ambos algoritmos pueden ser utilizados en un mismo conjunto de registros ya que tienen una precisin mayor al 75%.

106

IV. CONCLUSIONES

Weka no es slo una herramienta que sirve para aplicar algoritmos y generar modelos, tambin puede ser utilizada para realizar un preprocesado a los datos como modificaciones y aplicacin de filtros, funcionalidades que han resultado muy tiles para la evaluacin y clasificacin de clientes con riesgo crediticio.

La informacin fidedigna de posibles clientes que requieran un crdito, es la clave del xito, en estos tiempos inciertos y altamente competitivos, donde la capacidad de pago es un punto clave en la evaluacin de crditos sobre todo en zonas donde se desea empieza a generar cartera de clientes.

La gestin de una buena cartera de clientes permite a los ejecutivos de crditos cumplir con sus metas a nivel de colocaciones de forma mensual, lo cual permite a la entidad cumplir con los objetivos estratgicos a nivel de rentabilidad en el mercado.

La calificacin y recalificacin de cada cliente, de forma interna y externa (de forma mensual), es un punto clave para el otorgamiento de crditos, la misma que efecta en base a la situacin del cliente en la entidad, su situacin en el

107

sistema financiero y reportes emitidos por entes reguladores, proceso de retroalimentacin para la base de datos de clientes. Tener correctamente clasificado a cada cliente como moroso o buen pagador, permite a cada ejecutivo una mejor gestin de su cartera de clientes y minimiza el riesgo de recuperacin del crdito que se pudiera otorgar. Finalmente, un modelo predictivo en base a un rbol de decisin con una certeza mayor o igual al 70%, reduce el tiempo de decisin y evaluacin de crditos, aumentando la productividad y rentabilidad de la empresa a nivel de sus colocaciones segmentado de forma estratgica sus clientes, producto del monitoreo al comportamiento de sus clientes al acceder a un crdito.

108

V. RECOMENDACIONES

Las herramientas de soporte a la toma de decisiones, son eso, herramientas, y la seleccin y uso, simplifican muchas operaciones y procesos en el negocio, pero que los tomadores de decisiones son la piedra angular.

Es recomendable invertir tiempo en la recoleccin, depuracin de datos, pues usualmente salen datos incoherentes por cambios en plataformas o migraciones de datos, se debe contar con una base de datos de clientes integra.

Independientemente, de contar con una cartera de clientes debidamente clasificada, se debe cumplir con los reglamentos, procedimientos y dems normatividad que tiene la entidad para el otorgamiento de crditos, a fin de evitar posibles observaciones de parte de sus Supervisores.

Es recomendable trabajar con ms de una central de riesgos para temas de calificacin de clientes y se debe tener un responsable de actualizar la base de datos de clientes al recepcionar la informacin de clientes con riesgo crediticio, proporcionada por entes externos, la misma que servir la recalificacin.

Las reas de negocios, en este caso el Jefe de Crditos debe aprovechar esta herramienta para proponer mejoras en los procesos del negocio (al tener

109

correctamente clasificado a sus clientes), en las rutinas, y en la forma de trabajar. Puesto que, puede ser un excelente pretexto para revisar procedimientos administrativos y operativos, y recortar costos durante el proceso de otorgamiento de crditos.

Utilice las herramientas y los recursos de los que ya dispone para la segmentacin de sus clientes, el mismo que le permitir apuntar a nuevas zonas como parte del crecimiento institucional.

110

VI. BIBLIOGRAFA

Bravo, R., & Ruilova, M. (19 de Junio de 2008). rboles de clasificacin (Inteligencia artificial avanzada). Recuperado el 20 de Octubre de 2012, de rboles de clasificacin (Inteligencia artificial avanzada):

http://www.slideshare.net/techi322/algoritmos-de-clasificacin Cravero, A., & Sepulveda, S. (4 de Diciembre de 2009). Aplicacin de minera de datos para la deteccin de anomlias: Un caso de estudio. Recuperado el 20 de Octubre de 2012, de Aplicacin de minera de datos para la deteccin de anomlias: Un caso de estudio: http://ceur-ws.org/Vol-558/Art_8.pdf Flrez, R., & Frnandez, J. (2008). Redes neuronales artificiales. Recuperado el 20 de 10 de 2012, de Redes neuronales artificiales:

http://books.google.com.pe/books?id=X0uLwi1Ap4QC&printsec=frontcover &dq=redes+neuronales&hl=es419&sa=X&ei=166SUoChDobNkAfX1oGgCA&ved=0CC4Q6AEwAA#v=on epage&q=redes%20neuronales&f=false Gallardo, J. (15 de Enero de 2000). Metodologa para el desarrollo de proyectos de minera de datos CRISP-DM. Recuperado el 20 de Octubre de 2012, de Metodologa para el desarrollo de proyectos de minera de datos CRISP-DM:

111

http://www.oldemarrodriguez.com/yahoo_site_admin/assets/docs/Documento _CRISP-DM.2385037.pdf Gomez, J. (31 de Octubre de 2007). Mineria de datos II. Recuperado el 20 de Octubre de 2012, de Mineria de datos II:

http://dis.unal.edu.co/profesores/jgomez/courses/data_mining/Mineria.pdf Guisande, C., Barreiro, A., Maneiro, I., Riveiro, I., Vergara, A., & Vaamonde, A. (2006). Tratamiento de datos. Recuperado el 20 de 10 de 2012, de Tratamiento de datos:

http://books.google.com.pe/books?id=AhNx24025ZoC&pg=PA211&dq=dista ncia+manhattan&hl=es419&sa=X&ei=NpKSUqb0FdKikQe7pYHIDA&ved=0CEcQ6AEwAw#v=on epage&q=distancia%20manhattan&f=false Gutierrez, L. (05 de Setiembre de 2010). Tareas de la minera de datos. Recuperado el 20 de Octubre de 2012, de Tareas de la minera de datos: http://lilianagf.com.mx/MAC/DM/notas/online/N8TareasDM.pdf Hanke, J., & Wichern, D. (2006). Pronsticos en los negocios. Recuperado el 20 de 10 de 2012, de Pronsticos en los negocios:

http://books.google.com.pe/books?id=WaiOrL8oct4C&pg=PA117&dq=MAP E,+MAD+y+MSD&hl=es-419&sa=X&ei=TbaSUqFqyZRB7i3gcgO&ved=0CDEQ6AEwAA#v=onepage&q=MAPE%2C%20MAD% 20y%20MSD&f=false

112

Hernandez, J., & Ferri, C. (Marzo de 2006). Extraccin automtica de conocimiento en base de datos e ingeniera de software. Recuperado el 20 de Octubre de 2012, de Extraccin automtica de conocimiento en base de datos e ingeniera de software: http://www.uv.mx/personal/ edbenitez/files/2011/11/ weka.pdf Krajewski, L., & Ritzman, L. (2000). Administracin de operaciones: estrategia y anlisis. Recuperado el 20 de 10 de 2012, de Administracin de operaciones: estrategia y anlisis: http://books.google.com.pe/books?id=B6LAqCoPSeo C&pg=PA376&dq=distancia+euclidiana&hl=es-419&sa=X&ei=dZCSUvXw McLAkQfb2YC4Ag&ved=0CDoQ6AEwAQ#v=onepage&q=distancia%20 euclidiana&f=false Luceo, A., & Gonzalez, F. (2004). Mtodos estadsticos para medir, describir y controlar la variabilidad. Recuperado el 20 de 10 de 2012, de Mtodos estadsticos para medir, describir y controlar la variabilidad:

http://books.google.com.pe/books?id=383I0j2X4tIC&pg=PA62&dq=teorema +de+bayes&hl=es419&sa=X&ei=F62SUoTKGMnskQeTt4CYDA&ved=0CEEQ6AEwAw#v=o nepage&q=teorema%20de%20bayes&f=false Marquez, A. (18 de Junio de 2011). rbol de decisin. Conferencia Alexander Mrquez Vega. Recuperado el 20 de Octubre de 2012, de rbol de decisin.

113

Conferencia Alexander Mrquez Vega: http://www.slideshare.net/alexanderma quez/arbol-de-decision Matignon, R. (2005). Neural network modeling using SAS Interprise Miner. Recuperado el 20 de 10 de 2012, de Neural network modeling using SAS Interprise Miner: http://books.google.com.pe/books?id= gW51Uq

DZfB8C&pg=PA233&dq=SEMMA&hl=es-419&sa=X&ei=V3WSUtOXG8jI k Afr7YCQCw&ved=0CDYQ6AEwAQ#v=onepage&q=SEMMA&f=false Moreno, M., Quintales, L., Garcia, F., & Polo, J. (3 de Diciembre de 2001). Aplicacin de tcnicas de minera de datos CEUR-WS. Recuperado el 20 de Octubre de 2012, de Aplicacin de tcnicas de minera de datos CEUR-WS: http://ceur-ws.org/Vol-84/paper4.pdf Nettleton, D. (2005). Tcnicas para el anlisis de datos clnicos. Recuperado el 20 de 10 de 2012, de Tcnicas para el anlisis de datos clnicos: http://books.google.com.pe/books?id=QqfuCWT3h8cC&pg=PA227&dq=tecn ica+kohonen&hl=es419&sa=X&ei=GJuSUpadL4vNkQef9IC4BQ&ved=0CC4Q6AEwAA#v=one page&q=tecnica%20kohonen&f=false Ordoez, M. (19 de Setiembre de 2008). Minera de datos y el negocio: Aplicaciones, metodologas y tcnicas. Recuperado el 20 de Octubre de 2012, de Minera de datos y el negocio: Aplicaciones, metodologas y tcnicas:

114

http://www.acis.org.co/fileadmin/Base_de_Conocimiento/XXVIII_Salon_de_I nformatica/ConferenciaMariaEstherOrdonez.pdf Palma, C., Palma, W., & Perz, R. (12 de 2009). Dataming: El arte de anticipar. Recuperado el 20 de 10 de 2012, de Dataming: El arte de anticipar: http://books.google.com.pe/books?id=VFZeAf0mYBcC&printsec=frontcover &dq=metodologias+de+mineria+de+datos&hl=es-419&sa=X&ei=OHKSUrJMtTOkQebuICACw&ved=0CDkQ6AEwAzgK#v=onepage&q&f=false Perz, C., & Santn, D. (2007). Minera de datos: Tcnicas y herramientas. Recuperado el 22 de 10 de 2012, de Minera de datos: Tcnicas y herramientas: http://books.google.com.pe/books?id=wz-

D_8uPFCEC&pg=PA3&dq=introducci%C3%B3n+a+la+mineria+de+datos& hl=es419&sa=X&ei=9QqRUsaIKJTGkQet2YCYBw&ved=0CDEQ6AEwAQ#v=o nepage&q=introducci%C3%B3n%20a%20la%20mineria%20de%20datos&f= false Prez, F. (2007). Introduccin a la series de tiempo. Recuperado el 20 de 10 de 2012, de Introduccin a la series de tiempo:

http://books.google.com.pe/books?id=KvLhxFPwvsUC&pg=PA11&dq=series +de+tiempo&hl=es419&sa=X&ei=LrKSUt6EEs2FkQe_lYDgBw&ved=0CDgQ6AEwAg#v=one page&q=series%20de%20tiempo&f=false

115

Piedra, J. (Junio de 2005). Aplicacin de los sistemas neurodifusos a la interpretacin automtica de imgenes de satlite. Recuperado el 20 de 10 de 2012, de Aplicacin de los sistemas neurodifusos a la interpretacin automtica de imgenes de satlite:

http://books.google.com.pe/books?id=1YwAQAAQBAJ&pg=PA276&dq=Algoritmo+C4.5&hl=es-419&sa=X&ei=YsSUorDBMW_kQeH_YHwCw&ved=0CE8Q6AEwCA#v=onepage&q=Algorit mo%20C4.5&f=false Rodriguez, A., & Saborio, M. (2008). Lo rural es diverso: Evidencia para el caso de Costa Rica. Recuperado el 20 de 10 de 2012, de Lo rural es diverso: Evidencia para el caso de Costa Rica:

http://books.google.com.pe/books?id=rmUFLmgki7sC&pg=PA52&dq=tecnic a+k-medias&hl=es419&sa=X&ei=jJ2SUsCDJtHLkAfYx4CgBg&ved=0CDQQ6AEwAQ#v=one page&q=tecnica%20k-medias&f=false Rodriguez, M., lvarez, S., & Bravo, E. (Marzo de 2001). Coeficientes de asociacin. Recuperado el 20 de 10 de 2012, de Coeficientes de asociacin: http://books.google.com.pe/books?id=hitW9gbEGwoC&pg=PA47&dq=distan cia+mahalanobis&hl=es-419&sa=X&ei=95WSUuy6JMDkQeNj4GAAw&ved=0CDcQ6AEwAg#v=onepage&q=distancia%20mahala nobis&f=false

116

Rum, R. (Junio de 2003). Modelos de redes bayesianas con variables discretas y continuas. Recuperado el 20 de 10 de 2012, de Modelos de redes bayesianas con variables discretas y continuas:

http://books.google.com.pe/books?id=iUoOAQAAQBAJ&pg=PA7&dq=redes +bayesianas&hl=es419&sa=X&ei=0auSUuHKKY3nkAf7roCYDA&ved=0CC4Q6AEwAA#v=o nepage&q=redes%20bayesianas&f=false Sanchz, J. (2009). La creacin de un sistema de evaluacin estrtegica de la empresa aplicable a la decisiones de inversin en mercados financieros. Recuperado el 20 de 10 de 2012, de La creacin de un sistema de evaluacin estrtegica de la empresa aplicable a la decisiones de inversin en mercados financieros: http://books.google.com.pe/books?id=Dt1YNNKdYV0C&pg=PA285&dq=fas es+de+redes+neuronales&hl=es419&sa=X&ei=cs2SUrjNHdOpkAfTuYDAAg&ved=0CDMQ6AEwAQ#v=o nepage&q=fases%20de%20redes%20neuronales&f=false Sarma, K. (2007). Predictive modeling with SAS Enterprise. Recuperado el 20 de 10 de 2012, de Predictive modeling with SAS Enterprise:

http://books.google.com.pe/books?id=HAcxEt_COLMC&printsec=frontcover &dq=enterprise+miner&hl=es-419&sa=X&ei=-

117

8mSUofDGonokAeHmICoDA&ved=0CCwQ6AEwAA#v=onepage&q=enter prise%20miner&f=false Trujillo, J., Mazn, J., & Pardillo, J. (2011). Diseo y explotacin de almacenes de datos. Recuperado el 20 de 10 de 2012, de Diseo y explotacin de almacenes de datos: http://books.google.com.pe/books?id=E7Aceg--

o4oC&pg=PA82&dq=definicion+de+mineria+de+datos&hl=es419&sa=X&ei=NgSRUrOHIIaNkAeE6IDQCQ&ved=0CEQQ6AEwAw#v=o nepage&q=definicion%20de%20mineria%20de%20datos&f=false Turmero, I. (18 de Marzo de 2011). Minera de datos: El arte de sacar conocimiento de grandes volmenes de datos. Recuperado el 20 de Octubre de 2012, de Minera de datos: El arte de sacar conocimiento de grandes volmenes de datos: http://www.monografias.com/trabajos-pdf4/mineriadatos-arte/mineria-datos-arte.pdf Vega, F. (11 de Octubre de 2012). Mineria de datos - Cluster anlisis. Recuperado el 20 de Octubre de 2012, de Mineria de datos - Cluster anlisis: http://www.pcc.uasnet.mx/~ifvega/docencia/maestria/md/Mineria_de_Datos_ Clustering.pdf Vicens, E., Poler, R., Albarracn, J., & Palmer, M. (1997). Mtodos cuantitativos. Volumen II. Recuperado el 20 de 10 de 2012, de Mtodos cuantitativos. Volumen II:

http://books.google.com.pe/books?id=nmVM4dMOM4kC&pg=PA59&dq=ar

118

bol+de+decisi%C3%B3n&hl=es419&sa=X&ei=AqKSUpurMoj4kQesi4HoAQ&ved=0CHAQ6AEwCQ#v=on epage&q=arbol%20de%20decisi%C3%B3n&f=false Vieria, L., Ortiz, L., & Ramirez, S. (2009). Introduccin a la mineria de datos. Recuperado el 22 de 10 de 2012, de Introduccin a la mineria de datos: http://books.google.com.pe/books?id=jIJEhHyESFsC&pg=PA15&dq=definici on+de+mineria+de+datos&hl=es419&sa=X&ei=NgSRUrOHIIaNkAeE6IDQCQ&ved=0CDcQ6AEwAA#v=on epage&q=definicion%20de%20mineria%20de%20datos&f=false

119

VII. ANEXOS GLOSARIO DE TRMINOS

Algoritmos Genticos: Tcnicas de optimizacin que usan procesos tales como combinacin gentica, mutacin y seleccin natural en un diseo basado en los conceptos de evolucin natural. rbol de Decisin: Estructura en forma de rbol que representa un conjunto de decisiones. Estas decisiones generan reglas para la clasificacin de un conjunto de datos. Base de Datos (BD): Es una coleccin estructurada de datos de forma que reflejan fielmente los objetos, las relaciones y las restricciones existentes en la parcela del mundo real de la cual la base de datos es una representacin. Base de Datos Relacional: Es una base de datos basada en un modelo relacional. Estrictamente hablando el trmino se refiere a una coleccin especfica de datos. BI (Business Intelligence o Inteligencia de Negocios): Es el conjunto de herramientas que ayudan a la toma de decisiones, y permiten en tiempo real y de un modo interactivo el anlisis y la manipulacin de informacin crtica y relevante. BI posibilita a las organizaciones acceder a un gran volumen de

120

informacin y rpidamente traducirlo en conocimiento, para de esta forma establecer decisiones y actuar con relacin a las mismas. Data Warehouse: Sistema para el almacenamiento y distribucin de cantidades masivas de datos. Dimensin: En una base de datos relacional o plana, cada campo en un registro representa una dimensin. En una base de datos multidimensional, una dimensin es un conjunto de entidades similares; por ej.: una base de datos multidimensional de ventas podra incluir las dimensiones Producto, Tiempo y Ciudad. As mismo, se puede decir que son atributos relativos a las variables. Lenguaje SQL: Contiene instrucciones correspondientes a todos los aspectos de definicin, manipulacin y control de una base de datos relacional. Variables: Tambin llamadas indicadores de gestin, son los datos que estn siendo analizados. Forman parte de la Fact Tabla (Tabla de Hecho) Ms formalmente, las variables representan algn aspecto cuantificable o medible de los objetos o eventos a analizar. Normalmente, las variables son representadas por valores detallados y numricos para cada instancia del objeto o evento medido. En forma contraria, las dimensiones son atributos relativos a las variables, y son utilizadas para ordenar, agrupar o abreviar los valores de las mismas.

121

You might also like