iifi@unmsm.edu.pe ISSN (Versin impresa): 1560-9146 ISSN (Versin en lnea): 1810-9993 PER
2004 Violeta Valcrcel Asencios DATA MINING Y EL DESCUBRIMIENTO DEL CONOCIMIENTO Industrial Data, julio-diciembre, ao/vol. 7, nmero 002 Universidad Nacional Mayor de San Marcos Lima, Per pp. 83-86
Red de Revistas Cientficas de Amrica Latina y el Caribe, Espaa y Portugal Universidad Autnoma del Estado de Mxico http://redalyc.uaemex.mx
83 NOTAS CIENTFICAS Ind. data 7(2), 2004 RESUMEN El presente artculo enfatiza el uso del Data Mining para el descubrimiento del conocimiento, a fin de contribuir en la toma de decisiones tcticas y estratgicas en una organizacin proporcionando un sentido automatizado para la generacin de conocimiento. Se incluyen las tcnicas, el poder predictivo de los modelos estadsticos y el aporte a las diferentes ramas de la investigacin. Palabras Claves: Minera de datos. Descubrimiento del conocimiento. Modelos predictivos. DATA MINING AND KNOWLEDGE DISCOVERY ABSTRACT The present article emphasizes the use of data mining for the discovery of knowledge, with the purpose of contributing in taking tactical decisions and strategies within an organization providing an automated sense to generate knowledge. Techniques, the predictive power of statistical models and the contribution of the various fields of the research have been included. Key words: Data mining. Knowledge discovery. Predictable models. DATA MINING Y EL DESCUBRIMIENTO DEL CONOCIMIENTO (1) Violeta Valcrcel Asencios INTRODUCCIN En los ltimos aos, ha existido un gran crecimiento en nuestras capacida- des de generar y colectar datos, debido bsicamente al gran poder de pro- cesamiento de las mquinas como a su bajo costo de almacenamiento. Sin embargo, dentro de estas enormes masas de datos existe una gran cantidad de informacin "oculta", de gran importancia estratgica, a la que no se puede acceder por las tcnicas clsicas de recuperacin de la informacin. El descubrimiento de esta informacin "oculta" es posible gracias a la Minera de Datos (Data Mining), que entre otras sofisticadas tcnicas aplica la inteligencia artificial para encontrar patrones y relacio- nes dentro de los datos permitiendo la creacin de modelos, es decir, representaciones abstractas de la realidad, pero es el descubrimiento del conocimiento (KDD, por sus siglas en ingls) que se encarga de la prepa- racin de los datos y la interpretacin de los resultados obtenidos, los cuales dan un significado a estos patrones encontrados. As el valor real de los datos reside en la informacin que se puede extraer de ellos, informacin que ayude a tomar decisiones o mejorar nuestra comprensin de los fenmenos que nos rodean. Hoy, ms que nunca, los mtodos analticos avanzados son el arma secreta de muchos negocios exitosos. Empleando mtodos analticos avanzados para la explotacin de datos, los negocios incrementan sus ganancias, maximizan la eficien- cia operativa, reducen costos y mejoran la satisfaccin del cliente. DESCUBRIMIENTO DEL CONOCIMIENTO (KDD) Segn Molina (2001) lo define como la extraccin no trivial de informa- cin potencialmente til a partir de un gran volumen de datos, en el cual la informacin est implcita, donde se trata de interpretar grandes cantida- des de datos y encontrar relaciones o patrones, para conseguirlo harn falta tcnicas de aprendizaje, estadstica y bases de datos. Las tareas comunes en KDD son la induccin de reglas, los problemas de clasificacin y clustering, el reconocimiento de patrones, el modelado predictivo, la deteccin de dependencias, etc. Los datos recogen un conjunto de hechos (una base de datos) y los patro- nes son expresiones que describen un subconjunto de los datos (un mo- delo aplicable a ese subconjunto), tal como se muestra en la Figura 1. El KDD involucra un proceso iterativo e interactivo de bsqueda de modelos, patrones o parmetros, los cuales descubiertos han de ser vlidos, novedosos para el sistema y potencialmente tiles. Revista de la Facultad de Ingeniera Industrial Vol. (7) 2: pp. 83-86 (2004) UNMSM ISSN: 1560-9146 (impreso) / ISSN: 1810-9993 (electrnico) (1) Licenciada en Estadstica. Estudiante de la Unidad de Postgrado de la Facultad de Ingeniera Industrial, UNMSM. Cursa estudios de Maestra. E-mail: postind@unmsm.edu.pe Recepci n: Novi embr e de 2004 / Acept aci n: Di ci embr e 2004 84 NOTAS CIENTFICAS >>>Data Mining y el Descubrimiento del Conocimiento El objetivo final de todo esto es incorporar el conoci- miento obtenido en algn sistema real, as como tomar decisiones a partir de los resultados alcanzados o, simplemente, registrar la informacin conseguida y su- ministrrsela a quien est interesado. Mientras el descubrimiento de la mquina confa so- lamente en mtodos autnomos para el descubrimien- to de la informacin, KDD tpicamente combina m- todos automatizados con la interaccin humana para asegurar resultados exactos, tiles, y entendibles. Existen diferentes mtodos que son clasificados como las tcnicas de KDD, entre ellos los mtodos cuantitativos, los probabilsticos y los estadsticos. Se tienen mtodos que utilizan las tcnicas de vi- sualizacin y, mtodos de clasificacin como la cla- sificacin de Bayesian, lgica inductiva, descubrimien- to de modelado de datos y anlisis de decisin. Otros mtodos incluyen la desviacin y tendencia al anli- sis, algoritmos genticos, redes neuronales y los m- todos hbridos que combinan dos o ms tcnicas. DATA MINING Segn Molina (2001) menciona que la Data Mining se refiere al proceso de extraer conocimiento de ba- ses de datos. Su objetivo es descubrir situaciones anmalas y/o interesantes, tendencias, padrones y secuencias en los datos. La Data Mining es una etapa dentro del proceso completo del descubrimiento del conocimiento, este intenta obtener patrones o modelos a partir de los datos recopilados. Decidir si los modelos obtenidos son tiles o no suele requerir una valoracin subjeti- va por parte del usuario. Los algoritmos de data mining suelen tener tres componentes: 1. El modelo, que contiene parmetros que han de fijarse a partir de los datos de entrada. 2. El criterio de preferencia, que sirve para comparar modelos alternativos. 3. El algoritmo de bsqueda, que viene a ser como cualquier otro programa de inteligencia artificial (IA). El criterio de preferencia suele ser algn tipo de heurstica y los algoritmos de bsqueda empleados suelen ser los mismos que en otros programas de inteligencia artificial. Las principales diferencias en- tre los algoritmos de data mining se hallan en el modelo de representacin escogido y la funcin del mismo, es decir segn el objetivo perseguido. HERRAMIENTAS DE DATA MINING Las herramientas de data mining empleados en el proceso de KDD se pueden clasificar en dos grandes grupos: Tcnicas de verificacin, en las que el sistema se limita a comprobar hiptesis suministradas por el usuario. Mtodos de descubrimiento, en los que se han de encontrar patrones potencialmente interesantes de forma automtica, incluyendo en este grupo todas las tcnicas de prediccin. El resultado obtenido con la aplicacin de algoritmos de data mining pertenecientes al segundo grupo, el de tcnicas de descubrimiento, pueden ser de ca- rcter descriptivo o predictivo. Las predicciones sirven para prever el comportamiento futuro de algn tipo de entidad mientras que una descripcin puede ayudar a su comprensin. La aplicacin de tcnicas de data mining en grandes bases de datos persiguen los siguientes resultados: 1. Clasificacin: Se trata de obtener un modelo que permita asignar un caso de clase desconocida a una clase concreta (seleccionada de un conjunto redefinido de clases), como son los rboles de clasificacin (CART), cuyos resultados pueden expresarse mediante reglas ejecutables directa- mente del SQL o el mtodo de Bayesiano. 2. Regresin: Se persigue la obtencin de un mo- delo que permita predecir el valor numrico de al- guna variable (modelos de regresin logstica). Figura 1. Proceso de descubrimiento del conocimiento (KDD)
Datos Patrones Conocimiento Data Mining Interpretacin y evaluacin 85 NOTAS CIENTFICAS Ind. data 7(2), 2004 3. Agrupamiento (clustering): Hace corresponder cada caso a una clase, con la peculiaridad de que las clases se obtienen directamente de los datos de entrada utilizando medidas de similaridad. Es decir, agrupan a los datos bajo diferentes mtodos y criterios. Las tcnicas ms usadas son las clsicas (distancia mnima) y las redes neuronales (mtodo de Kohonen o mtodo de Neural-Gas). 4. Resumen: Se obtienen representaciones com- pactas para subconjuntos de los datos de entra- da (anlisis interactivo de datos, generacin auto- mtica de informes, visualizacin de datos). 5. Modelado de Dependencias: Se obtienen des- cripciones de dependencias existentes entre va- riables. El anlisis de relaciones (por ejemplo las reglas de asociacin), en el que se determinan relaciones existentes entre elementos de una base de datos, podra considerarse un caso parti- cular de modelado de dependencias. 6. Anlisis de Secuencias: Se intenta modelar la evolucin temporal de alguna variable, con fines descriptivos o predictivos (redes neuronales multicapas). LOS TIPOS DE MODELOS ESTADSTICOS Y LA DATA MINING Como en todo lo producido por la mquina, las pre- dicciones estadsticas fabricadas por la data mining
Redes Neuronales Evaluacin por Puntuacin Reglas de Decisin rboles de decisin Legibilidad creciente Poder Predictivo Figura 2. Representacin del tmino medio en el modelamiento predictivo de data mining deben ser inspeccionadas por especialistas en el rea, de manera a comprender y verificar lo que fue producido. Asimismo, es importante mencionar que existe un trmino medio entre la claridad del modelo y su poder de prediccin. Mientras ms sencilla sea la forma del modelo, ms fcil ser su comprensin, pero tendr menor capacidad para tomar en cuenta dependencias sutiles o demasiado variadas (no lineales). La Figura 2 ilustra una representacin de dicho trmino medio. Los rboles de decisin y las bases de reglas se interpretan muy fcilmente pero no conocen sino los lmites "duros" de comparacin en niveles de deci- sin Si-No. Adolecen de una fineza predictiva. Las evaluaciones por puntuacin, lineales o con fun- ciones logsticas son un poco ms "sofisticadas" pero como slo adicionan resultados no pueden dar cuen- ta de relaciones multivariables. Las redes neuronales tienen la virtud de adaptarse a valores bastante indefinidos e incluso ausentes, pero son difciles en el momento de inspeccionar. Slo las predicciones realizadas pueden ser inspeccionadas y visualizadas. Sin embargo, una buena herramienta de visualizacin le da la posibilidad al usuario de re- construir el "razonamiento" de la red neuronal. Se- gn cual sea el precio a pagar, y una vez que se haya establecido la confianza en la herramienta estableci- da, el usuario notar, la mayora de las veces, que la Violeta Valcrcel A. >>> 86 NOTAS CIENTFICAS prdida parcial de comprensin ser ms que com- pensada por la calidad de las predicciones. APLICACIONES DE DATA MINING En la actualidad, existe una gran cantidad de aplica- ciones, en reas tales como: Astronoma: clasificacin de cuerpos celestes. Aspectos climatolgicos: prediccin de tormen- tas, etc. Medicina: caracterizacin y prediccin de enfer- medades, probabilidad de respuesta satisfactoria a tratamiento mdico. Industria y manufactura: diagnstico de fallas. Mercadotcnia: identificar clientes susceptibles de responder a ofertas de productos y servicios por correo, fidelidad de clientes, seleccin de si- tios de tiendas, afinidad de productos, etc. Inversin en casas de bolsa y banca (credit scoring, redes neuronales o regresin logs- tica): anlisis de clientes, aprobacin de presta- mos, determinacin de montos de crdito, etc. Deteccin de fraudes y comportamientos inusuales: telefnicos, seguros, en tarjetas de crdito, de evasin fiscal, electricidad, etc. Anlisis de canastas de mercado: para mejo- rar la organizacin de tiendas, segmentacin de mercado (clustering) determinacin de niveles de audiencia de programas televisivos. Normalizacin automtica: de bases de datos. CONCLUSIONES La capacidad para almacenar datos ha crecido en los ltimos aos a velocidades exponenciales. En contrapartida, la capacidad para procesarlos y utili- zarlos no ha ido a la par. Por este motivo, el data mining se presenta como una tecnologa de apoyo para explorar, analizar, comprender y aplicar el cono- cimiento obtenido usando grandes volmenes de da- tos. Sin embargo, en su aplicacin slo se obtienen patrones que no sirven de gran cosa mientras no se les encuentre significado y su valor real reside en la informacin que se puede extraer de ellos: informa- cin que ayude a tomar decisiones o mejorar la comprensin de los fenmenos que nos rodean. Las tcnicas estadsticas son fundamentales a la hora de validar hiptesis y analizar datos, por lo cual la estadstica desempea un papel muy importante en KDD. La Estadstica proporciona herramientas para cuantificar adecuadamente la incertidumbre resultante de la inferencia de patrones a partir de datos particu- lares. Las herramientas de KDD pretenden automati- zar (hasta donde se pueda) el proceso completo de anlisis de datos. La data mining y el descubrimiento del conocimiento (KDD) contribuye a la toma de decisiones tcticas y estratgicas, proporcionando un sentido automatiza- do para la generacin de conocimiento y por ende a la toma acertada de decisiones y su aplicacin es amplia en las diferentes ramas de la investigacin. BIBLIOGRAFA 1. Fayyad, U.M.; Piatetsky-Shapiro, G.; Smyth, P.; Uthurusamy, R. (1996). Advances in Knowledge and Data Mining. MIT Press. Massachussets, USA. 2. Lyn, Thomas; Edelman, David; Crook, Jonathan. (2002). Credit Scoring and its Applications. SIAM. Filadelfia, USA. 3. Molina, Luis Carlos. (2000). Torturando los Datos Hasta que Confiesen. Departamento de Lengua- j es y Si stemas Informti cos, Uni versi dad Politcnica de Catalua. Barcelona, Espaa. 4. Urdaneta, Elymir. (2001). El Data Mining. Univer- sidad de Caracas. Venezuela. 5. Zavala, Mauricio. (2004). Modelamiento Predictivo. En: http://www.gm.et/bluetech/edicion11.3/ Datamining. >>>Data Mining y el Descubrimiento del Conocimiento