Professional Documents
Culture Documents
El Data Mining, o extracci o n de informacio n util y no evidente de grandes bases de datos, es una tecnolog a con un gran potencial para ayudar a las empresas a focalizar sus esfuerzos alrededor de la informaci o n importante contenida en sus data warehouses. En este art culo analizaremos las ideas b a sicas que sustentan el Data Mining y, ma s concretamente, la utilizaci o n de redes neuronales como herramienta estad stica avanzada. Presentaremos tambi e n dos ejemplos reales de la aplicaci o ecnicas: predicciones burs a on de n de estas t tiles y predicci propagaci o n de fuego en cables el e ctricos. Data Mining business applications Palabras clave: Miner a de datos, data mining, redes neuronales Clasicaci on AMS (MSC 2000): 62-07, 62-09, 62H30, 68T05
* Departament dEstructura i Constituents de la Mat` eria. Universitat de Barcelona. garrido@ecm.ub.es, latorre@ecm.ub.es. Recibido en abril de 2001. Aceptado en noviembre de 2001.
499
ES EL DATA MINING? 1. QUE La mayor a de compa n as tienen una gran cantidad de datos almacenados en sus ordenadores. Estos datos contienen una informaci on que puede ser de gran utilidad para los resultados de la empresa. La gran abundancia de datos o su deciente estructura puede hacer muy dif cil extraer esta informaci on u til. El objetivo del Data Mining [1] es la extracci on de forma autom atica de informaci on relevante, u til y no evidente contenida en dichos datos. Existen tres razones fundamentales por las cuales el Data Mining es una realidad en nuestros d as:
Avances tecnol ogicos en almacenamiento masivo de datos y CPU. Existencia de nuevos algoritmos para extraer informaci on en forma eciente. Existencia de herramientas autom aticas que no hacen necesario el ser un experto en estad stica, redes neuronales, o algoritmos matem aticos para convertirse en un DataMiner.
PUEDE HACER EL DATA MINING? 2. QUE Una empresa en posesi on de unas bases de datos de calidad y tama no suciente puede emplear el Data Mining para generar nuevas oportunidades de negocio, dada su capacidad para proporcionar: tica de comportamientos. Predicci on automa Generalmente se trata de problemas de clasicaci on. como ejemplo podemos citar el marketing dirigido. Data Mining usa los resultados de campa nas de marketing realizadas anteriormente para identicar el perl de los clientes que son m as propensos a comprar el producto y de este modo permitirnos substituir el correo masivo por el correo dirigido. tica de tendencias. Predicci on automa Bas andonos en base de datos hist oricas, Data Mining crear a un modelo para predecir las tendencias. Como ejemplos podemos citar la predicci on de ventas en el futuro o la predicci on en mercados de capitales. tico de comportamientos desconocidos anteriormente. Descubrimiento automa Las herramientas de Data Mining de visualizaci on y clustering, permiten ver nuestros datos desde una perspectiva distinta y por ello descubrir nuevas relaciones entre ellos.
500
3. COMO HACER DE DATA MINING? TECNICAS Todo proyecto de Data Mining se desarrolla aplicando ciertas t ecnicas de especial inter es en este campo. Las t ecnicas m as utilizadas son:
Redes Neuronales. Son modelos no-lineales inspirados en las redes de neuronas biol ogicas y se usan generalmente en problemas de clasicaci on y predicci on. Discutiremos su estructura con un poco m as de detalle en los ejemplos. Arboles de decisi on. Son estructuras en forma de a rbol que representan conjuntos de decisiones capaces de generar reglas para la clasicaci on de los datos. Algoritmos gen eticos. Son modelos inspirados en la evoluci on de las especies y que se aplican generalmente en problemas de optimizaci on. Permiten incluir f acilmente ligaduras complicadas que limitan la soluci on a un problema. Clustering. M etodos de agrupaci on de datos que nos permiten clasicar los datos por su similitud entre ellos. Son utilizadas con frecuencia para entender los grupos naturales de clientes en empresas o bancos.
DE DATA MINING 4. METODOLOGIA Todo proyecto de Data Mining tiene unas fases bien denidas que van desde la denici on del problema hasta la ejecuci on y evaluaci on del modelo, pasando por el estudio de los datos y la creaci on de dicho modelo. Dichas fases quedar an ilustradas en los dos ejemplos que se dar an a continuaci on.
5. REDES NEURONALES Una red neuronal articial (ver por ejemplo [2, 3] para una introducci on) es un modelo de computaci on inspirado en nuestros conocimientos sobre neurociencia, es decir, el estudio de las neuronas de nuestro sistema nervioso, aunque sin tratar de ser biol ogicamente realistas en detalle. En los u ltimos a nos estos modelos han experimentado un gran desarrollo gracias al descubrimiento de su excelente comportamiento en problemas de reconocimiento de patrones, predicci on y clasicaci on, entre otros. Las redes neuronales articiales son mecanismos matem aticos que aprenden a reconocer o clasicar patrones y, tal como lo hace nuestro propio cerebro, dicho aprendizaje no descansa sobre un modelo preconcebido sino que busca las correlaciones existentes entre las variables del problema que se est a estudiando. Para los ejemplos que seguir a hemos escogido redes neuronales multicapa entrenadas mediante el algoritmo de la back-propagation [4, 5]. Una arquitectura t pica de di501
chas redes es similar a la representada en la gura 1. Las neuronas (o unidades) est an agrupadas en capas. Existe una primera capa por la que entra la informaci on, una o varias capas ocultas que la procesan, y una capa de salida que proporciona los resultados de la red. Durante la fase de entrenamiento se le presenta a la red un conjunto de posibles valores de entrada juntamente con sus resultados de salida deseados, y el algoritmo de back-propagation busca autom aticamente las correlaciones entre dichas entradas y sus salidas respectivas. Cuando el aprendizaje ha nalizado, la red puede ser aplicada sobre datos que no ha visto previamente, realizando sus propias predicciones. on (sinapsis) exisEn las redes neuronales multicapa se asocia un peso W i j a la conexi tente entre la unidad j de la capa l 1 y la unidad i de la capa l . La salida de cada l on unidad Ii se evalua utilizando la expresi Ii
l l l
Wi j
j
l l 1
Ij
Bi l
donde Bi es el llamado umbral de la unidad i de la capa l . La funci on F se conoce como funci on de activaci on, y habitualmente se escoge como la funci on identidad (F x x) o como una funci on sigmoidal (F x 1 (1 e x )). En este u ltimo caso es conveniente escalar las entradas y las salidas deseadas entre los valores 0 y 1.
502
Para entrenar una red neuronal con L capas se necesita un conjunto de datos de entrenaN , donde O L representa la salida deseada corresmiento IL OL 1 pondiente a la entrada I 0 . El error de la red para estos datos es E 1 N L L Ii Oi 2 1 i
2
donde IL representa la salida de la red despu es de presentarle una entrada I 0 . La back-propagation intenta minimizar este error modicando la intensidad de los pesos y de los umbrales de forma iterativa, en un proceso conocido como de entrenamiento de la red neuronal. Existen otros m etodos de entrenamiento, pero la back-propagation es, con diferencia, el m as utilizado. De hecho, la back-propagation es un caso particular del bien conocido algoritmo de descenso por el gradiente, que est a basado en una modicaci on de los pesos seg un la regla Wi j
l
E Wi j
l
Es importante tener presente que la aplicaci on de las redes neuronales no se reduce u nicamente a su entrenamiento con los datos disponibles: uno de los principales problemas es escoger previamente las variables m as relevantes, ya que un exceso de variables puede introducir ruido que oculte las m as signicativas, mientras que su defecto puede provocar una falta de informaci on.
6. PREDICCIONES BURSATILES La aplicaci on de redes neuronales a la predicci on de series temporales ha atra do la atenci on de mucha gente relacionada con los mercados nancieros de todo el mundo. Sin embargo, el hecho de que la evoluci on de los mercados dependa de multitud de variables, muchas de las cuales son dif ciles de cuanticar, hace que sea complicado encontrar situaciones en las que u nicamente un an alisis num erico de los datos hist oricos permita realizar buenas predicciones. Como aplicaci on pr actica de este tipo de redes neuronales, consideraremos el an alisis de una acci on en la bolsa noruega. Seguiremos paso a paso la metodolog a b asica de la aplicaci on de esta t ecnica.
la misma empresa en el mercado americano (PGSUS), el ndice de la bolsa noruega y los tipos de inter es en Estados Unidos.
504
DE FUEGO 7. DATA MINING Y PROPAGACION La aplicaci on de redes neuronales como herramienta de Data Mining tiene un vasto campo de aplicaci on. Presentamos un segundo ejemplo del empleo de redes neuronales para la predicci on de la propagaci on de fuego en cables el ectricos. Como en el caso anterior, deseamos describir los pasos en que se organiza el an alisis de este problema.
Selecci on de variables
En este problema el n umero de variables es muy elevado. Cada material tiene muchas propiedades qu micas. Se hace necesario realizar una selecci on de las variables m as interesantes. Para ello hemos construido grandes redes neuronales que, una vez entrenadas, permiten establecer un criterio cuantitativo para evaluar la relevancia de cada variable. Un buen criterio es la suma de los valores absolutos de los pesos conectados a una cierta neurona i, p i : pi
Wi j
j
Clustering
Los cables forman grupos naturales con respecto a su comportamiento frente a la propagaci on del fuego. Hemos empleado la t ecnica de An alisis de Componentes Principales (PCA) que permite construir una proyecci on en dos dimensiones del espacio de variables que denen los cables. Cables pr oximos en cuanto a su construcci on son pr oximos en su proyecci on. Las redes neuronales entrenadas para la propagaci on de fuego logran correlaciones del orden de .8 entre predicci on y realidad sobre el conjunto de validaci on. El porcentaje de acierto en el criterio de paso de normativa de fuego se halla por encima del 80% de los cables. Este ejemplo de Data Mining en propagaci o n de fuego se ha implementado con la herramienta QnnM (http://quantium.ecm.ub.es) el grupo Quantium de aplicaciones empresariales de redes neuronales.
8. REFERENCIAS Cabena, P.; Hadjinian, P.; Stadler, R.; Verhees, J. & Zanasi, A. (1997). Discovering Data Mining from Concept to Implementation, Book & Cd edition, (September 1997). [1] Hertz, J. A.; Krogh, A. & Palmer, R. G. (1991). Introduction to the theory of neural computation, Addison-Wesley, Redwood City, California. [2] M uller, B. & Reinhardt, J. (1991). Neural networks: an introduction, Springer-Verlag, Berlin. [3] Rumelhart, D. E.; Hinton, G. E. & Williams, R. J. (1986). Learning representations by back-propagating errors, Nature, 323, 533. [4] Werbos, P. (1974). Beyond regression: new tools for prediction and analysis in the behavioral sciences, Ph. D. thesis, Harvard University. [5]
506
ENGLISH SUMMARY
DATA MINING BUSINESS APPLICATIONS
LLU IS GARRIDO IGNACIO LATORRE JOSE Universitat de Barcelona
Data Mining, can be dened as the art of extracting non-obvious, useful information from large databases. This emerging eld brings a set of powerful techniques which are of relevance for companies to focus their efforts in taking advantage of their data warehouses. In this paper we analyse the basic ideas behind Data Mining and we pay special attention to the use of neural networks as an advanced statistical tool. We also present two real world applications of these techniques to stock market predictions and to the study of re propagation in cables. Keywords: Data Mining, Neural Networks AMS Classication (MSC 2000): 62-07, 62-09, 62H30, 68T05
* Departament dEstructura i Constituents de la Mat` eria. Universitat de Barcelona. garrido@ecm.ub.es, latorre@ecm.ub.es. Received April 2001. Accepted November 2001.
507
A company may keep large amounts of high quality information which can be analysed using Data Mining techniques to uncover new business opportunities, as for instance
Targeted Marketing
This is a typical classication problem. Data Mining analyses results from previous marketing efforts to identify customer proles and their predisposition to buy new products. These techniques are a protable substitute for massive spamming.
Neural Networks
They provide non-linear models inspired in biological neural networks and they are used in problems of classication and prediction. In the paper we discussed practical examples of how to use them.
Decision trees
These are tree structures representing sets of decisions that can generate rules for data classication.
Genetic algorithms
These models are inspired in the evolution of species and are applied to optimisation problems. They allow for easily introducing constraints which limit the solution to a problem.
Clustering
These methods allow for a classication of data given similarities in their patterns. They are used to understand natural groups of customers in large companies and banks. From the practitioner point of view Data Mining follows well dened phases. The project must be dened, data must be cleaned, several alternative models must be built and a strict validation must check the goodness of the nal result. These examples and techniques are discussed in more detail in the paper.
508