You are on page 1of 29

Introduccin a la minera de datos

MSc. Carlos Alberto Cobos Lozada ccobos@unicauca.edu.co http://www.unicauca.edu.co/~ccobos Grupo de I+D en Tecnologas de la Informacin Departamento de Sistemas Facultad de Ingeniera Electrnica y Telecomunicaciones Universidad del Cauca

Definicin

Gartner Group (www.gartner.com): es el proceso de descubrir nuevas y significantes correlaciones, patrones y tendencias en grandes cantidades de datos almacenados en repositorios usando tecnologas de reconocimiento de patrones as como tcnicas estadsticas y matemticas MIT Technology Review (enero 2001) la selecciona como una de las 10 tecnologas emergentes que cambiarn al mundo, ejemplo: Boston Celtis (basketball) en Septiembre-Diciembre de 2003 busca experto en DM Witten & Frank (2000): es la extraccin de informacin implcita, previamente desconocida y potencialmente til desde los datos Fayyad (1997): es la aplicacin de algoritmos para extraer patrones de los datos, siendo esto una parte del descubrimiento de conocimiento

Definicin

Datos: smbolos Informacin: datos que son procesados para que sean tiles; proveen respuestas a preguntas del tipo quin, qu, dnde y cundo Conocimiento: aplicacin de datos e informacin a preguntas del tipo cmo o por qu Sabidura: la comprensin de los principios

Conexin Sabidura Entender los principios

Conocimiento

Informacin

Entender los patrones

Entender las relaciones Datos Entendimiento

http://www.systems-thinking.org/dikw/dikw.htm

Justificacin

John Naisbitt: estamos ahogndonos en informacin pero hambrientos de conocimiento


Explosin en recoleccin de datos: ventas en supermercados Las bodegas de datos como almacenamiento global y confiable El incremento en el acceso a los datos desde la web El incremento en la competencia en una economa global El desarrollo de herramientas comerciales y acadmicas de minera de datos: Clementine, Insightful Miner, WEKA, CART, PolyAnalyst, SAS El gran crecimiento en la capacidad de computo y almacenamiento

Justificacin

Confluyen varias disciplinas

Proceso de desarrollo

CRISP-DM (Cross Industry Standard Process for Data Mining)

Comprensin del negocio

Anlisis de los datos

Despliegue

Datos

Preparacin de los datos

Evaluacin

Modelamiento

SEMMA (Sample, Explore, Modify, Model, Assess): ms orientado a las caractersticas tcnicas del desarrollo del proyecto, propietario

Falacias de la minera de datos


1.

Existen herramientas de minera de datos que podemos soltar sobre nuestros datos y nos resolvern nuestras problemas

2.

El proceso de minera de datos es autnomo requiriendo muy poca intervencin humana La inversin en procesos de minera de datos se paga por si misma y rpidamente

3.

Falacias de la minera de datos


4.

Las herramientas o paquetes de minera de datos son intuitivos y fciles de usar La minera de datos identifica las causas de nuestros problemas de negocios o de investigacin

5.

6.

Con minera de datos se limpiaran y ordenaran automticamente nuestras bases de datos

Tareas de la minera de datos


Descripcin Clasificacin

Estimacin Prediccin

Agrupacin por similitud (Clustering) Asociacin

Tareas de la minera de datos

Descripcin

Sugerir posibles explicaciones para ciertos patrones y tendencias


Los modelos de minera de datos deben ser lo ms transparentes posibles. rboles de decisin vs. Redes Neuronales Tcnicas estadsticas (media, moda, mediana, desviacin estndar, mnimo , mximo, rango, correlaciones) y grficas, algoritmos genticos

Demo 1 con Weka

En Weka

Explicacin general del entorno partiendo del archivo clasificacion-drug.arff Se visualizan los datos en la cuadricula Se visualizan los datos en el formato arff Se explorar la pestaa de pre-procesamiento: atributos, medidas y grficas

Tareas de la minera de datos

Clasificacin

Establecer a que valor categrico pertenece un registro Clasifica los ingresos (altos, medios, bajos) basado en la edad, genero, ocupacin Determinar si una operacin especifica con tarjeta de crdito es fraudulenta Ubicar a un estudiante en un track especifico de cursos de acuerdo con sus habilidades Determinar si otorgar una hipoteca es una buen o mala decisin (riesgo)

Determinar si una enfermedad particular esta presente Identificar si un determinado estado financiero indica una amenaza de terrorismo Determinar el tipo de medicina ms adecuada para un paciente

Redes neuronales, rboles de decisin (C4.5, C5.0, CART), k-vecino ms cercano

Tomado de [1] para uso educativo

Demo 2 con Weka

En Weka

Uso de la pestaa de clasificacin con el ejemplo de clasificacion-drug.arff Uso del rbol de decisin J48 Visualizacin del rbol y explicacin de los resultados Matriz de confusin Instancias correctamente clasificadas Optimizacin basada en costos, ejemplo de tnel metacarpiano y el costo de falsos positivos y falsos negativos Importancia de los expertos: nuevo atributo a5/a6

Tareas de la minera de datos


Estimacin

Similar a Clasificacin, pero la variable objetivo es numrica Estimar la presin de la sangre de un paciente basado en la edad, genero, ndice de masa corporal y los niveles de sodio en la sangre Estimar la cantidad de dinero que una familia de cuatro personas seleccionada al azar gastara en las compras de regreso al colegio Estimar el promedio de un estudiante de postgrado basado en su promedio en los resultados universitarios de pregrado

Tcnicas estadsticas (ejemplo, regresin lineal simple, correlacin, regresin mltiple), redes neuronales

Tomado de [1] para uso educativo

Tareas de la minera de datos

Prediccin

Similar a clasificacin y estimacin, excepto que los resultados se ubican en el futuro Predecir el incremento en el nmero de muertes en accidentes de trfico si el prximo ao se aumenta el limite de velocidad Predecir el ganador de la segunda temporada de ftbol en el campeonato nacional basado en los resultados estadsticos de los equipos Predecir el precio del inventario en tres (3) meses

Tcnicas estadsticas, redes neuronales, rboles de decisin (C4.5, C5.0, CART), k-vecino ms cercano, algoritmos genticos

Tomado de [1] para uso educativo

Tareas de la minera de datos

Agrupacin por similitud (Clustering)

Agrupar los resultados de bsquedas en Internet

Generar clases que agrupen instancias/objetos de caractersticas similares y se diferencien de los que estn en otras clases No hay variable objetivo Es a menudo un proceso preliminar en el proceso de minera de datos En auditoria, segmentar el comportamiento financiero entre benignas y sospechosas Reducir el nmero de atributos a tratar en un DataSet

Agrupacin Jerrquica, Kmeans, Red Kohonen, Fuzzy C-means

Tomado de [1] para uso educativo

Demo 3 con Weka

En Weka

Uso de la pestaa de clustering con el archivo clustering-sencillo.arff La columna clase es slo para introducir el ejemplo, pero en un problema de clustering normalmente los datos no estn preclasificados Uso de la pestaa de Visualizacin para ver la distribucin de las clases en cada uno de los atributos Visualmente se definen cuales caractersticas son apropiadas (varianza-desviacin en cada eje) Uso de la pestaa de Seleccin de atributos para corroborar las dimensiones o caractersticas seleccionadas Remover la clase en la pestaa de pre-procesamiento Ejecucin de SimpleKmeans con 3 clusters Mostrar como hacer validacin cuando se conoce la clase

Tareas de la minera de datos

Asociacin

Encontrar los atributos que van juntos Conocido como anlisis de afinidad o anlisis de la canasta de mercado Si <antecedente> Entonces <consecuente> Cuales tems se compran juntos y cuales no Establecer cuales situaciones degradan la red de telecomunicaciones

Determinar la proporcin de casos en donde una nueva droga genera efectos secundarios peligrosos

Reglas de asociacin con algoritmos A priori, GRI, FP Grow

Demo 4 con Weka

En Weka

Uso de la pestaa de Asociacin con el archivo Basket.arff Se usa informacin de la tarjeta Se deja informacin slo de los productos comprados en cada transaccin Se usa el algoritmo apriori Explicacin del soporte Explicacin de la confianza

Aplicaciones

Mejorar la eficiencia del marketing


Identificar prospectos Escoger el canal de comunicacin para alcanzar los prospectos Crear mensajes apropiados para grupos de prospectos

Ejemplo: un mensaje en la pgina de deportes del peridico, otro distinto en la pgina de poltica Ejemplo: un mensaje destacando el precio para usuarios sensibles al precio y otro destacando la conveniencia del producto (compras y/o pedidos nocturnos, dominicales y festivos)

Aplicaciones

Retener clientes rentables Evitar clientes de alto riesgo (hipotecas, crditos) Prevenir fraudes Recuperar clientes Mejorar la satisfaccin de los clientes Disminuir costos Incrementar ventas Mejorar la rentabilidad de sus clientes

Aplicaciones

venta cruzada (cross-selling) e incremento de venta (up-selling o venta sugestiva/mejorada) Retener talento humano Definir lneas de capacitacin y retencin de talento humano

Gestin de la cadena de suministro

Aplicaciones

Industrias donde aplica:


Proveedores

Banca Seguros Telecomunicaciones Venta al por menor (e-commerce) Venta al por mayor Turismo Educacin Salud

Gente
Deptos. Administrativos

Auditoria

Deptos. Operativos Productos

Otros

Clientes

Aplicaciones

En industrias manufactureras (vehculos), encontrar cuales situaciones generan la mayor cantidad de reclamos/garantas En educacin, encontrar relaciones entre tipos de estudios y origen de los estudiantes en una universidad Predecir condiciones financieras especificas que llevan una empresa a la banca rota

Organizar una campaa de turismo interno para el departamento

Aplicaciones

Clasificacin de datos estelares Diagnostico medico


Tnel carpiano Medicinas en tratamientos

Text Mining Web Mining


Contenido Estructura - Navegacin Uso

Bio-Informtica

Aplicaciones en GTI

Bsqueda en Internet

BIM (2008): Ontologas, Resultado de los motores de bsqueda (Google, Yahoo, MSN), Perfil del usuario, Minera de textos

DSS para viveros automatizados (2008)


Bodegas de datos y OLAP Clasificacin (C4.5, C5.0, CART)

CASE integrada basada en CRISP-DM (2009)

Aplicaciones en GTI

DSS para el repositorio de acceso pblico de objetos de aprendizaje (SPAR, 2009)

Bodegas, OLAP y Minera Web (de contenidos)

Sistema de recomendacin de patrones pedaggicos basado en ontologas y minera de datos (2009)

Singular Value Decomposition, Frobenius, k-nn

Reconocimiento Balstico (2010)

Procesamiento y Anlisis de Imgenes, Algoritmos Genticos, los k vecinos ms cercanos (k-nn) y validacin cruzada

Aplicaciones en GTI

Bsqueda en Internet

Clustering en general (Harmony Search, k-means) (2009) Web Document Clustering


Global-Best Harmony Search y Fp-growth (2010) Algoritmos memticos con tcnicas de niching (2010)

En proceso (2010 2011)

Web Document Clustering basado en reglas de asociacin y frases de documentos Clustering usando Global-Best Harmony Search y modelos LEM

Referencias
1.

2.

3. 4. 5.

6.

Discovering knowledge in Data: An Introduction to Data Mining. Daniel T. Larose. John Wiley & Sons, Inc. 2005. ISBN 0-471-66657-2 Larose, Daniel T. Data Mining Methods and Models. Daniel T. Larose. ISBN: 0-471-75647-4. E-Book. 385 pages. February 2006, Wiley-IEEE Press. Data Mining with SQL Server 2005. ZhaoHui Tang, Jamie Maclennan. Wiley Publishing, Indiana, 2005. Kantardzic, Mehmed. Data Mining: Concepts, Models, Methods, and Algorithms, John Wiley & Sons 2003 (343 pages). ISBN: 0471228524. Anlisis y Extraccin de Conocimiento en Sistemas de Informacin: Datawarehouse y Datamining. Departamento de Sistemas Informticos y Computacin. Universidad Politcnica de Valencia. http://www.dsic.upv.es/~jorallo/cursoDWDM. Wang, John (Editor). Data Mining: Opportunities and Challenges. Hershey, PA, USA: Idea Group Inc., 2003.

You might also like