Professional Documents
Culture Documents
MSc. Carlos Alberto Cobos Lozada ccobos@unicauca.edu.co http://www.unicauca.edu.co/~ccobos Grupo de I+D en Tecnologas de la Informacin Departamento de Sistemas Facultad de Ingeniera Electrnica y Telecomunicaciones Universidad del Cauca
Definicin
Gartner Group (www.gartner.com): es el proceso de descubrir nuevas y significantes correlaciones, patrones y tendencias en grandes cantidades de datos almacenados en repositorios usando tecnologas de reconocimiento de patrones as como tcnicas estadsticas y matemticas MIT Technology Review (enero 2001) la selecciona como una de las 10 tecnologas emergentes que cambiarn al mundo, ejemplo: Boston Celtis (basketball) en Septiembre-Diciembre de 2003 busca experto en DM Witten & Frank (2000): es la extraccin de informacin implcita, previamente desconocida y potencialmente til desde los datos Fayyad (1997): es la aplicacin de algoritmos para extraer patrones de los datos, siendo esto una parte del descubrimiento de conocimiento
Definicin
Datos: smbolos Informacin: datos que son procesados para que sean tiles; proveen respuestas a preguntas del tipo quin, qu, dnde y cundo Conocimiento: aplicacin de datos e informacin a preguntas del tipo cmo o por qu Sabidura: la comprensin de los principios
Conocimiento
Informacin
http://www.systems-thinking.org/dikw/dikw.htm
Justificacin
Explosin en recoleccin de datos: ventas en supermercados Las bodegas de datos como almacenamiento global y confiable El incremento en el acceso a los datos desde la web El incremento en la competencia en una economa global El desarrollo de herramientas comerciales y acadmicas de minera de datos: Clementine, Insightful Miner, WEKA, CART, PolyAnalyst, SAS El gran crecimiento en la capacidad de computo y almacenamiento
Justificacin
Proceso de desarrollo
Despliegue
Datos
Evaluacin
Modelamiento
SEMMA (Sample, Explore, Modify, Model, Assess): ms orientado a las caractersticas tcnicas del desarrollo del proyecto, propietario
Existen herramientas de minera de datos que podemos soltar sobre nuestros datos y nos resolvern nuestras problemas
2.
El proceso de minera de datos es autnomo requiriendo muy poca intervencin humana La inversin en procesos de minera de datos se paga por si misma y rpidamente
3.
Las herramientas o paquetes de minera de datos son intuitivos y fciles de usar La minera de datos identifica las causas de nuestros problemas de negocios o de investigacin
5.
6.
Estimacin Prediccin
Descripcin
En Weka
Explicacin general del entorno partiendo del archivo clasificacion-drug.arff Se visualizan los datos en la cuadricula Se visualizan los datos en el formato arff Se explorar la pestaa de pre-procesamiento: atributos, medidas y grficas
Clasificacin
Establecer a que valor categrico pertenece un registro Clasifica los ingresos (altos, medios, bajos) basado en la edad, genero, ocupacin Determinar si una operacin especifica con tarjeta de crdito es fraudulenta Ubicar a un estudiante en un track especifico de cursos de acuerdo con sus habilidades Determinar si otorgar una hipoteca es una buen o mala decisin (riesgo)
Determinar si una enfermedad particular esta presente Identificar si un determinado estado financiero indica una amenaza de terrorismo Determinar el tipo de medicina ms adecuada para un paciente
En Weka
Uso de la pestaa de clasificacin con el ejemplo de clasificacion-drug.arff Uso del rbol de decisin J48 Visualizacin del rbol y explicacin de los resultados Matriz de confusin Instancias correctamente clasificadas Optimizacin basada en costos, ejemplo de tnel metacarpiano y el costo de falsos positivos y falsos negativos Importancia de los expertos: nuevo atributo a5/a6
Similar a Clasificacin, pero la variable objetivo es numrica Estimar la presin de la sangre de un paciente basado en la edad, genero, ndice de masa corporal y los niveles de sodio en la sangre Estimar la cantidad de dinero que una familia de cuatro personas seleccionada al azar gastara en las compras de regreso al colegio Estimar el promedio de un estudiante de postgrado basado en su promedio en los resultados universitarios de pregrado
Tcnicas estadsticas (ejemplo, regresin lineal simple, correlacin, regresin mltiple), redes neuronales
Prediccin
Similar a clasificacin y estimacin, excepto que los resultados se ubican en el futuro Predecir el incremento en el nmero de muertes en accidentes de trfico si el prximo ao se aumenta el limite de velocidad Predecir el ganador de la segunda temporada de ftbol en el campeonato nacional basado en los resultados estadsticos de los equipos Predecir el precio del inventario en tres (3) meses
Tcnicas estadsticas, redes neuronales, rboles de decisin (C4.5, C5.0, CART), k-vecino ms cercano, algoritmos genticos
Generar clases que agrupen instancias/objetos de caractersticas similares y se diferencien de los que estn en otras clases No hay variable objetivo Es a menudo un proceso preliminar en el proceso de minera de datos En auditoria, segmentar el comportamiento financiero entre benignas y sospechosas Reducir el nmero de atributos a tratar en un DataSet
En Weka
Uso de la pestaa de clustering con el archivo clustering-sencillo.arff La columna clase es slo para introducir el ejemplo, pero en un problema de clustering normalmente los datos no estn preclasificados Uso de la pestaa de Visualizacin para ver la distribucin de las clases en cada uno de los atributos Visualmente se definen cuales caractersticas son apropiadas (varianza-desviacin en cada eje) Uso de la pestaa de Seleccin de atributos para corroborar las dimensiones o caractersticas seleccionadas Remover la clase en la pestaa de pre-procesamiento Ejecucin de SimpleKmeans con 3 clusters Mostrar como hacer validacin cuando se conoce la clase
Asociacin
Encontrar los atributos que van juntos Conocido como anlisis de afinidad o anlisis de la canasta de mercado Si <antecedente> Entonces <consecuente> Cuales tems se compran juntos y cuales no Establecer cuales situaciones degradan la red de telecomunicaciones
Determinar la proporcin de casos en donde una nueva droga genera efectos secundarios peligrosos
En Weka
Uso de la pestaa de Asociacin con el archivo Basket.arff Se usa informacin de la tarjeta Se deja informacin slo de los productos comprados en cada transaccin Se usa el algoritmo apriori Explicacin del soporte Explicacin de la confianza
Aplicaciones
Identificar prospectos Escoger el canal de comunicacin para alcanzar los prospectos Crear mensajes apropiados para grupos de prospectos
Ejemplo: un mensaje en la pgina de deportes del peridico, otro distinto en la pgina de poltica Ejemplo: un mensaje destacando el precio para usuarios sensibles al precio y otro destacando la conveniencia del producto (compras y/o pedidos nocturnos, dominicales y festivos)
Aplicaciones
Retener clientes rentables Evitar clientes de alto riesgo (hipotecas, crditos) Prevenir fraudes Recuperar clientes Mejorar la satisfaccin de los clientes Disminuir costos Incrementar ventas Mejorar la rentabilidad de sus clientes
Aplicaciones
venta cruzada (cross-selling) e incremento de venta (up-selling o venta sugestiva/mejorada) Retener talento humano Definir lneas de capacitacin y retencin de talento humano
Aplicaciones
Proveedores
Banca Seguros Telecomunicaciones Venta al por menor (e-commerce) Venta al por mayor Turismo Educacin Salud
Gente
Deptos. Administrativos
Auditoria
Otros
Clientes
Aplicaciones
En industrias manufactureras (vehculos), encontrar cuales situaciones generan la mayor cantidad de reclamos/garantas En educacin, encontrar relaciones entre tipos de estudios y origen de los estudiantes en una universidad Predecir condiciones financieras especificas que llevan una empresa a la banca rota
Aplicaciones
Bio-Informtica
Aplicaciones en GTI
Bsqueda en Internet
BIM (2008): Ontologas, Resultado de los motores de bsqueda (Google, Yahoo, MSN), Perfil del usuario, Minera de textos
Aplicaciones en GTI
Procesamiento y Anlisis de Imgenes, Algoritmos Genticos, los k vecinos ms cercanos (k-nn) y validacin cruzada
Aplicaciones en GTI
Bsqueda en Internet
Global-Best Harmony Search y Fp-growth (2010) Algoritmos memticos con tcnicas de niching (2010)
Web Document Clustering basado en reglas de asociacin y frases de documentos Clustering usando Global-Best Harmony Search y modelos LEM
Referencias
1.
2.
3. 4. 5.
6.
Discovering knowledge in Data: An Introduction to Data Mining. Daniel T. Larose. John Wiley & Sons, Inc. 2005. ISBN 0-471-66657-2 Larose, Daniel T. Data Mining Methods and Models. Daniel T. Larose. ISBN: 0-471-75647-4. E-Book. 385 pages. February 2006, Wiley-IEEE Press. Data Mining with SQL Server 2005. ZhaoHui Tang, Jamie Maclennan. Wiley Publishing, Indiana, 2005. Kantardzic, Mehmed. Data Mining: Concepts, Models, Methods, and Algorithms, John Wiley & Sons 2003 (343 pages). ISBN: 0471228524. Anlisis y Extraccin de Conocimiento en Sistemas de Informacin: Datawarehouse y Datamining. Departamento de Sistemas Informticos y Computacin. Universidad Politcnica de Valencia. http://www.dsic.upv.es/~jorallo/cursoDWDM. Wang, John (Editor). Data Mining: Opportunities and Challenges. Hershey, PA, USA: Idea Group Inc., 2003.