You are on page 1of 38

GUIA DIDACTICA

Introduccin a la
Minera de Datos
Mara Auxiliadora Prez
Barquisimeto,


U U
S SI IS S
D DE EC C



GUIA DIDACTICA









Introduccin a la
Minera de Datos

Mara Auxiliadora Prez
Barquisimeto, 01/10/2011


U UN NI IV VE ER RS SI ID DA AD D C CE EN NT TR RO OC CC CI ID DE EN NT TA AL L
L LI IS SA AN ND DR RO O A AL LV VA AR RA AD DO O
S ST TE EM MA A D DE E E ED DU UC CA AC CI IO ON N A A D DI IS ST TA AN NC CI IA A
C CA AN NA AT TO O D DE E C CI IE EN NC CI IA AS S Y Y T TE EC CN NO OL LO OG G A A
GUIA DIDACTICA
Introduccin a la










GUIA DIDACTICA







Introduccin a la
Minera de Datos



U UN NI
S SI IS ST TE E
D DE EC CA A
Elaborado por: Mara Auxiliadora Prez

Correo-e: maperez@ucla.edu.
Fecha Elaboracin: 01/10/20

GUIA DIDACTICA


Introduccin a la
Minera de Datos


NI IV VE ER RS SI ID DA AD D C CE EN NT TR RO OC CC CI ID DE EN NT TA AL L
L LI IS SA AN ND DR RO O A AL LV VA AR RA AD D
E EM MA A D DE E E ED DU UC CA AC CI IO ON N A A D DI IS ST TA AN NC CI IA A
A AN NA AT TO O D DE E C CI IE EN NC CI IA AS S Y Y T TE EC CN NO OL LO OG G A A

Mara Auxiliadora Prez
maperez@ucla.edu.ve
/2011
Revisado y actualizado
Mara Auxiliadora Prez

Fecha Ultima Revisin:
2
GUIA DIDACTICA
Introduccin a la



Revisado y actualizado por :
Mara Auxiliadora Prez
Fecha Ultima Revisin: 01/10/2011
3

Tabla de Contenidos

Datos Generales de la Unidad Curricular y de los Facilitadores ............................. 4
Introduccin ............................................................................................................. 5
Competencias Genricas ........................................................................................ 5
Competencias Especficas ...................................................................................... 6
Valores .................................................................................................................... 7
Elementos de Competencia .................................................................................... 7
Temario ................................................................................................................... 9
Evaluacin de los Aprendizajes ............................................................................... 9
Fuentes de Informacin ........................................................................................... 9
Orientaciones Generales Para el Estudio ............................................................. 10
Recursos Generales de Apoyo .............................................................................. 11
Proceso del Aprendizaje Desarrollo de Contenidos ........................................... 12

4

Datos Generales de la Unidad Curricular y de los Facilitadores


Datos Generales de la Unidad Curricular
Nombre Introduccin a la Minera de Datos
Carrera a la que pertenece Ingeniera en Informtica
Decanato Ciencias y Tecnologa
Departamento Sistemas
Cdigo 10MD33
Semestre 9 nvo
Nro. de Crditos 3
Pre requisitos
Base de Datos (8132.2), Estadstica Matemtica
(6443), Sistemas III (6254)
Prelaciones --
Coordinador (a) de la Unidad Curricular
Nombre y Apellido Telfonos Correo Electrnico
Leonardo Ponte 0414-5565387 lponte@telcel.net.ve
Profesores o Tutores que Administran la Unidad Curricular
Nombre y Apellido Telfonos Correo Electrnico
Mara Auxiliadora Prez 0416-6570056 maperez@ucla.edu.ve
Autor de la Gua Didctica
Nombre y Apellido Telfonos Correo Electrnico
Mara Auxiliadora Prez 0416-6570056 maperez@ucla.edu.ve


5

Introduccin

Minera de Datos es el descubrimiento eficiente de informacin valiosa, no-obvia
de una gran coleccin de datos Bigus (1996). Esta unidad ha sido ideada para el
programa acadmico de Ingeniera en Informtica con el objeto de introducir al
estudiante en el conocimiento y dominio del proceso de minera de datos, tambin
conocido como extraccin de conocimiento de bases de datos, desarrollando en el
estudiante las habilidades necesarias para disear y desarrollar soluciones en
sta rea.
Ante el incremento de las necesidades de informacin en las organizaciones, este
programa propone el desarrollo de las competencias, capacidades y destrezas
para el manejo efectivo de los datos, su organizacin y sobre todo la extraccin de
conocimiento til y relevante para la toma de decisiones estratgicas en la
organizacin. Busca adems explorar la iniciativa y la motivacin del estudiante
para la generacin de soluciones.
Para el logr de estos fines se estudiarn las fases del proceso de extraccin de
conocimiento, desde la integracin y recopilacin de los datos, pasando por la
integracin, recopilacin, limpieza y transformacin de los mismo. As mismo, la
unidad curricular aborda el estudio de las tcnicas de minera de datos y su
aplicabilidad en la resolucin de problemas. De igual forma, contempla la
evaluacin, interpretacin, difusin y uso del conocimiento obtenido a lo largo del
proceso.
La obtencin de estos conocimientos se inserta en las metas del diseo curricular
de Ingeniera en Informtica de la UCLA, puesto que proporcionara al estudiante la
capacidad de desarrollar de manera integral el perfil profesional que contempla
capacidades para planificar, gerenciar, evaluar y desarrollar soluciones de
tecnologas de informacin y comunicacin en ambientes organizacionales
pblicos y privados, acadmicos y de investigacin teniendo las tecnologas
actuales y cambiantes como paradigma. Este conocimiento le permitir al
egresado de la carrera ofrecer soluciones que coadyuven en el proceso de toma
de decisiones fundamental en las organizaciones de hoy, as como proseguir sus
estudios en la Maestra en Ciencias de la Computacin
Competencias Genricas

Capacidad de desarrollar pensamiento complejo y sistmico.
Capacidad de Innovacin.
Capacidad de autoaprendizaje permanente.
Capacidad de desarrollar un pensamiento flexible y creativo.
6

Capacidad para trabajar en equipos interdisciplinarios y en forma
cooperativa.
Competencias Especficas

Cognitivas (saber)
Identifica tipos de datos: estructurados provenientes de bases de datos
relacionales, datos espaciales, temporales, textuales, multimedia, datos no
estructurados provenientes de otros tipos de repositorios de documentos y
datos procedentes de la web.
Analiza las propiedades de los datos para extraer conocimiento.
Identifica modelos predictivos y descriptivos y las tcnicas asociadas para
obtener conocimiento.
Selecciona una tcnica de minera de datos.
Conocer los algoritmos bsicos de las principales tcnicas de Minera de
Datos
Interpreta y evala el modelo obtenido.
Integra el conocimiento adquirido al proceso de toma de decisiones

Instrumentales (saber Hacer)
Formula un plan para la implantacin de un programa de minera.
Aplica tcnicas de minera de acuerdo a los criterios estudiados.
Integra y consolida el conocimiento obtenido con el conocimiento previo de
la organizacin.
Hace el conocimiento extrado disponible para su uso en los distintos
niveles de la organizacin.
Actitudinales (ser)
Asiste con puntualidad a las actividades acadmicas.
Comprende el impacto que tiene la realizacin deficiente de una tarea suya
en los resultados de su desempeo acadmico en la unidad curricular.
Cumple sus actividades en el tiempo sealado.
Demuestra compromiso con la calidad del trabajo.
Expresa con claridad lo que hace, piensa y siente.
Reconoce las habilidades y fortalezas de los dems y las propias
7

Valores

Pertinencia
Excelencia
Responsabilidad
Honestidad
Elementos de Competencias

Generales
Desarrollar habilidades necesarias para extraer conocimiento desde las bases de
datos con miras al fortalecimiento del proceso de toma de decisiones, desde una
perspectiva tcnica y profesional
Unidad Didctica I: Iniciacin a la minera de datos
Identificar los elementos y conceptos esenciales del rea de minera de
datos (kdd).
Conocer las fases, los elementos y las tareas necesarias para el proceso de
extraccin de conocimiento de base de datos.
Comprender el proceso de extraccin de conocimiento desde bases de
datos.
Valorar el aporte que la minera de datos puede ofrecer al proceso de toma
de decisiones.
Unidad Didctica II: Preparacin de los datos
Conocer los conceptos relacionados a repositorios de datos.
Emplear diferentes tcnicas para la limpieza y transformacin de los datos.
Aplicar diferentes tcnicas para la exploracin y seleccin de los datos.
Sensibilizar sobre la importancia de la preparacin de los datos como fase
fundamental para el xito de los proyectos de minera de datos
Unidad Didctica III: Tcnicas de Minera de Datos
Determinar el tipo de tarea de minera.
Elegir el tipo de modelo.
Seleccionar el algoritmo de minera que resuelva la tarea y obtenga el
modelo.
8

Mostrar dominio a la hora de la aplicacin de una tcnica de minera de
datos.
Promover ambientes de trabajo colaborativo e interdisciplinarios para el
diseo y construccin de soluciones a los casos de estudio
Unidad Didctica IV: Evaluacin, difusin y uso de modelos
Evaluar la calidad de un modelo a partir de la evidencia.
Establecer la validez de un modelo en funcin a su propsito.
Integrar los modelos obtenidos en la toma de decisiones.
Implementar soluciones a los casos de estudio
Temario


Unidad Didctica I: Iniciacin a la minera de datos
Tema 0: Sumario de la Unidad Curricular
Tema 1. Conceptos bsicos de Minera de Datos
Tema 2. Proceso de extraccin de conocimiento de Base de Datos
Unidad Didctica II: Preparacin de los datos
Tema 3. Repositorios de datos y vistas minables
Tema 4. Limpieza y transformacin de datos
Tema 5. Exploracin y Seleccin de datos
Unidad Didctica III: Tcnicas de Minera de Datos
Tema 6. Tareas de minera de datos predictivas y descriptivas
Tema 7. Arboles de decisin y sistemas de aprendizaje de reglas
Tema 8. Redes neuronales artificiales
Unidad Didctica IV: Evaluacin, difusin y uso de modelos
Tema 9. Tcnicas de Evaluacin
Tema 10. Intercambio y difusin de modelos. Integracin a la toma de
decisiones


9

Evaluacin de los Aprendizajes

Primer Corte: Evaluacin escrita N 1 (20%). Unidades I y II. Foro de discusin
(5%). Auto-informe (5%)
Segundo Corte: Evaluacin escrita N 2 (15%). Unidades III Foro de discusin
(10%). Taller Virtual (10%)
Tercer Corte: Entrevista (10%). Unidades I,II,III y IV. Proyecto (25%).
Fuentes de Informacin

Para el desarrollo de la gua didctica se ha considerado como libro base:

J. Hernndez, M.J. Ramrez y C. Ferri, Introduccin a la Minera de Datos,
Pearson Education, 2004
El libro describe el proceso de extraccin de conocimiento a partir de los datos.
Explica de una manera metodolgica y pragmtica, el proceso en su conjunto, sus
motivaciones y beneficios, estableciendo relaciones con las disciplinas
relacionadas y los sistemas a los que debe integrarse. Adems ensea las
tcnicas que se requieren en cada fase del proceso. Bsicamente es un libro que
nos permite tener una primera aproximacin al amplio y complejo mundo de
obtener conocimiento a partir de los datos.
Los captulos del libro a consultar son: 1, 2, 3, 4, 5, 11, 13, 17, 18 y 19
Como complementos al libro base y a la gua didctica se recomiendan las
siguientes URLs como herramienta de consulta, entre los cuales estn:
http://www.kdnuggets.com/
http://www. cs.waikato.ac.nz/~ml/WEKA
http://www.almaden.ibm.com/cs/quest/index.html
http://fas.sfu.ca/cs/research/groups/DB/sections/publication/kdd/kdd.html
http://www.cs.su.oz.au/~thierry/ckdd.html
http://www.dwinfocenter.org/
http://datawarehouse.itoolbox.com/
http://www.knowledgestorm.com/
http://www.bitpipe.com/
http://www.dw-institute.com/
http://www.datawarehousing.com/

10

Orientaciones Generales Para el Estudio
El surgimiento de la sociedad del conocimiento se encuentra directamente
relacionado con la existencia del fenmeno emergente de producir grandes
volmenes de informacin estructurada y almacenada generalmente en bases de
datos, como resultado de los procesos cotidianos de la organizacin y vinculado
estrechamente con la necesidad de anlisis de esta informacin, con el objetivo de
transformar informacin en conocimiento.
Es indiscutible el hecho de que a mayor y mejor informacin respecto a algn
aspecto de la realidad, se reduce la incertidumbre en el proceso de toma de
decisiones. Actualmente, las organizaciones independientemente de su tamao y
su razn de ser, se encuentran en la bsqueda de herramientas que les permitan
mejorar su proceso de toma de decisiones y del capital humano que lleve adelante
estos proyectos. Es por ello que es indispensable tomes en consideracin las
recomendaciones que aparecen a continuacin.
El estudio del proceso de extraccin de conocimiento implica estructurar el
pensamiento, las ideas, convertirlas en un proyecto para generar algo nuevo, no
solamente para manipular lo que ya existe. Esta tarea requiere dedicar
semanalmente un mnimo de cuatro (04) horas, y aumentar el nmero de acuerdo
a la dificultad que la asignatura tenga para Ud. Para el logro de los objetivos se
recomienda elaborar un plan de estudios, tenga en cuenta lo siguiente:
"No se puede estudiar en un momento u otro arbitrariamente, sino que se precisa
una distribucin estratgica y constante del tiempo para que el estudio sea eficaz"
(Rodrguez, 1975).



Cada uno de los temas que vamos a abordar tiene una sesin terica y una sesin
prctica, de manera que los contenidos a desarrollados en la teora, son
reforzados en las sesiones prcticas. Ya sabes, todo programa en papel corre. Sin
embargo la distancia entre el papel y el programa ejecutable, a veces, es grande.
Esa distancia son errores, que con la prctica aprenders a solucionarlos. Son el
da a da del programador.

Yukihiro Matsumoto
(Creador del lenguaje de programacin RUBY)

RECOMENDACIONES PARA EL PLAN DE ESTUDIO
Sea realista: Coloque tiempos que realmente Ud. est
dispuesto a cumplir.
Escrbalo y colquelo en un lugar visible, de manera que
pueda llevar un registro del cumplimiento de los objetivos
planificados.
Sea equilibrado: Contemple en su plan sesiones de trabajo
y periodos de descanso que le permitan avanzar
11

ecuerda que no ests solo, tu profesor te acompaar en este proceso, puedes
consultar tus dudas por la va que consideres apropiada (consulta presencial,
correo electrnico, chat foro). Te invito a que participes activamente y
aproveches las oportunidades que nos ofrecen las tecnologas de informacin y
comunicacin. Es importante que tengas presente las fechas de entrega de las
actividades y de las evaluaciones, son de carcter obligatorio.

or ltimo, y no menos importante, quiero expresarte algo que ya debes haber
escuchado con anterioridad. Nuestra carrera se sustenta en el cambio y la
innovacin constante. Est presente en toda actividad humana, sin embargo en
nuestro caso es de vital importancia que tomes conciencia del impacto que el
cambio tiene en el rea de conocimiento y te prepares para adaptarte y aprender a
desenvolverte eficientemente en este mundo que comienzas a experimentar.


Desconozco el autor
Recursos Generales de Apoyo

Plataforma SEDUCLA
HAN J, KAMBER M.(2001). Data Mining. Morgan Kaufmann Publishers.
USA.
WITTEN I, FRANK E. (1999) Data Mining. Practical Machine Learning Tools
and Techniques with Java Implementations. Morgan Kaufmann Publishers.
USA
WEISS S, INDURKHYA N (1999) Predictive Data Mining a Practical Guide.
Morgan Kaufmann Publishers. USA
MITCHELL, T (1997). Machine Learning. McGraw-Hill, USA
FAYYAD U, PIATETSKY-SHAPIRO G, SMYTH P, UTHURUSAMY
R.(1996). Advances in Knowledge Discovery and Data Mining. MIT Press.
USA





R
P

Proceso del Aprendizaje

Esta unidad se basa en el capitulo N
capitulo N 2 pg

I. Introduccin a la Unidad
Esta unidad presenta una visin general de los elementos y conceptos utilizados
en el rea de minera de datos, las etapas del proceso de descubrimiento de
conocimiento en bases de datos y el impacto que esta tecnologa tiene en el
proceso de toma de decisiones en las organizaciones.
II. Elementos de Competencia
Identificar los elementos
datos (kdd).
Conocer las fases, los elementos y las tareas necesarias para el proceso de
extraccin de conocimiento de base de datos.
Comprender el proceso de extraccin de conocimiento desde bases de
datos.
Valorar el aporte que la minera de datos puede ofrecer al proceso de toma
de decisiones
III. Esquema General

1. Conceptos bsicos de
1.1. Generalidades
1.2. Evolucin de la tecnologa de Minera de Datos.
1.3. Etapas del Proceso de Minera de Datos
1.4. Tcnicas de Minera de Datos
Unidad I
ceso del Aprendizaje Desarrollo de Contenidos
Esta unidad se basa en el capitulo N 1 del texto base pg.
pg 19.
Introduccin a la Unidad
Esta unidad presenta una visin general de los elementos y conceptos utilizados
n el rea de minera de datos, las etapas del proceso de descubrimiento de
conocimiento en bases de datos y el impacto que esta tecnologa tiene en el
proceso de toma de decisiones en las organizaciones.
Elementos de Competencia
Identificar los elementos y conceptos esenciales del rea de minera de
Conocer las fases, los elementos y las tareas necesarias para el proceso de
extraccin de conocimiento de base de datos.
Comprender el proceso de extraccin de conocimiento desde bases de
Valorar el aporte que la minera de datos puede ofrecer al proceso de toma

Conceptos bsicos de Minera de Datos
Evolucin de la tecnologa de Minera de Datos.
Etapas del Proceso de Minera de Datos
de Minera de Datos
Iniciacin a la minera de datos
12
Desarrollo de Contenidos


del texto base pg. 3 y en el
Esta unidad presenta una visin general de los elementos y conceptos utilizados
n el rea de minera de datos, las etapas del proceso de descubrimiento de
conocimiento en bases de datos y el impacto que esta tecnologa tiene en el
y conceptos esenciales del rea de minera de
Conocer las fases, los elementos y las tareas necesarias para el proceso de
Comprender el proceso de extraccin de conocimiento desde bases de
Valorar el aporte que la minera de datos puede ofrecer al proceso de toma
Iniciacin a la minera de datos

1.5. Metodologas de Minera de Datos

2. Proyecto de Minera de Datos utilizando CRISP

IV. Desarrollo de los Contenidos
1. Conceptos bsicos de Minera de Datos
1.1. Generalidades

La existencia de grandes volmenes de informacin estructurada y al
Bases de Datos provenientes
anlisis de esta informacin, posibilita la creacin de una nueva generacin de
tcnicas y herramientas computacionales con la capacidad de asistir a usuarios en
el anlisis automtico e inteligentes de datos.
Metodologas de Minera de Datos
royecto de Minera de Datos utilizando CRISP-DM
Desarrollo de los Contenidos
Conceptos bsicos de Minera de Datos
La existencia de grandes volmenes de informacin estructurada y al
provenientes de los procesos del negocio y la necesidad de
anlisis de esta informacin, posibilita la creacin de una nueva generacin de
tcnicas y herramientas computacionales con la capacidad de asistir a usuarios en
lisis automtico e inteligentes de datos.
13

La existencia de grandes volmenes de informacin estructurada y almacenada en
de los procesos del negocio y la necesidad de
anlisis de esta informacin, posibilita la creacin de una nueva generacin de
tcnicas y herramientas computacionales con la capacidad de asistir a usuarios en

Por otra parte, uno de los componentes ms importantes del proceso de toma de
decisiones, es el conocimiento que se posee en determinado momento de la
realidad y por tanto del manejo y tratamiento de la informacin
informacin que generamos en la actualidad, rara vez se integra y se analiza con
el resto de la informacin de un dominio determinado.
Es as como, el anlisis de datos ya no representa una actividad solo de grandes
organizaciones e instituciones, sino que forma una parte imprescindible de la
dinmica actual empresarial, por lo que se requiere que, en la formacin de los
profesionales en el rea de la informtica, se incorporen innovaciones
tecnolgicas en las opciones curriculares, para
cambiante.
Para Chun Wei Choo, la informacin
que hace una organizacin, tanto que su funcin se ha vuelto transparente. Sin
una cabal comprensin de los procesos humanos y de
cuales la informacin se transforma en discernimiento, conocimiento y accin, una
organizacin es incapaz de aprovechar el verdadero valor de sus recursos
informativos y tecnologas de informacin

no de los componentes ms importantes del proceso de toma de
decisiones, es el conocimiento que se posee en determinado momento de la
realidad y por tanto del manejo y tratamiento de la informacin
informacin que generamos en la actualidad, rara vez se integra y se analiza con
el resto de la informacin de un dominio determinado.
Es as como, el anlisis de datos ya no representa una actividad solo de grandes
ituciones, sino que forma una parte imprescindible de la
dinmica actual empresarial, por lo que se requiere que, en la formacin de los
profesionales en el rea de la informtica, se incorporen innovaciones
tecnolgicas en las opciones curriculares, para potenciar y adaptar esta realidad
a informacin es un componente intrnseco de casi todo lo
que hace una organizacin, tanto que su funcin se ha vuelto transparente. Sin
una cabal comprensin de los procesos humanos y de la organizacin a travs de
cuales la informacin se transforma en discernimiento, conocimiento y accin, una
organizacin es incapaz de aprovechar el verdadero valor de sus recursos
s y tecnologas de informacin.
14
no de los componentes ms importantes del proceso de toma de
decisiones, es el conocimiento que se posee en determinado momento de la
realidad y por tanto del manejo y tratamiento de la informacin. La cantidad de
informacin que generamos en la actualidad, rara vez se integra y se analiza con
Es as como, el anlisis de datos ya no representa una actividad solo de grandes
ituciones, sino que forma una parte imprescindible de la
dinmica actual empresarial, por lo que se requiere que, en la formacin de los
profesionales en el rea de la informtica, se incorporen innovaciones
potenciar y adaptar esta realidad
es un componente intrnseco de casi todo lo
que hace una organizacin, tanto que su funcin se ha vuelto transparente. Sin
la organizacin a travs de
cuales la informacin se transforma en discernimiento, conocimiento y accin, una
organizacin es incapaz de aprovechar el verdadero valor de sus recursos

15



Witten y Frank (2000), definen la Minera de Datos como el proceso de extraer
conocimiento til y comprensible, previamente desconocido, desde grandes
cantidades de datos almacenados en distintos formatos. Es as como, la Minera
de Datos, enfrenta dos grandes desafos: por un lado trabajar con un gran
volumen de datos y por el otro utilizar las tcnicas adecuadas para obtener
conocimiento til y novedoso.
La tarea de convertir datos en conocimiento, es un objetivo por lo dems amplio.
Si a todo esto agregamos que, el mayor repositorio de informacin actual lo
constituye la World Wide Web, tenemos una aproximacin a la complejidad de la
tarea que desafiamos.
As mismo, la Minera de Datos es un campo que ha tenido un gran auge en los
ltimos quince aos, para dar soluciones eficaces y eficientes a problemas donde
el gran volumen de datos, hacen que la matemtica, la estadstica o la
investigacin operativa clsicas, no sean suficientes para dar respuestas a stos
problemas.
1.2. Evolucin de la Tecnologa de Minera de Datos
En la dcada de los aos sesenta surgen los Sistemas de Gestin de Bases de
Datos, cuya funcin principal es la de proporcionar la infraestructura necesaria
para almacenar, recuperar y manipular datos, soportando transacciones y
actividades en lnea.
En la dcada de los ochenta nace el concepto de Almacn de Datos. Segn Han
(2001), un Almacn de Datos es una coleccin de datos orientada a temas,
integrado, no voltil y variante en el tiempo para el soporte del proceso de toma de
decisiones.
As, se denomina Almacenamiento de Datos al proceso de construccin y uso de
un Almacn de Datos. La construccin de un Almacn de Datos requiere de la
integracin, limpieza y consolidacin de los datos. La utilizacin de un Almacn
16

de Datos frecuentemente necesita de una coleccin de tecnologas de soporte de
decisiones (Han 2001).
El objetivo del Almacn de Datos es agrupar los datos con el propsito de facilitar
su posterior anlisis, de forma que sean tiles para acceder y analizar informacin
sobre la propia empresa. A este tipo de datos se les conoce como informativos.
Dada la complejidad que pudiera tener un Almacn de Datos se ha planteado la
necesidad de abordar los proyectos por reas temticas de anlisis, as en lugar
de crear el "gran repositorio" de la empresa, se han desarrollado proyectos ms
pequeos, creando as cubos de informacin que respondan las necesidades de
un rea especfica, por ejemplo el Cubo de Datos de mercadeo, o dentro de
Mercadeo el Cubo de Datos de Nuevos Negocios, entre otros. Un Cubo de Datos,
puede verse como una bodega dentro de un gran almacn de datos que alberga
data para un propsito especfico.
Los sistemas que manejan estos datos se denominan Sistemas de
Procesamiento Analtico en Lnea. Esta tecnologa est basada en el concepto
de cubo de informacin. Un cubo de informacin es una estructura para almacenar
informacin que permite realizar anlisis multidimensional y se basa en mtricas y
dimensiones. Una mtrica es una medicin matemtica de una variable del
negocio, representa lo que se quiere medir. Una dimensin es la variable contra la
que se quiere medir.
Estas herramientas ofrecen un gran podero para revisar, graficar y visualizar
informacin multidimensional, en caractersticas temporales, espaciales o propias.
Requieren de una alta participacin de un usuario humano, pues son interactivas y
requieren de la gua de un experto.
Es as como, la evolucin de estas tecnologas nos ha llevado a lo que
conocemos con el nombre de minera de datos, tal como se muestra en la figura
que aparece a continuacin, en respuesta a la automatizacin de las tareas de
anlisis de informacin y a la necesidad de obtener el conocimiento oculto que
guardan los datos.


17



Figura 1. Evolucin de la Minera de Datos.

Una definicin de Minera de Datos es segn Bigus (1996), el descubrimiento
eficiente de informacin valiosa, no-obvia de una gran coleccin de datos. En la
definicin anterior el trmino informacin valiosa se entiende como
informacin que ayuda al proceso de toma de decisiones representa una
ventaja competitiva para el negocio. El trmino gran coleccin de datos se
considera como una cantidad de informacin almacenada que va desde un
gigabyte hasta cientos de terabytes.
Segn Fayyad y otros (1996) el proceso de Descubrimiento de Conocimiento
en Bases de Datos se define como el proceso de identificacin no trivial de
patrones vlidos, novedosos, potencialmente tiles y finalmente comprensibles
en los datos. Aqu el trmino datos representa un conjunto de hechos, por
ejemplo, casos en una Base de Datos.

Bases
De Datos
Almacenar, Recuperar y Manipular
Datos
Data
Warehousing
Bodegon de Datos
Data
Marts
Browsers, Querys e-bussines
Analisis en Linea
Aplicaciones
OLAP
Mineria de Datos
Data Mining
KDD
Algoritmos Robustos
Bases
De Datos
Almacenar, Recuperar y Manipular
Datos
Bases
De Datos
Almacenar, Recuperar y Manipular
Datos
Data
Warehousing
Bodegon de Datos
Data
Warehousing
Bodegon de Datos
Data
Marts
Browsers, Querys e-bussines
Data
Marts
Browsers, Querys e-bussines
Analisis en Linea
Aplicaciones
OLAP
Analisis en Linea
Aplicaciones
OLAP
Mineria de Datos
Data Mining
KDD
Algoritmos Robustos
Mineria de Datos
Data Mining
KDD
Algoritmos Robustos
18


Revisa los trminos que aparecen resaltados en negrillas y con
ayuda del Glosario de Trminos que se encuentra en las
Actividades de Aprendizaje de la Unidad I, elabora tu glosario de
trminos personalizado .

1.3. Etapas del Proceso de Minera de Datos
Usualmente, un estudio de Descubrimiento de Conocimiento comprende de la
aplicacin iterativa e interactiva de los siguientes pasos: (a) preparacin de datos,
(b) seleccin de caractersticas, (c) aplicacin de un algoritmo de extraccin de
conocimiento, (d) evaluacin e interpretacin del modelo resultante para tomar la
decisin de qu constituye conocimiento y qu no lo es. Es oportuno mencionar
que varios autores se refieren al proceso de minera como la aplicacin de un
algoritmo para extraer patrones de datos y a Descubrimiento de Conocimiento al
proceso completo (pre-procesamiento, minera, post-procesamiento).
En la figura 2 se ilustran los pasos del proceso de Descubrimiento de
Conocimiento en Bases de Datos.
As, la preparacin de los datos se refiere al proceso de filtrar los datos originales
contenidos en la fuente de datos ya sea una base de datos un almacn de
datos, ya que la mayora de las veces no es posible utilizar un algoritmo de
minera sobre estos datos. Este proceso permite eliminar valores incorrectos, no
vlidos, desconocidos, segn las necesidades y el algoritmo a usar, se obtienen
muestras de los mismos reducen el nmero de valores posibles.
La etapa de seleccin de caractersticas reduce el tamao de los datos eligiendo
las variables ms influyentes en el problema, sin sacrificar la calidad del modelo
de conocimiento obtenido del proceso de minera. Los mtodos para la seleccin
de caractersticas son bsicamente dos: aquellos basados en la eleccin de los
mejores atributos del problema, y aquellos que buscan variables independientes
mediante pruebas de sensibilidad, algoritmos de distancia o heursticos.

19


Figura 2. Proceso de Descubrimiento de Conocimiento. (Ramos y otros (2004))

La aplicacin de una tcnica de aprendizaje, compete a la utilizacin de un
algoritmo de minera, del cual se obtiene un modelo de conocimiento, que
representa patrones de comportamiento observados en los valores de las
variables del problema o relaciones de asociacin entre dichas variables.
Fayyad y otros (1996) definen esta fase como un paso en el proceso de
descubrimiento de conocimiento que consiste en la aplicacin de un algoritmo
particular de minera de datos que, bajo algunas limitaciones de eficiencia
computacional, produce una enumeracin particular de patrones de los datos.
Una vez obtenido el modelo, se debe proceder a su validacin, comprobando que
las conclusiones que arroja son vlidas y suficientemente satisfactorias.




Datos
Datos Transformados
Datos Procesados
Patrones
Conocimiento
Datos Objetivos
Preprocesamiento
Transformacin
Minera de Datos
Interpretacin
Seleccin
20



Realice la lectura de los ejemplos que se muestran en las
pginas 6 a la 9 del texto base y realice lo siguiente:
Construye un registro anecdtico de la unidad con tus
observaciones, con el objeto de intercambiar opiniones en el
foro diseado para tal fin.
1.4. Tcnicas de Minera de Datos
Es importante mencionar las principales tcnicas utilizadas en minera de datos,
las cuales fundamentalmente se dividen en:
a) Clasificacin: Partiendo de una base de datos de observaciones, se buscan
leyes o patrones que nos indiquen el comportamiento de una variable respecto
a otras. Ejemplos de esta tcnica son: generadores de rboles de decisin,
generadores de reglas de asociacin, redes neuronales, algoritmos genticos,
clasificadores bayesianos, modelos de regresin, clasificadores difusos, entre
otros.
b) Agrupamiento: Dado un conjunto de casos en una Base de Datos, se busca
agruparlas dentro de un nmero de clases preestablecidas, de acuerdo a
criterios de distancia o similitud. Algunas tcnicas muy utilizadas son: K
Medias, Redes Autoorganizativas, Sistemas de Clasificacin Automtica
Bayesiana, Teora de Resonancia Adaptativa, entre otros.
c) Tcnicas de Reduccin de Dimensin y Visualizacin de la Informacin:
Su objetivo es reducir al mnimo el nmero de variables y visualizar los puntos
N dimensionales para detectar estructuras o caractersticas de forma visual.
Algunos ejemplos son: Anlisis de Componentes Principales, Grficos de
Coordenadas Paralelas, entre otros.

Los problemas a resolver en minera de datos se dividen segn Weiss y otros
(1998) en dos categoras generales: (a) supervisados o predictivos y (b) no
supervisados o de descubrimiento de conocimiento. En el Cuadro 1 se
muestran algunos problemas tpicos de minera de datos.
21

Los algoritmos supervisados o predictivos predicen el valor de un atributo
(etiqueta) de un conjunto de datos, conocidos otros atributos (atributos
descriptivos). A partir de datos cuya etiqueta se conoce, se induce una relacin
entre dicha etiqueta y otra serie de atributos.
Esas relaciones sirven para realizar la prediccin en datos cuya etiqueta es
desconocida. Esta forma de trabajar se conoce como aprendizaje supervisado.
Cuando una aplicacin no es lo suficientemente madura no tiene el potencial
necesario para una solucin predictiva, en este caso hay que recurrir a los
mtodos no supervisados o de descubrimiento de conocimiento que revelan
patrones y tendencias en los datos actuales, (no utilizan datos histricos). El
descubrimiento de esa informacin sirve para llevar a cabo acciones y obtener
un beneficio cientfico o de negocio.
Cuadro 1
Prediccin Descubrimiento de Conocimiento
Clasificacin Deteccin de Desviaciones
Regresin Segmentacin de Bases de Datos
Series de Tiempo Agrupamiento
Reglas de Asociacin
Sumarizacin
Visualizacin
Minera de Textos
Tipos de Problemas de Minera de Datos. Fuente: Weiss y otros (1998)


Actividad Complementaria:

Realiza un mapa mental con los conceptos que hemos abordado
hasta el momento y establece las relaciones que existen entre
ellos.

1.5. Metodologas
Existen varias metodologas en el mercado para la implantacin de Minera de
Datos. Una de ellas es CRISP
Minera de Datos, definida por un grupo de compaas con amplia
uso de la Minera de Datos. Segn varios autores, entre los que se destacan:
Gamberger y Otros (2001), Ramos y Gimnez (2004), esta metodologa consta de
seis fases: (a) Comprensin del Problema, (b) Comprensin de los Datos, (c)
Preparacin de los Datos, (d) Modelacin, (e) Evaluacin de los Resultados y (f)
Despliegue de los Resultados. La figura
fases de sta metodologa













Fases de la Metodologa CRISP
Metodologas de Minera de Datos
Existen varias metodologas en el mercado para la implantacin de Minera de
Datos. Una de ellas es CRISP-DM, Proceso Estndar entre Industrias para
Minera de Datos, definida por un grupo de compaas con amplia
uso de la Minera de Datos. Segn varios autores, entre los que se destacan:
Gamberger y Otros (2001), Ramos y Gimnez (2004), esta metodologa consta de
seis fases: (a) Comprensin del Problema, (b) Comprensin de los Datos, (c)
cin de los Datos, (d) Modelacin, (e) Evaluacin de los Resultados y (f)
Despliegue de los Resultados. La figura que se muestra a continuacin,
fases de sta metodologa

Fases de la Metodologa CRISP-DM
22
Existen varias metodologas en el mercado para la implantacin de Minera de
DM, Proceso Estndar entre Industrias para
Minera de Datos, definida por un grupo de compaas con amplia trayectoria en el
uso de la Minera de Datos. Segn varios autores, entre los que se destacan:
Gamberger y Otros (2001), Ramos y Gimnez (2004), esta metodologa consta de
seis fases: (a) Comprensin del Problema, (b) Comprensin de los Datos, (c)
cin de los Datos, (d) Modelacin, (e) Evaluacin de los Resultados y (f)
que se muestra a continuacin, ilustra las
23

Esta metodologa, junto con la metodologa SEMMA, son las principales
metodologas utilizadas por los analistas en los proyectos de minera.

2. Proyecto de Minera de Datos utilizando CRISP-DM

2.1. Compresin del Problema.

Esta etapa abarca en lneas generales, las siguientes actividades:
Determinacin de los objetivos: El primer paso y el ms importante es entender
la necesidad de hacer minera de datos, determinando cual es el problema que se
desea resolver, para que se convierta en el objetivo del proceso de minera de
datos.
Definicin de Criterios de xito: Una vez definido el problema, es necesario
disponer de criterios de xito para el proceso de minera de datos. Esos criterios
pueden ser objetivos (cuantitativos), o pueden ser subjetivos o de naturaleza
cualitativa. Los resultados deben contener algunas nuevas percepciones acerca
de las relaciones entre las variables del dominio del problema.
Calificacin de la Situacin: Una vez definido el problema y sus criterios de
solucin, hay que tomar en cuenta los aspectos relacionados al problema, tales
como: conocimiento experto o previo disponible acerca del problema, existencia
de datos suficientes para intentar resolver el problema, etc.
Determinacin de las metas de la Minera de datos: Consiste en una traduccin
de los objetivos del proyecto en trminos de tecnologa de minera de datos.
Produccin de un Plan del Proyecto: Finalmente, se crea un plan para el proyecto
que describa los pasos a seguir y las tcnicas empleadas en cada paso.
2.2. Compresin de los datos.
El aspecto principal de la minera de datos est dado por los datos. Las
actividades a desarrollar en esta etapa son:
24

Recolectar los datos iniciales: El primer paso es la adquisicin de los datos
iniciales y su preparacin para futuro procesamiento. El proceso de adquisicin de
datos puede producir las siguientes salidas: listas de datos adquiridos, localizacin
de datos y mtodos a usar para su adquisicin y problemas y soluciones
relacionados a la adquisicin de datos.
Descripcin de los datos: Luego de adquiridos, estos deben ser descritos, lo
cual significa principalmente establecer el volumen de los datos (nmero de
registros y campos por registro), identificacin y significado de cada campo y la
descripcin del formato inicial de los datos.
Exploracin de los Datos: Este paso no es obligatorio, pero si til en mucho
aspectos. El rol principal de la exploracin de datos en esta fase es encontrar una
estructura general para los datos. La exploracin no est directamente relacionada
con la solucin al problema (esa es una tarea para las tcnicas de modelacin de
minera de datos), sino que envuelve la aplicacin de pruebas estadsticas bsicas
que revelen propiedades en los datos recin adquiridos: Si tiene campos
nominales, se crean tablas de frecuencia y para los campos numricos, se grafica
su distribucin y se buscan dependencias.
Verificacin de la Calidad de los Datos: Aqu se realizan chequeos sobre los
datos para determinar la consistencia de los valores individuales de los campos, la
cantidad y distribucin de los datos faltantes, encontrar valores fuera de rango
(que pueden representar ruido o un nuevo e interesante fenmeno). La idea en
este punto es asegurar la completitud y correctitud de los datos. Completitud se
refiere a la proporcionalidad y regularidad de los valores faltantes y correctitud se
refiere al descubrimiento de valores errneos en los datos y su posible solucin.
2.3. Preparacin de los Datos.
Aunque el ncleo del proceso es la aplicacin de las tcnicas de modelacin de
minera de datos y la evaluacin de los modelos resultantes basndose en sus
valores predictivos o descriptivos, no debe disminuirse la importancia que tienen
los esfuerzos en la preparacin de los datos. La fase de preparacin de los datos
est dividida en:
25

Seleccin de Datos: Un subconjunto de los datos adquiridos en las fases previas
es seleccionado, basado en criterios tambin establecidos en fases anteriores:
calidad de los datos (completitud y correctitud), limitaciones en el volumen o en los
tipos de datos que estn relacionadas con las tcnicas de minera de datos
preseleccionadas.
Limpieza de los Datos: Este paso complementa al anterior, tambin es uno de
los que ms tiempo consumen, debido a la enorme cantidad de tcnicas que
pueden aplicarse para optimizar la calidad de los datos con vistas a la fase de
modelacin. Algunas tcnicas son: normalizacin de los datos (por ejemplo, de
una escala decimal al rango [0,1]), discretizacin de campos numricos,
tratamiento de valores ausentes (hay una gran cantidad de tcnicas para realizar
esta tarea: reemplazo el valor faltante con una constante global, reemplazo del
valor faltante con la media, con la media de la clase e incluso tcnicas ms
complejas que pretenden predecir el valor), reduccin del volumen de datos (por
ejemplo, eliminando campos con bajo potencial de prediccin o redundantes).
Construccin de Nuevos Datos: Aqu se crean nuevas estructuras a partir de los
datos seleccionados, por ejemplo: generacin de nuevos campos a partir de dos o
ms ya existentes, creacin de nuevos registros (muestras), fusin de dos tablas
que contengan atributos diferentes para el mismo objeto, agregacin de nuevos
campos o nuevas tablas donde se resumen caractersticas de mltiples registros o
de otros campos en nuevas tablas de resumen.
Formateo de los Datos: Este paso en la preparacin de los datos, implica
transformaciones sintcticas de los datos sin modificar su significado, esto con la
idea de permitir o facilitar el empleo de alguna tcnica de minera de datos en
particular. Algunas ejemplos son: reordenacin de los campos y/o registros de la
tabla (algunas herramientas de modelacin requieren que los campos estn en
cierto orden, las redes neuronales requieren que los registros estn ubicados
aleatoriamente), ajuste de los valores de los campos a las limitaciones de las
herramientas de modelacin (remover comas, tabuladores, caracteres especiales,
mximos y mnimos para las cadenas de caracteres, etc.)
26

2.4. Modelacin.
Lo novedoso y abundante de las tcnicas disponibles y de los algoritmos
involucrados en la fase de modelacin hace de sta, la fase ms interesante del
proceso de minera de datos. Los pasos importantes en la fase de modelacin
son:
Seleccin de la Tcnica de Modelacin: Al principio del proceso de minera de
datos se establece el problema a resolver y la meta de minera de datos implicada,
ahora es el momento de seleccionar una tcnica de minera de datos en concreto.
Cuando se escoge una tcnica apropiada entre numerosas tcnicas de
modelacin disponibles en minera de datos se debe tener en cuenta el objetivo
principal del proyecto y su relacin con la principal divisin de las herramientas de
minera de datos de acuerdo al tipo de problema. La primera divisin de las
tcnicas de modelacin de minera de datos est hecha sobre la base del tipo de
tarea de descubrimiento de conocimiento que se desea: Prediccin o Descripcin.
Generacin de Pruebas para el Modelo: Luego de construido un modelo, se
debe generar un procedimiento o mecanismo para probar la calidad y validez del
modelo. Por ejemplo, en una tarea supervisada de la minera de datos como la
clasificacin, es comn usar la rata de error como medida de la calidad. En
consecuencia, tpicamente se separan los datos en dos conjuntos, uno de
entrenamiento y otro de prueba, para luego construir el modelo basado en el
conjunto de entrenamiento y medir la calidad del modelo generado con el conjunto
de prueba.
Construccin del Modelo: Una vez que la tcnica de modelacin ha sido
seleccionada, se procede a ejecutarla sobre los datos previamente preparados
para generar un modelo. Todas las tcnicas de modelacin tienen un conjunto de
parmetros que determinan las caractersticas del modelo a generar. La seleccin
de los parmetros ptimos para la tcnica de modelacin es un proceso iterativo y
se basa exclusivamente en los resultados generados. Estos deben ser
interpretados y su rendimiento justificado.
27

Calificacin del Modelo: Una vez que los modelos son generados, estos son
interpretados de acuerdo al conocimiento preexistente del dominio y los criterios
de xito preestablecidos. Expertos en el dominio del problema juzgan los modelos
dentro del contexto del dominio y expertos en minera de datos aplican sus propios
criterios (seguridad del conjunto de prueba, prdida o ganancia de tablas, etc.)
2.5. Evaluacin de los resultados.
En las fases previas (sobre todo en la de modelacin), la evaluacin se refera a la
exactitud y generalidad del modelo generado, mientras que en esta fase involucra
la evaluacin del modelo con respecto a los objetivos del proyecto. En esta fase se
debe decidir si hay o no razones para construir un modelo deficiente (relacin
costo - beneficio), si es aconsejable probar el modelo en un problema real.
Adems de los resultados directamente relacionados con el objetivo del proyecto,
es aconsejable calificar el modelo con relacin a otros objetivos diferentes a los
originales?, esto podra revelar informacin adicional.
Otro paso de esta fase es la Revisin del Proceso, que se refiere a calificar al
proceso entero de minera de datos con la idea de identificar elementos que
pudieran ser mejorados. Por ltimo, en esta fase se toma una decisin acerca de
futuras fases. Si se ha determinado que las fases hasta este momento han
generado resultados satisfactorios, podra decidirse pasar a la fase de despliegue
de resultados, sino, podra decidirse por otra iteracin desde la fase de
preparacin de datos o de modelacin con otros parmetros. Podra ser incluso
que en esta fase se decida partir desde cero con un nuevo proyecto de minera de
datos.
2.6. Despliegue de los resultados.
En esta fase se define una estrategia para desplegar los resultados de la minera
de datos.
Monitoreo y Mantenimiento: Si los modelos resultantes del proceso de minera
de datos son desplegados en el dominio del problema como parte de la rutina
diaria, es aconsejable preparar estrategias de monitoreo y mantenimiento para ser

construidas sobre los modelos. La retroalimentacin generado por el monitoreo y
mantenimiento pueden indicar si el modelo est sien
Reporte Final: Es la conclusin del proyecto de minera de datos. Resume los
puntos importantes del proyecto, la experiencia ganada y explica los resultados
producidos.



Esta unidad se basa en el capitulo N
que comienza en la

I. Introduccin a la Unidad

Esta unidad aborda los conceptos bsicos relacionados a las tcnicas para la
exploracin, seleccin, limpieza y transformacin de los datos con el propsito de
obtener datos de calidad dado que el conocimiento que puede ser desc
depende directamente de
. .
II. Elementos de Competencia
Conocer los conceptos relacionados a repositorios de datos.
Emplear diferentes tcnicas para la limpieza y transformacin de los datos.
Aplicar diferentes tcnicas para la exploracin y seleccin de los datos.
Sensibilizar sobre la importancia de la preparacin de lo
fundamental para el xito de los proyectos de minera de datos
III. Esquema General

1. Definicin
Unidad II
construidas sobre los modelos. La retroalimentacin generado por el monitoreo y
mantenimiento pueden indicar si el modelo est siendo utilizado apropiadamente.
Es la conclusin del proyecto de minera de datos. Resume los
puntos importantes del proyecto, la experiencia ganada y explica los resultados
Esta unidad se basa en el capitulo N 3, 4 y 5 de la Parte II
que comienza en la pg. 43
Introduccin a la Unidad
aborda los conceptos bsicos relacionados a las tcnicas para la
exploracin, seleccin, limpieza y transformacin de los datos con el propsito de
de calidad dado que el conocimiento que puede ser desc
depende directamente del xito que se tenga en la preparacin de los datos
. .
Elementos de Competencia
onceptos relacionados a repositorios de datos.
Emplear diferentes tcnicas para la limpieza y transformacin de los datos.
Aplicar diferentes tcnicas para la exploracin y seleccin de los datos.
Sensibilizar sobre la importancia de la preparacin de los datos como fase
fundamental para el xito de los proyectos de minera de datos

Preparacin de los datos
28
construidas sobre los modelos. La retroalimentacin generado por el monitoreo y
do utilizado apropiadamente.
Es la conclusin del proyecto de minera de datos. Resume los
puntos importantes del proyecto, la experiencia ganada y explica los resultados

a Parte II del texto base
aborda los conceptos bsicos relacionados a las tcnicas para la
exploracin, seleccin, limpieza y transformacin de los datos con el propsito de
de calidad dado que el conocimiento que puede ser descubierto
n de los datos.
. .
onceptos relacionados a repositorios de datos.
Emplear diferentes tcnicas para la limpieza y transformacin de los datos.
Aplicar diferentes tcnicas para la exploracin y seleccin de los datos.
s datos como fase
fundamental para el xito de los proyectos de minera de datos
Preparacin de los datos

2. Importancia de la Preparacin de Datos
3. Repositorios de datos y vistas minables
Exploracin y Seleccin de datos
Limpieza y transformacin de da
IV. Desarrollo de los Contenidos
1. Definicin

La preparacin de datos engloba a todas aquellas tcnicas de anlisis de datos
que permite mejorar la calidad de un conjunto de datos de modo que las tcnicas
de extraccin de conocimiento/minera de datos pu
informacin (mejor porcentaje de clasificacin, reglas con ms completitud, entre
otros)


Realice la le
registro an
la etapa de preparaci

2. Importancia de la preparacin de los datos
El punto de partida del proceso de extraccin de conocimiento son los datos.
En general los datos reales pueden ser impuros, por los que pueden conducir a
la extraccin de conocimiento poco confiable til. stos datos se encuentran
almacenados en una Base de Datos, generalmente grande, en la que los datos
The fundamental
transforrm raw data
set can be exposed,
Importancia de la Preparacin de Datos
Repositorios de datos y vistas minables
Exploracin y Seleccin de datos
Limpieza y transformacin de datos
Desarrollo de los Contenidos
La preparacin de datos engloba a todas aquellas tcnicas de anlisis de datos
que permite mejorar la calidad de un conjunto de datos de modo que las tcnicas
de extraccin de conocimiento/minera de datos puedan obtener mayor y mejor
informacin (mejor porcentaje de clasificacin, reglas con ms completitud, entre
Realice la lectura de la pgina 66 del texto base y
necdtico referente a las actividades que se desarrollan en
la etapa de preparacin de los datos.
Importancia de la preparacin de los datos
El punto de partida del proceso de extraccin de conocimiento son los datos.
s reales pueden ser impuros, por los que pueden conducir a
la extraccin de conocimiento poco confiable til. stos datos se encuentran
almacenados en una Base de Datos, generalmente grande, en la que los datos
purpose of data preparation is to manipulate
data so that the information content enfolded
exposed, or made more easily accesible.
29

La preparacin de datos engloba a todas aquellas tcnicas de anlisis de datos
que permite mejorar la calidad de un conjunto de datos de modo que las tcnicas
edan obtener mayor y mejor
informacin (mejor porcentaje de clasificacin, reglas con ms completitud, entre
del texto base y agrega un
referente a las actividades que se desarrollan en
El punto de partida del proceso de extraccin de conocimiento son los datos.
s reales pueden ser impuros, por los que pueden conducir a
la extraccin de conocimiento poco confiable til. stos datos se encuentran
almacenados en una Base de Datos, generalmente grande, en la que los datos
manipulate and
enfolded in the data
D. Pyle, 1999
30

han sido generados y almacenados para propsitos diferentes del aprendizaje
de los mismos.
Se plantea entonces el problema de que la mayora de los algoritmos de
aprendizaje al ser aplicados sobre las Bases de Datos, se encuentran con
dificultades no previstas por los sistemas de aprendizaje tradicionales, puesto
que en el mundo real, las bases de datos suelen ser dinmicas, incompletas,
ruidosas y muy grandes (Frawley y otros (1991)) y gran parte del trabajo que se
realiza en la induccin de conocimiento en bases de datos trata de solucionar
estos problemas. Entre los inconvenientes que pudieran presentarse y que
deben resolverse en el desarrollo del proceso de extraccin de conocimiento
estn:
a) Datos incompletos: El manejo de datos incompletos en una base de
datos puede deberse a prdida de valores de algn atributo, o a la
ausencia del mismo en la vista que el sistema posee sobre los datos. El
impacto en los resultados depender de si el dato incompleto es
relevante o no para el objetivo del sistema de aprendizaje.
b) Ruido e incertidumbre: El ruido presente en los datos viene determinado
tanto por el tipo de valores de los atributos como por la exactitud en la
medida de dichos valores.
c) Tamao de la base de datos: El tamao de la base de datos suele ser
muy superior al del conjunto de entrenamiento de muchos sistemas de
aprendizaje, por ello, en las bases de datos muy grandes es inabordable
un anlisis completo de todos los datos y deben emplearse tcnicas
especficas que aceleren el aprendizaje sobre las mismas.
d) Datos Dinmicos: En la mayora de las bases de datos, los datos son
modificados de forma continua. Cuando el valor de los datos
almacenados es funcin del tiempo, el conocimiento inducido vara
segn el instante en que se obtenga, y por ello es deseable un sistema
que funcione de forma continua, en modo secuencial, para tener siempre
actualizado el conocimiento extrado.
31

Es por ello que el esfuerzo que consume la etapa de preparacin de datos se
encuentra alrededor del 80-90% del tiempo total del proceso de minera de
datos.
3. Repositorios de Datos y Vistas Minables.
Un repositorio de datos puede ser definido como un lugar centralizado donde se
almacenan datos provenientes de una base de datos de mltiples fuentes.

Una vista minable consiste en una vista en el sentido ms clsico de base de
datos: una tabla. La mayora de mtodos de minera de datos, como veremos,
son slo capaces de tratar una tabla en cada tarea. Por tanto, la vista minable ha
de recoger toda la informacin necesaria para realizar la tarea de minera de
datos.
La seleccin de datos relevantes es uno de los pre-procesamientos ms
importantes, ya que es trascendental que los datos utilizados sean relevantes y
tiles para la tarea de minera. La seleccin de datos puede ser horizontal (se

eligen instancias completas
vertical (seleccionar los atributos ms relevantes de las instancias en base a algn
criterio general o dependiente del problema particular)
Ejemplos que se pueden comentar son: eliminacin de distintas formas de
candidatas, eliminacin de
se pueden aplicar criterios particulares tales como, filtros de atributos para
algoritmos supervisados. Una vez seleccionados los datos, stos deben limpiarse
para garantizar la validez.


Realice
describen
complementa
encuentre en
Repositorios de datos y vistas minables



Esta unidad se basa en
base que comoienza en

I. Introduccin a la Unidad

Esta unidad tiene como
utilizadas en Minera de Datos
resolver.
II. Elementos de Competencia

Unidad III
instancias completas representativas del total de los datos disponibles)
vertical (seleccionar los atributos ms relevantes de las instancias en base a algn
criterio general o dependiente del problema particular)
Ejemplos que se pueden comentar son: eliminacin de distintas formas de
nacin de atributos dependientes. De acuerdo al tipo de modelo
se pueden aplicar criterios particulares tales como, filtros de atributos para
algoritmos supervisados. Una vez seleccionados los datos, stos deben limpiarse
ntizar la validez.
Realice una lectura comprensiva de los conceptos que se
describen en las pginas 43 a la 63 del texto base y
complementa esta actividad visualizando el
encuentre en la seccin recursos de la unidad denominado
Repositorios de datos y vistas minables
Esta unidad se basa en los capitulos N 6, 11 y 13 de la Parte III
que comoienza en la pg. 138
Introduccin a la Unidad
iene como propsito describir el funcionamiento
a de Datos , as como las tareas que cada t
Elementos de Competencia
Tcnicas de Minera de Datos
Unidad III
32
ivas del total de los datos disponibles)
vertical (seleccionar los atributos ms relevantes de las instancias en base a algn
Ejemplos que se pueden comentar son: eliminacin de distintas formas de claves
. De acuerdo al tipo de modelo
se pueden aplicar criterios particulares tales como, filtros de atributos para
algoritmos supervisados. Una vez seleccionados los datos, stos deben limpiarse
conceptos que se
del texto base y
esta actividad visualizando el video que se
ecursos de la unidad denominado:


de la Parte III del texto
funcionamiento de las tcnicas
como las tareas que cada tcnica pretende
Tcnicas de Minera de Datos
33

Determinar el tipo de tarea de minera.
Elegir el tipo de modelo.
Seleccionar el algoritmo de minera que resuelva la tarea y obtenga el
modelo.
Mostrar dominio a la hora de la aplicacin de una tcnica de minera de
datos.
Promover ambientes de trabajo colaborativo e interdisciplinarios para el
diseo y construccin de soluciones a los casos de estudio
III. Esquema General

1. Tareas de minera de datos predictivas y descriptivas
2. Tcnicas de minera de datos:
2.1. Arboles de decisin y sistemas de aprendizaje de reglas
2.2. Agrupamiento
2.3. Redes neuronales artificiales
IV. Desarrollo de los Contenidos
1. Tareas de Minera de Datos
Uno de los aspectos que se debe tener claro en el proceso de descubrimiento en
bases de datos es distinguir entre una tarea y un mtodo de minera de datos.

34





Sobre la base del esquema que aparece en la pgina anterior,
realiza una lectura comprensiva de las tareas de Minera de
Datos y al finalizar responde la Autoevaluacin que aparece en
las Actividades de Aprendizaje de la Unidad II denominada:
Sabes cul es la Tarea .


2. Tcnicas de Minera de Datos
Para dar una solucin a los problemas planteados en cada una de las tareas
estudiadas en el apartado anterior, se requiere de un conjunto de tcnicas,
mtodos algoritmos que proporcionen al menos una respuesta a los problemas
planteados.
El grfico que se muestra a continuacin muestra una lista de las tcnicas
disponibles en la actualidad y las tareas que pueden resolverse mediante ellas.
35



2.1. Tcnicas de Minera de Datos: rboles de Decisin y
sistemas de aprendizaje de reglas.
Consiste en la creacin de un modelo de clasificacin a partir de un conjunto
de entrenamiento y de un inductor. Los registros del conjunto de entrenamiento
deben pertenecer a un pequeo grupo de clases predefinidas, cada clase
corresponde a un valor de la etiqueta. El modelo inducido (clasificador)
consiste en una serie de patrones que son tiles para distinguir las clases.
Una vez que se ha inducido el modelo se puede utilizar para predecir
automticamente la clase de otros registros no clasificados (de etiqueta
desconocida). Es un mtodo para la aproximacin de funciones de valores
discretos, robusto frente a datos con ruido y capaz de aprender expresiones
disyuntivas. Existe una familia de algoritmos de rboles de decisin que incluye
los ampliamente utilizados: ID3, C4.5, y ASSISTANT
.
36



Realiza la actividad de aprendizaje sealada como: Modelos
de Aprendizaje, presionando el botn ARBOLES DE
DECISION.


2.2. Tcnicas de Minera de Datos: Agrupamiento.
Un algoritmo de agrupamiento es un procedimiento que pretende aglutinar una
serie de valores de acuerdo con un criterio de cercana a un valor dado de un
grupo de datos.. Esta cercana se define en trminos de una determinada
funcin de distancia, como la eucldea, entre otras. El propsito de estos
algoritmos es encontrar grupos de datos que son similares.
Para ello, se divide un conjunto de datos de modo que los registros con
contenido similar estn en el mismo grupo, y los grupos sean tan diferentes
entre s como sea posible. Puesto que las categoras no son especificadas a
priori, el agrupamiento es comnmente referenciado como aprendizaje no
supervisado.
Es considerada una tcnica de aprendizaje no supervisado, dado que busca
encontrar relaciones entre variables descriptivas, pero no la que guardan con
respecto a una variable objetivo.
.


Realiza la actividad de aprendizaje sealada como: Modelos de
Aprendizaje, presionando el botn AGRUPAMIENTO.

2.3. Tcnicas de Minera de Datos: Redes Neuronales
Artificiales.
Son modelos predictivos no lineales que aprenden directamente del
entrenamiento y re-ensamblan redes de neuronas biolgicas en su estructura.
37

Las redes neuronales incluidas dentro de los modelos conexionistas, son
sistemas formados por un conjunto de sencillos elementos llamadas neuronas
artificiales. Estas neuronas estn interconectadas a travs de unas conexiones
con unos pesos asociados, que representan el conocimiento en la red.
Proveen un mtodo prctico y general para el aprendizaje a partir de ejemplos
de funciones reales, discretas, entres otras. Cada neurona calcula la suma de
sus entradas, ponderadas por los pesos de las conexiones, le resta un valor de
umbral y le aplica una funcin no lineal; el resultado sirve de entrada a las
neuronas de la capa siguiente.
Uno de los algoritmos ms usado para entrenar redes neuronales es el de
Retropropagacin, que utiliza el gradiente descendente para ajustar los
parmetros de la red de forma que se ajusten mejor a los datos de
entrenamiento de entrada-salida. Es un mtodo iterativo para propagar los
trminos de error (diferencia entre los valores obtenidos y los valores
deseados), necesarios para modificar los pesos de las conexiones
interneuronales.
Este aprendizaje es robusto frente a la aparicin de errores en los datos de
entrenamiento. La red neuronal, completamente ignorante al principio,
efecta un aprendizaje partiendo de los ejemplos, para luego transformarse, a
travs de modificaciones sucesivas, en un modelo susceptible de rendir cuenta
del comportamiento observado en funcin de las variables descriptivas. La
construccin del modelo es automtica y directa desde los datos.
Las redes neuronales han sido utilizadas con xito en diferentes tipos de
problemas entre los que se pueden mencionar: Auto-asociacin, Clasificacin
de patrones, Deteccin de regularidades. Las principales desventajas para
usar redes neuronales en minera de datos son: el aprendizaje es bastante
ms lento que en un sistema de aprendizaje simblico, el conocimiento
obtenido por las mismas no es representable en forma de reglas inteligibles, es
difcil incorporar conocimiento de base o interaccin del usuario en el proceso
de aprendizaje de una red neuronal.


Revisa
en la secci
actividades de aprendizaje
Aprendizaje


Esta unidad se basa en el capitulo N
461

I. Introduccin a la Unidad

Esta unidad aborda la
conocimiento en bases de datos
el uso del conocimiento extra
decisiones.
II. Elementos de Competencia

Evaluar la calidad de un modelo a partir de la evidencia.
Establecer la validez de un modelo en funcin a su propsito.
Integrar los modelos obtenidos en la toma de decisiones.
Implementar soluciones a los casos de estudio

III. Esquema General

1. Tcnicas de Evaluacin
Unidad IV
Revisa el tutorial de redes neuronales artificiales
en la seccin Recursos de la Unidad y luego realiza las
actividades de aprendizaje sealada como
Aprendizaje, presionando el botn REDES NEURONALES
Esta unidad se basa en el capitulo N 17 de la Parte IV del texto base pg.
Introduccin a la Unidad
aborda la ltima etapa del proceso de descubrimiento
en bases de datos, la evaluacin del modelo obtenido, la difusi
el uso del conocimiento extrado y su vinculacin con el proceso de toma de
ntos de Competencia
Evaluar la calidad de un modelo a partir de la evidencia.
Establecer la validez de un modelo en funcin a su propsito.
Integrar los modelos obtenidos en la toma de decisiones.
Implementar soluciones a los casos de estudio

Tcnicas de Evaluacin
Evaluacin, difusin y uso de modelos
Unidad IV
38
tutorial de redes neuronales artificiales que aparece
y luego realiza las
como: Modelos de
REDES NEURONALES.

del texto base pg.
descubrimiento de
n del modelo obtenido, la difusin y
con el proceso de toma de
Establecer la validez de un modelo en funcin a su propsito.
Integrar los modelos obtenidos en la toma de decisiones.
Evaluacin, difusin y uso de modelos

You might also like