Professional Documents
Culture Documents
Minera de datos
La minera de datos (DM, Data Mining) consiste en la extraccin no trivial
de informacin que reside de manera implcita en los datos. Dicha
informacin era previamente desconocida y podr resultar til para algn
proceso. En otras palabras, la minera de datos prepara, sondea y explora
los datos para sacar la informacin oculta en ellos.
Bajo el nombre de minera de datos se engloba todo un conjunto de tcnicas
encaminadas a la extraccin de conocimiento procesable, implcito en las
bases de datos. Est fuertemente ligado con la supervisin de procesos
industriales ya que resulta muy til para aprovechar los datos almacenados
en las bases de datos.
Las bases de la minera de datos se encuentran en la inteligencia artificial y
en el anlisis estadstico. Mediante los modelos extrados utilizando
tcnicas de minera de datos se aborda la solucin a problemas de
prediccin, clasificacin y segmentacin.
Un proceso tpico de minera de datos consta de los siguientes pasos
generales:
1. Seleccin del conjunto de datos, tanto en lo que se refiere a las
variables objetivo (aquellas que se quiere predecir, calcular o inferir),
como a las variables dependientes (las que sirven para hacer el clculo
o proceso), como posiblemente al muestreo de los registros
disponibles.
2. Anlisis de las propiedades de los datos, en especial los histogramas,
diagramas de dispersin, presencia de valores atpicos y ausencia de
datos (valores nulos).
3. Transformacin del conjunto de datos de entrada, se realizar de
diversas formas en funcin del anlisis previo, con el objetivo de
La relacin entre todas estas fases slo es lineal sobre el papel. En realidad,
es mucho ms compleja y esconde toda una jerarqua de subfases. A travs
de la experiencia acumulada en proyectos de minera de datos se han ido
desarrollando metodologas que permiten gestionar esta complejidad de una
manera ms o menos uniforme.
Tcnicas de minera de datos
Como ya se ha comentado, las tcnicas de la minera de datos provienen de
la Inteligencia artificial y de la estadstica, dichas tcnicas, no son ms que
algoritmos, ms o menos sofisticados que se aplican sobre un conjunto de
datos para obtener unos resultados.
Las tcnicas ms representativas son:
El Perceptrn multicapa.
Algoritmo ID3.
Algoritmo C4.5.
Algoritmo K-means.
Algoritmo K-medoids.