You are on page 1of 5

aprenderaprogramar.

com
 

Minería de datos (data 
mining). Qué es y para qué 
sirve. (2ª parte) (DV00106A) 
Sección: Divulgación                                      
Categoría: Tendencias en programación                                          
Fecha última actualización: 2011 

Autor: César Krall 

Resumen:  Este  artículo  explica  cuestiones  básicas  sobre  la  minería  de  datos 
(data  mining),  desde  varios  puntos  de  vista  (utilidad  empresarial,  campo  para 
emprendedores  y  campo  de  investigación).  Resume  y  comenta  una  conferencia 
impartida  por  José  C.  Riquelme  (Profesor  de  la  Universidad  de  Sevilla)  en  la 
Escuela de Ingeniería Informática de la Universidad de Sevilla. 

11
Minería de datos (data mining). Qué es y para qué sirve. 2ª parte 

¿QUÉ ES UN MODELO DE MINERÍA DE DATOS? 

La minería de datos se aplica a todo tipo de datos imaginable: desde datos numéricos a imágenes de
satélite, mamografías, música, archivos de ordenador, imágenes, etc. Podemos decir que “cualquier
cosa” constituye un dato. Por tanto la minería de datos tiene infinitas aplicaciones: comerciales,
marketing, industria, internet, agricultura, etc.

Con miles de datos, necesitamos limpiarlos (eliminar fragmentos inútiles, repetidos, etc.) y organizarlos,
y una vez realizado este proceso decimos que tenemos “Información”.

La información hay que tratarla con un modelo para obtener resultados o conclusiones a los que
llamamos “Conocimiento”. Es decir, el conocimiento es información analizada. Para este análisis hay
diferentes modelos de minería de datos. Digamos que un modelo es una forma de aplicar un
tratamiento a una cantidad masiva de datos para extraer información de ellos. Podemos citar por
ejemplo dos de ellos:

a) Modelo de red neuronal: en una red neuronal tendríamos múltiples nodos que constituyen
puntos de entrada de los datos. Esos datos son agrupados y sometidos a un tratamiento
mediante un algoritmo que da lugar a que se obtengan unos resultados.

De las redes neuronales suele decirse que son cajas negras, porque el proceso de tratamiento de los
datos hasta obtener el resultado no siempre sigue unas pautas lógicas o comprensibles por el ser
humano. Sin embargo, su interés radicaría en que son herramientas útiles para realizar predicciones,
por lo que son usadas en numerosas aplicaciones.

b) Modelo de árbol de decisión: se trata de la aplicación del conocido procedimiento del “divide y
vencerás”. Sobre los datos, se van realizando sucesivas bifurcaciones hasta llegar a un
resultado. Sigue unas pautas lógicas, por lo que se dice que es una “caja blanca”, o proceso
comprensible por el ser humano. A modo de anécdota, podemos citar un juego web
denominado “Akinator el genio adivino”. El juego consiste en que pensamos en un personaje y
el sistema nos va haciendo una serie de preguntas: por ejemplo, si es hombre o mujer. Con esta
pregunta, se descartan aproximadamente el 50 % de los items en la base de datos. A
continuación nos puede preguntar si es un personaje vivo, con lo cual descarta otro porcentaje
significativo. En base a bifurcaciones, se llega finalmente al personaje en la base de datos que
corresponde con el que habíamos pensado y se produce la “adivinación”.

©aprenderaprogramar.com, 2006-2011
Minería de datos (data miining). Qué es yy para qué sirve
e. 2ª parte 

Sí No
o
C
C1

C2 C4
Sí N
No Sí No

 
C4 C2
2 C3
Síí No Sí No Sí No
 

 
Resulttado A Ressultado B R
Resultado C Resultado D Resultado E Resultad
do F Resulta
ado G
 

¿CÓMO EESCOGER UN
N MODELO D
DE MINERÍA D
DE DATOS?

No hay unu modelo óptimo


ó de trratamiento de datos. Por tanto, el modelo a eelegir depen nde de las
circunstan
ncias y neceesidades. Faactores a teener en cuenta son la efectividad del modelo o para dar
resultados de calidad,, y el si resultta necesario o no que sea comprensiible para el sser humano.

En el casso de escogger una red d neuronal, las operacciones que se aplican a los datoss hay que
determinaarlas. ¿Cómoo se hace essto? Digamoos que “entre enando” a laa red neuronnal (a esto se
s le llama
machine learning
l o ap
prendizaje au ón de forma que dados
utomático) a través de algoritmos dee optimizació
unos datoos de entradda, vamos in nformando al
a sistema ded si el resultado es más o menos bueno. En
sucesivas iteraciones,, el sistema puede alcaanzar un graado de perfeccionamien nto adecuaddo para su
explotació
ón comercial.

LAS BASES DE DATOSS Y LA MINER
RÍA DE DATO
OS 

Las bases de datos haan sido sin du


uda una herrramienta fun
ndamental que ha permiitido la evolu
ución de la
ciencia dee la minería de datos. De
D hecho, a veces se usa el términ no “KDD (Kn
nowledge Discovery in
Databases o Descubrimiento de Conocimiento
C o en Bases de
e Datos) com
mo sinónimo de minería de
d datos.

Las bases de datos pu


uede decirsee que son una de las tress patas en qu
ue se apoya la minería de
d datos, y
que son: 1.
1 Bases de datos
d 2. Estadística y 3. Algoritmia
A

Bases de
d Esstadística
datoss
Algoritmia

Min
nería de daatos
 

©aprenderaaprogramar.com
m, 2006-2011
Minería de datos (data miining). Qué es yy para qué sirve
e. 2ª parte 

VISUAL DATA MINING
G O MINERÍA
A DE DATOS VISUAL 

Una apliccación curiossa de la minnería de dattos es obten ner imágenees representativas para realizar el
análisis dee datos. Esto
o permite mo
ostrar lo quee ocurre con miles de dattos de forma gráfica.

GRAN HERMANO (BIG
G BROTHER)) Y LA MINER
RÍA DE DATO
OS 

La evolución de la infoormática y de
d las bases de
d datos perrmiten el alm macenamiento masivo de e datos de
una maneera que hacee unos añoss hubiera sid do inimaginable. Esto ha hecho posible el desarrollo de la
telefonía móvil (¿Hass pensado cuántos
c dato
os maneja una u compañíía de telefonía móvil que a cada
usuario envía
e una caarta con sus datos persoonales y los datos de laas llamadas realizadas incluyendo
número lllamado, duración de la llamada,
l tariifa, etc.?) o de los buscaadores de intternet (al fin
n y al cabo
google naació y basa buena parte de
d su negocioo en la minería de datos)).

Las grand
des tecnológgicas como Oracle
O o Microsoft (conn SQLServer)) tienen herrramientas para
p hacer
minería de datos. Tam
mbién hay heerramientas para la mine
ería de datos en el ámbito
o del software libre.

Ahora bieen, esta exttraordinaria capacidad tiene


t obviam
mente un peligro,
p que es como el Gran
porq
Hermano descrito po or George Orwell
O en su
u novela “19 984”. Una fo orma de ten ner “interve
enidas” las
comunicaaciones y pennsamientos ded las personnas. Digamoss que la mineería de datoss permite saberlo todo
(o casi tod
do): ¿Qué música
m q se hablaa? ¿Qué preffiere la gentee? ¿Qué preocupa a la
se esccucha? ¿De qué
gente? Si esto te pareece exageraddo, piensa en la cantidad
d de datos que
q almacena FaceBook.. Las redes
sociales tienen una componente
c orque permiten saber to
peligrosa po odo lo que hace, le gussta o no le
gusta a la gente.

Y aún más, pueden utilizarse paraa tratar de ir contra sup


puestos enem migos como “terroristas””. A través
de mineríía de datos, podría tratar de establecerse si un usuario
u de FaaceBook es u
un potenciall terrorista
evaluandoo si respondee al patrón de
d terrorista..

CONCLUSSIONES Y ALG
GO SOBRE ELL FUTURO DE LA MINERÍÍA DE DATOSS 

La mineríaa de datos es algo más allá de la estaadística tradiicional (cálcu


ulo de mediaas, análisis de
e varianza,
etc.). Mieentras que enn Estados Un nidos su saniidad usa ya técnicas
t de minería
m de datos, en la mayoría
m de
los paísess los sistemaas sanitarios se apoyan aún
a en la esstadística traadicional de principios de e siglo XX.

©aprenderaaprogramar.com
m, 2006-2011
Minería de datos (data mining). Qué es y para qué sirve. 2ª parte 

Esto obviamente irá cambiando, y es un ejemplo del enorme potencial que adquirirá la data mining en
los años venideros.

También hay frenos al desarrollo del data mining. En muchos casos las empresas son muy celosas de
sus datos y resultados en minería de datos. Por eso es frecuente que rechazen colaborar o contratar
trabajos de minería de datos con las universidades porque tienen auténtico pánico a que la
competencia pueda hacerse con sus datos.

Como conclusión, podría decirse que la minería de datos está en pleno auge y aún mucha gente no es
consciente de la importancia que tiene. Su avance se constata, por ejemplo, en las ofertas de empleo,
donde cada vez con mayor frecuencia aparecen términos como “Análisis de datos”, “CRM”, “Data
Mining”, “Clustering”, etc.  

REFERENCIAS Y MÁS INFORMACIÓN 

Este artículo resume y comenta la conferencia pública impartida por José C. Riquelme, profesor de la
Universidad de Sevilla, en el marco de las “V Jornadas Imaginática: La informática del futuro”
(celebradas en marzo de 2009), que tuvieron lugar en la Escuela Técnica Superior de Informática de la
Universidad de Sevilla (España) y a las que tuvimos la oportunidad de asistir.

©aprenderaprogramar.com, 2006-2011

You might also like