You are on page 1of 4

CAPTULO 1

Introduccin

Las siguientes notas de clase pretenden introducir el amplio y complejo mundo


de la minera de datos en sus componentes iniciales. As, el primer objetivo es sin
duda poder responder a la pregunta de qu es la minera de datos. Este nuevo concepto surge del paralelismo de la diferencia entre datos e informacin, esto es, se
puede disponer de un montn de datos pero si no se procesan adecuadamente no se
dispondr de informacin para su futura utilziacin.
Es entonces donde nace la minera de datos, que se puede definir como un conjunto
de tcnicas o de procesos para convertir la gran cantidad de datos que se disponen
hoy en da en informacin til y procesada para su posterior utilizacin en la toma
de decisiones.
Sin embargo, existen tradicionalmente dos formas de procesar los datos para su
conversin en informacin o conocimiento:
Manual. El especialista en un campo analiza los datos de tal modo que extrae
conclusiones en base a su experiencia o a conocimiento terico. Este modo es
lento costoso, y lo ms importante, altamente subjetivo. Adems es necesario
tener en cuenta que ho en da se dispone de una gran cantidad de datos de
numerosas fuentes electrnicas por lo que este tipo de anlisis o bien no se
puede realizar, o bien se realiza sobre un subconjunto de los datos por lo que
la toma de decisiones no se realiza con toda la informacin.
Automtico. Es este mtodo automtico el objeto de estudio de esta asignatura
ya que se abordan una serie de tcncias que son independientes del volumen
de datos, y en todo caso seleccionan un subconjunto de un modo terico al
margen de la subjetividad del experto que est realizando el anlisis.
Por tanto, Witthen y Frank en el 2000 definen la minera de datos como el proceso
5

Introduccin

de extraer conocimento til y comprensible, previamente desconocido, desde grandes


cantidades de datos almacnados en distintos formatos. Es decir, la tarea fundamental
de la minera de datos es encontrar modelos inteligibles a partir de los datos. A partir
del libro Introduccin a la Minera de Datos de J. Orallo, M.J. Ramrez y C. Ferri
podemos extraer una serie de ejemplos para motivar los captulos posteriores.
1. Anlisis de datos bancarios. Supongamos que un banco desea predecir qu
personas de las que solicitan un crdito despus no lo devuelven. Para ello, slo
dispone de una serie de datos de crditos concedidos anteriormente y datos de
carcter ms personal como propiedades, salarios, etc...
Duracin
15
2
9
10
...

Cantidad
60.000
30.000
9.000
24.000
...

Salario
2.200
3.500
1.700
2.100
...

Casa
SI
SI
SI
NO
...

Cuentas Morosas
2
0
1
0
...

Devuelve
NO
SI
NO
NO
...

...
...
...
...
...
...

En base a los datos mostrados se puede establecer reglas de carcter automtico que permitiese excluir o no a determinados clientes futuros de un modo
automtico como por ejemplo:
SI Cuentas Morosas >0 ENTONCES Devuelve = NO
SI Cuentas Morosas = 0 Y ((Salario >2.500) O (Duracin >10))
ENTONCES Devuelve = SI
2. Anlisis de la cesta de la compra.Se supone ahora que un supermercado quiere obtener la mxima informacin sobre la cesta de la compra de sus
clientes. Se dispone de la siguiente informacin:
Huevos
SI
NO
NO
NO
...

Aceite
NO
NO
NO
NO
...

Paales
SI
NO
SI
NO
...

Vino
SI
SI
SI
NO
...

Leche
NO
NO
SI
NO
...

Mantequilla
NO
SI
NO
SI
...

...
...
...
...
...
...

Analizando las frecuencias cruzadas se podra saber cuntas veces se compra


Vino si se compra huevos y aceite por ejemplo. El anlisis de las asociaciones,
correlaciones, entre las diferentes variable proporciona una informacin altamente valiosa para la correcta colocacin de los productos en un supermercado
favoreciendo as el paso de los clientes por aquellos productos que tengan menor
venta.

Knowledge Discovery in Databases (KDD)

3. Determinacin de grupos de empleados. En este ejmplo supongamos que


somos el equipo de recursos humanos de una emrpesa y que deseamos categorizar a los empleados en distintos grupos con el objetivo de entender mejor su
comportamiento y tratarlos de manera adecuada. Se dispone de los siguientes
datos:
Sueldo
1.000
2.000
1.500
3.000
1.000
4.000
2.500
...

Casado
SI
NO
SI
SI
SI
NO
NO
...

Coche
NO
SI
SI
SI
SI
SI
NO
...

Hijos
0
1
2
1
0
0
0
...

Alq/Hip
ALQ
ALQ
PROP
ALQ
PROP
ALQ
ALQ
...

Sindicado
NO
SI
SI
NO
SI
SI
SI
...

Bajas
7
3
5
15
1
3
0
...

Ant
15
3
10
7
6
16
8
...

Sexo
H
M
H
M
H
M
H
...

Mediante tcnicas de minera de datos se podra establecer de un modo automtico tres grupos bien diferenciados del siguiente modo:
Grupo 1. Sin hijos y con vivienda de alquiler. Poco Sindicados y muchas
bajas.
Grupo 2. Sin hijos y con coche. Muy sindicados y normalmente son mujeres
con casas de alquiler y no cogen muchas bajas.
Grupo 3. Con hijos, casados y con coche. Mayoritariamente hombres propietarios de su vivienda.
La minera de datos dispone de dos tipos de modelos fundamentalmente:
Predictivos. Aquellos modelos que a partir de un conjunto de datos son capaces de establecer una prediccin en alguna de las variables para cuando venga
una instancia futura el propio modelo prediga qu va a suceder. Tpicamente
son los modelos que resuelven los problemas de clasificacin y regresin.
Descriptivos. Son modelos que describen el conjunto de datos estableciendo
ciertas reglas entre las variables o conclusiones de inters. En este tipo de
modelos se encuentran el agrupamiento, las reglas de asociacin y el anlisis
correlacional por ejemplo.

1.1. KNOWLEDGE DISCOVERY IN DATABASES (KDD)


Uno de los trminos que ms se asocian a la minera de datos es la extraccin o
descubrimiento de conocimiento en base de datos, es decir, Knowledge Discovery

Introduccin

DATOS

Asociacin
Limpieza

PREPROCESO

Minera de
datos

Patrones

PROCESO

Interpretacin
Visualizacin

INFORMACIN
CONOCIMIENTO

POSPROCESO

KDD
Figura 1.1: Flujo del proceso de transicin de los datos a la informacin o conocimiento

in Databases (KDD). As, Fayyad et al. en 1996 define KDD como el proceso no
trivial de identificar patrones vlidos, novedosos, potencialemnte tiles y, en ltima
instancia, comprensibles a partir de los datos. Ese conocimiento que se extrae de los
daos es necesario que cumpla ciertas caractersticas o por lo menos es deseable:
Vlido. Los patrones deben seguir siendo precisos para datos nuevos (test) y
no slo para los que han sido usados para el modelo (train)
Novedoso. Nuevas aportaciones para el modelo y sobre todo para el usuario.
Potencielmante til. En la lnea de lo anterior, la informacin debe aportar
algo al usuario.
Comprensible. Los patrones deben ser perfectamente comprensibles para el
usuario.

En la figura 1.1 se puede observar de un modo esquemtico el proceso de transformacin de datos en conocimiento, y qu papel juega el KDD en sus tres fases:
1. Preproceso. Preparacin y limpieza de los datos.
2. Proceso. Implementacin del conjunto de tcnicas y modelos e minera de datos
que se vayan a utilizar.
3. Posproceso. Extraccin de las caractersticas, visualizacin de los modelos e
interpretacin de los resultados obtenidos.

You might also like