You are on page 1of 22

Preprocesamiento

de datos estructurados
Structured Data Preprocessing
*
Claudia L. Hernández G.

**
Jorge E. Rodríguez R.

Fecha de recepción: 13 de marzo de 2008


Fecha de aceptación: 20 de abril de 2008

Resumen

El propósito del preprocesamiento de datos es principalmente corregir las incon-


sistencias de los datos que serán la base de análisis en procesos
de minería de datos. En el caso de las fuentes de datos estruc-
turadas, el propósito no es distinto y pueden ser aplicadas di-
versas técnicas estadísticas y de aprendizaje computacional.
Con el preprocesamiento de datos se pretende que los datos
que van a ser utilizados en tareas de análisis o descubrimiento
de conocimiento conserven su coherencia. A lo largo del pre-
sente artículo, se realizará la descripción de diferentes técni-
cas existentes junto con algunos algoritmos asociados a tareas
destacadas de preprocesamiento de datos estructurados como
limpieza y transformación. Luego, se hace una revisión de al-
gunos algoritmos asociados a las técnicas utilizadas con más
frecuencia, lo cual podrá permitir la comparación de su efecti-
vidad dependiendo del conjunto de datos utilizado, en trabajos
futuros.

Palabras clave: preprocesamiento, discretización, minería


OLAP, normalización, limpieza, integración, transformación,
reducción de la dimensionalidad.

* Ingeniera de Sistemas. Candidata a Magíster en Ciencias de la Computación y las Comunicaciones, Universidad Dis-
trital Francisco José de Caldas. Correo electrónico: clhernandez@gmail.com

** Ingeniero de Sistemas. Especialista en Telemática. Especialista en Ingeniería de Software. Magíster en Ingeniería de


Sistemas. Docente de la Universidad Distrital Francisco José de Caldas. Correo electrónico: jrodri@udistrital.edu.co 27
27

VINCULOS 8 Book 1.indb 27 04/09/2009 02:50:07 p.m.


I + D I N V E S T I G A C I Ó N Y D E S A R R O L L O

Abstract

The purpose of data preprocessing is mostly correct the inconsis-


tencies in the data analysis will be based on processes of data mi-
ning. For structured data sources, the purpose is not different and
can be applied several statistical techniques and machine learning.
Really wanted the data to be used in analysis tasks or knowledge
discovery, are very close to reality and keep their consistency. In
this paper, we will be description about data difficulties, different
techniques with some existing algorithms outstanding tasks asso-
ciated with data preprocessing such as data cleaning and transfor-
mation. Next is to review in detail the algorithms associated with
the techniques used most frequently.

Key words: data preprocessing, discretization, OLAP data mining,


normalization, cleaning, integration, transformation, attribute
selection.

1. Introducción visualizar los grandes volúmenes de datos


almacenados en un data warehouse y a tra-
La gran cantidad de datos que actualmen- vés de diferentes operaciones es posible ana-
te manejan las organizaciones ha generado lizar los datos y convertirlos en soporte para
la necesidad de tener sistemas en los cuales la toma de decisiones.
confluya toda la información que es recopi-
lada en fuentes de datos estructuradas como El objetivo principal de cualquier análisis de
las bases de datos transaccionales. datos, antes que el descubrimiento de cono-
cimiento, es utilizar los resultados para resol-
En estas condiciones, la implementación de ver problemas o para la toma de decisiones.
data warehouse y aplicaciones con tecnolo- En la mayoría de los casos, las imperfeccio-
gía OLAP (Procesamiento Analítico en Línea) nes con los datos sólo son notadas cuando
se ha incrementado, para lo cual es necesario se inicia el análisis de los datos. Para dismi-
establecer procesos que permitan agilizar la nuir tiempo y costos es importante preparar
creación y actualización de sistemas de este los datos para dicho análisis; en esta línea, ya
estilo. Diversos factores están haciendo que existen diversas técnicas que están orienta-
las organizaciones dirijan la mirada a la tec- das a apoyar el proceso de minería de datos.
nología OLAP como alternativa para el ma- Sin embargo, recientemente se han estudia-
nejo de los datos estructurados orientados al do mecanismos alternos que aplican de ma-
apoyo de la toma de decisiones, y más aún nera apropiada al modelo OLAP.
cuando Internet está promoviendo formas
diferentes en que las compañías acceden y En este artículo se presenta una visión gene-
extraen información. La calidad de los datos ral de la teoría y algunas las técnicas utiliza-
juega un papel muy importante, ya que este das en el preprocesamiento de datos, y cómo
2828 tipo de aplicaciones permiten básicamente se están abordando con la tecnología OLAP,

PREPROCESAMIENTO DE DATOS ESTRUCTURADOS

VINCULOS 8 Book 1.indb 28 04/09/2009 02:50:07 p.m.


V Í N C U L O S
J U N I O D E 2 0 0 8
VOLUMEN 4 NÚMERO 2

a la vez que se revisan trabajos realizados en significativo en el desempeño general de


este campo y que aplican, en primera instan- los algoritmos de aprendizaje supervisado.
cia y específicamente para OLAP. El artícu- Aplicar algunas técnicas de preprocesamien-
lo está estructurado en tres secciones: en la to permite que los algoritmos de aprendizaje
primera, se hace una descripción de ciertas sean más eficientes, por ejemplo, si se reduce
causas por las cuales los datos se deben so- la dimensionalidad, los algoritmos de apren-
meter al preprocesamiento y técnicas asocia- dizaje podrían actuar de forma más rápida y
das, en la segunda sección, se aborda la des- su efectividad podría mejorar [14].
cripción general de las aplicaciones OLAP y
cómo se relacionan con el preprocesamien- A continuación, se describen algunos de los
to, técnicas empleadas y trabajos relaciona- problemas más frecuentes con los cuales se
dos, la última sección, presenta las conclusio- puede enfrentar un equipo de trabajo en el
nes de esta parte preliminar de verificación momento de realizar un proceso de análisis
del estado del arte en el marco de una inves- de datos. Luego, se describen las tareas de
tigación futura en relación con la compara- preprocesamiento y las técnicas más común-
ción de eficiencia de las técnicas utilizadas en mente utilizadas en la solución de los incon-
el preprocesamiento de datos y sus posibles venientes con los datos.
usos en tecnología OLAP.
2.1 Problemas con los datos
2. Preprocesamiento de datos
En muchas ocasiones, la naturaleza y sever-
El preprocesamiento es una tarea necesaria idad de los problemas dependen del control
para la preparación de los datos que serán uti- de los operarios humanos de las aplicaciones
lizados para data warehouse o en análisis de que nutren las fuentes originales de datos.
datos. La justificación de este proceso prelimi- Debido a los efectos de estos problemas en
nar al análisis de datos, generalmente, radica los resultados del análisis de datos, se ha es-
en que los datos vienen con ruido por diferen- tablecido como meta rectificarlos o en el peor
tes razones, entre las cuales se encuentran [12]: de los casos sólo reconocer los efectos que ex-
isten sobre los resultados [9][12].
x Datos incompletos: valores faltantes para
algunos atributos o sólo se tienen los datos 2.1.1 Datos con ruido
agregados y no se cuenta con el detalle.
x Ruido: errores en los datos. Por ejemplo, El ruido en los datos puede estar atribuido a
manejar valores negativos para un atri- errores en la medida, transmisión de datos,
buto que maneja salarios. características inherentes a los sistemas de
x Inconsistencias: contiene discrepancias los cuales se obtienen los datos, etc. [9].
en los datos. Por ejemplo, edad de un
empleado = 30 y fecha de nacimiento = 2.1.2 Extracción de atributos
03/07/1998.
En aplicaciones de análisis complejo puede
Los algoritmos de aprendizaje computacio- existir la posibilidad de que en el momento
nal (machine learning) suelen ser empleados de registrar la información haya datos que
para llevar a cabo ciertas tareas en el proceso no fueron incluidos, simplemente porque no
de análisis de datos. Con frecuencia, el pre- fueron considerados importantes durante el
procesamiento de los datos tiene un impacto registro [9]. 29
29

CLAUDIA L. HERNÁNDEZ G. - JORGE E. RODRÍGUEZ R.

VINCULOS 8 Book 1.indb 29 04/09/2009 02:50:07 p.m.


I + D I N V E S T I G A C I Ó N Y D E S A R R O L L O

2.1.3 Datos irrelevantes 2.1.6 Atributos faltantes

Muchas aplicaciones de análisis requieren Atributos faltantes o insuficientes son ejem-


extracción de datos significativos, a partir plos de problemas de datos que pueden
de un conjunto de datos. Cuando los huma- complicar las tareas de análisis de datos.
nos realizan un proceso similar, ellos selec- Por ejemplo, en el caso del aprendizaje, es-
cionan los datos relevantes enfocándose en tos datos insuficientes limitan el algoritmo
las piezas clave de la información y algunas de aprendizaje o las herramientas estadísti-
veces utilizan el resto sólo para confirmar o cas para recolectar los datos [9][12].
aclarar ambigüedades. La complejidad pue-
de ser reducida si los datos irrelevantes son 2.1.7 Valores de atributos faltantes
eliminados y sólo la mayoría de los atributos
relevantes son utilizados para el análisis de En este caso, los datos asociados a los regis-
los datos. La reducción de dimensionalidad, a tros no están completos, algunos contienen
través de la eliminación de valores irrelevan- valores faltantes para los atributos. Estos re-
tes, puede también mejorar el rendimiento de gistros no pueden ser eliminados, porque la
la herramienta de análisis de datos [9][12]. cantidad de datos podría no ser suficiente y
porque los datos remanentes podrían conte-
2.1.4 Volúmenes de datos ner información útil para el análisis. Tradi-
demasiado grandes cionalmente si más del 20% de los valores de
los atributos son faltantes, el registro entero
La cantidad de datos algunas veces excede puede ser eliminado [9][12].
la capacidad disponible de hardware y soft-
ware usado para el análisis. El volumen de 2.1.8 Poca cantidad de datos
datos y la rata a la cual son producidos pue-
de ser un factor limitante en el análisis de da- En este caso, todos los atributos están dispo-
tos [9]. nibles; el principal problema es que la canti-
dad total de datos no es suficiente para todas
2.1.5 Datos numéricos y simbólicos las clases de análisis de datos. Por ejemplo,
la mayoría de algoritmos de análisis de da-
Cuando los datos están organizados para el tos requieren cerca de 100 ejemplos de datos
análisis, generalmente se tienen datos numé- de entrenamiento. Los conceptos aprendidos
ricos que resultan de parámetros medidos, o reglas pueden no ser suficientes si los ejem-
los cuales pueden ser representados por un plos disponibles no son suficientes [9].
número y en este caso los datos pueden ser
discretos o numéricos. Los datos simbólicos 2.1.9 Múltiples fuentes de datos
o categóricos resultan de procesos de medi-
ción o características de sistema; esta clase de En la mayoría de los casos los datos son ad-
datos es usualmente cualitativa. Analizar da- quiridos y mantenidos usando diferentes sis-
tos que involucran parámetros simbólicos y temas de software, en este caso es cuando se
numéricos es una tarea compleja que requie- presentan inconvenientes con la unificación
re atención durante el preprocesamiento de de los datos debido a que el análisis de da-
datos y uso apropiado de herramientas de tos se realiza a partir de varias fuentes de da-
análisis de datos [9]. tos [9][12].
3030
PREPROCESAMIENTO DE DATOS ESTRUCTURADOS

VINCULOS 8 Book 1.indb 30 04/09/2009 02:50:08 p.m.


V Í N C U L O S
J U N I O D E 2 0 0 8
VOLUMEN 4 NÚMERO 2

2.1.10 Datos desde múltiples niveles mucho más eficaz. La figura 1 resume las ta-
de granularidad reas de preprocesamiento que se describen a
continuación.
En algunas aplicaciones los datos provienen
de más de un nivel de granularidad, lo cual 2.2.1 Limpieza de datos [12][1]
haría difícil la comparación y el análisis de
los datos [12]. Esta tarea consiste en llenar los valores fal-
tantes, suavizar los datos erróneos, identi-
2.2 Tareas de preprocesamiento ficar o remover los datos inconsistentes. La
importancia de la limpieza de los datos es re-
Los datos reales tienden a tener ruido, ser in- conocida en diversa literatura como una de
completos e inconsistentes. Las tareas y téc- las tareas más importantes y exhaustiva del
nicas de preprocesamiento de datos pueden preprocesamiento. “La limpieza de datos es
mejorar la calidad de los datos, ayudando a uno de los tres problemas más grandes del
mejorar la precisión y eficiencia de los proce- data warehousing” – Ralph Kimball.
sos de análisis de datos, de ahí que el prepro-
cesamiento de datos se convierta en un paso 2.2.2 Integración de datos
preliminar importante. Detectando anoma-
lías, corrigiéndolas a tiempo y reducien- Combina datos desde múltiples fuentes y
do los datos que serán analizados se puede maneja la integración de esquemas de datos
ayudar para que la toma de decisiones sea a través de la combinación de los metadatos.

Limpieza de datos

Figura 1. Tareas
Integración de datos de preprocesamiento
de datos [12]

Transformación de datos

Reducción de datos

31
31

CLAUDIA L. HERNÁNDEZ G. - JORGE E. RODRÍGUEZ R.

VINCULOS 8 Book 1.indb 31 04/09/2009 02:50:08 p.m.


I + D I N V E S T I G A C I Ó N Y D E S A R R O L L O

Se pueden presentar problema en la identifi- 2.3.4 Reducción de datos


cación de las entidades y los atributos para
establecer las relaciones o los mapeos corres- Obtener representación reducida en volu-
pondientes. Otro de los inconvenientes que men, pero produciendo los mismos resulta-
se experimentan en esta fase del proceso, es dos o similares en el análisis [7]. La discreti-
la detección y solución de los valores en con- zación es una parte de la reducción de datos,
flicto, ya que atributos de diferentes fuentes pero con importancia particular, especial-
de datos pueden significar lo mismo, pero mente para datos numéricos [7].
denominarse diferente o llamarse igual y te-
ner un significado completamente distinto. 2.3 Técnicas para
Las razones por las cuales se presentan estas preprocesamiento
discrepancias en los datos aluden a diferen-
tes representaciones, diferentes escalas, entre 2.3.1 Limpieza de datos [12][1]
otras. Es por esto que la redundancia de da-
tos es frecuente cuando se deben integrar los Las tareas de limpieza de datos involucran
datos de varias fuentes de datos. llenado de los datos faltantes, suavizar los
errores de los datos, corregir los datos incon-
sistentes y resolver la redundancia causada
2.2.3 Transformación de datos[12] por la integración de los datos. Los datos no
siempre están disponibles, esto debido a di-
La transformación de datos involucra lo ferentes causas como mal funcionamiento de
siguiente: los equipos, inconsistencia con otros registros
de datos que son borrados, datos no ingresa-
• Normalización: donde los atributos son dos; debido al no entendimiento, ciertos datos
escalados dentro de un rango pequeño de pueden no ser considerados importantes en el
valores como entre -1 y 1 o entre 0 y 1. momento del registro, no registrar historia o
• Suavizado: el cual es utilizado para re- cambios de los datos. Otros problemas de da-
mover el ruido de los datos. tos que requieren limpieza se refieren a regis-
• Agregación: donde las operaciones de tros duplicados o datos incompletos.
síntesis o agregación son aplicadas a los
datos. Por ejemplo, las ventas diarias Así, para el manejo de detección de valores
pueden ser agregadas en ventas mensua- anómalos existen algunas técnicas como el al-
les o ventas anuales. goritmo de agrupación jerárquica (CURE-Clus-
• Generalización: los datos de bajo nivel o tering Using Representatives) y el algoritmo
primitivos son reemplazados por concep- DBSCAN, ambos basados en clustering, pero
tos de más alto nivel, haciendo uso del cada uno manejándolo de forma diferente.
concepto de jerarquía. Por ejemplo, para
atributos categóricos como el caso de ca- Las opciones que se tienen en el manejo de
lles puede ser generalizado al concepto de los datos faltantes son:
nivel más alto como ciudad. De forma si-
milar, con los atributos numéricos como x Ignorar la tupla: usualmente, se hace cuan-
la edad puede establecerse corresponden- do falta la etiqueta de la clase, no es efecti-
cia con conceptos de nivel superior como va cuando el porcentaje de valores faltan-
joven, adulto, anciano. tes por atributo varía considerablemente.
3232
PREPROCESAMIENTO DE DATOS ESTRUCTURADOS

VINCULOS 8 Book 1.indb 32 04/09/2009 02:50:08 p.m.


V Í N C U L O S
J U N I O D E 2 0 0 8
VOLUMEN 4 NÚMERO 2

x Llenar los valores faltantes manualmen- Ag = arg min Ai {d ( X k , Ai ) } ∀i = 1...n


te: es una tarea tediosa.
x Llenar los valores faltantes automática- (Ecuación 1)
mente con: constantes globales, la media
del atributo, el valor más probable (basa- x Después de haber introducido todos los
do en la inferencia como el método baye- ejemplos, cada prototipo Ak tendrá un con-
siano o el árbol de decisión). junto de ejemplos a los que representa:

Existen diversos métodos para dar soporte {


L( Ak ) = X k1 , X k2 ,..., X kn }
a cada una de las tareas en preprocesamien- (Ecuación 2)
to. Una de las opciones para el manejo de los
datos con ruido es el método Binning, que x Se desplaza el prototipo hacia el centro
permite reducir la numerosidad y en el cual de masas de su conjunto de ejemplos.
primero se ordenan los datos y se realiza la
partición en bins del mismo tamaño o bins m

de la media o bins de los extremos. ∑X


l =1
kl
Ak =
m
Para el relleno de los datos faltantes también
(Ecuación 3)
se puede utilizar el algoritmo K-Medias (K-
Means) que es un método de agrupamiento
x Se repite el procedimiento hasta que ya
por vecindad en el que se parte de un núme-
no se desplazan los prototipos.
ro determinado de prototipos y de un con-
junto de ejemplos por agrupar. K-Medias es
Mediante este algoritmo el espacio de ejem-
uno de los algoritmos de clustering utiliza-
plos de entrada se divide en k clases o regio-
dos con más frecuencia. La “K” se refiere al
nes, y el prototipo de cada clase estará en el
hecho de que el algoritmo funciona para un
centro de ésta. Dichos centros se determinan
número fijo de clústeres, los cuales son defi-
con el objetivo de minimizar las distancias
nidos en términos de la proximidad entre los
cuadráticas euclídeas entre los patrones de
puntos de datos [3][1].
entrada y el centro más cercano, es decir, mi-
nimizando el valor J:
El procedimiento es el siguiente [19]:
k m 2

• Se calcula, para cada ejemplo Xk el pro- J =∑ ∑ M in d EUCL ( X n − Ai )


i =1 n =1
totipo más próximo Ag, y se incluye en la
lista de ejemplos de dicho prototipo. (Ecuación 4)

Tabla 1. Ejemplo de utilización de la técnica de Bins

Datos ordenados: 4, 8, 9, 15, 21, 21, 24, 25, 26, 28, 29, 34

2. Bins del mismo tamaño 3. Bins de media 4. Bins de los extremos

Bin 1: 4, 8, 9, 15 Bin 1: 9, 9, 9, 9 Bin 1: 4, 4, 4, 15


Bin 2: 21, 21, 24, 25 Bin 2: 23, 23, 23, 23 Bin 2: 21, 21, 25, 25
Bin 3: 26, 28, 29, 34 Bin 3: 29, 29, 29, 29 Bin 3: 26, 26, 26, 34

33
33

CLAUDIA L. HERNÁNDEZ G. - JORGE E. RODRÍGUEZ R.

VINCULOS 8 Book 1.indb 33 04/09/2009 02:50:08 p.m.


I + D I N V E S T I G A C I Ó N Y D E S A R R O L L O

Donde m es el conjunto de patrones; dEUCL es x En primer lugar, se especifican cuántos


la distancia euclídea; Xn es el ejemplo de en- clúster se van a crear. Este número corres-
trada n; Ai es el prototipo de la clase i; y Min ponde a la cantidad de valores que puede
es la función de pertenencia del ejemplo n a tomar el atributo clase, en este ejemplo, 2
la región i de forma que vale 1 si el prototi- (+ y -). Para obtener el valor de cada centro
po Ai es el más cercano al ejemplo Xn y 0 en se halla la media de los valores que perte-
caso contrario. nezcan a cada valor tomado por el atributo
clase. En este caso, el primer centro corres-
A continuación se presenta un ejemplo en el ponde al valor + del atributo clase que ten-
cual se aplica el algoritmo K medias: drá un valor inicial de 4.0; el segundo cen-
tro corresponde al valor – del atributo clase
que tendrá un valor inicial de 2.33
Tabla 2. Datos iniciales
ejemplo algoritmo K-Medias
x A continuación cada una de las instan-
cias, ejemplos, es asignada al centro del
ATRIBUTO CLASE clúster más cercano de acuerdo con la
5 + distancia Euclidiana que le separa de él.
2.2 -
x Después de haber introducido todos los
1.8 -
ejemplos, cada centro tendrá un conjun-
4 + to de ejemplos a los que representa. En
2 + este caso los centros quedaron con los si-
3 - guientes conjuntos de datos, centro 1 (+):
5 + 5, 4, 5; centro 2 (-): 2.2, 1.8, 2,3.
? -
• Se desplaza el prototipo hacia el centro
? +
de masas de su conjunto de ejemplos.
Es decir, se hallan los nuevos centros
calculando la media de las distancias
Se utilizan todos los datos para aplicar el que pertenecen a cada centro. En este
algoritmo: caso los nuevos centros serán:

Tabla 3. Resultados obtenidos en la primera


iteración del algoritmo K medias

Clúster más cercano


Instancias Distancia a centro 1 Distancia a centro 2
según distancia
5 1 2.67 1
2.2 1.8 0.13 2
1.8 2.2 0.53 2
4 0 1.67 1
2 2 0.33 2
3 1 0.67 2
5 1 2.67 1
3434
PREPROCESAMIENTO DE DATOS ESTRUCTURADOS

VINCULOS 8 Book 1.indb 34 04/09/2009 02:50:08 p.m.


V Í N C U L O S
J U N I O D E 2 0 0 8
VOLUMEN 4 NÚMERO 2

centro1 (+) = (1+0+1)/3 = 0,666 Una integración de datos cuidadosa puede


centro2 (-) = (0,13+0,53+0,33+0,67)/4 ayudar a reducir o prevenir las redundan-
= 0,415 cias e inconsistencias y mejorar la calidad y
velocidad de la obtención de resultados del
• Se repite el procedimiento hasta que análisis de datos.
ya no se desplacen los centros. El re-
sultado final del algoritmo es que 2.3.3 Transformación de datos[12]
para valores con clase + el valor con
el cual se rellenará es 4.666 y para va- Normalizacion: Algunas técnicas de norma-
lores con clase – el valor con el cual lización son las siguientes:
se rellenará es 2,25.
x Normalización Min-Max: Ejecuta una
Una extensión de este algoritmo es el deno- transformación lineal de los datos origi-
minado K-Modas en el cual se sustituye la nales. Con base en los valores mínimo y
media por la moda, para aplicarlo a datos ca- máximo de un atributo, se calcula un valor
tegóricos, ya que K-Medias está orientado a de normalización v’ con base en el valor v
datos numéricos. de acuerdo con la siguiente expresión:

v − min A
v′ = (nuevo _ max A − nuevo _ min A )
2.3.2 Integración de datos [12] max A − min A
+ nuevo _ min A
La redundancia de datos puede ser detecta-
da por el análisis correlacional [12]. Por ejem- (Ecuación 6)
plo, dados dos atributos, la correlación entre
los atributos puede ser medida por: Este método conserva las relaciones en-
tre los datos originales.

P( A ∧ B)
Ejemplo: suponiendo que el valor míni-
P( A) P( B) mo y máximo de un atributo son $12 y
(Ecuación 5) $98 respectivamente, se requiere mapear
los valores en un rango entre 0 y 1. Enton-
ces tomando un valor de 73 por normali-
Si el resultado es mayor que 1 entonces A y B
zación min-max es transformado en:
están positivamente correlacionados. Cuanto
más alto sea el valor mayor implicación ha-
73 − 12 61
brá entre uno y otro. Por tanto, un valor alto (1 − 0) + 0 = = 0, 7093
puede indicar que alguno de los dos puede 98 − 12 86
ser removido como redundancia.
x Normalización z-core
Si el valor es igual a 1 indica que los dos atri- Los valores para un atributo A son nor-
butos son independientes y que no existe co- malizados basados en la media y la des-
rrelación entre ellos. Si el valor es menor que viación estándar de A. Un valor v de A es
1 entonces A y B están correlacionados nega- normalizado a v’ con el cálculo de la si-
tivamente. Esto quiere decir que cada atribu- guiente expresión:
to disuade del otro.
35
35

CLAUDIA L. HERNÁNDEZ G. - JORGE E. RODRÍGUEZ R.

VINCULOS 8 Book 1.indb 35 04/09/2009 02:50:08 p.m.


I + D I N V E S T I G A C I Ó N Y D E S A R R O L L O

v − media A mencionados. También es necesario


v′ = guardar los parámetros como la media
des _ est A
o desviación estándar para uso futuro
(Ecuación 7) y que se pueda normalizar de manera
uniforme.
Este método es utilizado cuando el máxi-
mo y el mínimo del atributo A son desco- Suavizado: las técnicas incluidas aquí son
nocidos o cuando hay valores anómalos binning, clustering y regresión.
que predominan al utilizar la normaliza-
ción min-max. Agregación: este paso es generalmente usa-
do en la construcción de los cubos de da-
Ejemplo: suponiendo que la media y la tos para el análisis de datos en diferente
desviación estándar de un atributo son granularidad.
$54 y $16 respectivamente. Con la nor-
malización z-core un valor de 73 se trans- 2.3.4 Reducción de datos
formaría en:
Las técnicas de reducción de datos pueden ser
73 − 54 19
v′ = = = 1,1875 aplicadas para obtener una representación re-
16 16 ducida de los datos manteniendo la integri-
dad de los datos originales. Las estrategias
x Normalización de escala decimal: Nor- para la reducción son las siguientes [12]:
maliza moviendo los puntos decimales
de los valores del atributo A. El núme- x Agregación de cubos de datos: donde las
ro de puntos decimales movidos depen- operaciones de agregación son aplicadas a
de del máximo valor absoluto de A. Un los datos en la construcción de los cubos.
valor v de A es normalizado a v’ con el
cálculo de la siguiente expresión: x Reducción de dimensión: donde pueden
ser detectados y eliminados atributos o
v dimensiones poco relevantes o redun-
v′ =
10 j dantes. La figura 2 muestra algunos mé-
(Ecuación 8) todos de selección de atributos.

Donde j es el entero más pequeño de También es utilizada la técnica de selección de


Max(|v’|) < 1. atributos relevantes basada en Bootstraping.

Ejemplo: suponer que el rango de valores x Compresión de datos: donde son usados
de los registros del atributo A es de -986 mecanismos de codificación para reducir
a 917. El máximo valor absoluto de A es el tamaño del conjunto de datos. En este
986 para normalizar por escala decimal se caso las técnicas utilizadas son la trans-
debe dividir cada valor por 1000 (j=3) en- formada de wavelet (DWT) o análisis de
tonces -986 es normalizado como -0,986. componentes principales (PCA).

Es de notar, que la normalización pue- x Reducción de numerosidad: donde todos


de cambiar los datos originales un poco, los datos son reemplazados o estimados
3636 especialmente los dos últimos métodos por representaciones de datos pequeños

PREPROCESAMIENTO DE DATOS ESTRUCTURADOS

VINCULOS 8 Book 1.indb 36 04/09/2009 02:50:09 p.m.


V Í N C U L O S
J U N I O D E 2 0 0 8
VOLUMEN 4 NÚMERO 2

Figura 2. Métodos heurísticos básicos


para selección de atributos[12]

como modelos paramétricos, de los cua- usadas son: segmentación por reglas de par-
les sólo se guardan los parámetros y no tición, análisis de histogramas y análisis de
los datos, o los no paramétricos como clustering. El Chi-Merge también es un algo-
el clustering, el muestreo o el uso de ritmo de discretización automático que ana-
histogramas. liza la calidad de múltiples intervalos utili-
zando el estadístico Chi Cuadrado (ǘ2).
x Discretización y generación del concepto
de jerarquía: donde los valores son reem- 3. OLAP y minería de datos
plazados por rangos o por datos de nive-
les conceptuales superiores. 3.1 OLAP

Las técnicas de discretización pueden ser usa- OLAP es típicamente ejecutado para la vali-
das para reducir el número de valores de un dación de hipótesis de usuarios. Las funcio-
atributo continuo, dividiendo el rango del atri- nalidades OLAP incluyen dril-down, roll-up,
buto en intervalos. Las etiquetas de los inter- slice, dice y operaciones de pivoteo para ma-
valos pueden ser usadas para reemplazar los nejo flexible y transformación de datos. [16].
valores actuales de datos. El concepto de jerar- En el caso particular de esta revisión, no sólo
quías organiza los valores de los atributos o di- se quiere aplicar OLAP para entender o vi-
mensiones en niveles graduales de abstracción. sualizar datos, sino también para generar
Ellos son una forma de discretización [12][18]. nuevos datos que puedan ser usados para
producir nuevas hipótesis de aplicación de
La generación automática del concepto de algoritmos de descubrimiento de conoci-
jerarquías para datos categóricos debe estar miento. En la tecnología OLAP se considera
basada en el número de valores distintos de que los datos deben ser integrados en un DW
los atributos definidos en la jerarquía. Para o en un datamart como prerrequisito para
datos numéricos, las técnicas que pueden ser análisis eficiente de los datos. De esta forma, 37
37

CLAUDIA L. HERNÁNDEZ G. - JORGE E. RODRÍGUEZ R.

VINCULOS 8 Book 1.indb 37 04/09/2009 02:50:09 p.m.


I + D I N V E S T I G A C I Ó N Y D E S A R R O L L O

el proceso de integración se ejecuta una sola de datos, selección de índices, particiona-


vez y todos los pasos que continúan son eje- miento de datos, vistas materializadas y ad-
cutados en el DW o en el datamart [16]. Así, ministración del datawarehouse. El análisis
todo lo que ha dado origen a OLAP hace que de datos requiere extracción de datos rele-
se refiera a una nueva forma para manejar la vantes del datawarehouse, agregando datos
información importante especialmente para y analizando los resultados [6].
la toma de decisiones [11].
3.2 Minería OLAP
Los data warehouse y OLAP necesitan da- (OLAP Mining)
tos históricos, sumarizados y consolidados.
Los datos están recopilados desde ciertas ba- Minería OLAP es un mecanismo que inte-
ses de datos operacionales y otras fuentes ex- gra OLAP con minería de datos [11]. De esta
ternas. Esto requiere no sólo consultas pro- forma se considera una exploración sana de
fundas y complejas, joins y agregaciones, cómo puede ser integrada la visualización de
sino también muchos GB o TB de capacidad los datos con otras técnicas como aprendiza-
de almacenamiento y una arquitectura típica je inductivo y clustering jerárquico [11].
como la que se muestra en la figura 3 [11].
Minería OLAP se basa en las siguientes
Algunos temas importantes en el área que in- razones:
volucra tecnología OLAP incluyen limpieza

Figura 3. Arquitectura de un sistema


típico de data warehouse [6]

3838
PREPROCESAMIENTO DE DATOS ESTRUCTURADOS

VINCULOS 8 Book 1.indb 38 04/09/2009 02:50:09 p.m.


V Í N C U L O S
J U N I O D E 2 0 0 8
VOLUMEN 4 NÚMERO 2

x Las herramientas de minería de datos ne- caracterización o comparación como un


cesitan trabajar con datos integrados, con- cubo de datos y ejecutarse directamente
sistentes y sin ruido, que requieren de los sobre estos datos.
pasos de preprocesamiento en los cuales se
hacen la limpieza e integración de datos. x OLAP basado en asociación:
Un data warehouse construido por servi- • Asociación intra-atributo: es la aso-
dores de preprocesamiento, es tan valio- ciación formada entre uno o un gru-
so para OLAP como para minería de datos po de atributos formado por la agru-
por la fuente de datos limpia e integrada. pación de otro conjunto de atributos
en una relación.
x Minería OLAP facilita el análisis interac- • Asociación inter-atributo: es la aso-
tivo de datos exploratorios. Es propor- ciación entre un conjunto de atribu-
cionado como una herramienta para las tos en una relación.
funciones OLAP de cualquier conjunto
de datos en los cubos para análisis de da- x OLAP basado en clasificación: han sido
tos en diferentes niveles de abstracción y muchos los métodos estudiados para cla-
para flexibilidad de interacción con mo- sificación, incluidos los métodos de árbo-
tor de minería basado en resultados de les de decisión como ID3 o C4.5, métodos
minería intermedios. estadísticos, redes neuronales, etc.

x Por la integración de OLAP con múlti- La relevancia de los atributos está basada
ples módulos de minería de datos, mine- en el análisis de una medida incierta, una
ría OLAP proporciona flexibilidad para medida que determina qué tan relevante
seleccionar las funciones de minería de- es un atributo en una clase. En el proce-
seadas e intercambiar dinámicamente ta- so de clasificación, el clasificador adop-
reas de minería de datos. ta un método de inducción basado en ár-
bol de decisión que integra tecnología de
Ejecutar Minería OLAP en cooperación con cubos OLAP y luego árboles de decisión.
las funciones de minería de datos [11]: En este caso, primero ejecuta la mínima
generalización en los datos de entrena-
x OLAP basado en caracterización y com- miento y luego ejecuta el árbol de deci-
paración: sumariza y caracteriza un con- sión sobre los datos generalizados. Para
junto de datos obtenidos de las tareas re- manejar el ruido y datos excepcionales y
levantes basados en la generalización de facilitar el análisis estadístico se introdu-
datos. Para la minería de conocimiento a cen dos umbrales, el umbral de clasifica-
múltiples niveles el drill-down y el roll-up ción y el umbral de excepción.
son técnicas que pueden ser utilizadas.
x OLAP, basado en la predicción: minería
En el caso de que se quiera integrar ca- OLAP puede ser integrada con la pre-
racterización y comparación multinivel, dicción, si cualquier clase de predicción
en cada paso del drill-down o del roll-up puede ser identificada por un criterio de
la caracterización y la comparación pro- selección de la clase y esta característica
ducen un cuboid, con la misma estructu- puede ser mostrada. Entonces, las ope-
ra de datos. Entonces, cualquier módulo raciones de cubos pueden ser ejecutadas
de minería puede tratar el resultado de la sobre un cuboid seleccionado. 39
39

CLAUDIA L. HERNÁNDEZ G. - JORGE E. RODRÍGUEZ R.

VINCULOS 8 Book 1.indb 39 04/09/2009 02:50:09 p.m.


I + D I N V E S T I G A C I Ó N Y D E S A R R O L L O

x OLAP basado en análisis de clustering: Donde Yij conserva la información relevante


clustering de datos, conocido como de Xik, Yij elimina al menos uno de los proble-
“aprendizaje no supervisado”, es un pro- mas de Xik. Con i como el número de objetos,
ceso de particionamiento de un conjunto j el número de atributos antes del preproce-
de datos en un conjunto de clases llama- samiento y k el número de atributos después
das clústeres, con los miembros de cada del preprocesamiento. En general, j es dife-
clúster compartiendo alguna propiedad rente de k.
común. Un buen método de clúster pro-
ducirá clústeres de alta calidad, de tal La ejecución de tareas de preprocesamiento
forma que la similitud intraclase es alta tiene su justificación básicamente en las si-
y la similitud interclase es baja. guientes razones [9]:

El analizador de clúster está basado en x Solucionar problemas de datos para pre-


el paradigma k-means. Comparado con venir la obtención de resultados erróneos
otros métodos éste es prometedor por en el análisis de datos.
su eficiencia en procesamiento de gran x Entender la naturaleza de los datos y reali-
volumen de datos. Sin embargo, como zar un análisis de datos más significativo
ya se había mencionado, su utilización x Extraer el conocimiento más significativo
se limita generalmente al uso de datos de un conjunto de datos.
numéricos.
En la mayoría de aplicaciones es necesario
3.3 Preprocesamiento OLAP aplicar más de una técnica de preprocesa-
miento, por esto una tarea crucial es la iden-
En la práctica, la tarea de preprocesamien- tificación del tipo de preprocesamiento [9].
to de datos consume tiempo y tiene una im- Un ejemplo realista del preprocesamiento
portante influencia en la calidad de los mo- de datos puede ser hallado en la tecnología
delos generados [16]. Diversas experiencias de base de datos, lo que generalmente es lla-
muestran que, por lo menos, los tres cuartos mado como data warehouse. El resultado de
de tiempo deben ser empleados en la trans- consultas específicas, generalmente es guar-
formación de los datos para ser manejados dado en vista que son independientes de la
en un formato apropiado para el aprendizaje BD y por lo mismo permiten respuestas mu-
y que este proceso ha influido significativa- cho más rápidas [5].
mente en los modelos finales generados [8].
En cuanto a la tarea de discretización de va-
El preprocesamiento de datos formalmente riables numéricas, ésta utiliza diferentes
se define como el conjunto de acciones toma- aproximaciones como discretización den-
das antes de que inicie el proceso de análisis tro de un número de categorías, utilizando
de datos. Esto es esencialmente una transfor- los puntos de corte equidistantes o discre-
mación T a los vectores de datos en nuevos tización basada en la media y la desviación
vectores de datos [9]. estándar. La discretización en el algoritmo
CN4 está basada en la entropía o el estima-
Yij = T ( X ik ) do de LaPlace. Todos estos sistemas discre-
tizan atributos numéricos “on-line”, es de-
(Ecuación 9)
cir, durante el aprendizaje. Los algoritmos
4040 que se denominan “off-line” indican que

PREPROCESAMIENTO DE DATOS ESTRUCTURADOS

VINCULOS 8 Book 1.indb 40 04/09/2009 02:50:09 p.m.


V Í N C U L O S
J U N I O D E 2 0 0 8
VOLUMEN 4 NÚMERO 2

discretizan antes de que la máquina inicie el x Algoritmo para agrupamiento [2]:La


paso de aprendizaje [2]. agrupación de los valores nominales em-
pieza a ser importante si el número de
x Algoritmo para discretización [2]: estos valores es bastante largo (por ejem-
Se trata cada atributo numérico por se- plo: cientos de códigos ZIP o códigos de
parado. La idea básica es crear interva- profesión).
los para que la distribución de clases a
posteriori P(C|intervalo) sea diferente El algoritmo de agrupamiento está ba-
de la distribución de clases a priori P(C) sado en la misma idea del algoritmo de
en el mismo conjunto de datos de entre- discretización. Nuevamente se crean los
namiento. El número de intervalos resul- grupos de valores, de tal forma que la
tantes es “controlado” por la definición distribución a posteriori P(C|grupo) di-
de un umbral para el mínimo número de fiera significativamente de la distribu-
objetos dentro de un intervalo, los inter- ción a priori P(C). La principal diferencia
valos menos frecuentes son denomina- con el algoritmo de discretización es que
dos como desconocidos. se crea un grupo para cada valor del atri-
buto de la clase y un grupo adicional lla-
El algoritmo es descrito de la siguiente mado “desconocido”.
manera:

Tabla 4. Descripción del algoritmo


de discretización

CICLO PRINCIPAL:
1. Crear lista ordenada de los valores de los atributos
2. Para cada valor:
a. Calcular las frecuencias de ocurrencia de los objetos con respecto a cada clase.
b. Asignar el nombre de la clase a todos los valores usando el procedimiento ASIGNAR.
Fin
3. Crear los intervalos a partir de los valores usando el procedimiento INTERVALO
ASIGNAR:
Si para todos los valores dados de los objetos estos pertenecen a la misma clase entonces asignar el
valor de la clase
Si no, si para los valores dados de la distribución de objetos existe mucha diferencia con los miembros
de la clase entonces el valor asignado es el de la clase más frecuente.
Si no asignar el valor “desconocido”.
INTERVALO:
a. Si una secuencia de valores pertenece a la misma clase entonces crear el intervalo
INTi = [Limiteinferiori, Limitesuperiori] a partir de estos valores
b. Si el intervalo INTi pertenece a la clase “desconocido” entonces
Si los intervalos vecinos INTi-1, INTi+1 pertenece a la misma clase entonces crear el intervalo INTi-1 U
INT U INTi+1
Si no, crear el intervalo INTi-1 U INT o INT U INTi+1 de acuerdo con los criterios dados.
c. Crear cubrimiento continuo de los atributos asignando Limiteinferiori = (Limiteinferiori+
Limitesuperiori-1)/2 y Limitesuperiori = Limiteinferiori

41
41

CLAUDIA L. HERNÁNDEZ G. - JORGE E. RODRÍGUEZ R.

VINCULOS 8 Book 1.indb 41 04/09/2009 02:50:10 p.m.


I + D I N V E S T I G A C I Ó N Y D E S A R R O L L O

El algoritmo es descrito de la siguiente de datos y el número de atributos puede


forma: ser reducido. Esta reducción puede dar
alguna información acerca de patrones
x Evaluación de los algoritmos [2]: durante regulares en los datos.
la discretización o agrupamiento de los da-
tos se puede perder información oculta en Otro uso de la información es el número
los datos. Se puede medir la pérdida por de intervalos o número de grupos. Si en
el número de contradicciones antes y des- el preprocesamiento resulta un solo gru-
pués del preprocesamiento. Contradiccio- po o un solo intervalo con alta frecuencia
nes significa que los objetos descritos por en los datos, se puede ignorar el atributo
el mismo valor de atributo pertenezcan a correspondiente en el siguiente paso de
clases distintas. Cualquier algoritmo de la máquina de aprendizaje.
aprendizaje clasificará estos objetos como
objetos pertenecientes a la misma clase y x Selección de atributos basado en análisis
objetos pertenecientes a otras clases serán de conflictos [15]:
clasificados erróneamente. Se cuentan los
errores y se establece el máximo de exac- • Una buena aproximación para hallar
titud de acuerdo con: la asociación entre dos variables es el
análisis de la tabla de contingencia.
Tradicionalmente, la tabla de contin-
No.Errores gencia se utiliza para variables no-
1−
No.Objetos minales, variables cuyos valores
(Ecuación 10) provienen de un conjunto desorde-
nado. Para la selección de atributos,
Como efecto del procesamiento “off-li- se puede construir una tabla de con-
ne”, el número de objetos en los conjuntos tingencia de tal forma que las filas

Tabla 5. Descripción del algoritmo


de agrupamiento

CICLO PRINCIPAL:
1. Para cada valor:
a. Calcular las frecuencias de ocurrencia de los objetos con respecto a cada clase.
b. Asignar el nombre de la clase a todos los valores usando el procedimiento ASIGNAR.
Fin.
2. Crea los grupos a partir de los valores usando el procedimiento AGRUPAR
ASIGNAR:
Si para todos los valores dados de los objetos pertenecen a la misma clase entonces asignar el valor
de la clase.
Si no, si para los valores dados de la distribución de objetos existe mucha diferencia con los
miembros de la clase entonces el valor asignado es el de la clase más frecuente.
Si no asignar el valor “desconocido”.

AGRUPAR:
Crear grupos para valores con el mismo nombre de la clase.

4242
PREPROCESAMIENTO DE DATOS ESTRUCTURADOS

VINCULOS 8 Book 1.indb 42 04/09/2009 02:50:10 p.m.


V Í N C U L O S
J U N I O D E 2 0 0 8
VOLUMEN 4 NÚMERO 2

Tabla 6. Datos ejemplo 1 de selección de


atributos basado en el análisis de conflictos

Rango
Sexo Profesor asistente Profesor asociado Profesor
Masculino 20 10 5
Femenino 5 3 2

representan valores distintos de un únicamente su etiqueta de clase. En este


registro y las columnas son etiqueta- caso se denominan entradas conflcitivas.
das por las clases. Las entradas de la
tabla son enteros no negativos, dan- • Ejemplo 2: la tabla de contingencia
do el número de tuplas en la clase, que relaciona rangos de salario como
representadas por la columna y con atributo con rango es representada
un valor de atributo particular, re- con la tabla 7.
presentado por la fila.
Aquí se puede observar que no hay con-
• Ejemplo 1: si un registro de datos flicto de entradas en la tabla. Dado un va-
de una universidad tiene el atributo lor de salario, el rango puede ser deter-
sexo y otro atributo rango como la eti- minado de forma única. La selección de
queta de la clase, la tabla de contin- atributos para problemas de clasificación
gencia podría ser como la tabla 6. se puede reducir al problema de hallar un
conjunto de atributos que no estén en con-
Al analizar este caso e independiente- flicto en las filas de entrada de la tabla.
mente de la distribución que se seleccio-
ne para el análisis, que generalmente es La selección de atributos, basada en el
ǘ2, se puede ver que el sexo no es perfec- análisis de conflicto de la tabla de con-
to asociado con el rango, porque contiene tingencia, se espera que trabaje mejor
más de una fila cuya entrada es diferen- con atributos nominales. La principal ra-
te de cero. En cuyo caso, dando el va- zón es que usualmente hay números pe-
lor del atributo no se puede determinar queños de valores distintos para cada

Tabla 7. Datos ejemplo 2 de selección de


atributos basado en el análisis de conflictos

Rango
Rangos de salario Profesor asistente Profesor asociado Profesor
[3000-5000] 25 0 0
[5000-8000] 0 13 0
[8000-12000] 0 0 7
43
43

CLAUDIA L. HERNÁNDEZ G. - JORGE E. RODRÍGUEZ R.

VINCULOS 8 Book 1.indb 43 04/09/2009 02:50:10 p.m.


I + D I N V E S T I G A C I Ó N Y D E S A R R O L L O

atributo. Si el número de muestras y el otras funciones de minería de datos como la


conjunto de entrenamiento es suficiente- asociación, clasificación, predicción, cluste-
mente grande, habrá suficientes repeti- ring y secuenciación [11]1.
ciones de los mismos valores de atribu-
tos en el conjunto de entrenamiento. 3.4.1 Reducción de datos con
diseño de experimentos para
El segundo aspecto en el análisis de con- preprocesamiento de datos [17]
flictos es aquél en el que los atributos son
escogidos para construir la contingencia. Mientras hoy en día muchas técnicas son
Así, es frecuente el caso en el que un con- usadas para la reducción de datos y pueden
junto de atributos colectivamente determi- incrementar la velocidad en el proceso analí-
nan la etiqueta de clase de una tupla. tico de un data warehouse, siempre hay una
opción de borrar un conjunto de característi-
La mayoría de datos de aplicaciones reales cas variables que podrían no tener contribu-
contienen ruido. Para problemas de clasi- ción en el pasado, pero que podrían ser signi-
ficación como el ruido puede dar lugar a ficativas después. El análisis siempre ha sido
etiquetas inconsistentes de tuplas e intro- influenciado por la selección de la técnica; en
ducir entradas conflictivas en la tabla de gran medida, el diseño de experimentos pue-
contingencia. Una solución sencilla es usar de ayudar en la reducción de datos durante
un valor umbral, llamado tolerancia, para el preprocesamiento de los datos, indicando
tolerar un pequeño porcentaje de ruido. un ahorro significativo en costos y tiempo.

3.4 Trabajos relacionados El diseño de experimentos ha sido una disci-


plina con una amplia aplicación a través de
Existe una colección de técnicas denominadas las ciencias de la ingeniería. El uso de técnicas
Soft Computing que tiene en cuenta el prepro- como factorial fraccional, arreglos ortogonales
cesamiento de datos, el cual constituye uno de y especialmente las técnicas taguchi han sido
los procesos fundamentales para el manejo de muy investigadas y utilizadas ampliamente en
los datos, de forma que se puedan seleccionar control de calidad estadístico, pero no mucho
los atributos adecuados para que el proceso en data warehouse y minería de datos. El en-
de minería de datos se pueda realizar con ma- foque para hallar los factores que afectan un
yor información. En una forma similar, como producto en el diseño de experimentos, puede
ocurre con los diferentes pasos de la minería reducir drásticamente el número de pruebas
de datos, entre los cuales se tiene la limpie- requeridas para reunir los datos necesarios.
za de datos y el preprocesamiento, dentro del
contexto de modelamiento y más concreta- 3.4.2 Algoritmos de “asignación” para
mente en el modelamiento difuso, el objetivo OLAP sobre datos imprecisos [4]
es hallar un conjunto de relaciones que descri-
ban el comportamiento con los datos actuales Mientras hay mucho trabajo en la represen-
de acuerdo con un conjunto de patrones o con tación y consulta sobre datos ambiguos, tam-
reglas difusas del tipo if-then [10]. bién es importante definir algunos criterios
para el manejo de datos ambiguos manejados
De la misma forma, DBMiner fue desarro-
llado como apoyo a Minería OLAP; además 1 En este articulo se examinan los principios de minería

4444 de las funciones de caracterización, incluye OLAP y se estudian las técnicas de implementación con
el sistema DBMiner como ejemplo de implementación

PREPROCESAMIENTO DE DATOS ESTRUCTURADOS

VINCULOS 8 Book 1.indb 44 04/09/2009 02:50:10 p.m.


V Í N C U L O S
J U N I O D E 2 0 0 8
VOLUMEN 4 NÚMERO 2

por aplicaciones OLAP. Uno de los criterios acceso, conceptos de negocio, terminología y
es la coherencia, la cual representa las rela- detalles acerca de los reportes de usuario.
ciones entre las consultas similares genera-
das de relacionar nodos en un orden de je- El propósito de tecnologías avanzadas, como
rarquía que satisfagan la intuición de los minería de datos y data warehouse es la extrac-
usuarios, en la cual ellos pueden navegar a ción de información y conocimiento a partir de
través de la jerarquía. los datos. La minería de datos busca detectar
patrones desconocidos en datos que son usa-
El segundo criterio es llamado la fidelidad, dos para soporte de análisis de negocios y pre-
captura la intuición de datos más precisos, dicción. Las operaciones de preprocesamiento
que dirigen a mejores resultados. El tercer incluyen transformaciones de datos, agrega-
criterio llamado correlación-preservación ción, discretización, segmentación y muestreo.
esencialmente requiere que las propiedades Las experiencias prácticas han demostrado que
estadísticas de los datos deberían no afec- entre el 50 y el 80 % de los esfuerzos de descu-
tarse por la asignación de registros de datos brimiento del conocimiento son gastados en el
ambiguos. preprocesamiento de datos, lo cual no sólo con-
sume tiempo, sino que también requiere cono-
Recientes trabajos han propuesto extender el cimiento profundo del conocimiento del nego-
modelo OLAP para soportar la ambigüedad cio, la minería de datos y las bases de datos.
de los datos, específicamente imprecisión e
incertidumbre. Un proceso llamado asigna- M4 combina ideas desde dos estándares
ción fue propuesto para transformar una ta- existentes para representación de metadatos
bla de hechos imprecisa en una forma llama- e intercambio en el área de data warehouse.
da la base de datos extendida que puede ser Ellos son drásticamente simplificados y ex-
leída para responder consultas de agregacio- tendidos con la minería de datos y los ele-
nes OLAP. Se realiza una extensión del mo- mentos del preprocesamiento para crear el
delo relacional para OLAP y, de esta forma, metamodelo de dominio específico.
poder manejar los datos imprecisos y con
incertidumbre. Los atributos en el modelo En este caso, es usado el contexto de Mining
OLAP estándar son de dos clases, dimensio- Mart para representar un ejemplo típico de
nes y medidas. En el momento de extender herramientas orientadas a metadatos y su co-
el modelo, se soporta la incertidumbre en los rrespondiente metamodelo. Los repositorios
valores de las medidas y la imprecisión en son integrados o interoperan rastreando su
los valores de las dimensiones. esquema de metadatos con el metamodelo
común. Un paso en esta dirección ha sido el
3.4.3 M4 - un metamodelo para estándar para representación e intercambio
preprocesamiento de datos [20] propuesto por la OMG, llamado Common
Warehouse Metamodel (CWM).
Éste es el metamodelo utilizado por Mining
Mart, un sistema para soportar preprocesa- 3.4.4 discretización de dimensiones
miento para minería de datos. En particu- con valores continuos en cubos
lar, los metadatos pueden ser cualquier in- de datos OLAP [17]
formación relacionada con las definiciones
de esquema y configuración de especifica- Lo que se busca con el desarrollo de este pro-
ciones, almacenamiento físico, derechos de yecto es otra forma de integrar OLAP con 45
45

CLAUDIA L. HERNÁNDEZ G. - JORGE E. RODRÍGUEZ R.

VINCULOS 8 Book 1.indb 45 04/09/2009 02:50:10 p.m.


I + D I N V E S T I G A C I Ó N Y D E S A R R O L L O

minería de datos, especialmente enfocado a la • Alterar la dimensionalidad de los datos:


discretización que es un proceso que generali- generación de atributos, filtrado, trans-
za un atributo a un intervalo de datos y que re- formaciones, etc.
duce y simplifica los datos originales. Actual- • Alterando la cantidad de datos: por se-
mente, existen diversos algoritmos que están lección, muestreo y balanceando los re-
automatizando las tareas asociadas a la dis- gistros de datos disponibles.
cretización, pero las herramientas OLAP aún • El preprocesamiento de datos es una eta-
no los incorporan en sus aplicaciones. Se en- pa en la cual los cambios hechos a un
cuentran determinando cómo aplicar la discre- conjunto de datos pueden brindar una
tización automática en la definición de cubos pronta solución a un problema de descu-
OLAP que permitan simplificar los datos con brimiento de conocimiento.
la menor pérdida posible de información. • Al igual que diferentes funciones conoci-
das para minería de datos, las tareas de
4. Trabajos futuros preprocesamiento pueden ser aplicables
en entornos OLAP con la recién denomi-
Las diversas técnicas de preprocesamiento nada minería OLAP. En este sentido, se
de datos y las tendencias que se presentan pueden generar proyectos de investiga-
en las compañías, en relación con el manejo ción válidos en los cuales se puede anali-
y acceso de su información para la toma de zar la pertinencia en aplicaciones OLAP
decisiones, generan inquietudes que extien- de cada una de las técnicas utilizadas en
den el espectro de posibilidades en las cua- minería de datos.
les se pueden orientar nuevas investigacio- • Las experiencias relacionadas con el pre-
nes. Generalmente, la calidad de los datos es procesamiento de datos permiten deter-
una prioridad en el momento de visualizar o minar que las técnicas de manejo de da-
analizar datos, más aún cuando éstos son es- tos faltantes son ampliamente utilizadas
tructurados. Un enfoque interesante en este y pueden ser objetivo de investigación
sentido, podría ser la realización de la revi- para determinar su efectividad en datos
sión de las técnicas utilizadas con mayor fre- estructurados y en particular en aplica-
cuencia para el preprocesamiento de datos y ciones de tecnología OLAP.
sus algoritmos asociados, en particular, lo re- • Algunas de las técnicas de preprocesa-
lacionado con el manejo de datos faltantes, miento están siendo automatizadas y ya
de tal forma que sea posible la comparación son aplicables así en procesos de minería
de su efectividad para el análisis, dependien- de datos, tal es el caso de la discretiza-
do del conjunto de datos utilizado y encami- ción. Se han iniciado avances y ambien-
nados a aplicaciones OLAP. tes de prueba para realizar la revisión
de posibilidades de automatizar esta y
5. Conclusiones otras tareas de preprocesamiento de da-
tos aplicables a los cubos OLAP y el mo-
Durante el preprocesamiento, los datos son delo dimensional.
principalmente orientados en alguna de las • La calidad de los datos juega un papel
siguientes tres direcciones: muy importante en el proceso analíti-
co, a partir de cuyos resultados se po-
• Limpieza de datos: tratamiento del rui- drían establecer reglas o patrones para
do, valores faltantes, valores anómalos, la toma de decisiones. Generalmente, los
4646 redundancia, entre otros. datos que se obtienen de aplicaciones de

PREPROCESAMIENTO DE DATOS ESTRUCTURADOS

VINCULOS 8 Book 1.indb 46 04/09/2009 02:50:10 p.m.


V Í N C U L O S
J U N I O D E 2 0 0 8
VOLUMEN 4 NÚMERO 2

producción de las organizaciones, por [7] Clifton, Chris. Introduction to Data Min-
su dinamismo, son generados con cier- ing. Purdue University, 2004.
tas inconsistencias, las cuales, sin duda, [8] Engels, Robert y Theusinger Christiane.
afectan significativamente los resultados Using a Data Metric for Preprocessing Ad-
obtenidos de cualquier procedimiento vice for Data Mining Applications. ECAI 98,
metódico que sobre ellos se realice. Allí 13th European Conference on Artificial
es donde radica la importancia del pre- Intelligence. Jhon Willey & Sons, 1998.
procesamiento y la necesidad de anali- [9] Famili, A., Shen Wei-Min, Weber Rich-
zar cuál puede ser la mejor técnica que ard y Simoudis Evangelos. Data Pre-
se va a utilizar en cada una de las tareas, processing and Intelligent Data Analy-
para que los cubos de datos OLAP sean sis. Submitted to Intelligent Data Analysis
construidos con datos de alta calidad, Journal, 1997.
mejorando el desempeño de las aplica- [10] Gómez-Skarmeta, Antonio, Jiménez
ciones y permitiendo el ahorro de tiem- Fernando e Ibañez Jesus. Data Pre-
po y costos durante la etapa de diseño e processing in Knowledge Discovery with
implementación. Fuzzy-Evolutionary Algorithms. Departa-
mento de Informática, Inteligencia Ar-
Referencias bibliográficas tificial y Electrónica, Universidad de
Murcia. 1998.
[1] Barrera, H., Correa, J., y Rodríguez, J. [11] Han, Jiawei. Olap Mining: An Integra-
Prototipo de software para el preproce- tion of OLAP with Data Mining. Intelli-
samiento de datos - UDClear”. IV Sim- gent Database Systems Research Labo-
posio Internacional de Sistemas de In- ratory. 1997.
formación e Ingeniería de Software en [12] Han, Jiawei y Kamber Micheline. Data
la Sociedad del Conocimiento, libro de mining, Concepts and Techniques. Segun-
actas volumen 1, ISBN 84-690-0258-9. da edición. 2006.
[2] Berka, Petr y Bruha Ivan. Discretiza- [13] Hing-Yan, Lee y Hwee-Leng Ong. A
tion and Grouping: Preprocessing Steps for New Visualisation Technique for Knowl-
Data Mining. 1998. edge Discovery in OLAP. Japan-Singa-
[3] Berry, Michael J.A., Linoff Gordon S. pore AI Centre Information Technolo-
Data Mining Techniques. Wiley Publish- gy Institute. Singapore. 2000.
ing, Inc. 2004. [14] Kotsiantis, S. B., Kanellopoulos D. y
[4] Burdick, Doug, et al. Efficient Allocation Pintelas P. E. Data Preprocessing for Su-
Algorithms for OLAP over Imprecise Data. pervised Learning. International Journal
VLDB 06, September 12-15, 2006, Seoul, of Computer Science, Vol. 1 No. 2 2006.
Korea. Copyright 2006 VLDB Endow- [15] Lu, Hongjun, Sung Sam Yuan y Lu
ment, ACM 1-59593-385-9/06/09. Ying. On Preprocessing Data for Effec-
[5] Cadoli, Marco, Donini Francesco, Liber- tive Classification. Department of In-
atore Paolo y Shaerf Marco. Preprocess- formation Systems and Computer Sci-
ing of Intractable Problems. Dipartimento ence, National University of Singapore.
de Informatica e Sistemistica, Universi- 1996.
ta di Roma “La Sapienza”, Italy. Tech- [16] Maedche, Alexander, Hotho Andreas y
nical Report. 1997. Markus Wiese. Enhancing Preprocessing
[6] Cheung Pui Ling Pauline, et al. Data in Data-Intensive Domains using Online-
Warehousing and OLAP. 2000. Analytical Processing. 2000. 47
47

CLAUDIA L. HERNÁNDEZ G. - JORGE E. RODRÍGUEZ R.

VINCULOS 8 Book 1.indb 47 04/09/2009 02:50:10 p.m.


I + D I N V E S T I G A C I Ó N Y D E S A R R O L L O

[17] Maliakal, Jose. Data Reduction with [19] Rodríguez, Nestor y Sánchez Wilson.
Design of Experiments (DoE) for Data Proyecto de grado: Software para pre-
Mining Pre-Processing. Proceedings of procesamiento de datos UDCLEAR
World Academy of Science, Engineering versión 2.0. Universidad Francisco José
and Technology, Vol. 26, December 2007. de Caldas, Facultad Tecnológica. 2008.
[18] Palaniappan, Sellappan y Hong Tan [20] Vaduva, Anca, Kietz JörgUwe y Zücker
Kim. Discretization of Continuos Val- Regina. M4 - A Metamodel for Data Pre-
ued Dimensions in OLAP Data Cubes. processing. 2001.
IJCSNS International Journal of Comput-
er Science and Network Security, Vol.8
No.11. November 2008.

4848
PREPROCESAMIENTO DE DATOS ESTRUCTURADOS

VINCULOS 8 Book 1.indb 48 04/09/2009 02:50:10 p.m.

You might also like