Professional Documents
Culture Documents
de datos estructurados
Structured Data Preprocessing
*
Claudia L. Hernández G.
**
Jorge E. Rodríguez R.
Resumen
* Ingeniera de Sistemas. Candidata a Magíster en Ciencias de la Computación y las Comunicaciones, Universidad Dis-
trital Francisco José de Caldas. Correo electrónico: clhernandez@gmail.com
Abstract
2.1.10 Datos desde múltiples niveles mucho más eficaz. La figura 1 resume las ta-
de granularidad reas de preprocesamiento que se describen a
continuación.
En algunas aplicaciones los datos provienen
de más de un nivel de granularidad, lo cual 2.2.1 Limpieza de datos [12][1]
haría difícil la comparación y el análisis de
los datos [12]. Esta tarea consiste en llenar los valores fal-
tantes, suavizar los datos erróneos, identi-
2.2 Tareas de preprocesamiento ficar o remover los datos inconsistentes. La
importancia de la limpieza de los datos es re-
Los datos reales tienden a tener ruido, ser in- conocida en diversa literatura como una de
completos e inconsistentes. Las tareas y téc- las tareas más importantes y exhaustiva del
nicas de preprocesamiento de datos pueden preprocesamiento. “La limpieza de datos es
mejorar la calidad de los datos, ayudando a uno de los tres problemas más grandes del
mejorar la precisión y eficiencia de los proce- data warehousing” – Ralph Kimball.
sos de análisis de datos, de ahí que el prepro-
cesamiento de datos se convierta en un paso 2.2.2 Integración de datos
preliminar importante. Detectando anoma-
lías, corrigiéndolas a tiempo y reducien- Combina datos desde múltiples fuentes y
do los datos que serán analizados se puede maneja la integración de esquemas de datos
ayudar para que la toma de decisiones sea a través de la combinación de los metadatos.
Limpieza de datos
Figura 1. Tareas
Integración de datos de preprocesamiento
de datos [12]
Transformación de datos
Reducción de datos
31
31
Datos ordenados: 4, 8, 9, 15, 21, 21, 24, 25, 26, 28, 29, 34
33
33
v − min A
v′ = (nuevo _ max A − nuevo _ min A )
2.3.2 Integración de datos [12] max A − min A
+ nuevo _ min A
La redundancia de datos puede ser detecta-
da por el análisis correlacional [12]. Por ejem- (Ecuación 6)
plo, dados dos atributos, la correlación entre
los atributos puede ser medida por: Este método conserva las relaciones en-
tre los datos originales.
P( A ∧ B)
Ejemplo: suponiendo que el valor míni-
P( A) P( B) mo y máximo de un atributo son $12 y
(Ecuación 5) $98 respectivamente, se requiere mapear
los valores en un rango entre 0 y 1. Enton-
ces tomando un valor de 73 por normali-
Si el resultado es mayor que 1 entonces A y B
zación min-max es transformado en:
están positivamente correlacionados. Cuanto
más alto sea el valor mayor implicación ha-
73 − 12 61
brá entre uno y otro. Por tanto, un valor alto (1 − 0) + 0 = = 0, 7093
puede indicar que alguno de los dos puede 98 − 12 86
ser removido como redundancia.
x Normalización z-core
Si el valor es igual a 1 indica que los dos atri- Los valores para un atributo A son nor-
butos son independientes y que no existe co- malizados basados en la media y la des-
rrelación entre ellos. Si el valor es menor que viación estándar de A. Un valor v de A es
1 entonces A y B están correlacionados nega- normalizado a v’ con el cálculo de la si-
tivamente. Esto quiere decir que cada atribu- guiente expresión:
to disuade del otro.
35
35
Ejemplo: suponer que el rango de valores x Compresión de datos: donde son usados
de los registros del atributo A es de -986 mecanismos de codificación para reducir
a 917. El máximo valor absoluto de A es el tamaño del conjunto de datos. En este
986 para normalizar por escala decimal se caso las técnicas utilizadas son la trans-
debe dividir cada valor por 1000 (j=3) en- formada de wavelet (DWT) o análisis de
tonces -986 es normalizado como -0,986. componentes principales (PCA).
como modelos paramétricos, de los cua- usadas son: segmentación por reglas de par-
les sólo se guardan los parámetros y no tición, análisis de histogramas y análisis de
los datos, o los no paramétricos como clustering. El Chi-Merge también es un algo-
el clustering, el muestreo o el uso de ritmo de discretización automático que ana-
histogramas. liza la calidad de múltiples intervalos utili-
zando el estadístico Chi Cuadrado (ǘ2).
x Discretización y generación del concepto
de jerarquía: donde los valores son reem- 3. OLAP y minería de datos
plazados por rangos o por datos de nive-
les conceptuales superiores. 3.1 OLAP
Las técnicas de discretización pueden ser usa- OLAP es típicamente ejecutado para la vali-
das para reducir el número de valores de un dación de hipótesis de usuarios. Las funcio-
atributo continuo, dividiendo el rango del atri- nalidades OLAP incluyen dril-down, roll-up,
buto en intervalos. Las etiquetas de los inter- slice, dice y operaciones de pivoteo para ma-
valos pueden ser usadas para reemplazar los nejo flexible y transformación de datos. [16].
valores actuales de datos. El concepto de jerar- En el caso particular de esta revisión, no sólo
quías organiza los valores de los atributos o di- se quiere aplicar OLAP para entender o vi-
mensiones en niveles graduales de abstracción. sualizar datos, sino también para generar
Ellos son una forma de discretización [12][18]. nuevos datos que puedan ser usados para
producir nuevas hipótesis de aplicación de
La generación automática del concepto de algoritmos de descubrimiento de conoci-
jerarquías para datos categóricos debe estar miento. En la tecnología OLAP se considera
basada en el número de valores distintos de que los datos deben ser integrados en un DW
los atributos definidos en la jerarquía. Para o en un datamart como prerrequisito para
datos numéricos, las técnicas que pueden ser análisis eficiente de los datos. De esta forma, 37
37
3838
PREPROCESAMIENTO DE DATOS ESTRUCTURADOS
x Por la integración de OLAP con múlti- La relevancia de los atributos está basada
ples módulos de minería de datos, mine- en el análisis de una medida incierta, una
ría OLAP proporciona flexibilidad para medida que determina qué tan relevante
seleccionar las funciones de minería de- es un atributo en una clase. En el proce-
seadas e intercambiar dinámicamente ta- so de clasificación, el clasificador adop-
reas de minería de datos. ta un método de inducción basado en ár-
bol de decisión que integra tecnología de
Ejecutar Minería OLAP en cooperación con cubos OLAP y luego árboles de decisión.
las funciones de minería de datos [11]: En este caso, primero ejecuta la mínima
generalización en los datos de entrena-
x OLAP basado en caracterización y com- miento y luego ejecuta el árbol de deci-
paración: sumariza y caracteriza un con- sión sobre los datos generalizados. Para
junto de datos obtenidos de las tareas re- manejar el ruido y datos excepcionales y
levantes basados en la generalización de facilitar el análisis estadístico se introdu-
datos. Para la minería de conocimiento a cen dos umbrales, el umbral de clasifica-
múltiples niveles el drill-down y el roll-up ción y el umbral de excepción.
son técnicas que pueden ser utilizadas.
x OLAP, basado en la predicción: minería
En el caso de que se quiera integrar ca- OLAP puede ser integrada con la pre-
racterización y comparación multinivel, dicción, si cualquier clase de predicción
en cada paso del drill-down o del roll-up puede ser identificada por un criterio de
la caracterización y la comparación pro- selección de la clase y esta característica
ducen un cuboid, con la misma estructu- puede ser mostrada. Entonces, las ope-
ra de datos. Entonces, cualquier módulo raciones de cubos pueden ser ejecutadas
de minería puede tratar el resultado de la sobre un cuboid seleccionado. 39
39
CICLO PRINCIPAL:
1. Crear lista ordenada de los valores de los atributos
2. Para cada valor:
a. Calcular las frecuencias de ocurrencia de los objetos con respecto a cada clase.
b. Asignar el nombre de la clase a todos los valores usando el procedimiento ASIGNAR.
Fin
3. Crear los intervalos a partir de los valores usando el procedimiento INTERVALO
ASIGNAR:
Si para todos los valores dados de los objetos estos pertenecen a la misma clase entonces asignar el
valor de la clase
Si no, si para los valores dados de la distribución de objetos existe mucha diferencia con los miembros
de la clase entonces el valor asignado es el de la clase más frecuente.
Si no asignar el valor “desconocido”.
INTERVALO:
a. Si una secuencia de valores pertenece a la misma clase entonces crear el intervalo
INTi = [Limiteinferiori, Limitesuperiori] a partir de estos valores
b. Si el intervalo INTi pertenece a la clase “desconocido” entonces
Si los intervalos vecinos INTi-1, INTi+1 pertenece a la misma clase entonces crear el intervalo INTi-1 U
INT U INTi+1
Si no, crear el intervalo INTi-1 U INT o INT U INTi+1 de acuerdo con los criterios dados.
c. Crear cubrimiento continuo de los atributos asignando Limiteinferiori = (Limiteinferiori+
Limitesuperiori-1)/2 y Limitesuperiori = Limiteinferiori
41
41
CICLO PRINCIPAL:
1. Para cada valor:
a. Calcular las frecuencias de ocurrencia de los objetos con respecto a cada clase.
b. Asignar el nombre de la clase a todos los valores usando el procedimiento ASIGNAR.
Fin.
2. Crea los grupos a partir de los valores usando el procedimiento AGRUPAR
ASIGNAR:
Si para todos los valores dados de los objetos pertenecen a la misma clase entonces asignar el valor
de la clase.
Si no, si para los valores dados de la distribución de objetos existe mucha diferencia con los
miembros de la clase entonces el valor asignado es el de la clase más frecuente.
Si no asignar el valor “desconocido”.
AGRUPAR:
Crear grupos para valores con el mismo nombre de la clase.
4242
PREPROCESAMIENTO DE DATOS ESTRUCTURADOS
Rango
Sexo Profesor asistente Profesor asociado Profesor
Masculino 20 10 5
Femenino 5 3 2
Rango
Rangos de salario Profesor asistente Profesor asociado Profesor
[3000-5000] 25 0 0
[5000-8000] 0 13 0
[8000-12000] 0 0 7
43
43
4444 de las funciones de caracterización, incluye OLAP y se estudian las técnicas de implementación con
el sistema DBMiner como ejemplo de implementación
por aplicaciones OLAP. Uno de los criterios acceso, conceptos de negocio, terminología y
es la coherencia, la cual representa las rela- detalles acerca de los reportes de usuario.
ciones entre las consultas similares genera-
das de relacionar nodos en un orden de je- El propósito de tecnologías avanzadas, como
rarquía que satisfagan la intuición de los minería de datos y data warehouse es la extrac-
usuarios, en la cual ellos pueden navegar a ción de información y conocimiento a partir de
través de la jerarquía. los datos. La minería de datos busca detectar
patrones desconocidos en datos que son usa-
El segundo criterio es llamado la fidelidad, dos para soporte de análisis de negocios y pre-
captura la intuición de datos más precisos, dicción. Las operaciones de preprocesamiento
que dirigen a mejores resultados. El tercer incluyen transformaciones de datos, agrega-
criterio llamado correlación-preservación ción, discretización, segmentación y muestreo.
esencialmente requiere que las propiedades Las experiencias prácticas han demostrado que
estadísticas de los datos deberían no afec- entre el 50 y el 80 % de los esfuerzos de descu-
tarse por la asignación de registros de datos brimiento del conocimiento son gastados en el
ambiguos. preprocesamiento de datos, lo cual no sólo con-
sume tiempo, sino que también requiere cono-
Recientes trabajos han propuesto extender el cimiento profundo del conocimiento del nego-
modelo OLAP para soportar la ambigüedad cio, la minería de datos y las bases de datos.
de los datos, específicamente imprecisión e
incertidumbre. Un proceso llamado asigna- M4 combina ideas desde dos estándares
ción fue propuesto para transformar una ta- existentes para representación de metadatos
bla de hechos imprecisa en una forma llama- e intercambio en el área de data warehouse.
da la base de datos extendida que puede ser Ellos son drásticamente simplificados y ex-
leída para responder consultas de agregacio- tendidos con la minería de datos y los ele-
nes OLAP. Se realiza una extensión del mo- mentos del preprocesamiento para crear el
delo relacional para OLAP y, de esta forma, metamodelo de dominio específico.
poder manejar los datos imprecisos y con
incertidumbre. Los atributos en el modelo En este caso, es usado el contexto de Mining
OLAP estándar son de dos clases, dimensio- Mart para representar un ejemplo típico de
nes y medidas. En el momento de extender herramientas orientadas a metadatos y su co-
el modelo, se soporta la incertidumbre en los rrespondiente metamodelo. Los repositorios
valores de las medidas y la imprecisión en son integrados o interoperan rastreando su
los valores de las dimensiones. esquema de metadatos con el metamodelo
común. Un paso en esta dirección ha sido el
3.4.3 M4 - un metamodelo para estándar para representación e intercambio
preprocesamiento de datos [20] propuesto por la OMG, llamado Common
Warehouse Metamodel (CWM).
Éste es el metamodelo utilizado por Mining
Mart, un sistema para soportar preprocesa- 3.4.4 discretización de dimensiones
miento para minería de datos. En particu- con valores continuos en cubos
lar, los metadatos pueden ser cualquier in- de datos OLAP [17]
formación relacionada con las definiciones
de esquema y configuración de especifica- Lo que se busca con el desarrollo de este pro-
ciones, almacenamiento físico, derechos de yecto es otra forma de integrar OLAP con 45
45
producción de las organizaciones, por [7] Clifton, Chris. Introduction to Data Min-
su dinamismo, son generados con cier- ing. Purdue University, 2004.
tas inconsistencias, las cuales, sin duda, [8] Engels, Robert y Theusinger Christiane.
afectan significativamente los resultados Using a Data Metric for Preprocessing Ad-
obtenidos de cualquier procedimiento vice for Data Mining Applications. ECAI 98,
metódico que sobre ellos se realice. Allí 13th European Conference on Artificial
es donde radica la importancia del pre- Intelligence. Jhon Willey & Sons, 1998.
procesamiento y la necesidad de anali- [9] Famili, A., Shen Wei-Min, Weber Rich-
zar cuál puede ser la mejor técnica que ard y Simoudis Evangelos. Data Pre-
se va a utilizar en cada una de las tareas, processing and Intelligent Data Analy-
para que los cubos de datos OLAP sean sis. Submitted to Intelligent Data Analysis
construidos con datos de alta calidad, Journal, 1997.
mejorando el desempeño de las aplica- [10] Gómez-Skarmeta, Antonio, Jiménez
ciones y permitiendo el ahorro de tiem- Fernando e Ibañez Jesus. Data Pre-
po y costos durante la etapa de diseño e processing in Knowledge Discovery with
implementación. Fuzzy-Evolutionary Algorithms. Departa-
mento de Informática, Inteligencia Ar-
Referencias bibliográficas tificial y Electrónica, Universidad de
Murcia. 1998.
[1] Barrera, H., Correa, J., y Rodríguez, J. [11] Han, Jiawei. Olap Mining: An Integra-
Prototipo de software para el preproce- tion of OLAP with Data Mining. Intelli-
samiento de datos - UDClear”. IV Sim- gent Database Systems Research Labo-
posio Internacional de Sistemas de In- ratory. 1997.
formación e Ingeniería de Software en [12] Han, Jiawei y Kamber Micheline. Data
la Sociedad del Conocimiento, libro de mining, Concepts and Techniques. Segun-
actas volumen 1, ISBN 84-690-0258-9. da edición. 2006.
[2] Berka, Petr y Bruha Ivan. Discretiza- [13] Hing-Yan, Lee y Hwee-Leng Ong. A
tion and Grouping: Preprocessing Steps for New Visualisation Technique for Knowl-
Data Mining. 1998. edge Discovery in OLAP. Japan-Singa-
[3] Berry, Michael J.A., Linoff Gordon S. pore AI Centre Information Technolo-
Data Mining Techniques. Wiley Publish- gy Institute. Singapore. 2000.
ing, Inc. 2004. [14] Kotsiantis, S. B., Kanellopoulos D. y
[4] Burdick, Doug, et al. Efficient Allocation Pintelas P. E. Data Preprocessing for Su-
Algorithms for OLAP over Imprecise Data. pervised Learning. International Journal
VLDB 06, September 12-15, 2006, Seoul, of Computer Science, Vol. 1 No. 2 2006.
Korea. Copyright 2006 VLDB Endow- [15] Lu, Hongjun, Sung Sam Yuan y Lu
ment, ACM 1-59593-385-9/06/09. Ying. On Preprocessing Data for Effec-
[5] Cadoli, Marco, Donini Francesco, Liber- tive Classification. Department of In-
atore Paolo y Shaerf Marco. Preprocess- formation Systems and Computer Sci-
ing of Intractable Problems. Dipartimento ence, National University of Singapore.
de Informatica e Sistemistica, Universi- 1996.
ta di Roma “La Sapienza”, Italy. Tech- [16] Maedche, Alexander, Hotho Andreas y
nical Report. 1997. Markus Wiese. Enhancing Preprocessing
[6] Cheung Pui Ling Pauline, et al. Data in Data-Intensive Domains using Online-
Warehousing and OLAP. 2000. Analytical Processing. 2000. 47
47
[17] Maliakal, Jose. Data Reduction with [19] Rodríguez, Nestor y Sánchez Wilson.
Design of Experiments (DoE) for Data Proyecto de grado: Software para pre-
Mining Pre-Processing. Proceedings of procesamiento de datos UDCLEAR
World Academy of Science, Engineering versión 2.0. Universidad Francisco José
and Technology, Vol. 26, December 2007. de Caldas, Facultad Tecnológica. 2008.
[18] Palaniappan, Sellappan y Hong Tan [20] Vaduva, Anca, Kietz JörgUwe y Zücker
Kim. Discretization of Continuos Val- Regina. M4 - A Metamodel for Data Pre-
ued Dimensions in OLAP Data Cubes. processing. 2001.
IJCSNS International Journal of Comput-
er Science and Network Security, Vol.8
No.11. November 2008.
4848
PREPROCESAMIENTO DE DATOS ESTRUCTURADOS