Analasis Cientifico

2017 International Conference on Information Systems and Computer Science
Neighborhood Criterion Analysis for Prototype

Selection Applied in WSN Data
Análisis del Criterio de Vecindad para la Selección
de Prototipos Aplicados en Datos de WSN
P.D. Rosero-Montalvo1,2 , A.C. Umaquinga-Criollo1 , S. Flores 1 , L. Suarez 1 , J. Pijal 2 ,
K.L. Ponce-Guevara 1 , D. Néjer1 , A. Guzmán 1 , D. Lugo 1 , K. Moncayo 1
1
Universidad Técnica del Norte, Ibarra - Ecuador,
2
Instituto Tecnológico Superior 17 de Julio, Yachay- Ecuador,
Abstract—The present work presents an analysis of the [1]. Consecuentemente, la necesidad del siglo XXI es
neighborhood criterion for the prototype selection (PS) in intercomunicar los dispositivos electrónicos y personas con
supervised machine learning classification algorithms. To do la finalidad de tomar decisiones correctas a un problema
this, we use the condensed neighbor algorithm CNN to eliminate
redundant data with the normalization of the distance to the planteado [2].
centroid of each data subset criterion. This is done, in order
to obtain the training matrix of the most optimal model. A Una red de sensores inalámbricas (WSN) están formadas
selection of neighborhood criterion has been created from the por un gran número de dispositivos que pueden cumplir el
quantification of the balance between the performance of the análisis de datos antes mencionados y convertirse en un medio
classification and the reduction of data set (CER). As proof of
the test, we performed: (i) CER and (ii) real-time tests with the de comunicación hacia las personas por su gran flexibilidad
implementation of the algorithm within the WSN. The result y compatibilidad[3][4].
is a data reduction of up to 88 % and a performance of the
kNN classifier of 75 %. It is concluded that the criterion of El aprendizaje automático permite realizar un análisis de
neighborhood with normalized distance must be less than or información de forma óptima al aplicar diferentes criterios y
equal to 0.2 and the implementation of kNN with k = 1 obtains
the best CER. algortimos en relación al tipo de datos a tratar [5]. Desde un
punto de vista de clasificación, el objetivo principal consiste
Resumen: El presente trabajo presenta un anáisis del criterio en asignar a un objeto o un fenónemo fı́sico a una categorı́a
de vecindad para la selección de prototipos (PS) en algoritmos de o clase previamente especificada (clasificación supervisada).
aprendizaje de máquina supervisados de clasificación. Para ello, Este proceso parte de un conjunto de objetos descritos por
se utiliza el algoritmo del vecino más cercano condensado CNN
para eliminar datos redundantes con el criterio de normalización un vector de caracterı́sticas y la clase perteneciente (llamado
de la distancia al centroide de cada subconjunto de datos. Esto comunmente conjunto de entrenamiento)[6]. Este conjunto
se realiza con el fin de obtener la matriz de entrenamiento del de datos permite entrenar el modelo que se usará para la
modelo más óptima. Se ha creado un medida de selección de clasificación de nuevos datos entrantes. Uno de los criterios
criterio de vecindad partir de la cuantificación del equilibrio entre más utilizados es a base de la vecindad entre los datos, los
el rendimiento de la clasificación y la reducción de los datos de
entrenamiento (CER). Como pruebas del análisis se realizaron: mismos que usan una métrica que ayude a comparar los
(i) CER y (ii) pruebas en tiempo real con la implementación diferentes conjuntos de datos, su ventaja hace referencia a su
del algoritmo dentro de la WSN. Como resultados se obtiene simplicidad y fácil implementación [7][8].
una reducción de datos de hasta el 88% y un rendimiento
del clasificador K-NN del 75%. Se concluye, que el criterio de Los algoritmos basados en vecindad, al momento de tomar
vecindad con distancia normalizada debe ser menor o igual a 0.2
y la implentación de kNN con k=1 consigue el mejor CER. una decisión sobre un caso de un conjunto Y(nx m) en una
Index Terms—prototype selection, cnn,knn,nn rule categorı́a θ depende de una colección de N casos previamente
selección de palabras claves: prototipos, cnn, knn, regla nn clasificados[9]. El criterio de vecino más próximo (NN) se
asume cuando los casos ya clasificados (y1 ,θ) con respecto a
I. I NTRODUCCI ÓN la distribución más cercana a (Y ,θ). El vecino más cercano
Con el auge de los sistemas electrónicos y la revolución considera a todos los atributos del conjunto Y con el mismo
digital actual ha provocado una sobrecarga de información. peso [7][10].
Como resultado, las capacidades humanas de análisis de datos
han sido superadas por sistemas informáticos en etapas como: EL criterio NN influencia significativamente en el coste
recolectar, procesar, almacenar y transmitir información computacional de un sistema electrónico. Para solucionar
978-1-5386-2644-3/17 $31.00 © 2017 IEEE 128

DOI 10.1109/INCISCOS.2017.47
este inconveniente, la selección de prototipos (SP) permite y ambiente. Posteriormente, se implementa el algoritmo de
reducir el tamaño de la matriz de entrenamiento. Tomando clasificación de K-vecinos cercanos (K-NN) para determinar
como consideración principal que no todos los datos brindan la eficacia de SP. Finalmente, dos pruebas son realizadas:
información al clasificador por motivos de ruido, redundancia, (i)se ha creado un medidad de selección de criterio de
entre otros. Dentro de SP las técnicas de edición de datos vecindad partir de una cuantificación del equilibrio entre el
buscan eliminar puntos que se encuentran en los espacios rendimiento de la clasificación y la reducción de los datos
de representación diferentes a la mayorı́a de casos. Como de entrenamiento (CER) y pruebas en tiempo real con la
resultado, permite agrupar de mejor manera a cada clase del inserción del algoritmo dentro de la WSN. Como resultado, se
conjunto de entrenamiento para aumentar el rendimiento del obtiene una reducción de datos del 88% y un rendimiento del
clasificador [9]. clasificador del 75%. Además, se concluye que el criterio de
El clasificador condensado más cercano (CNN) es una vecindad con distancia normalizada debe ser menor o igual a
de las técnicas utilizadas y conocidas para realizar tareas 0.2 y la implentación de kNN con k=1 consigue el mejor CER.
de reconocimiento. También ha demostrado ser uno de los
algoritmos más interesantes en el campo de la minerı́a de El resto del documento está organizado de la siguiente
datos a pesar de su simplicidad. Sin embargo, CNN sufre manera: La sección 2 explica el método de CNN y a su vez el
de varios inconvenientes; tales como altos requerimientos de principio sobre el que trabaja (NN). La sección 3 se encuentra
almacenamiento y baja tolerancia al ruido. Estas debilidades la metodologı́a a utilizar, con las etapas de: (i) Definicin de
han sido objeto de estudio de muchos investigadores y muchas subconjuntos , (ii) Clasificación y el subconjunto coherente
soluciones han sido propuestas hasta el momento [11]. Una de mı́nimo, y (iii) Reconocimiento. La sección 4 se presenta el
las caracterı́sticas de CNN, es que se enfoca en la selección diseño experimental de las pruebas. La sección 5 muestra los
de prototipos, la cual consiste en reducir el conjunto de datos resultados sobre el funcionamiento y la eficiencia del sistema.
de entrenamiento. Mediante el preprocesamiento de datos su Finalmente, la sección 6 se exponen las conclusiones y trabajo
objetivo se enfoca en reducir la información para generar a futuro de esta investigación.
mejores ejemplos representativos y mejorar la regla de datos
más cercanos. La clasificación de la selección de prototipos II. M ÉTODOS
puede categorizar los algoritmos en tres aspectos: Dirección
de búsqueda, selección de tipo y búsqueda de evaluación. CNN primero define la noción de un subconjunto de
muestras. Este se utiliza como un conjunto de referencia
CNN busca encontrar un subconjunto S del conjunto de almacenado para la regla NN. Posteriormente, clasifica correc-
entrenamiento Y, cada miembro de Y es más cercano a un tamente todos los puntos restantes en el conjunto de muestras
miembro de S de la misma clase que a un miembro de S de en relación de un criterio o regla. Cada clúster tiene un
una diferente clase. Para el proceso de selección es necesario subconjunto consistente, ya que cada conjunto es trivialmente
encontrar el centroide de cada etiqueta y se añada a este punto un subconjunto consistente de sı́ mismo [7] [13].
a la matriz S. De esta manera, cada instancia en Y se clasifica La forma en que funciona el algoritmo es dividir los puntos
usando las instancias en S, si una instancia es clasificada de datos en 3 tipos diferentes:
erróneamente, es excluida de S, asegurando la clasificación • Outliers: Puntos que no serı́an reconocidos como el tipo
correcta. Se repite el proceso hasta que no existan instancias correcto si se añaden posteriormente a la base de datos
en Y que están mal clasificadas, garantizando que todas las • Prototipos: El conjunto mı́nimo de puntos requeridos en
instancias en S sean clasificadas correctamente [12]. CNN el conjunto de entrenamiento para que todos los otros
tiene dos restricciones: (i) debido al criterio de distancia, lo puntos no secundarios sean reconocidos correctamente
vecinos más cercanos deben estar lo más cerca posible al • Puntos de absorción: Puntos que no son valores atı́picos,
centroide y (ii), su centroide debe estar en el punto medio y se reconocerı́an correctamente basándose sólo en el
del conjunto de datos [5]. conjunto de puntos de prototipo.
En consideración con lo anterior, existen algunos problemas

A. Pseudocódigo de CNN
abiertos por resolver. Las WSN permiten la comunicación
entre los sistemas electrónicos y las personas, pero deben El variación del algoritmo CNN para PS funciona de la
ser lo más óptimos posibles con un alto rendimiento del siguiente manera: (i) Se realiza la suma de valores de datos
clasificador. En consecuencia, el algoritmo CNN permite en por etiqueta n hasta el valor de m. Posteriormente, se realiza
cierta manera cumplir este objetivo, la interrogante se plantea el promedio por etiqueta donde se convierte en el punto medio
en la medida de vecindad cercana que permite reducir la de cada clúster. Una vez encontrado este valor, se calcula la
mayor cantidad de datos y la vez no disminuya la capacidad distacia eucledanea para todo (yi ,θi ) y se normaliza el valor
de desición del sistema. Para ello, se plantea realizar un con una escala de 0 a 1. Finalmente el criterio de vecindad
análisis con diferentes criterios de vecindad aplicando la más cercano (mismo que será modificado) permitirá elegir la
selección de prototipos a la matriz de entrenamieto desde una SP. Es decir, define si los datos pasan a un nuevo conjunto
base de datos obtenida por WSN de temperatura de suelo S(nx p), donde p es menor a m.
129
COMIENZO diferentes criterios planteados, (ii) rendimiento del clasificador
* Entrada la base de datos Ynx m con m casos, con cada criterio de CNN y (iii) cuantificación de equilibrio
*(xi ,θi ), i=1,....,n, variable de promedio tipo double, de rendimiento.
*Iniciar vacı́o el subconjunto S de prototipos
*PARA cada caso de Y, (xi ,θi ) HACER A. Reducción de Instancias
* COMIENZO La reducción de instancias es fundamental por limitaciones
* Sumar todos lo elementos por etiqueta en las WSN [15] en la tabla 1 se muestran los resultados por
* (n,θi )para todo (xi ,θi ) criterios de CNN de reducción de instancias por cada clúster
* FIN de la matriz Y.
* Dividir el resultado para m casos//
*PARA cada caso de Y, (xi ,θi ) HACER
* COMIENZO TABLA I
´
N UMERO DE INSTANCIAS MANTENIDAS APLICADO PS CON CRITERIOS DE
* cacular distacia euclideana entre xm edio y xi
CNN
* Normalizar distancias entre 0 a 1.
* SI distancia normalizada es menor a criterio NN Criterio Num. C1 Num C2 Num C3 Total
* ENTONCES <0.1 5 4 5 14
<0.2 12 8 14 34
* Incluir caso actual en S <0.3 16 10 22 48
* SINO <0.4 29 19 28 76
* No añadir caso actual en S <0.5 33 24 33 90
* FIN
FIN
Posteriormente, la siguiente etapa es realizar el porcentaje
final por criterio de la reducción de instancias para SP del
clasificador como se muestran en la tabla 2.
B. Metodologı́a de análisis de datos
TABLA II
La metodologı́a planificada para el sistema se detalla a P ORCENTAJE DE ELIMINACI ÓN DE INSTANCIAS CON CRITERIOS DE CNN
contnuación. Como primer paso, se realizó la recolección
Criterio Num. Inst. Rem Porcentaje
de datos de una red de sensores de humedad de suelo y <=0.1 106 0.88
humedad de ambiente con las etiquetas de húmedo, normal <=0.2 86 0.71
y seco en relación a las consideraciones preponderadas por <=0.3 72 0.60
agricultures. La matriz encontrada es Y(nx m),donde n es 3 y <=0.4 44 0.36
<=0.5 30 0.25
m es 150. De los valores adquiridos se reservan 30 datos para
la validación del algoritmo de clasificación. Se implementa
el algoritmo CNN con normalización de la distancia. Con Autores como [16], [17]. La visualización de información
el fin de ser los más exigentes con el clasificador. Como se es parte fundamental para el humano pueda comprender los
comentó anteriormente, el criterio es encontrar los puntos más procesos de aprendizaje de máquina, en la Fig. 1 se muestra
cercanos al centroide. Por tal motivo, se desconoce el valor la distribución de datos por clúster entre humedad suelo (eje
adecuado de cercanı́a óptimo en relación del tamaño de la y) y humedad del ambiente (eje x) normalizada entre 0 a 1.
matriz y el rendimiento del clasificador. Consecuentemente, al
normalizar dicha distancia de cercanı́a se establacen los rangos
de menores o igual a:(i) 0.1, (ii) 0.2, (iii) 0.3, (iv) 0.4 y (v) 0.5.
Encontrados los subconjuntos Si se implementa el clasificador
K-NN y se prueba el rendimiento del clasificador con los
datos de validación (datos de prueba). Una vez encontrado
el porcentaje de efectividad de K-NN. Para determinar el
criterio de CNN más adecuado aplicado a los datos de los
sensores, se realizaron mediciones a partir de la cuantificación
del equilibrio entre el rendimiento de la clasificación y la
reducción de los datos de entrenamiento (CER), mediante la
multiplicación del porcentaje de eliminación de datos de los
casos y la precisión del clasificador con k = 3 y k=1 para
conocer la mejor regla NN de clasificación.
III. R ESULTADOS
Los resultados se presentan con los enfoques de : (i) Fig. 1. Diagrama de disperción de la distribución de datos de la WSN por
Reducción de instancias de la matriz de entrenamiento con los clústers
130
Una vez aplicado PS en la Fig. 2 se muestran los datos
seleccionados para ser la matriz de entrenamiento S con la
misma relación de variables.
(d) Distribución de datos aplicado CNN con criterio menores o igual

a 0.4
(a) Distribución de datos aplicado CNN con criterio menores o igual

a 0.1
(e) Distribución de datos aplicado CNN con criterio menoreso igual

a 0.5
Fig. 2. Diagramas de disperción de matriz de entrenamiento aplicado criterios

de CNN
(b) Distribución de datos aplicado CNN con criterio menores o iguala B. Rendimiento del clasficiador
0.2
Con las bases de entrenamiento Si se implementa el algo-
ritmo K-NN como clasificador con una matriz de prueba con
10 instancias por clúster, inicialmente se trabaja con k=3 y
posteriormente k=1 para definir la mejor regla de clasificación,
estos números son tomados en cuenta por el volúmen de datos
reducidos. Por un lado, en la tabla 3 se indica K-NN con k=3.
Por otro lado en la tabla 4 se toma como regla k=1.
TABLA III
R ENDIMIENTO DE K-NN CON K =3
Criterio Ren.% C1 Ren.% C2 Ren.% C3 Ren. Total

<=0.1 0.83 0.5 0.58 0.66
<=0.2 0.76 0.40 0.58 0.63
<=0.3 0.9 0.66 0.61 0.73
<=0.4 0.83 0.75 0.64 0.73
<=0.5 0.83 0.75 0.64 0.73
(c) Distribución de datos aplicado CNN con criterio menores o igual
a 0.3
131
TABLA IV a considerar ya la mayorı́a de sistemas electrónicos no cuentan
R ENDIMIENTO DE K -NN CON K =1
con librerı́as fuertes de algoritmos de aprendizaje de máquina.
Criterio Ren.% C1 Ren.% C2 Ren.% C3 Ren. Total CNN resultó ser adecuado, aunque existen dentro de PS
<=0.1 0.83 0.5 0.58 0.66 otras técnicas modernas que presentan nuevas formas de
<=0.2 0.83 0.60 0.61 0.7
selección de datos. Como trabajos futuros se plantea revisar
<=0.3 0.83 0.60 0.61 0.73
<=0.4 0.83 0.75 0.64 0.73 cada uno de ellos para conocer su efectividad en estos tipos
<=0.5 0.83 0.5 0.5 0.73 de datos.
R EFERENCES
[1] C. Basante, C. Ortega, D. Peluffo, and X. Blanco, Estudio comparativo
C. Cuantificación del equilibrio de clasificación y reducción de técnicas supervisadas de machine learning aplicadas en problemas
de datos médicos, 2017.
[2] V. Alvear-Puertas, P. Rosero-Montalvo, D. Peluffo-Ordez, and J. Pijal-
Obtenidos los resultados en la sub sección anterior se elige Rojas, “Internet de las cosas y visión artificial, funcionamiento y aplica-
para CER a k-NN con k=1 por aumentar su rendimiento. En ciones: Revisión de literatura,” ENFOQUEUTE, 2017. [Online]. Avail-
able: http://ingenieria.ute.edu.ec/enfoqueute/public/journals/1/full21.pdf
la tabla 5 se muestra el CER por cada criterio [3] I. Khan, F. Belqasmi, R. Glitho, N. Crespi, M. Morrow, and P. Polakos,
“Wireless sensor network virtualization: A survey,” IEEE Communica-
TABLA tions Surveys Tutorials, vol. 18, no. 1, pp. 553–576, Firstquarter 2016.
ÓN DE EQUILIBRIO CER
V C UANTIFICACI [4] P. R. Montalvo, S. Nunez, S. Realpe, V. Alvear, L. Beltran, and
C. Rosado, “Internet de las cosas y redes de sensores inalambri-
Criterio Insta. remov Ren. Total CER cos:review,” vol. 73, pp. 31–37.
[5] G. Salvador, C. Jose, and H. Francisco, “A memetic algorithm for
<=0.1 0.88 0.66 0.58
evolutaionary prototype selection selection: A scaling up approach,”
<=0.2 0.71 0.70 0.49
Pattern Recognition, pp. 2693–2709, 2008.
<=0.3 0.60 0.73 0.43
[6] B. Krawczyk, I. Triguero, S. Garca, M. Woniak, and F. Herrera, “A
<=0.4 0.36 0.73 0.26 first attempt on evolutionary prototype reduction for nearest neighbor
<=0.5 0.25 0.73 0.18 one-class classification,” in 2014 IEEE Congress on Evolutionary Com-
putation (CEC), 2014, pp. 747–753.
[7] A. SIerra.
[8] J. R. Cano, F. Herrera, and M. Lozano, “Using evolutionary algorithms
D. Algoritmos dentro del sistema as instance selection for data reduction in kdd: an experimental study,”
IEEE Transactions on Evolutionary Computation, vol. 7, no. 6, pp. 561–
Una vez realizado el CER, se elije como regla k=1 del 575, Dec 2003.
clasificador k-NN por aumentar el rendimiento del mismo y [9] S. Garcia, J. Derrac, J. Cano, and F. Herrera, “Prototype selection for
disminuir el coste comptucional, además se elige el criterrio de nearest neighbor classification: Taxonomy and empirical study,” IEEE
Transactions on Pattern Analysis and Machine Intelligence, vol. 34,
CNN la distnacia normalizada entre 0.1 y 0.2 a ser ingresados no. 3, pp. 417–435, 2012.
al sistema y probar su funcionalidad. Como resultado, en 5 [10] I. Triguero, J. Derrac, S. Garcia, and F. Herrera, “A taxonomy and
experimentos controlados con lecturas del sistema en tiempo experimental study on prototype generation for nearest neighbor classi-
fication,” IEEE Transactions on Systems, Man, and Cybernetics, Part C
real el criterio de menores a 0.1 tuvo un rendimiento menor del (Applications and Reviews), vol. 42, no. 1, pp. 86–100, 2012.
60% ya que al no contar con muchos puntos en la matriz de [11] C. Domeniconi, J. Peng, and D. Gunopulos, “Locally adaptive metric
entrenamiento es muy susceptible a ruido y errores de lectura. nearest-neighbor classification,” IEEE Transactions on Pattern Analysis
and Machine Intelligence, vol. 24, no. 9, pp. 1281–1285, Sep 2002.
Por su parte el criterio de 0.2 tuvo un rendimiento del 75%. [12] S.-W. Kim and B. J. Oommen, “Creative prototype reduction schemes:
a taxonomy and ranking,” in IEEE International Conference on Systems,
IV. C ONCLUSIONES Y TRABAJOS FUTUROS Man and Cybernetics, vol. 7, Oct 2002, pp. 6 pp. vol.7–.
[13] H. Brighton and C. Mellish, “Advances in instance selection for instance-
Los algoritmos de aprendizaje de máquina permiten a based learning algorithms,” Data Mining and Knowledge Discovery,
los sitemas electrónicos ser eficientes y con capacidades de vol. 6, pp. 153–172, 2002.
[14] J. Ullmann, “Automatic selection of reference data for use in a nearest-
tomas de decisión. Des esta forma, mientras más livianos neighbor method of pattern classification (corresp.),” IEEE Transactions
comptucionalmente sean, permitirán tener una mayor rapidez on Information Theory, vol. 20, no. 4, pp. 541–543, Jul 1974.
de acción. [15] S. Nunez-Godoy, V. Alvear-Puertas, S. Realpe-Godoy, E. Pujota-
Cuascota, H. Farinango-Endara, I. Navarrete-Insuasti, F. Vaca-Chapi,
La selección de prototipos permite reducir la matriz de P. Rosero-Montalvo, and D. H. Peluffo, “Human-sitting-pose detection
entrenamiento para algoritmos de aprendizaje supervisado using data classification and dimensionality reduction,” in 2016 IEEE
al eliminar datos que no aportan información al modelo. El Ecuador Technical Chapters Meeting (ETCM), Oct 2016, pp. 1–5.
[16] P. D. Rosero-Montalvo, D. F. Peña-Unigarro, D. H. Peluffo, J. A. Castro-
algoritmo CNN con su criterio de elección de datos cercanos Silva, A. Umaquinga, and E. A. Rosero-Rosero, Data Visualization
al centroide de cada clúster es una estrategia adecuada para Using Interactive Dimensionality Reduction and Improved Color-Based
datos de WSN por su alto número de instancias removidas Interaction Model. Cham: Springer International Publishing, 2017, pp.
289–298.
sin sacrificar el rendimiento del clasificador. [17] P. Rosero-Montalvo, P. Diaz, J. A. Salazar-Castro, D. F. Pena-Unigarro,
A. J. Anaya-Isaza, J. C. Alvarado-Perez, R. Theron, and D. H. Peluffo-
Ordonezez, Interactive Data Visualization Using Dimensionality Reduc-
En WSN donde es muy crı́tico el tamaño de los datos tion and Similarity-Based Representations, 2017, pp. 334–342.
a almacenar, CNN con el criterio de distancia normalizada
menores o iguales a 0.2 resulta ser muy adecuado para ser
implementado. Su facilidad de desarrollo es otro punto fuerte
132

Analasis Cientifico

Uploaded by

Document Information

Original Title

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

Analasis Cientifico

Uploaded by

Copyright:

Available Formats

2017 International Conference on Information Systems and Computer Science

Neighborhood Criterion Analysis for Prototype

978-1-5386-2644-3/17 $31.00 © 2017 IEEE 128

En consideración con lo anterior, existen algunos problemas

(d) Distribución de datos aplicado CNN con criterio menores o igual

(a) Distribución de datos aplicado CNN con criterio menores o igual

(e) Distribución de datos aplicado CNN con criterio menoreso igual

Fig. 2. Diagramas de disperción de matriz de entrenamiento aplicado criterios

Criterio Ren.% C1 Ren.% C2 Ren.% C3 Ren. Total

You might also like