You are on page 1of 5

2017 International Conference on Information Systems and Computer Science

Neighborhood Criterion Analysis for Prototype


Selection Applied in WSN Data
Análisis del Criterio de Vecindad para la Selección
de Prototipos Aplicados en Datos de WSN
P.D. Rosero-Montalvo1,2 , A.C. Umaquinga-Criollo1 , S. Flores 1 , L. Suarez 1 , J. Pijal 2 ,
K.L. Ponce-Guevara 1 , D. Néjer1 , A. Guzmán 1 , D. Lugo 1 , K. Moncayo 1
1
Universidad Técnica del Norte, Ibarra - Ecuador,
2
Instituto Tecnológico Superior 17 de Julio, Yachay- Ecuador,

Abstract—The present work presents an analysis of the [1]. Consecuentemente, la necesidad del siglo XXI es
neighborhood criterion for the prototype selection (PS) in intercomunicar los dispositivos electrónicos y personas con
supervised machine learning classification algorithms. To do la finalidad de tomar decisiones correctas a un problema
this, we use the condensed neighbor algorithm CNN to eliminate
redundant data with the normalization of the distance to the planteado [2].
centroid of each data subset criterion. This is done, in order
to obtain the training matrix of the most optimal model. A Una red de sensores inalámbricas (WSN) están formadas
selection of neighborhood criterion has been created from the por un gran número de dispositivos que pueden cumplir el
quantification of the balance between the performance of the análisis de datos antes mencionados y convertirse en un medio
classification and the reduction of data set (CER). As proof of
the test, we performed: (i) CER and (ii) real-time tests with the de comunicación hacia las personas por su gran flexibilidad
implementation of the algorithm within the WSN. The result y compatibilidad[3][4].
is a data reduction of up to 88 % and a performance of the
kNN classifier of 75 %. It is concluded that the criterion of El aprendizaje automático permite realizar un análisis de
neighborhood with normalized distance must be less than or información de forma óptima al aplicar diferentes criterios y
equal to 0.2 and the implementation of kNN with k = 1 obtains
the best CER. algortimos en relación al tipo de datos a tratar [5]. Desde un
punto de vista de clasificación, el objetivo principal consiste
Resumen: El presente trabajo presenta un anáisis del criterio en asignar a un objeto o un fenónemo fı́sico a una categorı́a
de vecindad para la selección de prototipos (PS) en algoritmos de o clase previamente especificada (clasificación supervisada).
aprendizaje de máquina supervisados de clasificación. Para ello, Este proceso parte de un conjunto de objetos descritos por
se utiliza el algoritmo del vecino más cercano condensado CNN
para eliminar datos redundantes con el criterio de normalización un vector de caracterı́sticas y la clase perteneciente (llamado
de la distancia al centroide de cada subconjunto de datos. Esto comunmente conjunto de entrenamiento)[6]. Este conjunto
se realiza con el fin de obtener la matriz de entrenamiento del de datos permite entrenar el modelo que se usará para la
modelo más óptima. Se ha creado un medida de selección de clasificación de nuevos datos entrantes. Uno de los criterios
criterio de vecindad partir de la cuantificación del equilibrio entre más utilizados es a base de la vecindad entre los datos, los
el rendimiento de la clasificación y la reducción de los datos de
entrenamiento (CER). Como pruebas del análisis se realizaron: mismos que usan una métrica que ayude a comparar los
(i) CER y (ii) pruebas en tiempo real con la implementación diferentes conjuntos de datos, su ventaja hace referencia a su
del algoritmo dentro de la WSN. Como resultados se obtiene simplicidad y fácil implementación [7][8].
una reducción de datos de hasta el 88% y un rendimiento
del clasificador K-NN del 75%. Se concluye, que el criterio de Los algoritmos basados en vecindad, al momento de tomar
vecindad con distancia normalizada debe ser menor o igual a 0.2
y la implentación de kNN con k=1 consigue el mejor CER. una decisión sobre un caso de un conjunto Y(nx m) en una
Index Terms—prototype selection, cnn,knn,nn rule categorı́a θ depende de una colección de N casos previamente
selección de palabras claves: prototipos, cnn, knn, regla nn clasificados[9]. El criterio de vecino más próximo (NN) se
asume cuando los casos ya clasificados (y1 ,θ) con respecto a
I. I NTRODUCCI ÓN la distribución más cercana a (Y ,θ). El vecino más cercano
Con el auge de los sistemas electrónicos y la revolución considera a todos los atributos del conjunto Y con el mismo
digital actual ha provocado una sobrecarga de información. peso [7][10].
Como resultado, las capacidades humanas de análisis de datos
han sido superadas por sistemas informáticos en etapas como: EL criterio NN influencia significativamente en el coste
recolectar, procesar, almacenar y transmitir información computacional de un sistema electrónico. Para solucionar

978-1-5386-2644-3/17 $31.00 © 2017 IEEE 128


DOI 10.1109/INCISCOS.2017.47
este inconveniente, la selección de prototipos (SP) permite y ambiente. Posteriormente, se implementa el algoritmo de
reducir el tamaño de la matriz de entrenamiento. Tomando clasificación de K-vecinos cercanos (K-NN) para determinar
como consideración principal que no todos los datos brindan la eficacia de SP. Finalmente, dos pruebas son realizadas:
información al clasificador por motivos de ruido, redundancia, (i)se ha creado un medidad de selección de criterio de
entre otros. Dentro de SP las técnicas de edición de datos vecindad partir de una cuantificación del equilibrio entre el
buscan eliminar puntos que se encuentran en los espacios rendimiento de la clasificación y la reducción de los datos
de representación diferentes a la mayorı́a de casos. Como de entrenamiento (CER) y pruebas en tiempo real con la
resultado, permite agrupar de mejor manera a cada clase del inserción del algoritmo dentro de la WSN. Como resultado, se
conjunto de entrenamiento para aumentar el rendimiento del obtiene una reducción de datos del 88% y un rendimiento del
clasificador [9]. clasificador del 75%. Además, se concluye que el criterio de
El clasificador condensado más cercano (CNN) es una vecindad con distancia normalizada debe ser menor o igual a
de las técnicas utilizadas y conocidas para realizar tareas 0.2 y la implentación de kNN con k=1 consigue el mejor CER.
de reconocimiento. También ha demostrado ser uno de los
algoritmos más interesantes en el campo de la minerı́a de El resto del documento está organizado de la siguiente
datos a pesar de su simplicidad. Sin embargo, CNN sufre manera: La sección 2 explica el método de CNN y a su vez el
de varios inconvenientes; tales como altos requerimientos de principio sobre el que trabaja (NN). La sección 3 se encuentra
almacenamiento y baja tolerancia al ruido. Estas debilidades la metodologı́a a utilizar, con las etapas de: (i) Definicin de
han sido objeto de estudio de muchos investigadores y muchas subconjuntos , (ii) Clasificación y el subconjunto coherente
soluciones han sido propuestas hasta el momento [11]. Una de mı́nimo, y (iii) Reconocimiento. La sección 4 se presenta el
las caracterı́sticas de CNN, es que se enfoca en la selección diseño experimental de las pruebas. La sección 5 muestra los
de prototipos, la cual consiste en reducir el conjunto de datos resultados sobre el funcionamiento y la eficiencia del sistema.
de entrenamiento. Mediante el preprocesamiento de datos su Finalmente, la sección 6 se exponen las conclusiones y trabajo
objetivo se enfoca en reducir la información para generar a futuro de esta investigación.
mejores ejemplos representativos y mejorar la regla de datos
más cercanos. La clasificación de la selección de prototipos II. M ÉTODOS
puede categorizar los algoritmos en tres aspectos: Dirección
de búsqueda, selección de tipo y búsqueda de evaluación. CNN primero define la noción de un subconjunto de
muestras. Este se utiliza como un conjunto de referencia
CNN busca encontrar un subconjunto S del conjunto de almacenado para la regla NN. Posteriormente, clasifica correc-
entrenamiento Y, cada miembro de Y es más cercano a un tamente todos los puntos restantes en el conjunto de muestras
miembro de S de la misma clase que a un miembro de S de en relación de un criterio o regla. Cada clúster tiene un
una diferente clase. Para el proceso de selección es necesario subconjunto consistente, ya que cada conjunto es trivialmente
encontrar el centroide de cada etiqueta y se añada a este punto un subconjunto consistente de sı́ mismo [7] [13].
a la matriz S. De esta manera, cada instancia en Y se clasifica La forma en que funciona el algoritmo es dividir los puntos
usando las instancias en S, si una instancia es clasificada de datos en 3 tipos diferentes:
erróneamente, es excluida de S, asegurando la clasificación • Outliers: Puntos que no serı́an reconocidos como el tipo
correcta. Se repite el proceso hasta que no existan instancias correcto si se añaden posteriormente a la base de datos
en Y que están mal clasificadas, garantizando que todas las • Prototipos: El conjunto mı́nimo de puntos requeridos en
instancias en S sean clasificadas correctamente [12]. CNN el conjunto de entrenamiento para que todos los otros
tiene dos restricciones: (i) debido al criterio de distancia, lo puntos no secundarios sean reconocidos correctamente
vecinos más cercanos deben estar lo más cerca posible al • Puntos de absorción: Puntos que no son valores atı́picos,
centroide y (ii), su centroide debe estar en el punto medio y se reconocerı́an correctamente basándose sólo en el
del conjunto de datos [5]. conjunto de puntos de prototipo.

En consideración con lo anterior, existen algunos problemas


A. Pseudocódigo de CNN
abiertos por resolver. Las WSN permiten la comunicación
entre los sistemas electrónicos y las personas, pero deben El variación del algoritmo CNN para PS funciona de la
ser lo más óptimos posibles con un alto rendimiento del siguiente manera: (i) Se realiza la suma de valores de datos
clasificador. En consecuencia, el algoritmo CNN permite en por etiqueta n hasta el valor de m. Posteriormente, se realiza
cierta manera cumplir este objetivo, la interrogante se plantea el promedio por etiqueta donde se convierte en el punto medio
en la medida de vecindad cercana que permite reducir la de cada clúster. Una vez encontrado este valor, se calcula la
mayor cantidad de datos y la vez no disminuya la capacidad distacia eucledanea para todo (yi ,θi ) y se normaliza el valor
de desición del sistema. Para ello, se plantea realizar un con una escala de 0 a 1. Finalmente el criterio de vecindad
análisis con diferentes criterios de vecindad aplicando la más cercano (mismo que será modificado) permitirá elegir la
selección de prototipos a la matriz de entrenamieto desde una SP. Es decir, define si los datos pasan a un nuevo conjunto
base de datos obtenida por WSN de temperatura de suelo S(nx p), donde p es menor a m.

129
COMIENZO diferentes criterios planteados, (ii) rendimiento del clasificador
* Entrada la base de datos Ynx m con m casos, con cada criterio de CNN y (iii) cuantificación de equilibrio
*(xi ,θi ), i=1,....,n, variable de promedio tipo double, de rendimiento.
*Iniciar vacı́o el subconjunto S de prototipos
*PARA cada caso de Y, (xi ,θi ) HACER A. Reducción de Instancias
* COMIENZO La reducción de instancias es fundamental por limitaciones
* Sumar todos lo elementos por etiqueta en las WSN [15] en la tabla 1 se muestran los resultados por
* (n,θi )para todo (xi ,θi ) criterios de CNN de reducción de instancias por cada clúster
* FIN de la matriz Y.
* Dividir el resultado para m casos//
*PARA cada caso de Y, (xi ,θi ) HACER
* COMIENZO TABLA I
´
N UMERO DE INSTANCIAS MANTENIDAS APLICADO PS CON CRITERIOS DE
* cacular distacia euclideana entre xm edio y xi
CNN
* Normalizar distancias entre 0 a 1.
* SI distancia normalizada es menor a criterio NN Criterio Num. C1 Num C2 Num C3 Total
* ENTONCES <0.1 5 4 5 14
<0.2 12 8 14 34
* Incluir caso actual en S <0.3 16 10 22 48
* SINO <0.4 29 19 28 76
* No añadir caso actual en S <0.5 33 24 33 90
* FIN
FIN
Posteriormente, la siguiente etapa es realizar el porcentaje
final por criterio de la reducción de instancias para SP del
clasificador como se muestran en la tabla 2.
B. Metodologı́a de análisis de datos
TABLA II
La metodologı́a planificada para el sistema se detalla a P ORCENTAJE DE ELIMINACI ÓN DE INSTANCIAS CON CRITERIOS DE CNN
contnuación. Como primer paso, se realizó la recolección
Criterio Num. Inst. Rem Porcentaje
de datos de una red de sensores de humedad de suelo y <=0.1 106 0.88
humedad de ambiente con las etiquetas de húmedo, normal <=0.2 86 0.71
y seco en relación a las consideraciones preponderadas por <=0.3 72 0.60
agricultures. La matriz encontrada es Y(nx m),donde n es 3 y <=0.4 44 0.36
<=0.5 30 0.25
m es 150. De los valores adquiridos se reservan 30 datos para
la validación del algoritmo de clasificación. Se implementa
el algoritmo CNN con normalización de la distancia. Con Autores como [16], [17]. La visualización de información
el fin de ser los más exigentes con el clasificador. Como se es parte fundamental para el humano pueda comprender los
comentó anteriormente, el criterio es encontrar los puntos más procesos de aprendizaje de máquina, en la Fig. 1 se muestra
cercanos al centroide. Por tal motivo, se desconoce el valor la distribución de datos por clúster entre humedad suelo (eje
adecuado de cercanı́a óptimo en relación del tamaño de la y) y humedad del ambiente (eje x) normalizada entre 0 a 1.
matriz y el rendimiento del clasificador. Consecuentemente, al
normalizar dicha distancia de cercanı́a se establacen los rangos
de menores o igual a:(i) 0.1, (ii) 0.2, (iii) 0.3, (iv) 0.4 y (v) 0.5.
Encontrados los subconjuntos Si se implementa el clasificador
K-NN y se prueba el rendimiento del clasificador con los
datos de validación (datos de prueba). Una vez encontrado
el porcentaje de efectividad de K-NN. Para determinar el
criterio de CNN más adecuado aplicado a los datos de los
sensores, se realizaron mediciones a partir de la cuantificación
del equilibrio entre el rendimiento de la clasificación y la
reducción de los datos de entrenamiento (CER), mediante la
multiplicación del porcentaje de eliminación de datos de los
casos y la precisión del clasificador con k = 3 y k=1 para
conocer la mejor regla NN de clasificación.

III. R ESULTADOS
Los resultados se presentan con los enfoques de : (i) Fig. 1. Diagrama de disperción de la distribución de datos de la WSN por
Reducción de instancias de la matriz de entrenamiento con los clústers

130
Una vez aplicado PS en la Fig. 2 se muestran los datos
seleccionados para ser la matriz de entrenamiento S con la
misma relación de variables.

(d) Distribución de datos aplicado CNN con criterio menores o igual


a 0.4

(a) Distribución de datos aplicado CNN con criterio menores o igual


a 0.1

(e) Distribución de datos aplicado CNN con criterio menoreso igual


a 0.5

Fig. 2. Diagramas de disperción de matriz de entrenamiento aplicado criterios


de CNN

(b) Distribución de datos aplicado CNN con criterio menores o iguala B. Rendimiento del clasficiador
0.2
Con las bases de entrenamiento Si se implementa el algo-
ritmo K-NN como clasificador con una matriz de prueba con
10 instancias por clúster, inicialmente se trabaja con k=3 y
posteriormente k=1 para definir la mejor regla de clasificación,
estos números son tomados en cuenta por el volúmen de datos
reducidos. Por un lado, en la tabla 3 se indica K-NN con k=3.
Por otro lado en la tabla 4 se toma como regla k=1.

TABLA III
R ENDIMIENTO DE K-NN CON K =3

Criterio Ren.% C1 Ren.% C2 Ren.% C3 Ren. Total


<=0.1 0.83 0.5 0.58 0.66
<=0.2 0.76 0.40 0.58 0.63
<=0.3 0.9 0.66 0.61 0.73
<=0.4 0.83 0.75 0.64 0.73
<=0.5 0.83 0.75 0.64 0.73
(c) Distribución de datos aplicado CNN con criterio menores o igual
a 0.3

131
TABLA IV a considerar ya la mayorı́a de sistemas electrónicos no cuentan
R ENDIMIENTO DE K -NN CON K =1
con librerı́as fuertes de algoritmos de aprendizaje de máquina.
Criterio Ren.% C1 Ren.% C2 Ren.% C3 Ren. Total CNN resultó ser adecuado, aunque existen dentro de PS
<=0.1 0.83 0.5 0.58 0.66 otras técnicas modernas que presentan nuevas formas de
<=0.2 0.83 0.60 0.61 0.7
selección de datos. Como trabajos futuros se plantea revisar
<=0.3 0.83 0.60 0.61 0.73
<=0.4 0.83 0.75 0.64 0.73 cada uno de ellos para conocer su efectividad en estos tipos
<=0.5 0.83 0.5 0.5 0.73 de datos.
R EFERENCES
[1] C. Basante, C. Ortega, D. Peluffo, and X. Blanco, Estudio comparativo
C. Cuantificación del equilibrio de clasificación y reducción de técnicas supervisadas de machine learning aplicadas en problemas
de datos médicos, 2017.
[2] V. Alvear-Puertas, P. Rosero-Montalvo, D. Peluffo-Ordez, and J. Pijal-
Obtenidos los resultados en la sub sección anterior se elige Rojas, “Internet de las cosas y visión artificial, funcionamiento y aplica-
para CER a k-NN con k=1 por aumentar su rendimiento. En ciones: Revisión de literatura,” ENFOQUEUTE, 2017. [Online]. Avail-
able: http://ingenieria.ute.edu.ec/enfoqueute/public/journals/1/full21.pdf
la tabla 5 se muestra el CER por cada criterio [3] I. Khan, F. Belqasmi, R. Glitho, N. Crespi, M. Morrow, and P. Polakos,
“Wireless sensor network virtualization: A survey,” IEEE Communica-
TABLA tions Surveys Tutorials, vol. 18, no. 1, pp. 553–576, Firstquarter 2016.
ÓN DE EQUILIBRIO CER
V C UANTIFICACI [4] P. R. Montalvo, S. Nunez, S. Realpe, V. Alvear, L. Beltran, and
C. Rosado, “Internet de las cosas y redes de sensores inalambri-
Criterio Insta. remov Ren. Total CER cos:review,” vol. 73, pp. 31–37.
[5] G. Salvador, C. Jose, and H. Francisco, “A memetic algorithm for
<=0.1 0.88 0.66 0.58
evolutaionary prototype selection selection: A scaling up approach,”
<=0.2 0.71 0.70 0.49
Pattern Recognition, pp. 2693–2709, 2008.
<=0.3 0.60 0.73 0.43
[6] B. Krawczyk, I. Triguero, S. Garca, M. Woniak, and F. Herrera, “A
<=0.4 0.36 0.73 0.26 first attempt on evolutionary prototype reduction for nearest neighbor
<=0.5 0.25 0.73 0.18 one-class classification,” in 2014 IEEE Congress on Evolutionary Com-
putation (CEC), 2014, pp. 747–753.
[7] A. SIerra.
[8] J. R. Cano, F. Herrera, and M. Lozano, “Using evolutionary algorithms
D. Algoritmos dentro del sistema as instance selection for data reduction in kdd: an experimental study,”
IEEE Transactions on Evolutionary Computation, vol. 7, no. 6, pp. 561–
Una vez realizado el CER, se elije como regla k=1 del 575, Dec 2003.
clasificador k-NN por aumentar el rendimiento del mismo y [9] S. Garcia, J. Derrac, J. Cano, and F. Herrera, “Prototype selection for
disminuir el coste comptucional, además se elige el criterrio de nearest neighbor classification: Taxonomy and empirical study,” IEEE
Transactions on Pattern Analysis and Machine Intelligence, vol. 34,
CNN la distnacia normalizada entre 0.1 y 0.2 a ser ingresados no. 3, pp. 417–435, 2012.
al sistema y probar su funcionalidad. Como resultado, en 5 [10] I. Triguero, J. Derrac, S. Garcia, and F. Herrera, “A taxonomy and
experimentos controlados con lecturas del sistema en tiempo experimental study on prototype generation for nearest neighbor classi-
fication,” IEEE Transactions on Systems, Man, and Cybernetics, Part C
real el criterio de menores a 0.1 tuvo un rendimiento menor del (Applications and Reviews), vol. 42, no. 1, pp. 86–100, 2012.
60% ya que al no contar con muchos puntos en la matriz de [11] C. Domeniconi, J. Peng, and D. Gunopulos, “Locally adaptive metric
entrenamiento es muy susceptible a ruido y errores de lectura. nearest-neighbor classification,” IEEE Transactions on Pattern Analysis
and Machine Intelligence, vol. 24, no. 9, pp. 1281–1285, Sep 2002.
Por su parte el criterio de 0.2 tuvo un rendimiento del 75%. [12] S.-W. Kim and B. J. Oommen, “Creative prototype reduction schemes:
a taxonomy and ranking,” in IEEE International Conference on Systems,
IV. C ONCLUSIONES Y TRABAJOS FUTUROS Man and Cybernetics, vol. 7, Oct 2002, pp. 6 pp. vol.7–.
[13] H. Brighton and C. Mellish, “Advances in instance selection for instance-
Los algoritmos de aprendizaje de máquina permiten a based learning algorithms,” Data Mining and Knowledge Discovery,
los sitemas electrónicos ser eficientes y con capacidades de vol. 6, pp. 153–172, 2002.
[14] J. Ullmann, “Automatic selection of reference data for use in a nearest-
tomas de decisión. Des esta forma, mientras más livianos neighbor method of pattern classification (corresp.),” IEEE Transactions
comptucionalmente sean, permitirán tener una mayor rapidez on Information Theory, vol. 20, no. 4, pp. 541–543, Jul 1974.
de acción. [15] S. Nunez-Godoy, V. Alvear-Puertas, S. Realpe-Godoy, E. Pujota-
Cuascota, H. Farinango-Endara, I. Navarrete-Insuasti, F. Vaca-Chapi,
La selección de prototipos permite reducir la matriz de P. Rosero-Montalvo, and D. H. Peluffo, “Human-sitting-pose detection
entrenamiento para algoritmos de aprendizaje supervisado using data classification and dimensionality reduction,” in 2016 IEEE
al eliminar datos que no aportan información al modelo. El Ecuador Technical Chapters Meeting (ETCM), Oct 2016, pp. 1–5.
[16] P. D. Rosero-Montalvo, D. F. Peña-Unigarro, D. H. Peluffo, J. A. Castro-
algoritmo CNN con su criterio de elección de datos cercanos Silva, A. Umaquinga, and E. A. Rosero-Rosero, Data Visualization
al centroide de cada clúster es una estrategia adecuada para Using Interactive Dimensionality Reduction and Improved Color-Based
datos de WSN por su alto número de instancias removidas Interaction Model. Cham: Springer International Publishing, 2017, pp.
289–298.
sin sacrificar el rendimiento del clasificador. [17] P. Rosero-Montalvo, P. Diaz, J. A. Salazar-Castro, D. F. Pena-Unigarro,
A. J. Anaya-Isaza, J. C. Alvarado-Perez, R. Theron, and D. H. Peluffo-
Ordonezez, Interactive Data Visualization Using Dimensionality Reduc-
En WSN donde es muy crı́tico el tamaño de los datos tion and Similarity-Based Representations, 2017, pp. 334–342.
a almacenar, CNN con el criterio de distancia normalizada
menores o iguales a 0.2 resulta ser muy adecuado para ser
implementado. Su facilidad de desarrollo es otro punto fuerte

132

You might also like