Professional Documents
Culture Documents
Abstract—The present work presents an analysis of the [1]. Consecuentemente, la necesidad del siglo XXI es
neighborhood criterion for the prototype selection (PS) in intercomunicar los dispositivos electrónicos y personas con
supervised machine learning classification algorithms. To do la finalidad de tomar decisiones correctas a un problema
this, we use the condensed neighbor algorithm CNN to eliminate
redundant data with the normalization of the distance to the planteado [2].
centroid of each data subset criterion. This is done, in order
to obtain the training matrix of the most optimal model. A Una red de sensores inalámbricas (WSN) están formadas
selection of neighborhood criterion has been created from the por un gran número de dispositivos que pueden cumplir el
quantification of the balance between the performance of the análisis de datos antes mencionados y convertirse en un medio
classification and the reduction of data set (CER). As proof of
the test, we performed: (i) CER and (ii) real-time tests with the de comunicación hacia las personas por su gran flexibilidad
implementation of the algorithm within the WSN. The result y compatibilidad[3][4].
is a data reduction of up to 88 % and a performance of the
kNN classifier of 75 %. It is concluded that the criterion of El aprendizaje automático permite realizar un análisis de
neighborhood with normalized distance must be less than or información de forma óptima al aplicar diferentes criterios y
equal to 0.2 and the implementation of kNN with k = 1 obtains
the best CER. algortimos en relación al tipo de datos a tratar [5]. Desde un
punto de vista de clasificación, el objetivo principal consiste
Resumen: El presente trabajo presenta un anáisis del criterio en asignar a un objeto o un fenónemo fı́sico a una categorı́a
de vecindad para la selección de prototipos (PS) en algoritmos de o clase previamente especificada (clasificación supervisada).
aprendizaje de máquina supervisados de clasificación. Para ello, Este proceso parte de un conjunto de objetos descritos por
se utiliza el algoritmo del vecino más cercano condensado CNN
para eliminar datos redundantes con el criterio de normalización un vector de caracterı́sticas y la clase perteneciente (llamado
de la distancia al centroide de cada subconjunto de datos. Esto comunmente conjunto de entrenamiento)[6]. Este conjunto
se realiza con el fin de obtener la matriz de entrenamiento del de datos permite entrenar el modelo que se usará para la
modelo más óptima. Se ha creado un medida de selección de clasificación de nuevos datos entrantes. Uno de los criterios
criterio de vecindad partir de la cuantificación del equilibrio entre más utilizados es a base de la vecindad entre los datos, los
el rendimiento de la clasificación y la reducción de los datos de
entrenamiento (CER). Como pruebas del análisis se realizaron: mismos que usan una métrica que ayude a comparar los
(i) CER y (ii) pruebas en tiempo real con la implementación diferentes conjuntos de datos, su ventaja hace referencia a su
del algoritmo dentro de la WSN. Como resultados se obtiene simplicidad y fácil implementación [7][8].
una reducción de datos de hasta el 88% y un rendimiento
del clasificador K-NN del 75%. Se concluye, que el criterio de Los algoritmos basados en vecindad, al momento de tomar
vecindad con distancia normalizada debe ser menor o igual a 0.2
y la implentación de kNN con k=1 consigue el mejor CER. una decisión sobre un caso de un conjunto Y(nx m) en una
Index Terms—prototype selection, cnn,knn,nn rule categorı́a θ depende de una colección de N casos previamente
selección de palabras claves: prototipos, cnn, knn, regla nn clasificados[9]. El criterio de vecino más próximo (NN) se
asume cuando los casos ya clasificados (y1 ,θ) con respecto a
I. I NTRODUCCI ÓN la distribución más cercana a (Y ,θ). El vecino más cercano
Con el auge de los sistemas electrónicos y la revolución considera a todos los atributos del conjunto Y con el mismo
digital actual ha provocado una sobrecarga de información. peso [7][10].
Como resultado, las capacidades humanas de análisis de datos
han sido superadas por sistemas informáticos en etapas como: EL criterio NN influencia significativamente en el coste
recolectar, procesar, almacenar y transmitir información computacional de un sistema electrónico. Para solucionar
129
COMIENZO diferentes criterios planteados, (ii) rendimiento del clasificador
* Entrada la base de datos Ynx m con m casos, con cada criterio de CNN y (iii) cuantificación de equilibrio
*(xi ,θi ), i=1,....,n, variable de promedio tipo double, de rendimiento.
*Iniciar vacı́o el subconjunto S de prototipos
*PARA cada caso de Y, (xi ,θi ) HACER A. Reducción de Instancias
* COMIENZO La reducción de instancias es fundamental por limitaciones
* Sumar todos lo elementos por etiqueta en las WSN [15] en la tabla 1 se muestran los resultados por
* (n,θi )para todo (xi ,θi ) criterios de CNN de reducción de instancias por cada clúster
* FIN de la matriz Y.
* Dividir el resultado para m casos//
*PARA cada caso de Y, (xi ,θi ) HACER
* COMIENZO TABLA I
´
N UMERO DE INSTANCIAS MANTENIDAS APLICADO PS CON CRITERIOS DE
* cacular distacia euclideana entre xm edio y xi
CNN
* Normalizar distancias entre 0 a 1.
* SI distancia normalizada es menor a criterio NN Criterio Num. C1 Num C2 Num C3 Total
* ENTONCES <0.1 5 4 5 14
<0.2 12 8 14 34
* Incluir caso actual en S <0.3 16 10 22 48
* SINO <0.4 29 19 28 76
* No añadir caso actual en S <0.5 33 24 33 90
* FIN
FIN
Posteriormente, la siguiente etapa es realizar el porcentaje
final por criterio de la reducción de instancias para SP del
clasificador como se muestran en la tabla 2.
B. Metodologı́a de análisis de datos
TABLA II
La metodologı́a planificada para el sistema se detalla a P ORCENTAJE DE ELIMINACI ÓN DE INSTANCIAS CON CRITERIOS DE CNN
contnuación. Como primer paso, se realizó la recolección
Criterio Num. Inst. Rem Porcentaje
de datos de una red de sensores de humedad de suelo y <=0.1 106 0.88
humedad de ambiente con las etiquetas de húmedo, normal <=0.2 86 0.71
y seco en relación a las consideraciones preponderadas por <=0.3 72 0.60
agricultures. La matriz encontrada es Y(nx m),donde n es 3 y <=0.4 44 0.36
<=0.5 30 0.25
m es 150. De los valores adquiridos se reservan 30 datos para
la validación del algoritmo de clasificación. Se implementa
el algoritmo CNN con normalización de la distancia. Con Autores como [16], [17]. La visualización de información
el fin de ser los más exigentes con el clasificador. Como se es parte fundamental para el humano pueda comprender los
comentó anteriormente, el criterio es encontrar los puntos más procesos de aprendizaje de máquina, en la Fig. 1 se muestra
cercanos al centroide. Por tal motivo, se desconoce el valor la distribución de datos por clúster entre humedad suelo (eje
adecuado de cercanı́a óptimo en relación del tamaño de la y) y humedad del ambiente (eje x) normalizada entre 0 a 1.
matriz y el rendimiento del clasificador. Consecuentemente, al
normalizar dicha distancia de cercanı́a se establacen los rangos
de menores o igual a:(i) 0.1, (ii) 0.2, (iii) 0.3, (iv) 0.4 y (v) 0.5.
Encontrados los subconjuntos Si se implementa el clasificador
K-NN y se prueba el rendimiento del clasificador con los
datos de validación (datos de prueba). Una vez encontrado
el porcentaje de efectividad de K-NN. Para determinar el
criterio de CNN más adecuado aplicado a los datos de los
sensores, se realizaron mediciones a partir de la cuantificación
del equilibrio entre el rendimiento de la clasificación y la
reducción de los datos de entrenamiento (CER), mediante la
multiplicación del porcentaje de eliminación de datos de los
casos y la precisión del clasificador con k = 3 y k=1 para
conocer la mejor regla NN de clasificación.
III. R ESULTADOS
Los resultados se presentan con los enfoques de : (i) Fig. 1. Diagrama de disperción de la distribución de datos de la WSN por
Reducción de instancias de la matriz de entrenamiento con los clústers
130
Una vez aplicado PS en la Fig. 2 se muestran los datos
seleccionados para ser la matriz de entrenamiento S con la
misma relación de variables.
(b) Distribución de datos aplicado CNN con criterio menores o iguala B. Rendimiento del clasficiador
0.2
Con las bases de entrenamiento Si se implementa el algo-
ritmo K-NN como clasificador con una matriz de prueba con
10 instancias por clúster, inicialmente se trabaja con k=3 y
posteriormente k=1 para definir la mejor regla de clasificación,
estos números son tomados en cuenta por el volúmen de datos
reducidos. Por un lado, en la tabla 3 se indica K-NN con k=3.
Por otro lado en la tabla 4 se toma como regla k=1.
TABLA III
R ENDIMIENTO DE K-NN CON K =3
131
TABLA IV a considerar ya la mayorı́a de sistemas electrónicos no cuentan
R ENDIMIENTO DE K -NN CON K =1
con librerı́as fuertes de algoritmos de aprendizaje de máquina.
Criterio Ren.% C1 Ren.% C2 Ren.% C3 Ren. Total CNN resultó ser adecuado, aunque existen dentro de PS
<=0.1 0.83 0.5 0.58 0.66 otras técnicas modernas que presentan nuevas formas de
<=0.2 0.83 0.60 0.61 0.7
selección de datos. Como trabajos futuros se plantea revisar
<=0.3 0.83 0.60 0.61 0.73
<=0.4 0.83 0.75 0.64 0.73 cada uno de ellos para conocer su efectividad en estos tipos
<=0.5 0.83 0.5 0.5 0.73 de datos.
R EFERENCES
[1] C. Basante, C. Ortega, D. Peluffo, and X. Blanco, Estudio comparativo
C. Cuantificación del equilibrio de clasificación y reducción de técnicas supervisadas de machine learning aplicadas en problemas
de datos médicos, 2017.
[2] V. Alvear-Puertas, P. Rosero-Montalvo, D. Peluffo-Ordez, and J. Pijal-
Obtenidos los resultados en la sub sección anterior se elige Rojas, “Internet de las cosas y visión artificial, funcionamiento y aplica-
para CER a k-NN con k=1 por aumentar su rendimiento. En ciones: Revisión de literatura,” ENFOQUEUTE, 2017. [Online]. Avail-
able: http://ingenieria.ute.edu.ec/enfoqueute/public/journals/1/full21.pdf
la tabla 5 se muestra el CER por cada criterio [3] I. Khan, F. Belqasmi, R. Glitho, N. Crespi, M. Morrow, and P. Polakos,
“Wireless sensor network virtualization: A survey,” IEEE Communica-
TABLA tions Surveys Tutorials, vol. 18, no. 1, pp. 553–576, Firstquarter 2016.
ÓN DE EQUILIBRIO CER
V C UANTIFICACI [4] P. R. Montalvo, S. Nunez, S. Realpe, V. Alvear, L. Beltran, and
C. Rosado, “Internet de las cosas y redes de sensores inalambri-
Criterio Insta. remov Ren. Total CER cos:review,” vol. 73, pp. 31–37.
[5] G. Salvador, C. Jose, and H. Francisco, “A memetic algorithm for
<=0.1 0.88 0.66 0.58
evolutaionary prototype selection selection: A scaling up approach,”
<=0.2 0.71 0.70 0.49
Pattern Recognition, pp. 2693–2709, 2008.
<=0.3 0.60 0.73 0.43
[6] B. Krawczyk, I. Triguero, S. Garca, M. Woniak, and F. Herrera, “A
<=0.4 0.36 0.73 0.26 first attempt on evolutionary prototype reduction for nearest neighbor
<=0.5 0.25 0.73 0.18 one-class classification,” in 2014 IEEE Congress on Evolutionary Com-
putation (CEC), 2014, pp. 747–753.
[7] A. SIerra.
[8] J. R. Cano, F. Herrera, and M. Lozano, “Using evolutionary algorithms
D. Algoritmos dentro del sistema as instance selection for data reduction in kdd: an experimental study,”
IEEE Transactions on Evolutionary Computation, vol. 7, no. 6, pp. 561–
Una vez realizado el CER, se elije como regla k=1 del 575, Dec 2003.
clasificador k-NN por aumentar el rendimiento del mismo y [9] S. Garcia, J. Derrac, J. Cano, and F. Herrera, “Prototype selection for
disminuir el coste comptucional, además se elige el criterrio de nearest neighbor classification: Taxonomy and empirical study,” IEEE
Transactions on Pattern Analysis and Machine Intelligence, vol. 34,
CNN la distnacia normalizada entre 0.1 y 0.2 a ser ingresados no. 3, pp. 417–435, 2012.
al sistema y probar su funcionalidad. Como resultado, en 5 [10] I. Triguero, J. Derrac, S. Garcia, and F. Herrera, “A taxonomy and
experimentos controlados con lecturas del sistema en tiempo experimental study on prototype generation for nearest neighbor classi-
fication,” IEEE Transactions on Systems, Man, and Cybernetics, Part C
real el criterio de menores a 0.1 tuvo un rendimiento menor del (Applications and Reviews), vol. 42, no. 1, pp. 86–100, 2012.
60% ya que al no contar con muchos puntos en la matriz de [11] C. Domeniconi, J. Peng, and D. Gunopulos, “Locally adaptive metric
entrenamiento es muy susceptible a ruido y errores de lectura. nearest-neighbor classification,” IEEE Transactions on Pattern Analysis
and Machine Intelligence, vol. 24, no. 9, pp. 1281–1285, Sep 2002.
Por su parte el criterio de 0.2 tuvo un rendimiento del 75%. [12] S.-W. Kim and B. J. Oommen, “Creative prototype reduction schemes:
a taxonomy and ranking,” in IEEE International Conference on Systems,
IV. C ONCLUSIONES Y TRABAJOS FUTUROS Man and Cybernetics, vol. 7, Oct 2002, pp. 6 pp. vol.7–.
[13] H. Brighton and C. Mellish, “Advances in instance selection for instance-
Los algoritmos de aprendizaje de máquina permiten a based learning algorithms,” Data Mining and Knowledge Discovery,
los sitemas electrónicos ser eficientes y con capacidades de vol. 6, pp. 153–172, 2002.
[14] J. Ullmann, “Automatic selection of reference data for use in a nearest-
tomas de decisión. Des esta forma, mientras más livianos neighbor method of pattern classification (corresp.),” IEEE Transactions
comptucionalmente sean, permitirán tener una mayor rapidez on Information Theory, vol. 20, no. 4, pp. 541–543, Jul 1974.
de acción. [15] S. Nunez-Godoy, V. Alvear-Puertas, S. Realpe-Godoy, E. Pujota-
Cuascota, H. Farinango-Endara, I. Navarrete-Insuasti, F. Vaca-Chapi,
La selección de prototipos permite reducir la matriz de P. Rosero-Montalvo, and D. H. Peluffo, “Human-sitting-pose detection
entrenamiento para algoritmos de aprendizaje supervisado using data classification and dimensionality reduction,” in 2016 IEEE
al eliminar datos que no aportan información al modelo. El Ecuador Technical Chapters Meeting (ETCM), Oct 2016, pp. 1–5.
[16] P. D. Rosero-Montalvo, D. F. Peña-Unigarro, D. H. Peluffo, J. A. Castro-
algoritmo CNN con su criterio de elección de datos cercanos Silva, A. Umaquinga, and E. A. Rosero-Rosero, Data Visualization
al centroide de cada clúster es una estrategia adecuada para Using Interactive Dimensionality Reduction and Improved Color-Based
datos de WSN por su alto número de instancias removidas Interaction Model. Cham: Springer International Publishing, 2017, pp.
289–298.
sin sacrificar el rendimiento del clasificador. [17] P. Rosero-Montalvo, P. Diaz, J. A. Salazar-Castro, D. F. Pena-Unigarro,
A. J. Anaya-Isaza, J. C. Alvarado-Perez, R. Theron, and D. H. Peluffo-
Ordonezez, Interactive Data Visualization Using Dimensionality Reduc-
En WSN donde es muy crı́tico el tamaño de los datos tion and Similarity-Based Representations, 2017, pp. 334–342.
a almacenar, CNN con el criterio de distancia normalizada
menores o iguales a 0.2 resulta ser muy adecuado para ser
implementado. Su facilidad de desarrollo es otro punto fuerte
132