You are on page 1of 5

PLATAFORMA GRAFICA PARA EL RECONOCIMIENTO DE IMGENES DE OBJETOS AISLADOS MEDIANTE COMANDOS DE VOZ Hmer Alberto Lara Luis, Jos

Luis Oropeza Rodrguez Centro de Investigacin en Computacin, Instituto Politcnico Nacional Juan de Dios Btiz esq. Miguel Othn de Mendizbal s/n, C.P. 07038, Mxico joropeza@cic.ipn.mx, lluisb07@sagitario.ipn.mx

Resumen. En este artculo se muestra el resultado de una serie de tcnicas utilizadas para el reconocimiento de imgenes de objetos aislados mediante comandos de voz. Las tcnicas utilizadas para el reconocimiento de voz fueron los Coeficientes de Prediccin Lineal (LPC) combinados con el modelo de cuantificacin vectorial. En cuanto al reconocimiento de imgenes se utiliz la tcnica de etiquetado mediante el algoritmo de dos pasos que usa una tabla de equivalencias y para la extraccin de rasgos caractersticos de los objetos contenidos en la imagen, se usaron los momentos invariantes de Hu, los cuales se emplearon para entrenar una red neuronal (RNA) tipo Perceptrn multicapa para la clasificacin de los objetos. El resultado obtenido fue una metodologa que permite interactuar entre el reconocimiento de voz con el reconocimiento de imgenes para realizar una tarea especfica. Las pruebas se realizaron para reconocer objetos sencillos tipo ferretera (tornillo, rondana, armella, alcayata y cola de milano) en imgenes de escala de grises de 8 bits, contrastados con un fondo negro. Obteniendo un reconocimiento de hasta un 100% en voz y 95% en imgenes. Palabras clave: reconocimiento de voz, reconocimiento de imagen, LPC, momentos de Hu, cuantificacin vectorial. I. INTRODUCCIN En los ltimos aos se ha avanzado en gran medida el desarrollo de sistemas que simplifiquen la interaccin entre el hombre y la mquina. Uno de estos desarrollos es proporcionarle a la mquina los sentidos de la vista y odo. Ejemplos de sistemas controlados por voz, son: el marcado telefnico, el control de elementos mecnicos o robticos, la seleccin de servicios mediante palabras, etc. Para proporcionar el sentido del odo se utilizar un Sistema automtico de reconocimiento de habla (SARH), este sistema es una herramienta capaz de procesar la informacin contenida en una seal de voz para extraer patrones o parmetros caractersticos de esta seal, para finalmente realizar una clasificacin y el reconocimiento. En cuanto al sentido de la vista se utilizar un Sistema para el reconocimiento automatizado de objetos

que permite a una mquina encontrar objetos en el mundo real a partir de una o ms imgenes. La organizacin del artculo es la siguiente: en la seccin 2, se explica la etapa de captura, procesamiento y extraccin de patrones o parmetros caractersticos de una seal de voz (LPC). En la seccin 3 se describe el modelo para el entrenamiento y reconocimiento de los comandos de voz. En la seccin 4, muestra la tcnica de etiquetado de objetos en una imagen digital y la extraccin de rasgos caractersticos obtenidos a partir de los momentos geomtricos. En la seccin 5, se detalla la arquitectura de la RNA de tipo Perceptrn multicapa para la clasificacin y reconocimiento de objetos. En la seccin 6, se integra el reconocedor de voz con el reconocedor de imgenes para que interacten en conjunto. En la seccin 7, se muestran las pruebas y resultados, as como el sistema de cmputo desarrollado empleando las tcnicas mencionadas. Finalmente, en la seccin 8, se presentan las conclusiones y se mencionan los trabajos a futuro. II. ANLISIS DE LA SEAL DE VOZ. Para desarrollar el sistema de reconocimiento de voz, se gener un corpus de voces con las palabras que identifican a los objetos en las imgenes a reconocer, para esto se grabaron 20 muestras de cada palabra en formato wav con las siguientes caractersticas: Frecuencia de muestreo: 11025 Kbps. Resolucin de muestreo: 8 bits por muestra. Canal de audio: monoaural.

Para extraer los perfiles espectrales se emplea el mtodo sugerido por Rabiner [1], para lo cual se necesita pasar por una serie de procesos (ver Fig. 1), los cuales se muestran en el siguiente diagrama de flujo:

Figura 1. Extraccin de los coeficientes LPC.

La seal capturada se somete a un proceso de prenfasis [1] definida por la siguiente expresin: (1) Un factor importante a tener en cuenta en el momento de la grabacin es poder diferenciar y recortar silencios o zumbidos de fondo previos y posteriores a la palabra pronunciada. Esta forma de discriminacin es posible de realizar cuando el archivo de sonido ha sido grabado en un ambiente no extremadamente ruidoso. Cuando esta ltima condicin se cumple, se puede aplicar un sencillo algoritmo que logra este objetivo, y que fue propuesto por Rabiner y Sambur [2]. El resultado del algoritmo es conformado por los puntos extremos de inicio y finalizacin de secuencia de voz efectiva (ver Fig. 2).

Siguiendo el algoritmo de Levinson-Durbin se obtienen los coeficientes LPC [1].

End Para este aso se utilizaron 20 coeficientes de autocorrelacin para obtener 19 coeficientes de perfil espectral. III. ENTRENAMIENTO Y RECONOCIMIENTO DE LA SEAL DE VOZ. Los vectores de autocorrelacin se usaron para generar el libro cdigo para cada palabra (tornillo, rondana, armella, alcayata, cola de milano) utilizando el algoritmo de biparticin para encontrar un centroide optimo y biparticionarlo en dos centroides no ptimos y optimizarlos mediante el algoritmo de Lloyd hasta tener 128 regiones de cada libro cdigo.

Figura 2. Deteccin de actividad por energa y cruce por ceros. Una vez que se tiene la seal efectiva, se divide en bloques y se le aplica la ventana de Hamming. Esto se hace con el objetivo de minimizar los efectos de discontinuidad al principio y al final de la seal en cada bloque.

Una vez que se tiene el libro cdigo por palabra, se reconoce utilizando el algoritmo del vecino ms prximo, comparando la seal de voz capturada con cada uno de los libros cdigos de cada palabra. La que tenga la menor medida de distorsin es la palabra reconocida. [3]

Figura 3. Segmento de la seal con ventana de Hamming. , Se calcula la autocorrelacin para cada bloque: (2) Figura 4. Diagrama de flujo para el entrenamiento y reconocimiento de seales de voz. IV. ETIQUETADO DE REGIONES Y EXTRACCIN DE RASGOS CARACTERSTICOS DE UNA IMAGEN DIGITAL. Para el reconocimiento de formas en una imagen digital se utilizaron imgenes en escala de grises, con una resolucin de 320x240 pxeles, en formato BMP.

Cxx[n] =

N 1 n m =0

x[m]x[m + n] m=0,1,,p

(3)

Antes de etiquetar la imagen se pasa por un procesamiento digital para eliminar ruidos, ajustar el brillo o contraste y finalmente se umbrala, en este trabajo se hizo un umbralado manual, utilizando un umbral de 128, una vez que ya se pas por esta serie de procesos ya se pueden etiquetar sus componentes conectadas. Los pxeles en una regin conectada forman una regin que puede representar un objeto dado a reconocer. Para el etiquetado de componentes conectadas se utiliz el algoritmo de dos pasos que usa una tabla de equivalencias con conectividad 8 [4].

Invariantes de Hu: para que los momentos

se

conserven constantes ante rotaciones se usan las siguientes ecuaciones[4]:

1 1

1 1 1 1

1 1 1 1

1 1 2 2 2 2 2 2 2 2 2 2

3 3 3 3 3 3 3 3

3 3 3 3 3

Figura 5. Imagen binaria etiquetada. Posteriormente se calculan los momentos geomtricos hasta de orden 2 (p+q3) para cada objeto etiquetado [4]. (5) Donde el momento de orden cero rea geomtrica del objeto. representa el Momentos centrales normalizados: para que los se conserven constantes ante cambios momentos de escala se usa la siguiente ecuacin [4]: , ,

Los momentos de orden uno se usaron para encontrar las coordenadas del centro del objeto [4]. (6) A partir de esos momentos se calculan los momentos invariantes a traslaciones, rotaciones y cambios de escala [4]. Momentos centrales: para que los momentos se conserven constantes ante cambios de posicin del objeto sin rotaciones y cambios de escala se usan las siguientes ecuaciones [4]:

Invariantes a traslaciones, rotaciones y cambios de escala: Al reemplazar los momentos centrales en las expresiones para invariantes a rotaciones por los invariantes a escala , resultan los conocidos 7 invariantes a traslaciones, rotaciones y cambios de escala de Hu [4].

Figura 7. Arquitectura de una RNA tipo Perceptrn multicapa. VI. INTERACCIN ENTRE EL SARH Y EL SRAO. De esta forma, a cada objeto contenido en la imagen se le extraen estos momentos invariantes de Hu, los cuales se utilizan para clasificar. V. ENTRENAMIENTO Y RECONOCIMIENTO. En este artculo se reconocern objetos de tipo ferretera, como tornillo, rondana, armella, alcayata y cola de milano. Para que interacte el SARH y el SRAO, primero se necesita hacer la clasificacin de los objetos que hay en la imagen digital, con este proceso de clasificacin se conocer el nmero total de objetos existentes en la imagen y el nmero de objetos de cada clase, generando un arreglo con ndice i correspondiente a cada clase del objeto y con n nmero de objetos de esa clase. Posteriormente se reconoce la palabra pronunciada, la cual entrega una etiqueta que servir como ndice del arreglo generado con el SARO, y de esta forma se indicar cuantos objetos de esa clase existen. VII. PRUEBAS Y RESULTADOS. Para el reconocimiento de voz, las pruebas se realizaron con un corpus de voz de 350 palabras (tornillo, rondana, armella, alcayata, cola de milano) de una sola persona, de las cuales se utilizaron 20 muestras para el entrenamiento y 50 muestras para el reconocimiento de cada palabra. Para el reconocimiento de imgenes se utiliz un conjunto de 220 imgenes con una resolucin de 320 x 240, en escala de gris, las cuales contienen las formas geomtricas correspondientes a tornillo, rondana, armella, alcayata y cola de milano, contrastadas con un fondo negro. Se utilizaron 20 imgenes de cada forma para el entrenamiento y 120 imgenes para el reconocimiento. Como se observa en la tabla 1, los resultados de reconocimiento de voz alcanzaron un 100% para todos los casos. Tabla 1. Matriz de confusin para reconocimiento de voz. Figura 6. Metodologa para clasificacin de objetos [4]. Para realizar el entrenamiento nicamente se usaron los primeros dos momentos de Hu , los cuales se introdujeron a una RNA tipo Perceptrn multicapa con la siguiente arquitectura:
Tornillo Rondana Armella Alcayata Cola de milano Tornillo 50 0 0 0 0 Rondana 0 50 0 0 0 Armella 0 0 50 0 0 Alcayata 0 0 0 50 0 Cola de milano 0 0 0 0 50 Total 100% 100% 100% 100% 100%

Para poder clasificar, como es sabido se requiere de dos etapas para poner en operacin el clasificador, una etapa de entrenamiento y una etapa de prueba. A continuacin se muestra una metodologa para resolver el problema de la clasificacin de objetos aislados contra fondo contrastado y homogneo.

Los resultados obtenidos para el reconocimiento de imgenes fueron los siguientes: Para los objetos de rondana, alcayata y cola de milano, se obtuvo un 100% de reconocimiento, mientras que en los objetos de tornillo y armella se equivoc 3 veces confundindolo con rondana, obteniendo un eficiencia de 97.83 y 97.81 respectivamente, ver tabla 2.

Tabla 2. Matriz de confusin para reconocimiento de imgenes.


Total Tornillo Rondana Armella Alcayata Cola de milano 138 176 137 133 160 Tornillo 135 0 0 0 0 Rondana 3 176 3 0 0 Armella 0 0 134 0 0 Alcayata 0 0 0 133 0 Cola de milano 0 0 0 0 160 % 97.83 100 97.81 100 100

VIII. CONCLUSIONES. Para el caso en particular de un solo locutor, se puede comprobar que los coeficientes del perfil espectral son eficientes cuando se tiene un diccionario reducido de comandos e interactuando con la metodologa para reconocimiento de imgenes utilizando los momentos de Hu invariantes a traslaciones, rotaciones y cambios de escala se puede hacer un sistema de reconocimiento de formas geomtricas con un alto porcentaje de eficiencia. Trabajos futuros. En un siguiente experimento se propone utilizar una lista de comandos con frases acotadas, realizar pruebas con mltiples locutores, utilizar los modelos ocultos de Markov para el reconocimiento de voz, reconocer objetos traslapados, reconocer objetos de color.

Referencias bibliogrficas. [1] L.R. Rabiner & B.H. Juang, Fundamentals of Speech Recognition, Prentice-Hall, New Jersey, 1993. [2] RABINER, Lawrence y SAMBUR, M. R. An Algorithm for Determinng the Endpoints of Isolated Utterances. Bell Syst. Tech. Journal, Vol. 54, No. 2, pp. 297-315, February 1975. [3] Oropeza Rodrguez, Jos Luis. Algoritmos y mtodos para el reconocimiento de voz en espaol mediante slabas , Mxico : [s.n.] Tesis (D. en C. de la Computacin) -- Instituto Politcnico Nacional. Centro de Investigacin en Computacin. [4] Juan Humberto Sossa Azuela, Rasgos Descriptores para el Reconocimiento de Objetos, Centro de Investigacin en computacin - Instituto Politcnico Nacional, Mxico, 2006.

You might also like