You are on page 1of 4

Revista Colombiana de Fsica, vol. 40, No.

1, Abril 2008

Identificacin de Emociones en la Voz


E. Rueda, Y. Torres
Universidad Industrial de Santander, Grupo de ptica y tratamiento de seales, Escuela de Fsica Recibido 22 de Oct. 2007; Aceptado 3 de Mar. 2008; Publicado en lnea 15 de Abr. 2008

Resumen
Actualmente las aplicaciones basadas en el procesado del lenguaje hablado son muy comunes. En est lnea se pueden encontrar trabajos de reconocimiento del habla y del locutor, sntesis de voz entre otros. El trabajo ac presentado se enfoca hacia cmo puede una mquina identificar las emociones desde un locutor humano. El modelo a utilizar consta de tres bloques, el primer bloque se encarga del preprocesado de la seal, en el se llevan tareas de filtrado, pre enfsis y opcionalmente un algoritmo de deteccin de voz. El segundo mdulo se encarga de la extraccin de caractersticas de la seal de voz, para este trabajo se har uso de un analizador espectral como es el Cepstrum, utilizando especificamente los MFCC (Mel Frequency Cepstral Coefficients). El tercer mdulo es el encargado de la clasificacin para lo cual se utiliza el algoritmo de vecinos cercanos (K-Means). La evaluacin se hace a travs de una matriz denominada de confusin en la cual se miden los aciertos del sistema, para el entrenamiento y para el test se utilizarn dos bases de datos una en espaol (SES) y otra en alemn (EMODB). Palabras claves: voz, identificacion de emociones, MFCC.

Abstract
Currently based applications processing of spoken language are very common. In this line of research we can be found speech and speaker recognition, voice synthesis among others. The work presented here is on as a machine can identify the emotions from a human speaker. The model used consists of three blocks, the first block is responsible for the signal preprocessing, the tasks are carried out are filtering, and optional pre-emphasis an algorithm for detecting voice. The second module is responsible for extracting features of the speech signal, in this work will be done using a spectral analyzer as is the Warping using specific the MFCC (Mel Frequency Cepstral Coefficients). The third one module is responsible for qualifying which uses the algorithm K-Means. The evaluation is done through an array of so-called confusion which are measured successes of the system, for trainning and test are used two databases one in Spanish (SES) and the other in German (EmoDB). Key Words: speech, emotion identificacion, MFCC. 2008 Revista Colombiana de Fsica. Todos los derechos reservados.

Lo primero que es necesario (como en cualquier investigacin relacionada con la tecnologa del habla) es disponer de En la continua evolucin de las aplicaciones texto-habla se una base de datos, esta consiste en las grabaciones de difepretende tambin que los sintetizadores aparenten vida y rentes personas con distintos estados emotivos y adecuadapara ello interesa generar voz con distintos estados anmimente etiquetadas. En el caso de voz con emociones, esta cos. Las aplicaciones fundamentales de esta investigacin se tarea es ms difcil, pues existen dos conceptos en la voz refieren a los casos en los que el sintetizador se utiliza como emocional: emocin emitida y emocin percibida. En muinterlocutor humano, o en aplicaciones robticas, en las que chos casos, la emocin emitida, o el estado de nimo del se implanta una voz sinttica a un robot u operadoras telelocutor no es adecuadamente percibido por el oyente. Es por fnicas automticas (con reconocimiento y sntesis de voz). ello necesario que cualquier base de datos de voz emocional sea contrastada por un conjunto de oyentes independiente 170 1. Introduccin

rev. col. fs.(c), vol. 40, No. 1, (2008)

para seleccionar en primer lugar las frases o prrafos en las que la mayora de los oyentes perciben correctamente la emocin emitida. Este hecho demuestra que es difcil a veces percibir una emocin por el oyente y por ello los mtodos utilizados para la identificacin de emociones estn an en su infancia pues si es ya difcil para un humano, tanto ms para una mquina. Algunas emociones ya han sido estudiadas y se han obtenido algunas conclusiones: la alegra no tiene una pauta acstica constante; la sorpresa, por otro lado, utiliza un tono medio muy elevado; el enfado presenta un caso sensiblemente diferente en contra de las suposiciones iniciales que hacan prever que todas las emociones tienen un reflejo fundamentalmente prosdico, en el caso del enfado, el hablante crea tensin en sus rganos articulatorios para generarlo, produciendo efectivamente un nuevo tipo de voz. 2. Descripcin de la Base de Datos La base de datos es de vital importancia para el desarrollo de cualquier proyecto alrededor de la voz, esta constan de archivos de sonidos de uno o varios hablantes con grabaciones de palabras o frases, en la cuales se ha logrado capturar una emocin. La base de datos puede ser tomadas de grabaciones (noticieros, programas de TV, pelculas, etc) o ser simuladas por actores. La base de datos a utilizar es EmoDB [2]. Esta base de datos naci como un proyecto de varias instituciones de prestigio de Alemania: T-System, TU-Berln, y el departamento de ciencias de la comunicacin, contiene cerca de 800 pronunciaciones (10 frases, 10 actores, 7 "emociones". ms algunas versiones secundarias), Es gratuita y se puede obtener en la siguiente direccin: http://www.expresivespeech.net/emoDB/. Cada frase fue grabada por un grupo de 10 actores: cinco hombres y cinco mujeres, los cuales fueron seleccionados por tres fonetistas expertos. Cada actor pronunci las frases para seis clases de emociones (alegra, tristeza, enfado, aburrimiento, miedo, asco), ms la voz neutral. Las grabaciones se realizaron en una oficina con un ambiente de ruido bajo y equipos de alta fidelidad. Luego de terminar las grabaciones stas fueron sometidas a prueba por un grupo de 20 personas, las cuales evaluaban la naturalidad y la calidad de la emocin percibida. Para el desarrollo de este trabajo tambin se utiliza la base de datos SES, del GTH (Grupo de Tecnologa del Habla), de la Universidad Politcnica de Madrid, la cual consta de grabaciones realizadas por un solo actor en idioma castellano. 3. El sistema de identificacin. En este apartado se hace una descripcin breve de la arquitectura del sistema planteado, el cual consta de los siguientes tres mdulos: Mdulo de pre-procesado: el objetivo de este mdulo es obtener una seal de mejor calidad, para lo cual

primero se aplica un filtrado cuyo objetivo es incrementar la relevancia de las componentes de alto nivel (pre-nfasis), luego la seal es pasada por un algoritmo endpoint [3], con el fin de obtener una seal de voz pura. Para finalizar la seal se le aplica una ventana tipo Hamming de 25 ms donde se le usan filtros pasa-bajo y pasa-alto. Mdulo de Extraccin de caractersticas: En este mdulo se calculan una serie de coeficientes a partir de las muestras obtenidas en la fase de muestreo de la seal de voz. Dichos coeficientes contienen las caractersticas ms significativas del habla, este anlisis puede llevarse a cabo tanto en el dominio del tiempo como en el de la frecuencia. En este trabajo utilizaremos el anlisis frecuencial que es el ms utilizado por los buenos resultados obtenidos. Los parmetros espectrales que suelen emplearse en la mayor parte de los casos son los parmetros cepstrales, estos se basan en el principio de produccin de voz, en el cual la voz es resultado de una convolucin entre una entrada y un sistema de resonadores, el anlisis cepstral realiza la desconvolucin de sta. Para la realizacin de este trabajo se utiliza una variacin al aplicar un banco de filtros, en el cual las bandas de frecuencia estn situadas logartmicamente (segn la escala Mel) y es conocida como MFCC (Mel-Frequency Cepstral Coefficients). Los MFCC calculados reflejan las propiedades instantneas del habla. El nmero de coeficientes seleccionados para representar la seal puede variar por lo que se utiliz el criterio de aquellos que ms variabilidad presentan para lo cual se realizo un experimento con aproximadamente 150 seales agrupadas por su respectiva emocin, se calculan 40 coeficientes, se promedia en cada seal y luego a los vectores resultantes se calcula la desviacin estndar (Fig 1), al finalizar el experimento se observ Figura 1. que pueden utilizarse de 13 a 20 coefiecientes (en nuestro caso se decidi utilizar 20). Con respecto a este mdulo tambin se realiz un experimento el cual calculaba para una emocin los 40 MFCC para la base de datos en alemn y para la base de datos en castellano con el fin de encontrar diferencias en la variacin de ellos. Mdulo de clasificacin: En este mdulo se hace uso del algoritmo K-Means (vecinos cercanos), el cual en la fase de entrenamiento se utiliza para calcular un nmero finito de vectores representativos del conjunto formado por todos los vectores que se han obtenido en la parametrizacin (codebook). El nmero de centroides a utilizar es de 256 por presentar el porcentaje menor en tasa de error de reconocimiento, adems de tener en cuenta, que si tenemos un nmero excesivo de centroides, el proceso de cuantificacin es ms lento, si el nmero de centroides es demasiado pequeo, aumenta

171

Revista Colombiana de Fsica, vol. 40, No. 1, Abril 2008

Alegria(ED) Neutral(ED) Tristeza(ED) Aburrimiento(ED)

11

13

15

17

19

21

23

25

27

29

31

33

35

37

39

Fig1 Variacin de coeficientes MFCC, acorde a la emocin.

el error que penaliza la cuantificacin, afectando muy negativamente la tasa de reconocimiento [4]. Es preciso llegar a un compromiso entre ambas situaciones. El siguiente paso es la cuantificacin, el objetivo de esta fase es reducir la variabilidad de los datos a tratar. Consiste en asignar a cada uno de los vectores obtenidos en la fase de parametrizacin el centroide ms cercano. Para construir los diferentes modelos se realiza este proceso varias veces con diferentes sentencias para cada emocin. En la fase de reconocimiento, se compara la palabra a reconocer con cada uno de los modelos obtenidos con anterioridad y se elige el de mayor probabilidad.
Tabla 1. Matriz de confusin
Emocin Identificada Emocin 1 Emocin 2 Emocin 3 Emocin 4 Emocin trasmitida E1 E2 E3 90% 100% 10% 80% 100% 20% E4

Referencias
[1] Montero, J. M., Gutirrez-Arriola, J., Cols, J., Enrquez, E., & Pardo, J. M., Analysis and Modelling of Emocional Speech in Spanish, ICPhS 99, p. 957-960. [2] Burkhardt F, Paeschke A., Weiss B., A database of German Emocional Speech, Interspeech 2005, pp. 1517-1520. [3] Rueda E.A. y Torres Y., Revista Colombiana de Fsica, Vol. .38 No.4, 2006. pp.1447-1450. [4] Fukunaga K.,Introduccin to statistical pattern recognition, 1999.

4.

El modelo de evaluacin

Para la evaluacin del sistema, se utiliza una matriz conocida como matriz de confusin. En ella se anota un grupo de emociones sobre la primera fila y la primera columna. El objetivo de esta matriz es observar como se trasmiten y como son percibidas las emociones, con lo que el modelo propuesto para el reconocimiento de emociones queda completo.

You might also like