Professional Documents
Culture Documents
2
Alumno(s):
Gua de Prcticas
HERRAMIENTAS BSICAS DE ANLISIS DE VOZ Y AUDIO
Grupo: ___________
Nota:
___________________________________________________ ___________________________________________________
I. Objetivos
En este laboratorio se explorarn una serie de tcnicas de anlisis de la seal de voz, mediante las cuales se podrn extraer los distintos parmetros que caracterizan a este tipo de seales como: Obtencin de la energa. Estimacin de la frecuencia fundamental por medio de la funcin de autocorrelacin. Observacin de las caractersticas frecuenciales utilizando la transformada localizada de Fourier y el espectrograma.
III. Cuestionario previo a. Cul es la diferencia entre energa y energa localizada que duracin temporal debe de poseer la
ventana para que se pueda utilizar en el tratamiento de la seales de voz? ______________________________________________________________________________________
V. Actividades
Actividad 1: ENVENTANADO
El enventanado de una seal consiste en la seleccin de un segmento de la misma que ser el que posteriormente se estudie; para ello se multiplica la seal s(n) por una ventana w(n), que debe tener las siguientes propiedades: Ha de ser suficientemente corta para que las propiedades de la seal de voz no varen durante la misma. Ha de ser suficientemente larga para proveer la informacin necesaria para estimar los parmetros deseados.
Las prestaciones de las distintas ventanas dependen de las siguientes caractersticas: Longitud de la ventana (o anchura del lbulo principal, en el dominio de la frecuencia). Forma de la ventana (o amplitud relativa de los lbulos secundarios respecto al principal, en frecuencia). El enventanado de una seal s(n) implica una operacin de convolucin en el dominio de la frecuencia, es decir:
En MATLAB implemente mediante un archivo M las siguientes ventanas: Bartlett (o triangular), Blackman, Boxcar (o rectangular), Hamming, Hanning y Kaiser. Use comandos como hann, y para tener una idea del resultado use el comando wvtool.
Dibuje sobre una misma figura las distintas ventanas en el dominio temporal y observe los distintos perfiles. Haga lo mismo que en el punto anterior pero en el dominio de la frecuencia (utilice una fft cuya longitud sea potencia de 2). Preguntas: a. Cul es la ventana que introduce menor distorsin en este dominio temporal? ______________________________________________________________________________________ ______________________________________________________________________________________
Donde T[s(n)] es una transformacin (posiblemente no lineal). En el caso de la energa T[s(n)] toma la forma:
Determine su energa en cada instante utilizando ventanas de hamming de igual longitud; utilice para ello una funcin llamada energa. Cambie la longitud de la ventana y compare la energa encontrada con el anterior paso.
Cree un archivo M que clasifique la seal de voz en 3 niveles, segn la cantidad de energa que poseen cada trama de la seal los niveles se clasificaran como sonoro, sordo y ruido. Preguntas:
Grabe en Matlab un fichero llamado ejemplosonoro.vaw que corresponder a una trama sonora de seal de voz. Utilice la funcin xcorr para calcular su autocorrelacin localizada (tenga en cuenta que la longitud de la ventana escogida debe ser lo suficientemente grande como para abarcar varios periodos de la seal de voz en los tramos sonoros; de lo contrario, la periodicidad de la seal no se reflejar en la autocorrelacin). La funcin Rn (k) es simtrica y por tanto slo se muestra la parte positiva de la misma. Observe cmo cuando la seal de entrada es peridica, la funcin de autocorrelacin presenta picos separados precisamente igual al periodo fundamental. Encuentre la frecuencia fundamental de su voz, a partir de la funcin de Autocorrelacion y un mapeo, espacio de muestreo temporal. Repita ahora el ejercicio anterior con un tramo sordo grabado en el fichero ejemploSordo.wav; observe que la autocorrelacin decae muy rpidamente.
Periodo de la Fo
Preguntas:
Como es sabido, en la seal de voz pueden distinguirse dos contribuciones: por una parte, la del tracto vocal, responsable de la estructura de formantes, y por otra, la de la excitacin, que proporciona la estructura fina (armnica en el caso sonoro) del espectro. La primera se caracteriza por tener una variacin lenta a lo largo del tiempo, mientras que la segunda, por el contrario es ms rpida. Por tanto, si la longitud de la ventana es corta no se podr observar la estructura armnica de la seal puesto que la resolucin en frecuencia es muy pequea; sin embargo, como la resolucin temporal es elevada se podrn detectar eventos de poca duracin sin ms que observar la evolucin de la transformada de Fourier con el tiempo. Por el contrario, cuando la longitud de la ventana sea grande obtendremos una mayor resolucin en frecuencia y podremos observar la estructura armnica (cuando exista); como contrapartida, la resolucin temporal ser pequea.
Utilice la funcin stft para obtener la transformada de Fourier localizada de la seal de voz ejemploSonoro.wav. Observe los efectos de utilizar ventanas de distintos tipos y longitudes.
Preguntas:
a. Qu efecto tiene el utilizar los diferentes tipos de ventanas, a su parecer cual sera la ventana
mas optima, compare los resultados de las diferentes ventanas? ______________________________________________________________________________________ ______________________________________________________________________________________
Actividad 5: EL ESPECTROGRAMA
Una de las representaciones ms utilizadas para el anlisis de la seal de voz es el espectrograma: se trata de una representacin en dos dimensiones de la transformada localizada de Fourier, Sn(ejw) con w en ordenadas, n en abcisas, y Sn(ejw) segn una escala de grises (o de colores). Dependiendo de la longitud de la ventana, se distinguen dos tipos de espectrograma: de banda ancha y de banda estrecha. La siguiente figura muestra un espectrograma de banda ancha (longitud de la ventana, 32 muestras):
En l se puede observar cmo la resolucin frecuencial es pequea (de ah que se denomine de banda ancha) y, sin embargo, puede verse cada periodo de la seal siguiendo su evolucin temporal, como consecuencia de la mayor resolucin en este dominio. A continuacin, se muestra un espectrograma de banda estrecha (longitud de la ventana, 512 muestras):
Aqu, por el contrario, se pueden observar los armnicos de la frecuencia fundamental como lneas horizontales, y los distintos formantes como zonas ms oscuras.
Utilice la funcin spectrogram para obtener un espectrograma de banda ancha y otro de banda estrecha de la seal de voz ejemploSonora.wav. Puede obtener una sensacin de mayor continuidad en el espectrograma aumentando el nmero de puntos de la fft calculada y el solapamiento temporal de las sucesivas ventanas de anlisis. Sin embargo, tenga en cuenta que no obtendr mayor resolucin, ya que se trata de una mera interpolacin.
Si queremos obtener el nmero de cruces por cero por segundo con una ventana rectangular podemos calcular como:
En este sentido proponemos que se mida la tasa de cruces por cero de seales artificiales segn los dos casos siguientes: Caso A: una seal que sea un slo tono: y = cos(2*pi*(x)/25); Caso B: una seal compuesta por la suma de dos tonos (uno de baja frecuencia y otro de alta frecuencia) y = a1*cos(2*pi*(x1)/25) + a2*cos(2*pi*(x1)/4);
Medir la tasa de cruces por cero por tramas ya sean sonoras sordas y ruido.