Professional Documents
Culture Documents
Villarreal Robles, G.
Olivera Reyna, R.
Unidad Acadmica de Ingeniera Elctrica
Universidad Autnoma de Zacatecas
Campus Jalpa
RESUMEN
En el presente trabajo se cre una interfaz grfica de usuario (GUI, Graphical User
INTRODUCCIN
Dicha seal ha sido pasada por un proceso de digitalizacin para obtener elementos
como una interfaz entre el ser humano y la computadora a travs de algn software.
pueda procesar.
1
b) Reconocimiento: identifica lo que se dijo (traduccin de seal a texto).
requiere.
palabras aisladas que sea capaz de reconocer 5 rdenes distintas, las cuales son:
conocidas.
Desarrollo
Las tcnicas utilizadas en el reconocimiento del habla dependen, en buena parte, del
vocabulario y del tipo de micrfono utilizado. En un sistema que slo tenga que
seleccionar una emisora o poner en marcha la calefaccin sin apartar las manos del
2
seguimiento del algoritmo mostrado en la Figura 1. En los siguientes subtemas se
MATLAB cuenta con libreras especialmente diseadas para el trabajo con seales de
audio. La librera o funcin utilizada para esta etapa es: WAVRECORD (N, FS, CH) donde
nmeros de canales de entrada. Las tasas de muestreo estndar son: 8000, 11025,
22050, 44100 Hz. En este caso se tom como FS = 11025 Hz. CH puede ser 1 o 2
dependiendo como se desee, (1=mono, 2=estreo). Para este sistema se utiliza slo
una entrada (mono). Para la cuantificacin, el valor por default es double = 16 bits por
3
muestra. Mediante la utilizacin de un micrfono multimedia se implement la
2) Cortar silencio
para obtener slo los tramos donde la seal es sonora (funcin cort_sil(x)), dada la
siguiente ecuacin:
N
1 1 L 2
Es =
N
s
n =1
2
(n) y ET = x (l )
L l =1
(1)
del segmento es mayor que la energa promedio de la seal completa por un umbral,
ES > ET *umb.
4
Figura 3. Grfica de la palabra adelante antes y despus de cortar el silencio.
3) Prenfasis
de voz, esto debido a que el modelo del tracto vocal no filtra de buena manera las
seales de frecuencias altas (no sonoras, por ejemplo consonantes), a diferencia de las
frecuencias bajas (sonoras, por ejemplo: vocales). El filtro de prenfasis esta dado por
la funcin de transferencia:
H ( z ) = 1 0.95 z 1 (2)
5
Se dice que la seal de voz es cuasiestacionaria a intervalos cortos de 20 a 30 ms. Se
20 ms (220 muestras). En esta etapa se obtiene una matriz de: nmero de segmentos
por 220 muestras (num_seg*220). Lo que significa que cada segmento consta de 220
muestras.
4) Prediccin Lineal
establecer un modelo de filtro del tipo todo polo, para la fuente de sonido. Es
k =1
5) Coeficientes Cepstrum
la transformada de Fourier. Esta tcnica homomrfica sirve para separar la accin del
voz s(n) se descompone en una parte de excitacin e(n) y en un filtro lineal H(es). Para
6
6) Olinomios Ortogonales
calcularlos es la siguiente:
x
j =1
j P1 j
(4)
b= 9
P
j =1
2
1j
entrada, y P1j es una matriz igual a j5 filas= (4:4) y columnas= tamao del vector de
entrada.
4 4 L 4
3 3 3
P1j= L
M M O M
4 4 L 4
7) Clasificacin de patrones
8) Determinacin y decisin
En esta etapa final que es la que decide que palabra se pronunci, se plantean una
7
9) Clasificacin de patrones de voz
Cada uno de los comandos existentes en la base de datos con el comando de entrada.
vector junto con su ndice, ste es el que utilizamos para hacer la decisin y mostrar
los resultados.
DISCUSIN DE RESULTADOS
en MATLAB (GUI, Graphical User Interfaces) de MathWorks, Inc. Para utilizar la interfaz
de voz. Como se puede observar en la Figura 4, la interfaz muestra las etapas antes
mencionadas, cabe destacar que para probar fsicamente este desarrollo, se utiliz el
puerto paralelo (PP) de una computadora, a cada uno de los comandos (ordenes) se le
asigno un bit del PP y a su vez se conecto un diodo emisor de luz (LED) para
8
TABLA 1
SALIDA POR EL PUERTO PARALELO
(Tabla 2). Cabe destacar que la prueba se hizo con cuatro usuarios diferentes y se
TABLA 2
TABLA DE CONFUSIN PARA EL SISTEMA
CONCLUSIONES
cumpli ampliamente; sin embargo, una aplicacin futura de este trabajo puede estar
encaminada a sistemas mecatrnicos activados por habla, tales como sillas de ruedas
encendido de la radio, etc. El sistema al comparar con cada una de las palabras
muestra el resultado por el PP como unos y ceros. Con las pruebas que se hicieron
queda demostrado que el sistema puede funcionar para cualquier locutor, ya que
9
BIBLIOGRAFA
M. A. Mart Antonin, Tecnologas del Lenguaje, UOC, Barcelona Espaa, 271, 2003.
10