Professional Documents
Culture Documents
FACULTAD DE INGENIERA
T E S I S
QUE PARA OPTAR POR EL GRADO DE:
MAESTRO EN INGENIERA
ELCTRICA PROCESAMIENTO DIGITAL DE SEALES
E S E N
T A
TUTOR:
2007
A mis padres,
Adolfo Hernndez Reyes y
Mara del Carmen Huerta Espinosa,
por manifestarme una vez ms su amor
al apoyarme incondicionalmente
en toda mi formacin profesional.
Agradecimientos
A la Facultad de Ingeniera y a la UNAM, por la formacin profesional que me han
brindado a travs de esta maestra. Tambin agradezco a mis compaeros, y ahora amigos,
de la maestra en ingeniera por las horas de estudio conjunto y su apoyo en mi estancia de
estudio en la ciudad de Mxico.
A mi tutor, el Dr. Abel Herrera, no slo por su asesora, tambin por su constante apoyo y
valiosos consejos durante su acompaamiento a lo largo de la maestra para ser un mejor
profesional en la investigacin.
A mis profesores, por la transmisin de sus conocimientos y experiencia, en especial a la
Dra. Luca Medina por su apoyo en mi formacin profesional.
Al M.L. Polo Valias, del Instituto de Investigaciones Antropolgicas (IIA) de la UNAM,
por sus invaluables recomendaciones y hacerme descubrir la maravilla de la ciencia del
lenguaje.
Al Lic. Samuel Herrera y al Dr. Mario Castillo, del IIA, por sus muy oportunas
orientaciones.
Al grupo de personas que me permitieron grabarlas:
Esteban Arrieta
Yolanda Argueta
Ocotln Osorio
Micaela Osorio
Ernesto Vzquez
Francisco Ortigoza
Linda Ortigoza
Clara Osorio
Eduardo Osorio
Jos Heradio Vzquez
Miguel Osorio
Vicente Flores
Neri Hernndez
Alfredo lvarez
ndice
NDICE
INTRODUCCIN
5
5
10
10
12
14
15
2. FONTICA Y FONOLOGA
2.1 Lengua y habla
2.2 Fontica y fonologa
2.3 Slaba
21
21
23
24
27
27
28
29
30
30
31
32
35
36
37
37
40
42
45
49
50
52
54
54
57
61
ndice
62
66
69
70
72
75
75
75
79
82
83
84
87
90
90
92
93
95
96
98
7. TRANSICIONES VOCLICAS
7.1 Vocales y aproximantes
7.1.1 Transiciones vocal-aproximante
7.1.2 Transiciones aproximante-vocal
7.2 Transiciones vocal-vocal
7.2.1 Transiciones continuas
7.2.2 Transiciones discontinuas: oclusivas glotales
101
101
101
104
107
107
109
111
111
111
113
116
116
118
119
122
122
123
125
125
125
II
ndice
127
129
129
130
131
131
131
134
136
138
138
139
141
141
144
146
146
11. VARIACIONES
11.1 Variaciones voclicas
11.2 Variaciones nasales
11.3 Factores adicionales de variacin acstica
147
148
149
151
153
154
156
157
158
13. CONCLUSIONES
13.1 Estudio fontico-acstico
13.2 Reconocimiento de voz por VQ
165
166
168
APNDICES
Apndice 1. Cuestionario
Apndice 2. Relacin de figuras con archivos de audio y hablantes
171
171
174
REFERENCIAS
179
III
ndice
IV
Introduccin
INTRODUCCIN
El procesamiento digital de seales es una de las tecnologas ms poderosas en la actualidad,
transforma nuestro mundo da tras da y constantemente muestra su vigor y evolucin continua.
Uno de los campos de investigacin ms interesantes y prometedores, aunque estudiados desde
hace dcadas, es el procesamiento digital de voz o procesamiento digital del habla. En este
trabajo emplearemos indistintamente los trminos voz y habla, sin embargo resulta oportuno
comentar que el trmino voz hace referencia al fenmeno fsico y proceso fisiolgico, mientras
que habla tiene una connotacin lingstica.
La tecnologa de voz es un tema multidisciplinario e interdisciplinario, requiere el
conocimiento de campos tan diversos tales como: procesamiento de seales, electrnica, ciencias
computacionales, lingstica y fisiologa. Hay tres reas principales en la tecnologa de la voz:
sntesis, reconocimiento y codificacin de la voz.
El procesamiento digital de voz permite salvar las diferencias del lenguaje y permite
potencialmente a cada individuo participar en la revolucin de la informacin.
Desafortunadamente, y como ocurre en tantas otras tecnologas, la construccin de sistemas de
procesamiento de voz requiere de recursos significativos. Con aproximadamente 4600 lenguas en
el mundo, el procesamiento de voz es prohibitivo para muchas de ellas excepto para las lenguas
econmicamente viables.
Los problemas de comunicacin entre personas de diferentes lenguas siempre ha sido un
reto. Tan slo en la Repblica Mexicana existen aproximadamente seis millones de hablantes en
lengua indgena; de ellas, la lengua dominante es el nhuatl, ms de un milln y medio de
personas en veintin estados del pas lo hablan en cualquiera de sus diferentes variantes de
acuerdo a cada regin geogrfica. En su XII censo nacional de poblacin realizado en el ao
2000, el INEGI advirti un alto porcentaje de monolingismo de lengua indgena (16.9%) en la
poblacin hablante de lengua indgena. Para este sector de la poblacin el acceso efectivo de
servicios pblicos y privados -tales como educacin, salud, jurdicos, agrarios- an encuentra
dificultades. Las consecuencias del monolingismo indgena incluso llegan hasta los Estados
Unidos de Norteamrica, donde se han registrado detenciones de indgenas mexicanos
monolinges indocumentados sometidos a juicios injustos por no contar con traductores que los
apoyaran empezando porque las autoridades desconocan de qu lengua se trataba.
La creacin de sistemas que procesen la produccin oral de diversas lenguas de las
culturas indgenas de Mxico aportar grandes beneficios a sus comunidades y a quienes nos
interesamos en ellas. En este sentido muchas ideas se pueden desarrollar; ejemplo de ello es la
existencia de un sistema identificador de lenguas indgenas de Mxico [Cdi]; sin embargo es
importante estimular el desarrollo de otras tecnologas de voz para estas lenguas, como por
ejemplo sistemas de reconocimiento. Por otro lado, el estudio acstico de los sonidos lingsticos,
o estudios fontico-acsticos, de las lenguas indgenas brindan la oportunidad de conocer a
Introduccin
mayor profundidad las propiedades intrnsecas de dichos sonidos y que los caracterizan como
tales, as como la interaccin entre ellos. Estos estudios tienen gran importancia no slo para la
ciencia de la lingstica, sino tambin para las tecnologas de voz, donde la identificacin y el
conocimiento de las caractersticas acsticas de los sonidos de una lengua determinada permiten
el desarrollo de sistemas de procesamiento de voz ms eficientes, por ejemplo, en reconocimiento
y sntesis de voz.
El presente trabajo es una sincera y entusiasta exploracin en este amplio horizonte del
procesamiento de seales de voz y la fontica acstica aplicados a una de las lenguas indgenas
ms importantes y estudiadas de Mxico y que no haba sido abordada de esta manera.
El trabajo se divide en dos partes: la primera tiene por objetivo la descripcin fontica de
la lengua nhuatl por medio del anlisis acstico de uno de sus dialectos. Se consider el nhuatl
de San Miguel Tzinacapan, poblado perteneciente al municipio de Cuetzalan del Progreso,
ubicado en la Sierra Norte del Estado de Puebla. A travs del estudio fontico-acstico se
analizan sus sonidos lingsticos, comenzando desde las caractersticas fundamentales de cada
uno de ellos hasta la interaccin entre s. Los efectos coarticulatorios y la posicin silbica de los
sonidos repercuten de manera seria en sus rasgos. Se realizan mediciones de las propiedades
temporales y espectrales de estos sonidos y se explica el desafo de esta tarea. Hasta donde he
averiguado es el primer estudio de su tipo del nhuatl.
La segunda parte consiste en el desarrollo de un sistema de reconocimiento de sesenta y
un comandos de voz de dicho dialecto. El objetivo es desarrollar un reconocedor por cuantizacin
vectorial (VQ) para analizar la eficiencia de esta tcnica de voz, que es bien conocida y una de las
ms empleadas, ante un idioma que no se haba procesado con ella. Se utilizaron coeficientes
LPC ya que es otra de las tcnicas ms poderosas en el anlisis de la seal de voz pues brinda una
representacin precisa y econmica de parmetros relevantes de esta seal y reduce los clculos
en el reconocimiento de voz. Esta tarea ha sido exitosa por el alto porcentaje de reconocimiento
logrado, los principales problemas existentes en el reconocimiento son identificados.
Este trabajo de investigacin tiene un claro sentido didctico y a la vez exploratorio para
sentar bases no slo a mi formacin, sino tambin inicia una prospectiva de desarrollo de
sistemas sofisticados de procesamiento digitales de voz aplicado a lenguas indgenas en el
Laboratorio de Procesamiento de Voz de la Facultad de Ingeniera de la UNAM.
Por ltimo, la estructura del presente trabajo es la siguiente:
El captulo 1 describe los aparatos fonador y auditivo, los cuales son esenciales para la
produccin y percepcin de la voz.
El captulo 2 presenta conceptos bsicos de fontica y fonologa, los cuales se emplean en
este trabajo.
El captulo 3 brinda fundamentos del procesamiento digital de voz as como presenta sus
mtodos ms conocidos; tambin se presenta el papel de algunos de estos mtodos en los estudios
fonticos acsticos, proporcionando muchos ejemplos de sus usos.
Introduccin
Introduccin
Cavidades Infraglticas
Estn formadas por los rganos propios de la respiracin: pulmones, bronquios, trquea.
Los pulmones son los que desempean el papel ms relevante. Su misin es doble: por un lado,
fisiolgica, en cuanto que son instrumento de la respiracin, con toda la serie de transformaciones
bioqumicas que en ellos se originan; por otro, el de servir de proveedores de la cantidad de aire
suficiente para que el acto de la fonacin se realice.
Los pulmones realizan constantemente dos movimientos: el de inspiracin, absorbiendo
aire, y el de espiracin, expulsndolo. Durante este segundo movimiento se puede producir el
sonido articulado.
El aire contenido en los pulmones va a parar a los bronquios, y de aqu a la trquea,
rgano formado por anillos cartilaginosos superpuestos, que desemboca en la laringe.
Cavidad larngea u rgano fonador
La laringe, como puede verse en las figuras 1.1 y 1.2, est situada inmediatamente por encima de
la trquea. Est compuesta por cuatro cartlagos: el cricoides, que tiene forma de anillo,
constituye la base; el tiroides (llamado tambin nuez o bocado de Adn), en forma de escudo, va
unido al cricoides por medio de los cuernecillos; est abierto por su parte alta y posterior; los dos
aritenoides, especie de pirmides pequeas situadas sobre el engaste del cricoides; se mueven
sobre l merced a un sistema de msculos. Desde los aritenoides parten los msculos que abren y
cierran la glotis.
En el interior de la laringe estn situadas las cuerdas vocales, que son como dos tendones
o dos pliegues, vea la figura 1.3. Estn situadas horizontalmente en direccin anteroposterior. Por
su parte anterior estn unidas al interior del cartlago tiroides, y por la posterior a los aritenoides.
El paso que queda entre las cuerdas vocales cuando estn abiertas recibe el nombre de glotis.
sus cuerdas vocales son ms delgadas y cortas. Si la tensin es dbil, la frecuencia del
fundamental ser dbil, y viceversa [Qui99].
La presin infragltica tambin es importante: su aumento incide en la elevacin de la
frecuencia del fundamental. As mismo, acta sobre la amplitud de las vibraciones: cuanto mayor
es la presin infragltica, mayor es la amplitud de las vibraciones y el sonido es ms fuerte.
Cavidades supraglticas
Al pasar la corriente de aire (vibrando o no, segn haya sido la situacin de las cuerdas vocales)
por la zona larngea, entra en la cavidad de la faringe larngea (o laringofaringe) y luego en la
faringe oral, donde se va a producir otra gran divisin de los sonidos, segn la accin del velo del
paladar:
Si el velo del paladar est adherido a la pared farngea, se producen los sonidos
articulados orales, como [p, b, s, k], etc.
Si el velo del paladar desciende de la pared farngea se articulan los sonidos
consonnticos nasales, como [m, n].
Si estn abiertas simultneamente la cavidad bucal y la cavidad nasal, se originan los
sonidos voclicos nasales, o mejor los sonidos oronasales, como [], [], etc.
Cuando el sonido es oral, la nica gran cavidad existente es la bucal. Al poder cambiar
fcilmente su volumen y su forma gracias a la movilidad de la lengua, de los labios y del maxilar
inferior, se pueden originar diferentes cavidades de resonancia que son las que producen, al
actuar como filtros, los distintos sonidos articulados.
La parte superior de la cavidad bucal est constituida por el paladar, dividido en dos
zonas: la anterior, sea, conocida con el nombre de paladar duro, y la posterior, con el nombre de
paladar blando o el velo del paladar. En la parte inferior de la boca est la lengua, rgano activo
por excelencia (vea la figura 1.4).
Figura 1.4: Corte vertical de los rganos fonadores y sus cavidades [Deu]
Con el objeto de fijar el lugar de articulacin de los sonidos, es necesario sealar unas
zonas en cada uno de los rganos articulatorios anteriormente mencionados.
El paladar duro comienza inmediatamente por detrs de los alvolos, y queda dividido en
prepaladar, mediopaladar y postpaladar.
El paladar blando o velo del paladar est dividido en dos zonas: zona prevelar y postvelar.
La lengua, el rgano ms mvil, se divide en su cara superior, o dorso, en predorso,
mediodorso y postdorso. Su punta o extremo anterior, se llama pice, opuesto a su raz, en el
extremo posterior.
Cerrando la cavidad bucal por su parte anterior encontramos, en primer lugar, los dientes
superiores, incisivos superiores, y los inferiores, incisivos inferiores. Entre los incisivos
superiores y el comienzo del paladar duro, existe una zona de transicin conocida con el nombre
de alvolos. Y como ltimos rganos que cierran la cavidad bucal, y por su extraordinaria
movilidad para cambiar fcilmente su volumen, modificando, por consiguiente, el timbre del
sonido, se encuentran los labios (superior e inferior).
10
parte trasera del paladar est el velo, los sonidos del habla producidos en esa regin se llaman
fonemas velares, algunos ejemplos son /k/, /g/.
Finalmente, el espacio entre las cuerdas vocales es llamado la glotis y all se producen los
sonidos glotales, tal es el caso de /h/.
Modo de articulacin
Adems de las clasificaciones anteriores, hay otra muy valiosa, se trata del modo de articulacin
del fonema. Esta clasificacin describe el grado y modo de cierre en el tracto vocal, o la forma de
los articuladores.
Oclusivas
Las oclusivas se producen obstruyendo totalmente el paso de la corriente de aire. La obstruccin
de la corriente de aire resulta en ausencia o poco sonido, ste es usualmente seguido de una sbita
explosin de aire cuando la constriccin es liberada. Existen oclusivas sonoras (como /b/, /d/ y
/g/) y sordas (como /p/, /t/ y /k/). De esta manera el smbolo /p/, por ejemplo, representa un
fonema que puede ser descrito como oclusiva sorda.
Fricativas
Las fricativas se producen cuando el tracto vocal es altamente constrictivo pero no est
completamente cerrado. Debido a la friccin, el aire que pasa a travs de la constriccin es
turbulento y produce un siseo o un ruido apagado. Estas constricciones ocurren en bastantes
lugares del tracto vocal. Existen fricativas sonoras (como /v/, /z/) y sordas (como /f/, /s/).
Africadas
Este sonido es una combinacin de una oclusiva con una fricativa con el mismo lugar de
articulacin y la misma sonoridad, siempre y cuando la combinacin funcione como una sola
unidad. Ejemplos de dos africadas son: // y //; // es una combinacin de [t] y [];// es una
combinacin de [t] y [s]. Aunque hay muchas combinaciones posibles oclusiva-fricativa, slo son
sonidos africados aquellos que funcionan como una sola unidad.
Nasales
Resulta til tambin en la clasificacin de los fonemas la identificacin del paso de la corriente
de aire despus de que sta deja la laringe; el aire puede abandonar el tracto vocal a travs de la
boca o de la nariz, inclusive ambos. Cuando el puerto del velo est cerrado, la cavidad nasal est
bloqueada y el aire sale a travs de la boca. Los sonidos producidos con el velo del puerto cerrado
son llamados sonidos orales. Cuando el puerto del velo est abierto, el aire puede escapar a
travs de la cavidad nasal. Durante la produccin de las consonantes nasales el aire es forzado a
travs de la nariz porque la cavidad oral est bloqueada o considerablemente reducida. Los
sonidos producidos de esta manera son llamados nasales. Ejemplos de nasales son: /m/, /n/. Ya
11
que hay una completa obstruccin en la cavidad oral, las nasales son similares a las oclusivas; as,
/m/ es similar a /b/, pero la primera es una nasal, mientras que la segunda es una oclusiva oral. La
principal diferencia entre los dos fonemas con respecto al modo de articulacin es si el puerto del
velo est abierto o cerrado.
Lquidas
Las lquidas se producen con una ligera constriccin del tracto vocal, causando poca o ninguna
friccin. Ejemplos de dos fonemas lquidos son /l/ y /r/. La lquida /l/ se produce con la lengua
hacia el arco alveolar con el aire escapando a los lados de la lengua, /l/ es llamada lquida lateral.
Para articular la lquida /r/ la lengua se retrae un poco y toma leve una posicin arriba, hacia la
parte trasera del arco alveolar, dando a /r/ el nombre de retroflejo.
Aproximantes
Las aproximantes, tambin llamadas semivocales, son articuladas casi sin constriccin; se
forman definiendo la boca en configuraciones particulares. /w/ se produce redondeando los labios
y levantando la parte trasera de la lengua hacia el velo; /y/ se articula sin redondeo de labios y
con una ligera constriccin en la regin palatal.
Clasificacin de consonantes
Los fonemas consonnticos pueden ser agrupados por categoras articulatorias usando la
informacin de sonoridad, lugar de constriccin en el tracto vocal y el modo de constriccin. Una
vez que se clasifican los fonemas de acuerdo a sus rasgos, es posible agruparlos en base a
caractersticas comunes. Estos agrupamientos son llamados clases naturales. Las clases naturales
de los fonemas comparten algunos rasgos articulatorios (ya sea lugar o modo).
1.2.2 Vocales
Las vocales y las consonantes se producen de una manera algo distinta, por eso se emplean
diferentes criterios para describirlas. Las consonantes pueden ser adecuadamente identificadas en
trminos de cmo y donde la corriente e aire es restringida en el tracto vocal. Sin embargo, las
vocales no son fcil o exactamente descritas con estos parmetros debido a que las vocales se
producen con muy poca constriccin. El lugar de articulacin de las vocales se describe en
trminos de un subconjunto de los lugares de articulacin consonnticos, entre palatal y velar. En
la clasificacin voclica, el lugar palatal de la articulacin es llamado anterior y el lugar velar de
la articulacin es llamado posterior. La manera de articulacin de las vocales se describe en
trminos del grado de cierre, as como de articulaciones secundarias tales como el redondeo de
labios. Debido a que las vocales son articulaciones formadas con una corriente de aire con
mnima friccin, la abertura ms estrecha que la lengua puede hacer sin causar friccin es
llamada cerrada. La abertura ms amplia de la cavidad oral en la produccin de vocales es
llamada abierta. Pueden distinguirse varios rangos intermedios de abertura entre estas aberturas.
Las vocales ubicadas aproximadamente a mitad de cierre y abierta se llaman vocales medias. Por
12
13
Generador de tren
de impulsos
Switch Voz
Sonora/Sorda
u(n)
Generador de
ruido aleatorio
Modelo del
tracto vocal
G
Figura 2.5: Modelo de produccin de la voz
14
s(n)
El tmpano (fig. 1.6) es el comienzo del odo medio y su rgano esencial; es una delgada
membrana elstica, relativamente rgida, con forma de cono dirigido hacia su interior. Tiene
aproximadamente 1 cm. de dimetro y una superficie de unos 0.8 cm2. El tmpano no vibra
siempre de la misma forma: con las bajas frecuencias, vibra todo, pero con las altas, diferentes
partes de la membrana responden a diferentes frecuencias. Sus vibraciones se encaminan hacia la
cclea a travs de la cadena de huesecillos.
15
El odo medio termina en el odo interno hacia el cual se abre por medio de la ventana
oval (fig. 1.6) y de la ventana redonda. La cadena de huesecillos (formada por el martillo, yunque
y estribo, ver fig. 1.6) que atraviesa el odo medio va desde el tmpano hasta la ventana oval.
El tmpano es sensible a cualquier variacin de la presin exterior: por ejemplo, a la
llegada de una onda acstica. Esta presin se comunica al primero de los huesecillos, al martillo
(fig. 1.7), que, al estar unido al tmpano, es sensible a todas sus variaciones. La cabeza del
martillo se mueve sobre la superficie articulatoria del yunque (segundo huesecillo), el que en su
parte inferior se prolonga por medio de la apfisis lenticular (as llamada por su forma), que es la
que enlaza con la cabeza del estribo (tercer huesecillo). La base del estribo cierra la ventana oval
del odo medio. De este modo, cualquier variacin de presin sobre el tmpano se transmite por
medio del martillo, del yunque y del estribo hasta el odo interno (figs. 1.6 y 1.8). La cadena de
huesecillos convierte las vibraciones del tmpano en ondas hidrulicas, en el odo interno.
La caja del tmpano est cerrada por los huesos del crneo, pero abierta hacia la faringe
por medio de la trompa de Eustaquio (figs. 1.6 y 1.8); este conducto sirve para igualar la presin
del aire contenido en el odo medio con la presin del aire exterior; sin esta condicin, la
membrana del tmpano no podra vibrar en perfectas condiciones.
El odo medio desempea dos funciones:
a) Aumenta, gracias a la cadena de huesecillos, la energa acstica que desde el tmpano
llega al odo interno. El tmpano, que es muy flexible entra en vibracin en cuanto se produce la
menor diferencia de presin entre el conducto auditivo externo y el odo medio. La cadena de
huesecillos, que acta como un conjunto de palancas, aumenta catorce veces la presin que llega
a la ventana oval, con relacin a la presin que tenan las ondas que llegaron al tmpano. Si
consideramos, como hemos dicho antes, que entre los 2.500 y los 4.000 Hz, el conducto acstico
externo multiplica de dos a cuatro veces la presin que entra a l hasta que alcanza el tmpano,
resulta que para esas frecuencias la presin que llega a la ventana oval es entre veintiocho a
16
17
hidrulica en energa bioelctrica; est constituido por unas 25.000 clulas ciliadas; uno de los
extremos de estas clulas ciliadas se encuentra en la membrana basilar. De estas clulas ciliadas
parten despus las fibras nerviosas que, reunidas en haz, dan lugar al nervio auditivo o coclear (6
de la fig. 1.11). El movimiento que percibe la membrana basilar se transmite a travs de las
clulas ciliadas hasta el nervio auditivo, compuesto de unas 30.000 neuronas. Bajo la accin de
un estmulo, una neurona responda transmitiendo una serie de impulsos u ondas de actividad de
naturaleza electroqumica.
El nervio auditivo es el que conduce los influjos recibidos en el odo interno hasta la zona
auditiva cerebral. Atraviesa, por el conducto auditivo interno, el hueso que separa el odo interno
de la cavidad craneana, para penetrar inmediatamente en los centros nerviosos al nivel del bulbo
raqudeo. Las fibras de cada nervio auditivo suben hasta el cerebro; una parte de ellas redirige
hacia el hemisferio cerebral situado en el mismo lado del odo de donde proceden, y la otra parte
atraviesa el bulbo raqudeo y va a parar al otro hemisferio cerebral. En cada uno de los dos
hemisferios, las fibras auditivas llegan a la zona auditiva, regin localizada en la corteza cerebral.
As, cada uno de los dos hemisferios, por separado, recibe las sensaciones de cada uno de los
odos, de tal modo que la destruccin de una de esas zonas auditivas no impide la audicin. Como
es fcilmente comprensible, omos siempre mejor con los dos odos que con uno solo, hasta tal
punto que se ha admitido que cuando un sonido llega a los dos odos se percibe una sensacin
doble que si llega solamente a uno. En el momento actual no conocemos experimentalmente la
transformacin del fenmeno fisiolgico en psquico, ni cules puedan ser sus modalidades. Lo
nico que sabemos es que la zona auditiva del cerebro es el soporte material necesario para la
audicin.
19
20
2. Fontica y fonologa
2. FONTICA Y FONOLOGA
2.1 Lengua y habla
La lengua es un modelo general y constante que existe en la conciencia de todos los miembros de
una comunidad lingstica determinada. Es el sistema supraindividual, una abstraccin que
determina el proceso de comunicacin humana [Qui92].
El habla es la realizacin concreta de la lengua en un momento y en un lugar
determinados en cada uno de los miembros de esa comunidad lingstica.
La lengua, por lo tanto, es un fenmeno social, mientras que el habla es individual.
Cuando dos individuos hablan, comunicndose sus pensamientos, sus ideas,
comprendindose entre s, es porque existe algo comn a ellos y que est en un plano superior a
ellos mismos; es decir, se entienden porque existe la lengua, el modelo lingstico comn a los
dos, el sistema que establece ciertas reglas a las que someten cuando hablan; y en el momento
que expresan sus ideas oralmente, estn realizando, materializando la lengua en cada uno de
ellos, estn practicando un acto de habla.
El plano de la lengua y el plano del habla se suponen recprocamente: sin actos concretos
de habla, la lengua no existira, y los actos concretos de habla no serviran para la comunicacin,
para entenderse, si no existiese la lengua, que establece las normas por las que ha de regirse el
habla. Por lo tanto, los dos planos estn unidos inseparablemente y constituyen los dos aspectos
del fenmeno conocido con el nombre de lenguaje.
Tambin debemos tener en cuenta que todo lo que pertenece al lenguaje, es decir, tanto al
plano de la lengua como al del habla, tiene dos facetas: el significante (la expresin) y el
significado (el contenido, el concepto, la idea): ambos constituyen el signo lingstico. Es decir:
Significante + significado = signo lingstico
Un signo lingstico como mesa est formado por un significante, que sera: /m + + s + a
/, es decir, por la suma de unos elementos fnicos y por un significado, que sera la idea o el
concepto que nosotros tenemos de lo que es una mesa.
Cada una de estas dos facetas del signo lingstico tiene su funcin en el plano de la
lengua y en el plano del habla.
El significado en el plano del habla es siempre una comunicacin concreta, que tiene
sentido nicamente en su totalidad. En el plano de la lengua, por el contrario, est representado
por reglas abstractas (sintcticas, fraseolgicas, morfolgicas y lexicales).
21
2. Fontica y fonologa
El significante, en el plano del habla, es una corriente sonora concreta, un fenmeno fsico
capaz de ser percibido por el odo. En el plano de la lengua, es un sistema de reglas que ordenan
el aspecto fnico del plano del habla.
El significado en la lengua consiste, pues, en un nmero limitado, finito de unidades,
mientras que en el habla el nmero de unidades es infinito, ilimitado. Del mismo modo, el
significante en el habla representa un nmero infinito de realizaciones articulatorias, pero en la
lengua, sin embargo, este nmero es finito.
Cuando el hombre habla emite sonidos; pero hay que tener presente que los sonidos no
son realizados de igual manera por todos los individuos de una misma colectividad, y que no
todos los sonidos tienen en todo momento el mismo lugar articulatorio, sino que muchas veces se
encuentran modificados por el contexto fnico que los rodea.
22
2. Fontica y fonologa
23
2. Fontica y fonologa
2.3 Slaba
La slaba es una unidad intermedia entre los fonos y el nivel de palabra, est definida como una
unidad de sonido compuesta de la secuencia organizada de sonidos del habla y consta de:
- Un pico central de sonoridad (usualmente una vocal), y
- las consonantes que se agrupan alrededor de este pico central.
Acero, Huang y Hon mencionan que la slaba a veces est pensada como el dominio
primario de coarticulacin, es decir, que los sonidos dentro de una slaba influyen ms entre s
que los mismos sonidos separados por lmites silbicos [Ace01].
La estructura general de una slaba consta de las siguientes partes [Sil2]:
Partes
Comienzo
(onset)
Rima
- Ncleo
- Coda
Descripcin
Segmento inicial de una slaba
Presencia
Opcional
Obligatorio
Obligatorio
Opcional
Ligera
Cerrada
Abierta
24
Descripcin
Tiene una rima bifurcada. Todas las slabas con
un ncleo bifurcado (vocales largas) son
consideradas pesadas. Algunos lenguajes tratan a
las slabas con una vocal corta (ncleo) seguida
de una consonante (coda) como slabas pesadas.
Tiene una rima no bifurcada (vocal corta).
Algunos lenguajes tratan a las slabas con vocal
corta (ncleo) seguida de una consonante (coda)
como ligera.
Termina con una consonante coda
No tiene consonante final
Ejemplo
CV:C, CVCC, CVC
CV, CVC
CVC, CVCC, VC
CV
2. Fontica y fonologa
25
2. Fontica y fonologa
26
27
3.1.1 Ventaneo
El ventaneo es la multiplicacin de una seal de voz s(n) por una ventana w(n), la cual produce
un conjunto de muestras de voz x(n) ponderadas por la forma de la ventana. w(n) puede tener una
duracin infinita, pero muchas ventanas prcticas tienen longitud finita para simplificar el
cmputo. Recorriendo w(n) es posible examinar cualquier parte de s(n) a travs de una ventana
mvil (vea la figura 3.1).
(3.1)
2n
0.54 0.46 cos
w(n) =
N 1
para 0 n N 1
(3.2)
c.c.
La figura 3.2 muestra algunos tipos de ventanas en el dominio del tiempo y los espectros
de magnitud de dos de ellas.
29
E n = x(m) w(n m)
m =0
30
(3.3)
El mayor significado de En es que provee la base para distinguir entre segmentos de voz
sonoros de segmentos de voz sordos. Los valores de En para segmentos sordos son
significativamente menores que los de segmentos sonoros. La funcin de energa puede tambin
ser usada para localizar aproximadamente el tiempo en el cual la voz sonora se vuelve sorda, y
viceversa, y, para voz de alta calidad (alta relacin seal a ruido), la energa puede ser usada para
distinguir la voz del silencio.
Sin embargo, una dificultad con la funcin de energa en tiempo corto es que es muy
sensible a niveles altos de seal (ya que se calcula el cuadrado), por tanto enfatiza las variaciones
grandes entre muestra y muestra de x(n). Una manera simple de solucionar este problema es
definir una funcin magnitud promedio en tiempo corto. La funcin de magnitud est dada por:
N 1
M n = x(m) w(n m)
(3.4)
m=0
Gracias a la magnitud promedio en tiempo corto las diferencias en nivel entre seales
sonoras y sordas no son tan pronunciadas como en la energa en tiempo corto.
En el contexto de las seales en tiempo discreto, se dice que un cruce por cero ocurre si muestras
sucesivas tienen signos algebraicos diferentes. La frecuencia a la que ocurren los cruces por cero
es una medida simple del contenido en frecuencia de la seal. La tasa de cruces por cero est
dada por la siguiente expresin:
N 2
Zn =
m =0
2N
(3.5)
donde
1
sgn[ x(n)] =
para x(n) 0
1 c.c.
(3.6)
Veamos ahora como la tasa promedio de cruces por cero en tiempo corto se aplica a
seales de voz. El modelo para la produccin de voz sugiere que la energa de la voz sonora se
encuentra concentrada por debajo de los 3 kHz debido a la cada del espectro introducida por la
onda glotal, mientras que para la voz sorda, la mayor parte de la energa se encuentra a altas
frecuencias. Debido a que las altas frecuencias implican altas tasas de cruces por cero, y bajas
frecuencias implican bajas tasas de cruces por cero, existe una fuerte correlacin entre la tasa de
cruces por cero y la distribucin de energa con la frecuencia. Una generalizacin razonable es
31
que si la tasa de cruces por cero es alta, la seal de voz es sorda, mientras que si la tasa de cruces
por cero es baja, la seal de voz es sonora. Esto, sin embargo, es una afirmacin muy imprecisa
ya que debe establecerse qu es alto y qu es bajo, y por supuesto, no es posible ser preciso. A
veces no es posible tomar una decisin sordo/sonoro inequvoca basada nicamente en la tasa
promedio de cruces por cero. Sin embargo, este mtodo por lo general es bastante til.
Ante las dificultades para la deteccin del inicio y fin de palabra, Rabiner y Sambur desarrollaron
un mtodo basado en las caractersticas sonoras de los sonidos:
Sonidos sonoros
Sonidos sordos
32
Finalmente, existen algunas recomendaciones que fueron adoptadas en este trabajo al programar
el algoritmo:
1) Calcular nuevos umbrales de ruido para la deteccin de fin de palabra en base a las
ltimas 10 tramas de la seal. Esto es debido a que las condiciones de silencio antes y despus de
la pronunciacin de una palabra pueden ser diferentes por diferentes razones: resonancia,
respiraciones. Evidentemente estas razones resultan indeseables y deben evitarse en la medida de
lo posible si no se cuenta con un estudio de grabacin profesional.
2) Un ambiente de grabacin donde no se puede tener demasiado control del mismo puede
ocasionar que la forma de onda en las regiones de silencio manifieste muy baja intensidad pero
cuente con una tasa de cruces por cero muy elevada, inclusive mayor que el de un sonido sordo.
Lo anterior producir falsas detecciones de inicio o fin de palabra. Una manera de lidiar con este
hecho fue aplicar un offset a la seal de voz en base a la media del valor absoluto de las primeras
5N muestras de la seal, donde N es el tamao de la trama (recuerde que las primeras y ltimas
10 tramas de la seal se consideran ruido). Se calcul un offset distinto para la deteccin del
inicio y la deteccin del final de una palabra y se consider como el paso 0 del algoritmo de
Rabiner-Sambur. Esta medida permiti una mejora notable en la deteccin.
3) En un principio, en el anlisis de fin de palabra se obtuvieron falsas detecciones. Esto
se present en palabras que terminan en la secuencia de fonos sonoro-sordo-sonoro y donde la
magnitud promedio del primer fono sonoro era mayor que la del ltimo fono sonoro (lo cual es
sumamente comn ya que en el nhuatl el acento se ubica siempre en la penltima slaba). La
diferencia de magnitudes promedio ocasionaba que el punto le se estableciera al trmino del
primer fono sonoro y que se procediera con el anlisis de cruces por cero an cuando haba un
fonema sonoro a final de palabra. La manera ms sencilla para resolver este problema fue bajar el
umbral superior de energa a 0.2 max{Mn}, con resultados muy positivos.
4) Por ltimo, en el paso 6 de su algoritmo, Rabiner y Sambur proponen un anlisis de
cruces por cero en 25 tramas anteriores a le. Tenga en cuenta que si la palabra fue pronunciada de
forma pausada, se debe pensar en un nmero de tramas diferente. En este trabajo funcion bien
con 25 tramas, pero considero que resulta conveniente analizar aunque sea un poco la seal a
detectarle su inicio y fin de palabra, para observar si las 25 tramas son suficientes.
34
(k ) =
x ( m) x ( m + k )
(3.8)
m =
N 1 k
para k = 0,1,2,..., p
m=0
(3.9)
Esta ecuacin puede ser interpretada como sigue: primero se selecciona un segmento de la
voz por la multiplicacin por una ventana (donde w'(n)=w(-n)); entonces se aplica la definicin
determinstica de la autocorrelacin al segmento de voz al que se aplic el ventaneo. Usualmente,
aunque dependiendo de la aplicacin de inters, la ventana es rectangular.
La funcin de autocorrelacin en tiempo corto tiene aplicaciones en el procesamiento de
seales de voz, por ejemplo para la estimacin de tono (pitch), determinacin de rasgos sonoros y
prediccin lineal.
35
36
3.3.1 Prenfasis
La descripcin del modelo fuente-filtro para la produccin de voz mostrado el la figura 2.1 del
captulo 2, indica que el espectro de sonidos sonoros posee una pendiente de -6 dB/octava,
mientras se incrementa la frecuencia. Esta es una combinacin de una pendiente de -12 dB/octava
debido a la fuente de excitacin de la voz y una pendiente +6 dB/octava debida a la radiacin
producida por la boca. Esto significa que por cada vez que se duplica la frecuencia, la seal en
amplitud, y por tanto la respuesta del tracto vocal medida, son reducidas por un factor de 16. Es
por tanto deseable compensar la cada de -6 dB/octava pre-procesando la seal de voz para darle
un levantamiento de +6 dB/octava en el rango apropiado de tal forma que el espectro medido
tenga un rango dinmico similar a travs de toda la banda de frecuencias. Esto se llama
prenfasis. En un sistema digital de procesamiento de seales, el prenfasis puede ser
implementado ya sea de primer orden, usando un filtro analgico paso-altas con una frecuencia
de corte a 3 dB en algn lugar entre 100 Hz y 1 kHz (la posicin exacta no es crtica) que precede
al filtro de anti-aliasing y el convertidor A/D, o bien usando un filtro digital paso-altas que
procesa la seal de voz digitalizada. El filtrado paso-alto puede ser logrado digitalmente usando
la ecuacin en diferencias:
(3.10)
Donde y(n) denota la muestra actual de salida del filtro de prenfasis, x(n) es la muestra
actual de entrada, x(n-1) es la muestra anterior de entrada y a es una constante usualmente
elegida entre 0.9 y 1. De nuevo, el valor elegido no es crtico.
En el caso de sonidos sordos no hay necesidad de aplicar prenfasis, ya que no hay
ninguna pendiente que deba ser removida. Sin embargo, por simplicidad, se aplica prenfasis
normalmente a sonidos sordos tambin.
Como la tcnica espectral tradicional, el anlisis de Fourier brinda una representacin de la seal
de voz en trminos de amplitud y fase como una funcin de la frecuencia. Observando el modelo
tracto vocal como un sistema lineal, la transformada de Fourier de la voz es el producto de las
transformadas de la excitacin glotal (o de la fuente de ruido) y de la respuesta del tracto vocal.
Para vocales de estado estable o sonidos fricativos, la transformada de Fourier bsica (de tiempo
infinito) puede emplearse extendiendo o repitiendo secciones o periodos de pitch de la voz ad
infinitum. Sin embargo la seal de voz no es estacionaria y por lo tanto resulta necesario el
anlisis en tiempo corto de la seal usando ventanas.
37
s ( m)e
jm
w(n m)
(3.11)
m =
En la ecuacin (3.11) w(n-m) es una ventana real que determina la porcin de la seal de
entrada que recibe nfasis en un determinado ndice de tiempo n. La transformada de Fourier
dependiente del tiempo es claramente funcin de dos variables: el ndice de tiempo n, que es
discreta, y la variable de frecuencia que es continua.
Para fines computacionales, la transformada discreta de Fourier (TDF, o DFT en ingls)
es empleada en lugar de la transformada de Fourier estndar, de tal manera que la variable
frecuencial slo toma valores discretos sobre N (N = duracin o tamao de la ventana, de la
TDF). Cabe mencionar que la transformada rpida de Fourier, o FFT, es usada para implementar
la TDF, cuya expresin es:
N 1
(3.12)
m=0
Consideremos a Xn(ej) como la transformada de Fourier normal de la secuencia w(n-m)x(m), <m<, para una n fija. La transformada de Fourier dependiente del tiempo es una funcin del
ndice de tiempo n, que toma todos los valores enteros hasta desplazar la ventana w(n-m) sobre
la secuencia x(m). Esto se muestra en la figura 3.3, que muestra a x(m) y w(n-m) como funciones
de m para varios valores de n. (note que la seal y la ventana son graficadas por conveniencia
como funciones continuas a pesar de que nicamente se encuentran definidas para valores enteros
de m y n-m).
38
1
2
W (e
)e jn X (e j ( + ) )d
(3.13)
39
requiere un ventana corta mientras que una buena resolucin en frecuencia requiere una ventana
larga.
3.3.2 Espectrogramas
Es una herramienta bsica para el anlisis espectral, un espectrograma convierte una seal de voz
bidimensional (amplitud/tiempo) en un patrn tridimensional (amplitud/frecuencia/tiempo). Con
el tiempo y la frecuencia en los ejes horizontal y vertical, respectivamente, la amplitud es
denotada por la oscuridad mostrada en el espectro. Picos en el espectro (por ejemplo, resonancias
formantes) aparecen como bandas horizontales oscuras.
Los espectrogramas proporcionan mucha informacin relevante para la fontica acstica:
las duraciones de segmentos acsticos, si la seal de voz es peridica, y el movimiento detallado
de los formantes. Los espectrogramas presentan nicamente la amplitud espectral, ignorando
informacin de la fase, pues se asume que la fase es relativamente poco importante para muchas
aplicaciones de la voz.
Los espectrogramas de banda ancha se obtienen con ventanas de corta duracin
(tpicamente de 10 ms). Los periodos sonoros aparecen como secuencias de bandas verticales
oscuras. Estos espectrogramas resaltan el comportamiento espectral de la seal y por lo tanto
hacen posible describir la evolucin temporal de los formantes, por lo que son una herramienta
invaluable para fonetistas. Incluso gente experta puede leer espectrogramas, es decir, la
recuperacin de la pronunciacin a partir de su representacin tiempo-frecuencia. Los
espectrogramas de banda angosta son empleados con menor frecuencia; sin embargo, ellos
ponen en evidencia la estructura espectral fina: los armnicos en secciones sonoras aparecen
como bandas horizontales [Dut97].
La figura 3.4.i muestra un espectrograma de banda ancha, se caracteriza por una
resolucin pobre en el dominio de la frecuencia y una buena resolucin en el dominio del tiempo.
El espectrograma despliega el rango frecuencial de 0 Hz a 5 kHz ya que all se presentan las
caractersticas ms importantes de la voz, la duracin de la ventana es de 5 ms. Las barras gruesas
y oscuras que se mueven horizontalmente a travs del espectrograma corresponden a las
frecuencias de resonancia del tracto vocal que, como vemos, cambian con el tiempo. La
apariencia vertical y estriada del espectrograma se debe a la naturaleza cuasiperidica de las
porciones sonoras de la seal, como es evidente al comparar las variaciones en la seal
desplegada y el espectrograma. Como la longitud de la ventana de anlisis es del orden de la
longitud de un periodo de la seal, mientras la ventana se desplaza en el tiempo, alternadamente
cubre segmentos de alta energa de la seal y entre ellos segmentos de baja energa, produciendo
las estriaciones verticales en la grfica durante intervalos sonoros.
En un anlisis de Fourier de banda angosta dependiente del tiempo, se usa una ventana
ms larga para proveer una mayor resolucin infrecuencia con el correspondiente decremento de
la resolucin en el tiempo. Tal anlisis de banda angosta de la voz es ilustrado en la figura 3.4.ii,
en este caso la ventana tiene una duracin de 30 ms.
40
5000
5000
4000
4000
Frequency (Hz)
Frequency (Hz)
3000
2000
1000
0
0
3000
2000
1000
0.07
0.14
0.21
0.28
0.35
0.42
Time (s)
0.49
0.56
0.63
0.7
0
0
0.07
0.14
0.21
0.28
0.35
0.42
Time (s)
0.49
0.56
0.63
0.7
41
42
44
4. RECONOCIMIENTO DE VOZ
POR CUANTIZACION VECTORIAL (VQ)
La mayor meta del reconocimiento automtico de voz es producir un sistema que pueda
reconocer, con precisin humana, sin restricciones, expresiones continuas del habla no
importando el hablante.
El reconocimiento de voz es el proceso de conversin de una seal acstica, capturada por
un micrfono o un telfono, a un juego de palabras. Las palabras reconocidas pueden ser los
resultados finales, con aplicaciones tales como comandos y control, entrada de datos, y
preparacin de documentos. Ellas pueden servir tambin en procesos lingsticos para la
comprensin del habla. En la figura 4.1 se muestra el diagrama de bloques de un sistema que
incorpora diversas tecnologas de voz.
De acuerdo a documentos sobre el estado del arte en tecnologas del lenguaje humano
[Ogi], los sistemas de reconocimiento de voz pueden ser caracterizados por muchos parmetros,
algunos de los ms importantes se muestran en la tabla 4.1. Un sistema de reconocimiento de
palabras aisladas requiere que el hablante haga breves pausas entre las palabras, mientras que en
el caso de sistemas de reconocimiento de palabras continuas no lo requiere as. El habla
espontnea, o generada extemporneamente, es mucho ms difcil de reconocer que el habla al
leer un texto. Por otra parte, algunos sistemas requieren que un usuario (hablante) proporcione
muestras de su voz antes de la utilizacin de ellos, mientras que hay sistemas independientes del
hablante y no es necesario proporcionar tales muestras de voz. Algunos otros parmetros
dependen de la tarea especfica. El reconocimiento es generalmente ms difcil cuando es grande
45
el vocabulario o tiene muchas palabras con sonidos similares. Cuando el habla es producida en
una secuencia de palabras, modelos de lenguaje o gramtica artificial son usados para restringir la
combinacin de palabras. La perplejidad est definida como la media geomtrica del nmero de
palabras que pueden seguir de una palabra despus de que el modelo de lenguaje ha sido
aplicado. Finalmente, hay algunos parmetros externos que pueden afectar el funcionamiento de
los sistemas de reconocimiento de voz, incluyendo las caractersticas del ruido ambiental as
como el tipo y ubicacin del micrfono.
Parmetros
Rango
Modo de hablar
Palabras aisladas a voz continua
Estilo de hablar
Voz de lectura a voz espontnea
Inscripcin
Dependiente del hablante a independiente del hablante
Vocabulario
Pequeo (< 20 palabras) a grande (> 20,000 palabras)
Modelo del lenguaje
Estado finito a sensible al contexto
Perplejidad
Pequea (<10) a grande (> 100)
SNR
Alto (> 30 dB) a bajo (< 10 dB)
Transductor
Cancelacin de voz de micrfono a telfono
Tabla 4.1. Parmetros tpicos usados para caracterizar la capacidad
de sistemas de reconocimiento de voz [Ogi]
46
47
mximo desempeo, los sistemas deben ser entrenados con ejemplos especficos de la
nueva tarea, lo cual es consumo de tiempo y resulta costoso.
Adaptacin. Es decir, cmo pueden adaptarse continuamente los sistemas ante
condiciones cambiantes. Por ejemplo, nuevos hablantes, micrfono, tareas. Tal adaptacin
puede ocurrir en muchos niveles del sistema, como modelo de subpalabras, pronunciacin
de palabras o modelos de lenguajes, por mencionar unos cuantos.
Modelado del lenguaje. Los sistemas actuales usan modelos de lenguaje estadsticos para
ayudar a reducir el espacio de bsqueda y resolver ambigedades acsticas. Como el
tamao del vocabulario crece y otras restricciones estn relajados para crear sistemas ms
habitables, ser incrementalmente importante obtener tanta restriccin como sea posible
de modelos de lenguaje; quizs incorporando restricciones sintticas y semnticas que no
pueden ser capturadas por modelos puramente estadsticos.
Medicin confiable. Muchos sistemas de reconocimiento de voz asignan puntajes a
hiptesis. Estos puntajes no dan una buena indicacin de si una hiptesis es correcta o no,
slo que sta es mejor que la otra hiptesis. Como se mueve en tareas que requieren
acciones, se necesitan mejores mtodos para evaluar la absoluta certeza de la hiptesis.
Palabras fuera de vocabulario. Los sistemas estn diseados para usarse con un juego
particular de palabras, pero los usuarios pudieran no saber exactamente qu palabras estn
en el vocabulario del sistema. Esto lleva a un cierto porcentaje de palabras fuera de
vocabulario en condiciones naturales. Los sistemas deben tener algn mtodo de
deteccin de palabras fuera de vocabulario, o stos terminarn mapeando una palabra
desde el vocabulario sobre la palabra desconocida, causando un error.
Voz espontnea. Los fenmenos en voz espontnea son falsos comienzos, dudas,
construcciones no gramticas y otros comportamientos no encontrados en la voz de
lectura. Se han hecho desarrollos que han llevado a progresos en esta rea, pero an hay
mucho trabajo por hacer.
Prosodia. Se refiere a la estructura acstica que se extiende sobre varios segmentos de
palabras. La acentuacin, la entonacin y el ritmo transportan informacin importante
para reconocimiento de palabras y la intencin del usuario (p.e. sarcasmo, irona). Los
sistemas actuales no capturan la estructura prosdica. An no ha sido respondido cmo
integrar la informacin prosdica dentro de una arquitectura de reconocimiento, es una
pregunta crtica.
tcnica de alineamiento de plantillas, proporcionando los mejores resultados hasta la fecha tanto
para el reconocimiento del habla, tanto aislada como continua, y para independencia del locutor.
Las redes neuronales han sido tambin usadas para integrarlas dentro de arquitecturas de sistemas
basados en el HMM, esto ha llegado a ser conocido como sistemas hbridos [Zue90], [Fan95].
s (n) a1 s (n 1) + a2 s (n 2) + L + a p s (n p)
(4.1)
donde los coeficientes a1, a2, , ap son considerados constantes en la trama de anlisis.
Para convertir la ecuacin (4.1) en una equivalencia se agrega un trmino de excitacin, Gu(n),
dando:
p
s (n) = a k s (n k ) + Gu (n) ,
(4.2)
k =1
49
S ( z ) = ak z k S ( z ) + GU ( z ) ,
(4.3)
k =1
S ( z)
=
GU ( z )
1
p
1 ak z
=
k
1
,
A( z )
(4.4)
k =1
1
A( z )
de que la funcin de excitacin para la voz es esencialmente: un tren de impulsos cuasiperidicos (para sonidos de voz sonoros) o una fuente de ruido aleatorio (para sonidos no sonoros
o sordos).
Periodo del tono
Switch Voz
Sonora/Sorda
Generador de tren
de impulsos
u(n)
Generador de
ruido aleatorio
Modelo del
tracto vocal
H(z)
s(n)
50
(4.5)
s ( n) ,
se considera la combinacin lineal de las muestras pasadas de voz como una estimacin ~
definida como:
p
~
s ( n) = a k s ( n k ) ,
(4.6)
k =1
E n = e n ( m ) = ( s n ( m) ~
sn (m)) 2 = s n (m) ak s n (m k )
m
m
m
k =1
(4.7)
(4.8)
para i = 1,2,..., p
(4.9)
La solucin de (4.9) se puede obtener por varios mtodos, uno de los ms usados es el
mtodo de la autocorrelacin. La solucin de este mtodo da como resultado un sistema de
ecuaciones lineales con p incgnitas y se pueden expresar de forma matricial de la forma:
51
Inicializacin
E ( 0 ) = r (0)
para i = 1,2,..., p
i 1
ki =
r (i ) (ji 1) r ( i j )
j =1
E ( i 1)
i(i ) = k i
para
j = 1,..., i 1
a m = coeficientes LPC = m( p )
El procedimiento para generar los coeficientes LPCs de tramas de la seal de voz s(n), es
el siguiente:
-
52
r (k ) =
N 1 k
s ( m) s ( m + k )
para k = 0,1,2,..., p ,
(4.10)
m =0
53
Las primeras tres propiedades comnmente son conocidas como positividad (no
negatividad), simetra y desigualdad del tringulo, respectivamente. Una mtrica que contenga
54
estas propiedades, permite un alto grado de manejo matemtico. S una medida de distancia, d,
satisface solo la propiedad de positividad, se le denomina medida de distorsin, particularmente
cuando los vectores son representaciones del espectro de la seal.
Para el procesamiento de voz es importante considerar que la definicin (o eleccin), de la
medida de distancia, es significativamente subjetiva. Una medida matemtica de la distancia, para
ser utilizada en el procesamiento de voz, debe tener una alta correlacin entre su valor numrico
y su distancia subjetiva aproximada, para evaluar una seal real de voz. Para el reconocimiento
de voz, la consistencia psicofsica (los diferentes matices que se le pueden imprimir a una misma
palabra o frase), que se desea medir con la distancia, obliga a que se encuentre una medida
matemtica ajustada por necesidad, a las caractersticas lingsticas conocidas. Estos requisitos
tan subjetivos no pueden ser satisfechos con medidas de distancia que proporcionen manejo
matemtico. Un ejemplo es la tradicional medida del Error Cuadrtico, d(x, y) = (x y)2.
Dado que existe una enorme dificultad al querer cumplir simultneamente ambos
objetivos (subjetividad y manejo matemtico), algn compromiso es inevitable. Por consiguiente,
y dado que se necesita manipular matemticamente las propiedades de esa medida de distancia,
se necesita probar que estas propiedades subjetivas son lo suficientemente buenas como para
lograr el reconocimiento de voz. Por otra parte se hablar de medidas de distorsin en vez de
mtricas debido a que se relajan las condiciones de simetra y desigualdad del tringulo. No se
debe utilizar el trmino distancia en sentido estricto, acorde a la definicin de arriba; por otro
lado, se debe mantener la costumbre de la literatura de voz, donde el trmino distancia es
anlogo, a las medidas de distorsin [Rab93].
Existen varios tipos de medidas de distorsin, cada una con sus caractersticas especiales.
Entre ellas tenemos: Distancia Euclidiana Cuadrtica, Distorsin del Error Cuadrtico Medio,
Distorsin del Error Cuadrtico Ponderado, Distancia de Itakura, etc..
Distancia Euclidiana Cuadrtica. La medida ms conveniente y ampliamente usada
para calcular distancias, es el Error Cuadrtico o Distancia Euclidiana Cuadrtica, entre dos
vectores, definida como:
d ( X 1, , X 2 ) = X 1 X 2
= X1j X 2 j
j =1
(4.11)
Distorsin del Error Cuadrtico Medio. La distorsin del Error Cuadrtico Medio
(MSE) es otra de las medidas mas utilizadas y se define como:
d(X 1 , X 2 ) =
N
1
(X1 X 2 )T (X1 X 2 ) = 1 (X1 j X 2 j )
N
N j=1
(4.12)
en la cual la distorsin est definida por cada dimensin. La popularidad del MSE se basa en su
simplicidad y seguimiento matemtico.
55
(4.13)
(4.14)
es asimtrica.
Distancia de Itakura. En muchos casos del procesamiento de voz, es necesario tener otra
medida de la distancia que existe entre dos vectores LPC. La distancia Euclidiana no es apropiada
para medir los parmetros de dos LPCs individuales, en vectores que estn relacionados. Esto es
debido a que los vectores LPC dependen del peso de la matriz de autocorrelacin correspondiente
a cada LPC.
56
xR y x T
d ( x, y ) = log
yR y T
y
(4.15)
donde
r (0)
r (1)
yR y y T = 1 a a L a r ( 2)
1
2
p
M
r ( p )
r (1)
r ( 2)
r (0)
r (1)
r (1)
r (0)
r ( p 1) r ( p 2 )
1
L r ( p 1) a1
L r ( p 2) a2
M M
L r ( 0) a
p
L
r ( p)
(4.16)
o lo que es lo mismo:
P
i =0
n =0
yR y y T = ai rn ( i n )an
(4.17)
donde y = 1 a a L a
p
1
2
xRyxT es la energa del filtro inverso formado con la seal de entrada de voz.
yRyyT es la energa de salida mnima posible para el filtro de prediccin lineal con la entrada de
voz.
Por tanto (4.15) tambin se puede escribir como:
E
d ( x, y ) = log x
E
y
(4.18)
Q : R K C, C = {y 1 ,..., y N }
yi R K
i { 0 ,1,..., N }
(4.19)
El conjunto C es llamado code book (libro de cdigos) y tiene un tamao N, esto significa
que tiene N distintos elementos, cada uno de ellos dentro del espacio Rk.
Asociado a cada cuantizador vectorial de N puntos, existe una particin de Rk en N
regiones o celdas, Ri para i . La i-sima celda esta definida por:
R i = { x R K : Q( x ) = y i }
(4.20)
algunas veces llamada imagen inversa o pre-imagen de yi dentro del mapeo Q y denotada
de forma ms consistente por Ri = Q-1 (yi).
De la definicin de celdas, tenemos que:
UR
i
= RK
RiIR j =
para
i j
(4.21)
Si ( x ) =
0 c.o.c.
(4.22)
Q( x ) = y i Si ( x )
(4.23)
i =1
Je =
d (x, z
j =1 x en
(4.24)
donde:
K = numero de grupos
zj = centro del grupo (centroide) para el grupo j
j = subconjunto de muestras asignadas al grupo j
d(x,zj) = Es la distancia de Itakura entre el ventor x y el centroide zj
Algoritmo de K-medias:
1) Escoger K centroides iniciales z1(1), z2(1), ..., zk(1).
2) En la iteracin l, asignar las muestras a los grupos:
Asignar:
i (l )
si
d (x, z i (l )) d (x, z j (l ))
j = 1,2,..., K
ji
59
60
61
62
Lastra
Canger
Periferia Occidental
Costa Occidental
Occidente del Estado de Mxico
Durango-Nayarit
Periferia Oriental
Sierra de Puebla
Istmo
Pipil
Huasteca
Centro
Subrea Nuclear
Puebla-Tlaxcala
Xochiltepec-Huatlatlauca
Sureste de Puebla
Guerrero Central
Sur de Guerrero
rea Central
Valle de Mxico
Tlaxcala
Morelos
Guerrero Central
Puebla Central
Norte de Puebla
La Huasteca
Periferia
Occidental
Durango
Nayarit
Jalisco
Colima
Michoacn
Almomoloa
Norte de Guerrero
Oriental
Sierra de Puebla
Istmo
Pipil
rea Nuclear
Nhuatl Clsico
San Martn de las Pirmides
63
64
65
5.2 Metodologa
Como se ha mencionado, la lengua nhuatl posee una gran variedad de dialectos. Los trabajos
realizados por Lastra [Las86] y Canger mencionados en la anterior seccin constituyen fuentes de
consulta esenciales para conocer las agrupaciones dialectales, ubicar las zonas donde se hablan y
determinar la variante a estudiar, como en el presente trabajo.
Por otra parte, las diferencias dialectales pueden presentarse entre comunidades distantes
a pocos kilmetros unas de otras. Horcasitas [Hor92] seala que los dialectos modernos varan
de regin en regin y frecuentemente de pueblo en pueblo. Dado lo anterior, para realizar el
estudio fontico de un dialecto nhuatl es importante enfocarse en una sola comunidad.
Para este trabajo de tesis me he concentrado en el municipio de Cuetzalan por ser una
zona donde se ha estudiado mucho la lengua nhuatl, de tal manera que es posible contar con
valioso material de consulta. Sin embargo, como cabecera del municipio, Cuetzalan es una
poblacin donde confluyen hablantes de diferentes dialectos nhuatl, por lo que consider ms
conveniente enfocarme en una comunidad ms pequea. Gracias a contactos desde la misma
ciudad de Puebla, hall en San Miguel Tzinacapan el lugar donde grabar, ubicado a 4 kilmetros
de Cuetzalan.
Al realizar trabajo de campo resulta adecuado presentarse con la autoridad local (en mi
caso, con el presidente de la junta auxiliar) para, acompaado de una carta por parte de la
universidad, notificarle sobre la naturaleza del trabajo en cuestin.
Debido a las caractersticas de la base de datos para la tecnologa de reconocimiento de
voz, fue necesario hacer grabaciones de campo para este trabajo de investigacin.
La metodologa const de:
Adquisicin del sistema fontico del dialecto a analizar. Esta informacin la
consult en [Cas00], [Ba] y [Tou84], que son obras del nhuatl de la regin de
Cuetzalan y de Tzinacapan. Particularmente es Castillo, [Cas00], quien presenta
el sistema fontico del nhuatl de la regin de Cuetzalan. Consultas con
habitantes de Tzinacapan y el examen de las grabaciones no detectaron la
presencia o ausencia de otros fonemas (aunque hay un caso especial
mencionado ms adelante)
Diseo del cuestionario. ste consta de alrededor de 100 palabras. Como en la
fase de elaboracin del cuestionario careca de nociones sobre lengua nhuatl,
me apoy en trabajos publicados por [Hor92], [Las86], [Lau92], [Ba], [Tou84].
Integr algunas palabras del cuestionario de Lastra [Las86] y de [Ba], de tal
manera que tambin aad palabras que permitieran conformar un vocabulario
muy bsico de la lengua. Las observaciones y sugerencias por parte de Leopoldo
Valias fueron de enorme ayuda para estructurar un cuestionario coherente y
evitar palabras ambiguas o no existentes. Finalmente, las observaciones a partir
66
o
o
o
o
o
-
Como he mencionado, no tena bases en lengua nhuatl, por lo que me pareci pertinente
atravesar por una fase de sensibilizacin de esta lengua, para ello asist a un seminario de lengua
nhuatl enfocado exclusivamente en su produccin oral, fue impartido por Leopoldo Valias en
el IIA y fue de considerable vala, un aporte concreto es haber podido hacer aclaraciones con los
hablantes sobre las palabras del cuestionario a grabar durante el trabajo de campo.
Aunque muy generales, es conveniente mencionar algunos rasgos fonolgicos del nhuatl que
fueron tomados en cuenta para la elaboracin del cuestionario.
-
En el ltimo punto, grabaciones, se justifica por s misma la razn de realizar este trabajo de
campo. A pesar de sus ricos acervos, ninguna institucin contactada hasta aquel momento
(Instituto Nacional Indigenista, Museo Nacional de Antropologa, Instituto de Investigaciones
Antropolgicas de la UNAM) posea una base de datos con esas caractersticas.
67
68
sordas
oclusivas
africadas
sonoras
fricativas
nasales
lateral
semivocal
/p/
/t/
/k/
/kw/
//
//
/s/
//
/h/
/m/
/n/
/l/
/w/
/y/
Grafa en
espaol
p
t
k, qu
ku
ts
ch
s
x
j
m
n
l
g
ll
Punto de articulacin
bilabial
alveolar
velar
oclusiva velar labializada
alveolar
palatal
alveolar
alveopalatal
fricativa glotal
bilabial
alveolar
dental
velar
palatal
Ejemplo
[pokti]
[tiltik]
[kostik]
[kwali]
[onti]
[iiltik]
[siwat]
[ooktik]
[nehwa]
[meti]
[nakat]
[ta:l]
[weyi]
[yolot]
humo
negro
amarillo
bueno
cabello
rojo
mujer
verde
yo
luna
carne
tierra
grande
corazn
largas
cortas
Vocales:
Fonema
/i/
/e/
/a/
/o/
/i:/
/e:/
/a:/
/o:/
Clasificacin
anterior alta
anterior media
central baja
posterior media
anterior alta
anterior media
central baja
posterior media
[istak]
[esti]
[amo]
[omit]
[i:yolke]
[e:wat]
[a:ltia]
[o:lini]
Ejemplo
blanco
sangre
no
hueso
loco
cscara
baar
doler
Note que la fricativa glotal /h/ no ha sido clasificada con sonora o sorda, esto ser
explicado en el estudio fontico acstico.
Advirtase la presencia del fonema /t/ en vez del // (por ejemplo, at y atl) que
predomina en otras regiones de Mxico. Esto quiere decir que se emplea el trmino nahuat en
San Miguel Tzinacapan. Sin embargo seguiremos empleando el trmino nhuatl por ser el ms
conocido, sabiendo siempre que estamos estudiando una variante en particular.
69
70
Tuggy sugiere tener presente que estas reglas se consideran con respecto a fonemas y no
necesariamente a letras del alfabeto ya que varios de los fonemas del nhuatl se representan
ortogrficamente con un par de letras.
71
72
73
74
6. PROPIEDADES ESTTICAS DE
LOS SONIDOS DEL HABLA
6.1 Consonantes
En esta seccin agruparemos los fonemas de acuerdo al modo de articulacin. Esto resulta til
porque los fonemas con esta agrupacin exhiben muchas propiedades en comn.
6.1.1 Oclusivas
Como se ha visto en el cuadro fontico, las consonantes oclusivas del nhuatl de San Miguel
Tzinacapan son /p/, /t/, /k/ y /kw/; todas son sordas.
Las oclusivas pueden ser producidas en tres lugares del tracto vocal: en los labios
(oclusiva bilabial /p/), en los alvolos (oclusiva alveolar /t/) y en el velo (oclusiva velar /k/).
Tenemos un caso muy particular en nhuatl: una oclusiva velar labializada /kw/.
Un sonido oclusivo se produce cuando hay un cierre completo de los rganos
articulatorios, deteniendo el flujo de aire en el tracto vocal, seguido de una liberacin o explosin
de aire. Esto distingue dos segmentos: cierre y explosin, los cuales son claramente identificados
en la figura 6.1 donde se muestran segmentos de las realizaciones [tiotaki] (buenas tardes) e
[istak] (blanco).
0.6
0.4
Amplitud
0.2
0
-0.2
-0.4
-0.6
A
0.24
0.26
0.28
B
0.3
0.32
Tiempo (s)
0.34
0.36
0.38
0.4
i. [ota]
0.8
0.6
0.4
Amplitud
0.2
0
-0.2
-0.4
-0.6
A
-0.8
0.46
0.48
0.5
B
0.52
0.54
0.56
Tiempo (s)
0.58
C
0.6
0.62
0.64
0.66
ii. [sta]
Figura 6.1: Oclusivas alveolares sordas
75
El intervalo de cierre est mostrado entre los puntos A y B, la liberacin ocurre entre B y
C. En estos ejemplos, la oclusiva est seguida de una vocal, la seal despus del punto C. Cuando
una oclusiva est seguida de un sonido sonoro, p.e. una vocal, el tiempo en el punto C es a
menudo denominado comienzo sonoro (voice onset) y la duracin de la regin entre B y C como
tiempo de comienzo sonoro (voice onset time, VOT).
Ahora observemos los intervalos de cierre. En la regin AB de la figura 6.1.i, la seal
prcticamente no contiene energa, su duracin es de alrededor de 40 ms. La energa anterior a la
regin AB corresponde a un segmento de la vocal que precede a la oclusiva. En la figura 6.1.ii
podemos observar parte de un fono sordo anterior a la regin AB; de hecho es una consonante
fricativa, este fonema lo veremos ms adelante. Tambin notamos que ambos ejemplos tienen
casi el mismo VOT, poco menos de 20 ms.
Cabe mencionar que -salvo para la fricativa, donde se determina A al extinguirse dicho
fono- se establecieron los puntos A y C de la figura 1 al final del ltimo pulso gltico del fono
que antecede a la oclusiva y al comienzo del primer pulso gltico del fono que le sigue,
respectivamente.
Como se ha comentado, no existen fonemas oclusivos sonoros en el nhuatl. Sin embargo,
una diferencia importante entre oclusivas sordas y sonoras es que stas ltimas muestran un
comportamiento cuasi-peridico durante la regin de cierre, cosa que no ocurre con sus
contrapartes sordas. La vibracin peridica en el cierre de una oclusiva sorda es debido al hecho
de que las cuerdas vocales continan vibrando an cuando el tracto vocal est completamente
cerrado; esta vibracin es transmitida a travs del cuello y mejillas. Tericamente, por lo tanto,
un examen de la forma de onda del intervalo de cierre de una oclusiva debe revelar si es sorda o
sonora. Sin embargo, no siempre se cumple. En ciertas circunstancias el intervalo de cierre de
una oclusiva sonora puede parecerse al de una oclusiva sorda y viceversa [Oli93].
Existe un fenmeno que generalmente se presenta en el fonema /k/, se trata de una doble
explosin. La figura 6.2 muestra el inicio de la realizacin [kali'] (casa), este extracto contiene la
oclusiva y parte de la vocal que le sigue, la doble explosin se seala con flechas. Oliver,
Greenwood y Coleman advirtieron este fenmeno, indicando que la seccin de explosin de la
velar sorda a veces muestra una doble explosin; debido a que la doble explosin no es vista en
ninguna otra oclusiva, su presencia indica una /k/ [Oli93].
0.4
Estallidos
0.3
0.2
Amplitud
0.1
0
-0.1
-0.2
-0.3
-0.4
-0.5
0.01
0.02
0.03
0.04
Tiempo (s)
0.05
0.06
0.07
0.08
Figura 6.2: Forma de onda de [k] en inicio de palabra, note la doble explosin de la oclusiva velar sorda
76
0.3
0.3
0.2
0.2
0.1
0.1
Amplitud
-0.1
-0.1
-0.2
-0.2
-0.3
0.325
Frequency (Hz)
0.33
0.335
0.34
0.345
Tiempo (s)
0.35
0.355
-0.3
0.47
0.36
0.475
0.48
5000
5000
4000
4000
Frequency (Hz)
Amplitud
3000
2000
0
0.31
0.5
0.505
3000
2000
0.34
0.37
Time (s)
0
0.46
0.4
0.49
0.52
Time (s)
i. [pa]
0.55
ii. [ta]
0.4
0.6
0.3
0.4
0.2
0.2
0.1
Amplitud
0.8
0
-0.2
0
-0.1
-0.4
-0.2
0.42
0.425
0.43
0.435
Tiempo (s)
0.44
0.445
0.45
0.455
0.46
-0.3
0.3
0.305
0.31
5000
5000
4000
4000
Frequency (Hz)
0.415
Frequency (Hz)
Amplitud
0.495
1000
1000
-0.6
0.41
0.485
0.49
Tiempo (s)
3000
2000
1000
0
0.39
0.315
0.32
0.325
Tiempo (s)
0.33
0.335
0.34
0.345
0.35
3000
2000
1000
0.42
0.45 0.48
Time (s)
0.51
0
0.29 0.32 0.35 0.38 0.41 0.44
Time (s)
iii. [ka]
iv. [kwa]
Figura 6.3: Realizaciones de las oclusivas /p/, /t/, /k/, /kw/
77
oclusivas. La seccin de estallido de la velar a veces muestra un doble estallido; dado que este
doble estallido no es visto en ninguna otra oclusiva, su presencia indica una /k/. Por la variacin
de la forma de onda en el estallido, /t/ presenta un contenido frecuencial ms alto que en /p/, /k/ y
/kw/. El loci de F2 para la oclusiva velar labializada es el ms bajo, mientras que el de la velar es
el ms alto.
6.1.2 Fricativas
Las fricativas del nhuatl de la regin de Cuetzalan se pueden distinguir por su punto de
articulacin. Las fricativas sordas alveolar y alveopalatal (/s/ y //, respectivamente) son
articuladas con un flujo continuo de aire y se producen cuando el tracto-vocal se estrecha lo
suficiente para causar turbulencia, pero no demasiado como para cerrar por completo el flujo de
aire. Por eso se dice que un sonido fricativo tiene una apertura mnima del tracto vocal.
Por otra parte, la fricativa /h/ se produce tensando las cuerdas vocales para producir una
friccin turbulenta. Lo anterior indica que la constriccin se presenta en la glotis y no
propiamente en el tracto vocal como en el caso de las otras fricativas, donde toman una
participacin los articuladores (como la lengua y los dientes). Para producir la /h/, ante la
ausencia de articulacin, el tracto-vocal acta enteramente como resonador.
Una caracterstica que diferencia /h/ de las otras fricativas es su rasgo de sonoridad. A
pesar de que las cuerdas vocales forman una constriccin para /h/, an estarn habilitadas para
vibrar. Por lo tanto, la fricativa /h/ puede ser sonora o sorda; sin embargo, la sonoridad no es
fonmica. Es decir, la presencia o ausencia de sonoridad para /h/ est determinada en parte por el
contexto fontico. La calidad sonora est influenciada por el rasgo sonoro de los segmentos de
sonidos adyacentes. [Oli93] advierte que hasta donde se sabe, no hay una regla predecible que
dictamine la cualidad sonora de /h/. /h/ es generalmente sorda; en un ambiente sonoro, puede
llegar a ser sonora [Oli93]
En la figura 6.4 se presentan las formas de onda y los espectrogramas de las fricativas
supraglotales; corresponden a las fricativas intervoclicas de las realizaciones [sesek] (fro) y
[ooktik] (verde); se incluyen parte de los sonidos adyacentes. La escala se ajust de 0 Hz a 8
kHz para una apreciacin ms cmoda.
Como puede observarse, en las formas de onda de ambas fricativas hay mucha energa y
variacin de la seal. El espectro de [s] muestra una distribucin relativamente uniforme de
energa por arriba de los 4000 Hz. El espectro de [] muestra una distribucin relativamente
uniforme de energa por arriba de los 2000 Hz. Las anteriores observaciones nos indican que las
fricativas sordas pueden ser diferenciadas por su distribucin de energa en los espectrogramas,
siendo la alveolar ms aguda que la alveopalatal. La duracin de la fricativa alveolar es de 130
ms, mientras que el de la alveopalatal es de 85 ms.
79
0.6
0.5
0.4
0.4
0.3
0.2
Amplitud
Amplitud
0.2
-0.2
0.1
0
-0.1
-0.2
-0.3
-0.4
-0.4
0.26
0.28
0.3
0.32
Tiempo (s)
0.34
0.36
0.38
0.4
-0.5
0.22
0.24
0.26
8000
8000
7000
7000
6000
6000
Frequency (Hz)
0.24
Frequency (Hz)
-0.6
0.22
5000
4000
3000
1000
0.41
0.36
3000
1000
0.31 0.36
Time (s)
0.34
4000
2000
0.26
0.32
5000
2000
0
0.21
0.28
0.3
Tiempo (s)
0
0.22
i. [ese]
0.27
0.32
Time (s)
0.37
ii. [oo]
Figura 6.4: Realizaciones de las fricativas /s/ y //
Ahora se analizar la consonante /h/. Este sonido se produce poniendo rgidas las cuerdas
vocales para producir una friccin turbulenta. El fonema /h/ se diferencia de las dems fricativas
debido a que la constriccin se presenta en la glotis y no propiamente en el tracto vocal. La
constriccin de las otras fricativas involucran a los articuladores (lengua, dientes y labios); la
produccin de /h/, por el contrario, deja libres a estos articuladotes. Adems, debido a que la
constriccin de /h/ est en la glotis, todo el tracto vocal se comporta como el resonador, mientras
que para las otras fricativas, slo la parte del tracto vocal enfrente de la constriccin sirve como
la principal cavidad de resonancia.
Otra caracterstica que diferencia a /h/ de las otras fricativas es su rasgo de sonoridad. A
pesar de que las cuerdas vocales forman una constriccin estrecha, an pueden vibrar. Por lo
tanto /h/ puede ser sonora o no; por esta razn en el sistema fonolgico presentado no se clasific
a /h/ como sonido sordo o sonoro. El rasgo de sonoridad de /h/ puede preverse conforme a la
sonoridad de los sonidos adyacentes.
La figura 6.5 muestra la produccin de /h/ entre vocal y oclusiva, son segmentos de las
realizaciones [koyotahtol] (espaol) y [ohti'] (camino). En las formas de onda se sealan el inicio
y fin del fono fricativo Se ha aplicado prenfasis de 6dB/oct a los espectrogramas. Realzando las
frecuencias superiores podemos observar con mejor detalle el comportamiento de la fricativa. La
fricativa se seala con las flechas A, B; es evidente un comportamiento sonoro en buena parte de
ella por influencia de la vocal que la precede. Los espectrogramas revelan un comportamiento
formntico; sin embargo stos, a comparacin de los de las vocales, no poseen mucha energa. Al
final de cada fricativa es evidente el segmento de cierre de las oclusivas.
80
Haremos observaciones ms detalladas en las formas de ondas para revelar por qu /h/ es
un sonido fricativo. A partir de la flecha A, sobre todo en la figura 6.5.i, se observa un
comportamiento ruidoso tanto en las crestas como cerca de B. En la figura 5.ii un
comportamiento ruidoso es notorio cerca de B.
0.3
0.3
0.2
0.2
0.1
Amplitud
Amplitud
0.1
0
-0.1
0
-0.1
-0.2
-0.2
-0.3
A
Frequency (Hz)
1.1
1.12
1.14
Tiempo (s)
1.16
1.18
B
1.2
-0.4
0.17
0.19
0.21
5000
5000
4000
4000
Frequency (Hz)
-0.3
1.08
3000
2000
1000
0
1.06
0.23
Tiempo (s)
0.25
0.27
0.29
3000
2000
1000
1.11
1.16 1.21
Time (s)
1.26
0
0.13
0.18
0.23 0.28
Time (s)
0.33
i. [aht]
ii. [oht]
Figura 6.5: Realizaciones de la fricativa gltica /h/ entre vocal y oclusiva
En ocasiones es posible confundir un sonido aspirado con una fricativa glotal; ante ello, la
estructura silbica del nhuatl nos permite identificar estos sonidos. La figura 6.6.i muestra a /h/
dentro del segmento [ehwa]. Por otro lado la figura 6.6.ii muestra el segmento [iwt]. Son
segmentos de las realizaciones [tehwan] (nosotros) y [nisiwtok] (estoy cansado). Nuevamente se
aplic prenfasis en los espectrogramas.
Se describe a continuacin la figura 6.6.i. Al estar determinada por el contexto fontico,
/h/ es peridica cuando viene precedida de sonidos sonoros. Sin embargo, cuando la sonoridad
del sonido precedente deja de influir, /h/ manifiesta con mayor claridad su naturaleza fricativa.
Gracias a un marcado descenso de energa en el espectrograma, en la forma de onda de la figura
6.6i se seala el inicio y fin de la fricativa a travs de las flechas A y B, la fricativa es sorda
alrededor de 100 ms; despus comienzan los pulsos glticos de la aproximante, donde por
supuesto no hay efectos de la fricativa. Los formantes se mueven durante [h] (vea F2) de la
misma manera que lo haran en una transicin entre vocales (o aproximantes, segn sea el caso).
Este movimiento en lo formantes refleja la habilidad de la lengua para moverse libremente
durante la produccin de /h/ ya que la produccin de este sonido no tiene ninguna posicin
particular de la lengua asociada a ella.
Por otro lado, la figura 6.6.ii muestra un comportamiento muy semejante al de la figura
que la precede, se nota en la forma de onda un comportamiento fricativo; sin embargo se trata de
81
una aproximante aspirada. La razn de lo anterior es que la estructura silbica del nhuatl no
permite dos consonantes juntas en ella. Adems note en el espectrograma que la regin de la
aspiracin muestra un comportamiento ms bien ruidoso, no hay claramente una estructura
formntica como ocurre en los ejemplos de fricativa glotal.
0.4
0.3
0.3
0.2
0.2
0.1
Amplitud
Amplitud
0.1
0
-0.1
0
-0.1
-0.2
-0.3
-0.2
B
A
0.29
0.32
0.35
0.38
Tiempo (s)
0.41
0.44
-0.3
0.62
0.47
0.64
0.66
5000
5000
4000
4000
Frequency (Hz)
Frequency (Hz)
-0.4
0.26
3000
2000
1000
0
0.21
0.68
Tiempo (s)
0.7
0.72
0.74
3000
2000
1000
0.27
0.33
0.39
0.45
Time (s)
0.51
0.57
0.63
0
0.55 0.6 0.65 0.7 0.75 0.8
Time (s)
i. [ehwa]
ii. [iwt]
Figura 6.6: Ejemplo de presencia y ausencia de fricativa gltica /h/
6.1.3 Africadas
Las africadas son una categora intermedia entre oclusivas simples y la secuencia de una oclusiva
y una fricativa. Como en muchos tipos de sonidos, las africadas no tienen fronteras bien claras.
Consideraciones fonolgicas deben jugar una parte para decidir si una oclusiva y una fricativa
homorgnica -es decir, la zona de articulacin de la fricativa es igual o casi completamente igual
que la de la oclusiva [Sil]-, que le preceda debe ser vista como una africada, la cual es una sola
unidad, o como dos segmentos que forman una secuencia de una oclusiva y una fricativa.
La produccin de africadas puede involucrar solamente un ligero ensanchamiento de la
constriccin articulatoria de la oclusiva, de tal manera que las componentes oclusiva y fricativa
tengan idntico punto de articulacin. Algunas africadas, sin embargo, involucran un pequeo
ajuste hacia adelante o hacia atrs de la posicin del articulador activo.
En el nhuatl tenemos dos africadas sordas, la alveolar // y la palatal //. En la figura 6.7
se muestran las grficas de estos sonidos consonnticos a travs de las realizaciones [iiltik]
(rojo) e [ionteko] (su cabeza).
82
0.6
0.8
0.4
0.6
0.2
0.4
0.2
Amplitud
Amplitud
-0.2
-0.4
-0.6
-0.4
B
A
0.37
0.39
0.41
0.43
0.45
0.47
Tiempo (s)
0.49
0.51
0.53
0.55
-0.6
0.17
A
0.21
8000
8000
7000
7000
6000
6000
5000
4000
3000
1000
0.57
0.27
0.29
0.31
0.33
3000
1000
0.45 0.51
Time (s)
0.25
Tiempo (s)
4000
2000
0.39
0.23
5000
2000
0
0.33
0.19
Frequency (Hz)
Frequency (Hz)
-0.8
0.35
0
-0.2
0
0.12
0.18
0.24
0.3
Time (s)
0.36
i. [ii]
ii. [io]
Figura 6.7: Realizaciones y detalles de las africadas // y // intervoclicas
Las africadas estn sealadas en la forma de onda mediante las flechas A y C. Observe
que debido a la combinacin oclusiva-fricativa las africadas contienen una seccin de silencio.
En dicha seccin, las formas de onda presentan variaciones muy lentas, lo cual se refleja en
energa a baja frecuencia, esto es revelado por los espectrogramas. Pareciera que la africada
asimila un poco la sonoridad de la vocal precedente. De todos modos en los espectrogramas la
secciones de silencio no revelan una estructura formntica, por lo que no se puede decir que
existe sonoridad en la africada. Como ocurre con las oclusivas, existe un estallido en ambas
africadas, se aprecia que existe un repentino cambio de amplitud. Es usual que al final de la
regin de cierre existe un estallido corto, observe las formas de onda, donde se ha sealado dicho
fenmeno con la flecha B. El estallido de la oclusiva es visible en el espectrograma como una
lnea vertical justo antes de la regin fricativa. La seccin fricativa de la africada es evidente al
observar que la energa se va incrementando despus del estallido y gradualmente decrece. El
VOT de la africada palatal es de 78 ms, mientras que el de la alveolar es de 73ms.
6.1.4 Nasales
Los sonidos nasales, al igual que las vocales, laterales y aproximantes, son considerados fonemas
sonoros. Las nasales presentes en el nhuatl son la bilabial /m/ y la velar /n/. Los sonidos nasales
y oclusivos se producen con el cierre completo de la cavidad oral; la diferencia entre estos
sonidos radica en el velo o puerto nasal. El velo est abierto para la produccin de las nasales,
permitiendo que el flujo de aire escape a travs de la cavidad nasal. Cuando el flujo de aire est
restringido en la cavidad oral debido al cierre completo de los labios, la apertura del velo permite
que el aire fluya a travs de la cavidad nasal. Debido a que el aire es liberado a travs de la narz,
83
no hay presin acumulada. Por lo tanto, no ocurre una explosin, como en el caso de las
oclusivas, cuando el cierre oral es liberado.
0.2
0.15
0.1
0.05
Amplitud
0.1
0.05
0
0.2
0.1
Amplitud
0.2
0.15
-0.05
-0.05
-0.1
-0.1
-0.1
0.36
0.37
0.38
Tiempo (s)
0.39
0.4
0.41
-0.15
0.3
0.31
0.32
0.33
0.34
0.35
Tiempo (s)
-0.2
0.94
0.945
5000
5000
4000
4000
4000
3000
2000
1000
0
0.31
Frequency (Hz)
5000
Frequency (Hz)
-0.15
0.35
Frequency (Hz)
Amplitud
La figura 6.8 presenta las formas de onda (del sonido nasal) y los espectrogramas (con
parte de los sonidos adyacentes) de las nasales en posicin intervoclica. Se ha aplicado
prenfasis de 6dB/oct a los espectrogramas. Corresponden a los segmentos [ima], [ana] (de
[nimayana], tengo hambre) y [ama] (de [aman], hoy). No hay mucha diferencia en las formas de
onda de las nasales; ambas muestran una variacin lenta, una caracterstica asociada con seales
que tienen poca energa en las regiones de alta frecuencia. Los espectrogramas muestran que las
nasales tienen un F1 muy por debajo de los 1000 Hz, denominndosele formante nasal. A pesar
de que la energa arriba de F1 es dbil, alguna estructura resonante es observable. Es posible
identificar F2 y F3; sin embargo hay an resonancias arriba de estos formantes; vea por ejemplo
el espectrograma del fono [n]. Los sonidos sonoros orales son producidos con el tracto oral
configurado como un simple tubo. Los sonidos nasales se producen con el tubo configurado
desde la glotis hasta el tracto nasal. La geometra del tubo es complicada por la adicin de la
cavidad oral cerrada. Las resonancias de la cavidad oral interactan con las resonancias del tubo
de una manera compleja; por lo tanto, el espectrograma muestra una estructura resonante
mltiple, lo que hace difcil etiquetar formantes altos.
3000
2000
1000
0.35
0.39 0.43
Time (s)
i. [ima]
0.47
0
0.18
0.95
0.955
0.96
Tiempo (s)
0.965
0.97
0.975
0.98
3000
2000
1000
0.25
0.32 0.39
Time (s)
0.46
ii. [ama]
Figura 6.8 Realizaciones de /m/ y /n/
0
0.84
0.91
0.98 1.05
Time (s)
1.12
ii. [ana]
84
0.4
0.2
0.3
0.1
0.2
0.1
0.4
0.3
0.2
Amplitud
Amplitud
-0.1
-0.2
-0.1
-0.3
-0.2
-0.2
-0.4
0.28
0.3
0.32
0.34
0.36
Tiempo (s)
-0.3
-0.3
0.33
0.335
0.34
0.345
0.35
Tiempo (s)
0.355
0.36
0.365
0.37
-0.4
0.35
0.36
5000
4000
4000
4000
2000
1000
0
0.23
Frequency (Hz)
5000
3000
3000
2000
1000
0.29
0.35 0.41
Time (s)
i. [iwa]
0.47
0
0.24
0.37
0.38
0.39
0.4
Tiempo (s)
5000
Frequency (Hz)
Frequency (Hz)
Amplitud
0.1
-0.1
3000
2000
1000
0.3
0.36 0.42
Time (s)
0.48
ii. [aya]
Figura 6.9 (contina): Realizaciones de /w/, /y/, /l/
0
0.3
0.34
0.38 0.42
Time (s)
0.46
iii. [ili]
85
0.25
0.2
0.15
Amplitud
0.1
0.05
-0.05
-0.1
-0.15
0.53
0.54
0.55
0.56
0.57
0.58
Tiempo (s)
5000
Frequency (Hz)
4000
3000
2000
1000
0
0.45 0.49 0.53 0.57 0.61 0.65
Time (s)
iv. [alo]
Figura 6.9 (continuacin): Otra realizacin de /l/
86
6.2 Vocales
Los sonidos voclicos tienen una caracterstica principal: la existencia de estructuras de
formantes claras. Esto es fruto de la emisin del flujo de aire por el conducto bucal sin apenas
resistencia, con las cavidades resonadoras potenciando los armnicos distintivos de cada vocal.
En suma, todas las vocales son sonoras.
Como se aprecia en el sistema fonolgico, existen vocales de corta y larga duracin. La
duracin de las vocales es un rasgo importante del nhuatl pues el significado de las palabras
puede ser muy diferente. Un ejemplo es el par mnimo /ii/ (perro) y /i:i/ (seno) [Cas00].
Las vocales son formadas con diferentes posiciones de la lengua, labios y mandbula. A
pesar de que las vocales pueden ser identificadas refirindose a la altura de la lengua, la posicin
de la lengua y el redondeo de los labios, la descripcin es relativa e inespecfica [Oli93]. Por lo
tanto, describirlas en trminos de las articulaciones involucradas resulta poco preciso. Dado que
las vocales presentan estructuras de formantes bien definidas, resulta ms conveniente
describirlas en trminos de sus propiedades acsticas.
Las vocales estn ampliamente separadas en el espacio de los formantes F1 y F2 para
minimizar confusiones perceptuales. La situacin exacta de los formantes vara segn el hablante
y la realizacin del habla.
En la figura 6.10 se muestran las formas de onda y espectrogramas de los sonidos
voclicos. Corresponden a las palabras [a:t] (agua), [se'] (uno), [tit] (fuego) y [totonik] (caliente).
Se ha aplicado prenfasis de 6dB/oct a los espectrogramas de la figura 6.10 con el fin de
observar mejor los formantes. Se presentan las grficas de las vocales del nhuatl pronunciadas
por un hombre y una mujer. Observe que los formantes de la mujer estn ubicados a frecuencias
ms altas que las del hombre; esto es debido a la diferencia anatmica del tracto-vocal entre
ambos sexos. Los formantes F1 y F2 son suficientes para caracterizar a las vocales. El formante
F3 resulta til para distinguir un sonido voclico de un consonntico, observe que prcticamente
conserva la misma frecuencia para las diferentes vocales.
Resulta importante hacer notar que hay una correlacin entre la altura y posterioridad de
las vocales con su estructura formntica. La altura de la vocal y la ubicacin de F1 son
inversamente proporcionales. Respecto a F2, ms alta su ubicacin, la vocal es ms anterior; y si
es ms baja, la vocal es ms posterior.
87
0.6
0.6
0.5
0.5
0.4
0.8
0.4
0.4
0.2
0.1
-0.2
0.1
-0.1
Amplitud
0.2
Amplitud
0.2
0.4
0.3
0.2
0.3
Amplitud
Amplitud
0.6
-0.4
-0.1
-0.2
-0.2
-0.2
-0.6
-0.3
0.15
0.17
Tiempo (s)
0.19
-0.4
0.55
0.21
0.56
0.57
0.58
0.59
Tiempo (s)
0.6
0.61
0.62
-0.8
0.41
0.63
0.43
0.45
Tiempo (s)
0.47
-0.3
0.12
0.49
0.13
5000
4000
4000
4000
4000
2000
1000
3000
2000
0.15
0.17 0.19
Time (s)
0
0.55
0.21
3000
2000
1000
1000
0
0.13
Frequency (Hz)
5000
Frequency (Hz)
5000
3000
0.57
0.59 0.61
Time (s)
0.15
0.16
0.17
3000
2000
1000
0
0.41
0.63
0.14
Tiempo (s)
5000
Frequency (Hz)
Frequency (Hz)
-0.4
0.13
0.43
0.45 0.47
Time (s)
0
0.12 0.13 0.14 0.15 0.16 0.17
Time (s)
0.49
hombre
0.2
0.3
0.3
0.15
0.6
0.2
0.2
0.4
0.1
0.1
0.1
Amplitud
Amplitud
-0.05
-0.1
Amplitud
-0.1
0.2
Amplitud
0.05
-0.1
-0.2
-0.2
-0.15
-0.4
-0.2
-0.3
-0.2
0.29
0.31
Tiempo (s)
0.33
0.35
-0.5
0.48
0.5
0.52
Tiempo (s)
0.54
-0.4
0.13
0.56
-0.8
0.12
0.135
0.14
0.145
0.15
Tiempo (s)
0.155
0.16
0.165
0.13
0.17
5000
4000
4000
4000
4000
2000
1000
0
0.27
3000
2000
1000
0.29
0.31 0.33
Time (s)
0
0.48
0.35
Frequency (Hz)
5000
Frequency (Hz)
5000
3000
3000
2000
0.52 0.54
Time (s)
0
0.12
0.56
0.14
0.16 0.18
Time (s)
3000
2000
[o]
En la tabla 6.1 se presentan los valores de los formantes F1, F2 y F3 por vocal y por sexo.
Estos valores son aproximados, y aunque brindan una gua y no valores absolutos, son bastante
tpicos de dichas vocales.
Vocal
F1
F2
F3
[i]
341
2046
2546
Hombre
[e]
476
1798
2562
[o]
484
1290
2693
[a]
740
1442
2575
Vocal
F1
F2
F3
[i]
396
2805
3408
Mujer
[e]
473
2519
3054
[o]
569
1275
3227
[a]
1053
1921
3345
Tabla 6.1: Valores de F1, F2 y F3 de las vocales de la figura 10 (valores tpicos, en Hertz)
Para determinar si una lengua cuenta en su sistema fonolgico con vocales de larga
duracin, como en el caso del nhuatl, es suficiente si posee una duracin temporal de al menos
el doble de la vocal de corta duracin. En las figuras 6.11 y 6.12 presentamos evidencia de esto al
presentar segmentos de las realizaciones [tapalol] (comida) y [a:t] (agua) con el fin de contrastar
88
0.16
0
0.12 0.13 0.14 0.15 0.16 0.17
Time (s)
0.2
mujer
[e]
[i]
Figura 6.10: Realizaciones de /a/, /e,/ /i/, /o/
[a]
0.15
1000
1000
0.5
0.14
Tiempo (s)
5000
Frequency (Hz)
Frequency (Hz)
-0.3
0.27
-0.6
-0.3
-0.4
-0.25
0.17
duraciones. En la forma de onda de la figura 6.11 se sealan las dos vocales, sus duraciones son
de 52 ms y 82 ms.
0.5
0.4
0.3
Am
plitud
0.2
0.1
0
-0.1
-0.2
-0.3
0.1
0.12
0.14
0.16
0.18
0.2
0.22
0.24
0.26
0.28
0.3
0.32
0.34
0.36
0.38
Tiempo (s)
5000
Frequency (Hz)
4000
3000
2000
1000
0
0.1
0.12
0.14
0.16
0.18
0.2
0.22
0.24
Time (s)
0.26
0.28
0.3
0.32
0.34
0.36
0.38
La figura 6.12 muestra tres realizaciones de la palabra [a:t] por tres hablantes masculinos
distintos. Los espectrogramas superior y central pertenecen a [a:t] dentro de una oracin: [titayis
tepiin a:t] (quieres tomar poquita agua). El espectrograma inferior corresponde a la misma
palabra pero grabada aisladamente, sin formar parte de una oracin. Las duraciones son, en orden
superior a inferior, de 180 ms, 194 ms y 160 ms. Claramente la duracin de la vocal larga es al
menos del doble de la corta.
5000
Frequency (Hz)
4000
3000
2000
1000
0
1.2
1.22
1.24
1.26
1.28
1.3
1.32
1.34
1.36
Time (s)
1.38
1.4
1.42
1.44
1.46
1.48
1.5
5000
Frequency (Hz)
4000
3000
2000
1000
0
1.82
1.84
1.86
1.88
1.9
1.92
1.94
1.96
1.98
Time (s)
2.02
2.04
2.06
2.08
2.1
2.12
2.14
5000
Frequency (Hz)
4000
3000
2000
1000
0
0.42
0.44
0.46
0.48
0.5
0.52
0.54
Time (s)
0.56
0.58
0.6
0.62
0.64
0.66
89
90
0.4
0.4
0.3
0.3
0.2
0.2
0.1
0.1
Amplitud
0
-0.1
0
-0.1
-0.2
-0.2
-0.3
-0.3
0.56
0.58
Frequency (Hz)
-0.4
0.6
0.62
0.64
0.66
Tiempo (s)
0.68
0.7
0.72
0.74
-0.4
0.51
0.76
0.53
0.55
5000
5000
4000
4000
Frequency (Hz)
Amplitud
3000
2000
0.57
0.63
0.65
0.67
0.69
0.4
0.42
3000
2000
1000
1000
0
0.55
0.62
0.69
Time (s)
0
0.51
0.76
i. [ip]
0.57
0.63
Time (s)
0.69
ii. [ip]
0.15
0.6
0.1
0.4
0.2
Amplitud
-0.1
0
-0.2
-0.4
-0.2
-0.6
0.51
0.55
0.59
0.63
0.67
Tiempo (s)
0.71
0.75
0.79 0.81
-0.8
0.22
0.24
0.26
0.28
5000
5000
4000
4000
Frequency (Hz)
-0.3
0.47
Frequency (Hz)
Amplitud
0.59
0.61
Tiempo (s)
3000
2000
0.3
0.32
0.34
Tiempo (s)
0.36
0.38
3000
2000
1000
1000
0
0.22 0.26 0.3 0.34 0.38 0.42
Time (s)
0
0.46 0.53 0.6 0.67 0.74 0.81
Time (s)
iii. [at]
iv. [ok]
Figura 6.13: Oclusivas en posicin coda
91
6.3.2 Fricativas
En la figura 6.14 se presentan la forma de onda y espectrograma de la fricativa alveolar /s/ en
posicin coda. Es un ejemplo de la realizacin [esti'] (sangre). Se observaron las realizaciones de
los hablantes, sin embargo no se estableci alguna diferencia del fonema si ste estaba en
posicin silbica onset o coda.
5000
1
0.8
4000
Frequency (Hz)
0.6
Amplitud
0.4
0.2
0
3000
2000
-0.2
-0.4
-0.6
0.2
1000
0.22
0.24
0.26
0.28
Tiempo (s)
0.3
0.32
0.34
0
0.19
0.23
0.27 0.31
Time (s)
0.35
92
6.3.3 Africadas
En la figura 6.15 se presentan las formas de onda y espectrogramas de la africada palatal en
posicin coda, son dos realizaciones de la palabra [okipil] (joven) pronunciadas por distintos
hablantes. A diferencia de la ubicacin de la africada cuando est en posicin onset, se observa la
ausencia del estallido y del silencio que lo antecede. El cambio de vocal a africada no es tan
abrupto.
A pesar de lo anterior, tambin se observaron pronunciaciones de otros hablantes donde el
sonido africado conservaba sus caractersticas de silencio y estallido. An as, en todos los casos,
la duracin de la africada (es decir, descartando la seccin de silencio cuando ste exista) se
encontraba entre los 90 ms (como en el caso de la figura 6.15i) y los 110ms, implicando una
duracin mayor al de la africada en posicin onset. La duracin de la africada en la figura 6.15ii,
incluyendo la seccin de friccin de baja amplitud, es de 104 ms.
0.4
0.5
0.3
0.4
0.3
0.2
0.2
Amplitud
Amplitud
0.1
0
-0.1
0
-0.1
-0.2
-0.2
-0.3
-0.3
0.3
0.32
0.34
0.36
Tiempo (s)
0.38
0.4
0.42
0.44
-0.4
0.42
0.44
0.46
5000
5000
4000
4000
Frequency (Hz)
0.28
Frequency (Hz)
-0.4
0.26
0.1
3000
2000
1000
0
0.25
0.48
0.5
0.52
0.54
Tiempo (s)
0.56
0.58
0.6
0.62
3000
2000
1000
0.3
0.35
0.4
Time (s)
0.45
0
0.42
0.47
0.52 0.57
Time (s)
0.62
i. [i]
ii. [i]
Figura 6.15: Africada [] en posicin coda de la misma palabra por diferentes hablantes
93
respectivamente. En general, la duracin variaba de los 95 ms a los 135 ms. Esta duracin es
mucho mayor que en los casos donde la africada alveolar estaba en posicin onset.
0.5
0.3
0.4
0.2
0.3
0.1
0
Amplitud
Amplitud
0.2
0.1
0
-0.1
-0.2
-0.3
-0.2
-0.4
-0.3
-0.4
0.4
-0.1
0.42
0.44
0.46
0.48
0.56
0.58
0.6
0.62
0.64
-0.5
0.34
0.36
5000
0.38
0.4
0.42
0.44
0.46
Tiempo (s)
0.48
0.5
7000
6000
4000
Frequency (Hz)
Frequency (Hz)
5000
3000
2000
4000
3000
2000
1000
1000
0
0.4
0.46
0.52 0.58
Time (s)
0.64
0
0.34
0.39
0.44 0.49
Time (s)
0.54
i. [e]
ii. [e]
Figura 6.16: Africada [] en posicin coda de la misma palabra y diferentes hablantes
94
0.52
0.54
6.3.4 Nasales
La figura 6.17 muestra segmentos de dos realizaciones de la nasal /n/ a final de slaba. Se ha
aplicado prenfasis a los espectrogramas. Estos ejemplos fueron tomados de la palabra
[kanintinemi] (donde vives) y de la oracin [titayis tepiin a:t] (quieres tomar poquita agua),
ubicadas en las columnas izquierda y derecha respectivamente.
Es claro apreciar que el sonido adyacente posterior a la nasal influye en ella. La nasal pierde
buena parte de su sonoridad, aunque conserva muy bien su formante nasal, cuando precede a un
sonido sordo. Por el contrario, la nasal que precede al sonido sonoro recupera los rasgos que la
caracterizan como tal: sonoridad, y por ende, una estructura formntica bien definida. El corpus
no contena ejemplos con la nasal /m/ a final de slaba.
0.25
0.3
0.2
0.2
0.15
Amplitud
0.1
0
-0.05
0
-0.1
-0.1
-0.2
-0.15
0.42
0.44
0.46
0.48
Tiempo (s)
0.5
0.52
0.54
-0.3
1.17
1.19
1.21
5000
5000
4000
4000
Frequency (Hz)
-0.2
Frequency (Hz)
Amplitud
0.1
0.05
3000
2000
1000
1.23
1.25
Tiempo (s)
1.27
1.29
1.31
3000
2000
1000
0
0.39 0.42 0.45 0.48 0.51 0.54
Time (s)
0
1.15 1.19 1.23 1.27 1.31 1.35
Time (s)
i. [in]
ii. [ina]
Figura 6.17: Aproximante [n] en posicin coda
95
0.4
0.3
0.3
0.2
0.1
0.1
Amplitud
Amplitud
0.2
0
-0.1
-0.2
-0.2
-0.3
0.8
0.82
0.84
0.86
Tiempo (s)
0.88
0.9
0.92
-0.4
0.6
0.94
5000
5000
4000
4000
Frequency (Hz)
0.78
Frequency (Hz)
-0.3
0.76
0
-0.1
3000
2000
0.62
0.64
0.66
0.68
0.7
Tiempo (s)
0.53
0.58
Time (s)
0.72
0.74
0.76
0.78
3000
2000
1000
1000
0
0.74 0.78 0.82 0.86 0.9 0.94
Time (s)
0
0.38
0.43
0.48
i. [aw]
0.63
0.68
0.73
0.78
ii. [iwaw]
Figura 6.18: Aproximante [w] en posicin coda
Por otra parte, en la figura 6.19 se presentan segmentos de realizaciones por tres diferentes
hablantes donde la lateral /l/ se localiza a final de slaba, provienen de la palabra [tonalin]
(solecito). El inicio de la lateral ha sido sealado con la flecha A. En todos los casos la lateral
adopta una caracterstica ruidosa al final de su produccin, el grado de ruido es variable; ya que
en los incisos i y iii el ruido no es tan notorio ha sido conveniente sealarlo entre las flechas B y
C, donde el ruido comienza a manifestarse en los valles de la forma de onda. En todos los casos
los espectrogramas nos permiten apreciar la presencia del fono [l] debido a una discontinuidad de
F1 con respecto al F1 del fono voclico que lo antecede; adems se observa una menor intensidad
de los formantes de [l]. Al respecto de la aproximante /y/ ubicada a final de slaba, el corpus no
cuenta con este caso.
96
5000
0.4
0.3
4000
Frequency (Hz)
0.2
Amplitud
0.1
0
-0.1
3000
i.
2000
-0.2
-0.3
-0.4
A
0.55
0.57
0.59
Tiempo (s)
1000
C
0.61
0.63
0
0.5
0.55
0.6
0.65
Time (s)
0.7
5000
0.2
0.15
4000
Frequency (Hz)
0.1
Amplitud
0.05
0
-0.05
3000
ii.
2000
-0.1
-0.15
-0.2
0.41
1000
A
0.43
0.45
0.47
0.49
Tiempo (s)
0.51
0.53
0.55
0
0.4
0.44
0.48 0.52
Time (s)
0.56
5000
0.3
4000
0.2
Frequency (Hz)
Amplitud
0.1
0
-0.1
3000
iii.
2000
-0.2
A
-0.3
0.43
0.45
0.47
B
0.49
Tiempo (s)
1000
C
0.51
0.53
0.55
0
0.43
0.46
0.49 0.52
Time (s)
0.55
97
6.3.6 Vocales
Debido a que en lengua nhuatl las vocales se encuentran en el ncleo de la slaba, no es posible
hablar de una vocal en posicin coda; sin embargo revisaremos casos donde las vocales se
encuentran a final de palabra pues usualmente se presentan tres comportamientos: presencia de
saltillo, aspiracin y debilitamiento. La figura 6.20 muestra tales casos, en orden superior a
inferior respectivamente. Todos los espectrogramas tienen prenfasis.
La figura 6.20i es un extracto de la realizacin [nopili'] (mi hijo), la realizacin tiene un
saltillo bastante marcado, note en el espectrograma que se manifiesta una estructura cuasiformntica en esa regin, la cual coincide con la de la vocal que lo precede. Esto es debido a que,
para producir el saltillo el hablante aprieta la glotis para luego relajarla, durante este proceso el
resto de los articuladores se mantuvieron en la misma posicin, por eso al exhalar se produce
dicha estructura cuasi-formntica. Esto explica que la forma de onda de [i] no disminuya gradual
y lentamente, tambin observe en el espectrograma un marcado cambio de energa entre el
silencio que precede al saltillo y la vocal. Por ltimo, observe que los formantes de la vocal estn
claramente marcados, indicando que no hubo un debilitamiento de este fono.
La figura 6.20ii presenta un extracto de [kema] (s), observe que gradual y lentamente el
fono [i] va terminando su realizacin pero al mismo tiempo se va contaminando de ruido y que
corresponde a la aspiracin; esto es observable en la forma de onda. El espectrograma muestra
una estructura cuasi-formntica y ruidosa en la regin de la aspiracin.
Al respecto del ltimo ejemplo de la figura 6.20iii, se presentan la forma de onda y
espectrograma de la vocal final de la realizacin [ionteko] (su cabeza). Observe la ausencia de
ruido, es una vocal no aspirada. El fono [o] se presenta en toda su duracin, observe en el
espectrograma el notorio debilitamiento de los formantes superiores a F1.
98
5000
0.2
4000
Frequency (Hz)
Amplitud
0.1
-0.1
3000
i. [i']
2000
-0.2
1000
-0.3
0.86
0.89
0.92
0.95
0.98
1.01
Tiempo (s)
1.04
1.07
1.1
1.12
0
0.84
0.91
0.98 1.05
Time (s)
1.12
5000
0.15
4000
0.1
Frequency (Hz)
Amplitud
0.05
0
-0.05
3000
ii. [a]
2000
-0.1
1000
-0.15
0.53
0.55
0.57
0.59
Tiempo (s)
0.61
0.63
0.65
0
0.47 0.52 0.57 0.62 0.67 0.72
Time (s)
5000
0.4
0.3
4000
Frequency (Hz)
0.2
Amplitud
0.1
0
-0.1
3000
iii. [o]
2000
-0.2
-0.3
-0.4
0.78
1000
0.8
0.82
0.84
0.86
Tiempo (s)
0.88
0.9
0.92
0.94
0
0.77
0.82
0.87 0.92
Time (s)
0.97
Por ltimo, para que se tenga una visin ms clara del debilitamiento de las vocales en fin
de palabra, vea la figura 6.21. Se presenta la realizacin completa de [ohti] (camino). Se ha
sealado con las flechas A y B en la forma de onda a la vocal [i]. Note la diferencia de amplitud
con la vocal [o]. Esto es reflejado en la energa de los formantes.
99
0.8
0.6
Amplitud
0.4
0.2
0
-0.2
-0.4
0.24
0.29
0.34
0.39
0.29
0.34
0.39
0.44
0.49 0.54
Tiempo (s)
0.59
0.64
0.69
0.74
5000
Frequency (Hz)
4000
3000
2000
1000
0
0.24
0.44
0.49 0.54
Time (s)
0.59
0.64
0.69
0.74
100
0.79
0.79
7. Transiciones voclicas
7 TRANSICIONES VOCLICAS
En las secciones anteriores se discutieron las caractersticas de los fonemas del nhuatl de San
Miguel Tzinacapan como aparecen en un estado idealizado. Empezaremos ahora a analizar el los
sonidos de esta lengua ms dinmicamente, observando lo que ocurre cuando el tracto vocal se
mueve de una configuracin a otra.
Se analizar el movimiento del tracto vocal y los valores de los formantes que los
acompaan cuando una vocal, o un sonido similar a vocal, cambia a otra. Dado el patrn silbico
del nhuatl, las transiciones de vocal a vocal sern entre slabas. Al respecto de las aproximantes,
stas interactuarn con las vocales dentro de una slaba o con las de slabas contiguas.
7. Transiciones voclicas
5000
5000
4000
4000
4000
3000
2000
1000
0
0.19
3000
2000
1000
0.225
0.26 0.295
Time (s)
i. [ey]
0.33
0
0.79 0.81 0.83 0.85 0.87 0.89
Time (s)
ii. [oy]
Figura 7.1: Transiciones [ey], [oy], [ay]
Frequency (Hz)
5000
Frequency (Hz)
Frequency (Hz)
La figura 7.1 muestra las transiciones de las cuatro vocales a la aproximante /y/, extradas
de las realizaciones [keye] (por qu), [koyotahtol] (espaol) y [kaya'] (todava no).
3000
2000
1000
0
0.23
0.27
0.31
Time (s)
0.35
iii. [ay]
Observe en dicha figura que la vocal media anterior [e] tiene la estructura formntica ms
cercana a [y] por su bajo F1 y alto F2. La vocal media posterior [o] tambin tiene un F1 bajo,
pero a diferencia de /e/ tiene un F2 muy bajo. Aunque con un F2 no tan bajo como el de [o], la
vocal baja central [a] es la que presenta mayor diferencia en su estructura formntica con [y], esta
vocal presenta un F1 ms alto y un F2 ms bajo que la aproximante.
En todos los casos F1 se mueve hacia abajo y F2 hacia arriba conforme cada vocal se
mueve a la aproximante. En [o], la subida de F2 es muy grande porque el tracto vocal tiene que
cambiar ms para articular la aproximante. Se observa que, independientemente de cunto tengan
que moverse los articuladores, la duracin de la transicin es aproximadamente la misma (unos
40 ms). Por lo tanto las transiciones entre sonidos tienen que ocurrir ms rpido en aquellos casos
donde los articuladores se tienen que mover a una mayor distancia (como en el caso de [o] y [a])
donde la forma del tracto se somete a un cambio ms gradual.
Adems de observar el movimiento y direccin de los formantes durante las transiciones,
es til examinar los valores de los formantes de las vocales antes de la transicin y de las
aproximantes una vez que la transicin ha terminado. Esto nos permitir apreciar los efectos de
las aproximantes en las vocales. La tabla 7.1 muestra los valores de los formantes de las vocales
cuyos espectrogramas se mostraron en la figura 7.1; los valores F1 y F2 se muestran en la
columna etiquetada actual. Estos valores se comparan con los valores de F1 y F2 de las mismas
vocales previamente mostradas en la tabla 6.1; se anexan a la tabla 7.1 en una columna adicional
con la etiqueta esperado. Cabe mencionar que estos datos son tomados del mismo hablante
masculino; excepto en [oy], pronunciado por otro hablante masculino.
102
7. Transiciones voclicas
actual
vocal
aproximante [y]
F1
F2
F1
F2
414
1855
295
2124
454
1238
305
2103
678
1537
318
2035
[e]
[o]
[a]
esperado
vocal
F1
F2
476
1798
484
1290
740
1442
5000
5000
4000
4000
4000
4000
3000
2000
1000
0
0.56
3000
2000
1000
0.6
0.64
Time (s)
i. [iw]
0.68
Frequency (Hz)
5000
Frequency (Hz)
5000
Frequency (Hz)
Frequency (Hz)
La figura 7.2 muestra los espectrogramas de las transiciones de las cuatro vocales del
nhuatl hacia la aproximante /w/, correspondientes a las realizaciones [siwat] (mujer),
[inepalewi'] (aydeme), [nitahtowa] (yo hablo) y [kawehka] (cerca). El mayor cambio se
encuentra en la transicin de /w/ a /i/ debido a que la estructura formntica de [w] est ms lejos
de la estructura de [i]. Observando F1 y F2 independientemente, vemos que F1 es bastante
estable en todas las transiciones pero desciende despus de la vocal [a]. Debido a que el valor de
F2 para la aproximante [w] es ms baja que para cualquier vocal, F2 desciende en todas las
transiciones. F2 desciende ligeramente desde [o], un poco ms desde [a] y aproximadamente
1000 Hz desde [i]. Nuevamente, a pesar del hecho de que los formantes se mueven a diferentes
distancias desde las cuatro vocales, las transiciones parecen tener la misma duracin,
aproximadamente unos 40 ms.
3000
2000
1000
0
1.04
1.08
1.12
Time (s)
1.16
0
0.94
3000
2000
1000
0.96
0.98
Time (s)
1.02
ii. [ew]
iii. [ow]
Figura 7.2: Transiciones [iw], [ew], [ow], [aw]
0
0.38
0.42
0.46
0.5
Time (s)
0.54
iv. [aw]
103
7. Transiciones voclicas
Los valores de los formantes de las vocales y los aproximantes de la figura 7.2 se
muestran en la tabla 7.2. Los espectrogramas de [aw], [iw], corresponden al mismo hablante de la
tabla 6.1. Los espectrogramas de [ew] y [ow] fueron tomados de otro hablante masculino.
Previamente se constat que los dos hablantes poseen formantes voclicos en alturas muy
similares para comparar adecuadamente los resultados.
actual
aproximante [w]
F2
F1
F2
2056
341
938
1967
331
756
1200
378
770
1450
415
834
vocal
[i]
[e]
[o]
[a]
F1
388
432
491
671
esperado
vocal
F1
F2
341
2046
476
1798
484
1290
740
1442
Tabla 7.2 Valores de los formantes de las cuatro vocales hacia [w]
104
7. Transiciones voclicas
5000
5000
4000
4000
4000
4000
3000
2000
1000
0
0.38
3000
2000
1000
0.45
0.52 0.59
Time (s)
i. [eyi]
0.66
Frequency (Hz)
5000
Frequency (Hz)
5000
Frequency (Hz)
Frequency (Hz)
3000
2000
1000
0
0.32
0.355
0.39 0.425
Time (s)
0.46
3000
2000
1000
0
0.86
0.895
0.93 0.965
Time (s)
ii. [ye]
iii. [yo]
Figura 7.3: Transiciones [eyi], [ye], [yo], [ya]
0
0.72
0.76
0.8
0.84
Time (s)
0.88
iv. [ya]
La tabla 7.3 muestra los valores de los formantes para las aproximantes y las vocales de la
misma manera que la tabla 7.2. Los espectrogramas de [yi] y [yo] fueron tomados de otro
hablante masculino. Los valores de los formantes de la aproximante son muy similares en todos
los casos. Los valores para las vocales tambin estn muy cercanos a los valores discutidos en el
captulo anterior.
[i]
[e]
[o]
[a]
aproximante [y]
F1
F2
282
2320
293
2120
303
2100
305
2128
vocal
F1
298
484
471
678
F2
2354
1900
1261
1596
Los espectrogramas de la figura 7.4 que muestran las transiciones de la aproximante /w/ a
tres vocales son tambin un reflejo del movimiento de formantes vocal a aproximante (ver la
figura 7.2). Son extractos de las realizaciones [owi] (difcil), [kawehka'] (cerca) y [yowak]
(noche). En la transicin de [w] a [i], F1 permanece relativamente constante ya que ambos
sonidos poseen un bajo F1, pero F2 toma un movimiento hacia arriba para alcanzar el valor de la
[i], aproximadamente 2200 Hz. En los otros casos F1 tambin permanece relativamente constante
y F2 se eleva gradualmente. De igual manera se observa que los formantes F2 y F3 de [w] tienen
menor energa que aquellos de las vocales. En la transicin de [w] a [a] F1 y F2 estn muy
cercanos.
105
5000
5000
4000
4000
4000
3000
2000
1000
0
0.26
Frequency (Hz)
5000
Frequency (Hz)
Frequency (Hz)
7. Transiciones voclicas
3000
2000
1000
0.3
0.34 0.38
Time (s)
i. [wi]
0.42
0
0.52
3000
2000
1000
0.555
0.59 0.625
Time (s)
0.66
ii. [we]
Figura 7.4: Transiciones [wi], [we], [wa]
0
0.36
0.395
0.43 0.465
Time (s)
0.5
iii. [wa]
106
7. Transiciones voclicas
5000
5000
4000
4000
Frequency (Hz)
Frequency (Hz)
Las transiciones de esta figura son muy parecidas a aquellas entre la aproximante /y/ y las
vocales (vea la figura 7.3). No es sorpresiva esta similitud ya que ambos sonidos son muy
similares en su movimiento formntico. Como se ha dicho, una diferencia entre aproximantes y
vocales es la baja energa de aquellas. Otra diferencia es la duracin del estado estable de ambos
sonidos, siendo ms largo para las vocales. La transicin de [i] a [a] muestra tales diferencias. El
espectrograma de la derecha muestra el segmento [iowi]; se observan varios detalles: La
transicin de la aproximante con las vocales vecinas es distinguible ya que su F2 es de baja
energa (el segmento entre 260 ms y 330 ms); adems la transicin [i]-[o] (entre 120 ms y 260
ms) es ms lenta que la transicin [w]-[i] (entre 330 ms y 400 ms).
3000
2000
1000
0
0.12
3000
2000
1000
0.19
0.26 0.33
Time (s)
0.4
0
0.2
0.24
0.28 0.32
Time (s)
0.36
i. [iowi]
ii. [ia]
Figura 7.5: Transiciones [io], [ia]
Con el fin de contrastar las diferencias entre las aproximantes y las vocales, la figura 7.6
muestra el segmento [ia] de la realizacin [niamiki] (tengo sed) y el segmento [ya] de la
realizacin [yalwa] (ayer). La vocal [i] y la aproximante [y] son mostrados en toda su realizacin.
Se observa que la vocal mantiene un estado estable (80 ms) a diferencia de la aproximante, cuyo
F2 desde el inicio no mantiene una posicin estable y desciende hacia [a].
107
5000
5000
4000
4000
Frequency (Hz)
Frequency (Hz)
7. Transiciones voclicas
3000
2000
1000
3000
2000
1000
0
0.48 0.52 0.56 0.6 0.64 0.68
Time (s)
0
0.14 0.18 0.22 0.26 0.3 0.34
Time (s)
i. [ia]
ii. [ya]
Figura 7.6: Comparacin de transiciones [ia], [ya]
Para brindar ms ejemplos de transiciones, la figura 7.7 muestra las transiciones desde [o]
a otro fono [o] en el caso de la frontera entre las palabras [amo owi] (fcil), la transicin de [a] a
[i] de la frontera entre slabas de la palabra [ait] (quizs), por ltimo se presenta la transicin de
[e] a [i] de la palabra [tei]. En esta ltima transicin existe un mnimo movimiento de los
formantes, esto es debido a que hay un mnimo movimiento requerido a los articuladores, lo cual
resulta en un cambio pequeo de la configuracin del tracto vocal. La transicin de [a] a [i] es
como un reflejo de aquella mostrada en la figura 7.6. El espectrograma de la transicin de [o] a
[o] nos revela que la amplitud de la forma de onda es menor durante la transicin, de esta manera
el hablante marca que hay dos palabras y no una sola con una vocal de muy larga duracin;
debido a que la configuracin del tracto vocal no cambia la estructura formntica es la misma.
5000
5000
4000
4000
4000
3000
2000
1000
0
0.44
3000
2000
1000
0.475
0.51 0.545
Time (s)
i. [oo]
108
Frequency (Hz)
5000
Frequency (Hz)
Frequency (Hz)
0.58
0
0.66
3000
2000
1000
0.72
0.78
Time (s)
0.84
ii. [ai]
Figura 7.7: Transiciones [oo], [ai], [ei]
0
1.3 1.32 1.34 1.36 1.38 1.4
Time (s)
iii. [ei]
7. Transiciones voclicas
0
-0.1
-0.2
-0.3
-0.4
0.44
0.46
0.48
0.5
Tiempo (s)
0.52
0.54
0.56
5000
4000
Frequency (Hz)
A
m
plitud
0.1
3000
2000
1000
0
0.42
0.46
0.5
0.54
Time (s)
0.58
109
7. Transiciones voclicas
110
8. TRANSICIONES OBSTRUYENTES
Y VOCALES
Las consonantes oclusivas, fricativas y africadas pertenecen a la clase de fonemas obstruyentes.
En las siguientes secciones se analizarn las transiciones entre estos sonidos y las vocales para
examinar cmo interactan dinmicamente. En particular queremos ver si el loci de estos
fonemas son influenciados por el contexto, y de ser as, en qu grado y medida.
111
5000
5000
4000
4000
4000
4000
3000
2000
1000
3000
2000
1000
0
0.21 0.23 0.25 0.27 0.29 0.31
Time (s)
3000
2000
1000
0
0.36 0.38 0.4 0.42 0.44 0.46
Time (s)
i. [pi]
Frequency (Hz)
5000
Frequency (Hz)
5000
Frequency (Hz)
Frequency (Hz)
3000
2000
1000
0
0.45 0.47 0.49 0.51 0.53 0.55
Time (s)
0
0.6 0.64 0.68 0.72 0.76 0.8
Time (s)
iv. [kwi]
ii. [ti]
iii. [ki]
Figura 8.1: Transiciones [pi], [ti], [ki], [kwi]
5000
5000
4000
4000
Frequency (Hz)
Frequency (Hz)
Las figuras mostradas en 8.2 corresponden a segmentos de [ikte] (pjaro) y [keye] (por
qu). Difcilmente se aprecia algn movimiento de F1 y F2 durante la transicin [t/]-[e]. En el
caso de la transicin velar se aprecia un velar pinch, este es un fenmeno donde F2 y F3 estn
tan cerca entre s que casi se combinan en un solo formante, es un fenmeno comn en las
oclusivas velares. Aparentemente hay un muy ligero movimiento hacia arriba de F1 y hacia abajo
de F2 durante la transicin velar. No se contaba en el corpus con realizaciones que incluyeran las
transiciones /pe/, /kwe/.
3000
2000
1000
3000
2000
1000
0
0.4 0.42 0.44 0.46 0.48 0.5
Time (s)
0
0.74 0.76 0.78 0.8 0.82 0.84
Time (s)
i. [te]
ii. [ke]
Figura 8.2: Transiciones [te], [ke]
Las transiciones de las oclusivas hacia la vocal posterior /o/ se muestran en la figura 8.3,
fueron tomadas de las realizaciones [pokti] (humo), [totonik] (caliente), [kolot] (alacrn) y
[kwowit] (rbol), esta ltima realizacin fue tomada de otro hablante masculino. Durante la
transicin de [p] a [o] no parece haber movimiento en los formantes. Respecto a la transicin de
[t] a [o] podemos observar un ligero descenso de F2 y F3. Sobre la transicin de [k] a [o] no
ocurre el velar pinch, de hecho F2 permanece constante. Finalmente, en la transicin [kw]-[o] es
posible notar que la transicin de F2 desde la parte aproximante de [kw] hacia el F2 de [o] es ms
sutil; sin embargo es posible identificar esta transicin con respecto a [ko] debido a que el F2 de
[kw] muestra un ascenso en su transicin a [o].
112
5000
5000
4000
4000
4000
4000
3000
2000
1000
0
0.1
3000
2000
1000
0.14
0.18
Time (s)
i. [po]
3000
2000
1000
0
0.07
0.22
Frequency (Hz)
5000
Frequency (Hz)
5000
Frequency (Hz)
Frequency (Hz)
0.09
0.11 0.13
Time (s)
0
0.13
0.15
3000
2000
1000
0.16
0.19 0.22
Time (s)
0
0
0.25
iv. [kwo]
ii. [to]
iii. [ko]
Figura 8.3: Transiciones [po], [to], [ko], [kwo]
5000
5000
4000
4000
4000
4000
3000
2000
1000
3000
2000
1000
0
0.51 0.53 0.55 0.57 0.59 0.61
Time (s)
i. /pa/
3000
2000
1000
0
0.31 0.33 0.35 0.37 0.39 0.41
Time (s)
0
0.41 0.43 0.45 0.47 0.49 0.51
Time (s)
ii. /ta/
iii. /ka/
Figura 8.4: Transiciones /pa/, /ta/, /ka/, /kwa/.
Frequency (Hz)
5000
Frequency (Hz)
5000
Frequency (Hz)
Frequency (Hz)
Las transiciones de las oclusivas a la vocal central se muestran en la figura 8.4, pertenecen
a las realizaciones [tapalol] (comida), [ta:l] (tierra), [takat] (hombre) y [titakwa] (tu comes). Se
observa que F2 tiene un movimiento hacia arriba en la transicin [p]-[a]. Lo mismo ocurre en la
transicin [t]-[a], donde el movimiento es muy ligero. Es en la transicin [k]-[a] donde F2
muestra un movimiento constante. En la transicin [kw]-[a] se observa el movimiento ascendente
del F2 de [kw], es posible distinguir que dicho formante posee menor energa que el F2 de la
vocal siguiente cuando sta se encuentra en un estado estable. En los tres casos F1 muestra un
movimiento hacia arriba durante la transicin.
3000
2000
1000
0
0.77
0.81
0.85 0.89
Time (s)
0.93
iv. /k a/
113
5000
5000
4000
4000
4000
4000
3000
2000
1000
3000
2000
1000
0
0.57 0.59 0.61 0.63 0.65 0.67
Time (s)
3000
2000
1000
0
0.61 0.63 0.65 0.67 0.69 0.71
Time (s)
i. [ip]
Frequency (Hz)
5000
Frequency (Hz)
5000
Frequency (Hz)
Frequency (Hz)
La figura 8.5 muestra la transicin desde las vocales hacia /p/, se consideraron las
realizaciones [yawipta'] (antier), [nepa'] (all), [olopi] (mentiroso) y [inakapan] (Tzinacapan).
En la transicin desde [i], F1 permanece constante mientras que F2 muestra un rpido
movimiento descendente antes de la regin de cierre. Lo mismo ocurre en la transicin desde [e].
La transicin entre [o] y [p] muestra un movimiento descendente mnimo para F1 y F2; lo mismo
se aprecia para la transicin [a]-[p].
0
0.64
3000
2000
1000
0.66
0.68
0.7
Time (s)
0
1.83 1.85 1.87 1.89 1.91 1.93
Time (s)
0.72
ii. [ep]
iii. [op]
Figura 8.5: Transiciones [ip], [ep], [op], [ap]
iv. [ap]
5000
5000
4000
4000
4000
4000
3000
2000
1000
0
0.31
3000
2000
1000
0.33
0.35 0.37
Time (s)
i. [it]
0.39
3000
2000
1000
0
0.62 0.64 0.66 0.68 0.7 0.72
Time (s)
0
0.55 0.57 0.59 0.61 0.63 0.65
Time (s)
ii. [et]
iii. [ot]
Figura 8.6: Transiciones [it], [et], [ot], [at]
Frequency (Hz)
5000
Frequency (Hz)
5000
Frequency (Hz)
Frequency (Hz)
La figura 8.6 muestra a las cuatro vocales movindose a la oclusiva alveolar sorda /t/, las
realizaciones correspondientes son [titakwa'] (t comes), [miket] (muerto), [kolot] (alacrn) e
[ilwikatik] (azul). En general, durante la transicin, los formantes mantienen un estado estable
excepto en [e]-[t], donde F2 presenta un marcado movimiento hacia abajo. Es posible apreciar en
las transiciones [i]-[t] y [a]-[t] que sus F1 presentan un leve movimiento hacia abajo.
3000
2000
1000
0
0.66
0.68
0.7
0.72
Time (s)
iv. [at]
Las transiciones de las vocales a la velar oclusiva sorda /k/ se muestran en la figura 8.7,
los ejemplos vienen de las realizaciones [tikneki'] (t quieres), [ionteko] (su cabeza), [ooktik]
(verde) y [takat] (hombre). Observe que el movimiento de F1 es hacia abajo en las vocales [i] y
[a]. Se aprecia un estado estable en las restantes vocales. El velar pinch es apreciable en las
114
0.74
5000
4000
4000
4000
4000
3000
2000
1000
2000
1000
0.29
0.31 0.33
Time (s)
0
0.55
0.35
i. /ik/
3000
2000
1000
0.57
0.59
Time (s)
0.61
3000
2000
1000
0
0.74 0.76 0.78 0.8 0.82 0.84
Time (s)
0
0.3
ii. /ek/
iii. /ok/
Figura 8.7: Transiciones de /ik/, /ek/, /ok/, /ak/
0.34
0.38
Time (s)
iv. /ak/
Como ltimo bloque, en la figura 8.8 se muestran las transiciones de las vocales a la velar
oclusiva labial sorda /kw/, estos ejemplos vienen de las realizaciones [nehnikwa'] (yo como),
[nisekwi] (tengo fro), y [titakwa'] (tu comes). El hablante de la primera palabra es distinto al de
los otros dos ejemplos de dicha figura, ambos son masculinos. Observe que los espectrogramas
son similares a los de la figura 8.7. El velar pinch es apreciable en la transicin desde [i],
mientras que es menos aparente en la transicin desde [e]. En [a] hay un ligero descenso de F1 y
F2 al final de la misma, de hecho sus formantes conservan un estado ciertamente estable, sin
rasgos de existir un velar pinch. En las otras dos vocales, el F1 es estable. No se contaba en el
corpus con la transicin /okw/.
5000
5000
4000
4000
4000
3000
2000
1000
3000
2000
1000
0
0.4 0.42 0.44 0.46 0.48 0.5
Time (s)
i. [ikw]
0
0.56 0.58 0.6 0.62 0.64 0.66
Time (s)
ii. [ekw]
Figura 8.8: Transiciones [ikw], [ekw], [akw]
Frequency (Hz)
5000
Frequency (Hz)
0
0.27
3000
Frequency (Hz)
5000
Frequency (Hz)
5000
Frequency (Hz)
5000
Frequency (Hz)
Frequency (Hz)
transiciones de las vocales [i]-[e]. Aunque por definicin no se trata de un velar pinch (porque
involucra a F2 y F3), es de llamar la atencin que se unan F1 y F2 en la frontera de la vocal [o].
En [a] hay un descenso de F3 aproximndose bastante a F2 aunque sin llegar a formar un velar
pinch. Note que la altura del velar pinch es proporcional a la posterioridad de las vocales, ms
posterior la vocal, a ms baja frecuencia se ubica el velar pich.
3000
2000
1000
0
0.62 0.64 0.66 0.68 0.7 0.72
Time (s)
iv. [akw]
115
0.42
5000
5000
4000
4000
4000
4000
3000
2000
1000
3000
2000
1000
0
0.62 0.64 0.66 0.68 0.7 0.72
Time (s)
i. [si]
116
3000
2000
1000
0
0.5 0.52 0.54 0.56 0.58 0.6
Time (s)
0
0.24 0.26 0.28 0.3 0.32 0.34
Time (s)
ii. [se]
iii. [so]
Figura 8.9: Transiciones [si], [se], [so], [sa]
Frequency (Hz)
5000
Frequency (Hz)
5000
Frequency (Hz)
Frequency (Hz)
Las fricativas alveolares se producen constriendo el tracto vocal con la lengua en los alveolos, lo
suficiente para producir friccin pero sin impedir por completo el flujo de aire. La figura 8.9
muestra la fricativa alveolar sorda /s/ en su transicin a las vocales. Las realizaciones
correspondientes son [siwat] (mujer), [sesek] (fro), [tasohkamatik] (gracias) y [aksa'] (alguien).
3000
2000
1000
0
0.42 0.44 0.46 0.48 0.5 0.52
Time (s)
iv. [sa]
Los espectrogramas nos revelan que hay una coarticulacin anticipada durante la
produccin de las fricativas alveolares. Por eso podemos apreciar una estructura formntica en
los fonos fricativos [s], de hecho observamos un mayor movimiento de formantes durante la
fricativa que en la vocal. Se observa que al inicio de las vocales sus formantes no presentan algn
movimiento. Podemos notar que, descontando la energa a baja frecuencia, la ubicacin del borde
inferior de la regin de la fricativa depende de F2 de la vocal. Antes de la vocal [i] hay mucha
anticipacin en la coarticulacin. Por el contrario, antes de las vocales [e] y [a] no hay necesidad
de coarticulacin anticipada para F2 porque el valor de este formante para el locus alveolar es
aproximadamente el mismo que el valor target para dichas vocales, indicando que la lengua est
en una posicin adecuada para producir el mismo valor F2. En la transicin [s]-[o] los formantes
muestran una coarticulacin anticipada indicando que el cuerpo de la lengua puede prepararse
para la vocal media posterior an con la constriccin frontal alta.
Es posible apreciar un ligero movimiento hacia arriba de F1 y hacia abajo de F2 de la
vocal [o] en su frontera con la fricativa. Para articular la fricativa [s] la lengua mantiene una
posicin baja, tambin conserva esa posicin cuando se articula la vocal [e], es por eso que el
comportamiento formntico de la fricativa nos muestra que los formantes tienen un
comportamiento estable. La transicin hacia [o] muestra a F2 descendiendo.
5000
5000
4000
4000
4000
4000
3000
2000
1000
3000
2000
1000
0
0.28 0.3 0.32 0.34 0.36 0.38
Time (s)
i. [is]
3000
2000
1000
0
0.34 0.36 0.38 0.4 0.42 0.44
Time (s)
0
0.35 0.37 0.39 0.41 0.43 0.45
Time (s)
ii. [es]
iii. [os]
Figura 8.10: Transiciones [is], [es], [os], [as]
Frequency (Hz)
5000
Frequency (Hz)
5000
Frequency (Hz)
Frequency (Hz)
La figura 8.10 muestra las transiciones en direccin contraria, desde las vocales hacia las
fricativas, provenientes de las realizaciones [istak] (blanco), [sesek] (fro), [kostik] (amarillo) y
[tasohkamatik] (gracias). Durante la transicin, F1 muestra un ligero descenso para la vocal [i].
Lo mismo ocurre con la vocal [o]. En el caso de la vocal [e] su F1 muestra un movimiento
estable. F2 permanece constante en todas las vocales salvo para la transicin [o]-[s], donde se
observa un movimiento hacia arriba.
3000
2000
1000
0
0.19 0.21 0.23 0.25 0.27 0.29
Time (s)
iv. [as]
Aunque la lengua se utiliza para generar la constriccin en las fricativas alveolares, hemos
apreciado evidencia de una coarticulacin anticipada. Para observar la coarticulacin durante la
produccin de las fricativas, daremos un ejemplo de en un contexto intervoclico. La figura 8.11
muestra el segmento de voz [osi], de la realizacin [nosiwaw]. La primera vocal tiene un F2 a una
117
Frequency (Hz)
4000
3000
2000
1000
0
0.62
0.67
0.72 0.77
Time (s)
0.82
8.2.2 Alveopalatales
La fricativa alveopalatal // se articula al tocar la lmina de la lengua la zona posalveolar y el
paladar, el pice de la lengua se levanta y forma una constriccin. [Oli93] indica que cuando la
constriccin para producir un sonido lingstico se presenta en el velo, F2 y F3 a menudo se
mezclan para formar un velar pinch. [Oli93] seala adems que los sonidos articulados cerca del
velo pueden presentar un velar pinch para algunas vocales. Sin embargo, si no hay un velar pinch,
F2 debe ser debe ser an de frecuencia alta para los sonidos alveolapalatales que para las otras
fricativas. Adems las transiciones hacia adentro y afuera de las vocales pueden ser ms lentas
para estas fricativas.
La figura 8.12 muestra las transiciones [o]-[] y []-[o] en un solo espectrograma, ste
corresponde al segmento [oo] de la realizacin [ooktik] (verde). Durante la regin de la
fricativa el espectrograma muestra similitudes con el de la alveolar /s/. Se observa durante la
fricativa una cierta estructura formntica debida por el efecto de coarticulacin. La regin de
mayor energa en la fricativa se produce arriba del F3 de las vocales que la rodean. Nos
centraremos ahora en el segmento [o], F2 al inicio de la vocal tiene un valor de 1375 Hz
mientras que en el caso de la transicin [so] mostrada anteriormente su F2 tiene un valor de 1313
Hz. Se confirma lo observado por [Oli93], aunque la diferencia es pequea.
118
5000
Frequency (Hz)
4000
3000
2000
1000
0
0.25
0.3
0.35
0.4
Time (s)
0.45
/oo/
Figura 8.12: Transiciones [o] y [o] del segmento [oo]
5000
5000
4000
4000
Frequency (Hz)
Frequency (Hz)
En la figura 8.13 presentamos los espectrogramas de los segmentos [siw] y [i] de las
realizaciones [siwat] (mujer) y [inepalewi'] (aydeme), fueron pronunciadas por una voz
femenina, se trata de la misma mujer. Observemos en ambos espectrogramas el inicio de la vocal
/i/; el valor de cada F2 es de 2593 Hz y de 2758 Hz al coarticularse con la alveolar y con la
alveopalatal respectivamente. Nuevamente F2 para el caso alveopalatal se localiza a una
frecuencia mayor que el F2 del caso alveolar.
3000
2000
1000
0
0.46
3000
2000
1000
0.5
0.54
Time (s)
0.58
0
0.61
i. [siw]
0.65
0.69
Time (s)
0.73
ii. [i]
Figura 8.13: Transiciones [s] y [] a la vocal [i]
8.2.3 Glotal
La figura 8.14 muestra la transicin de la fricativa gltica /h/ hacia las vocales. Las realizaciones
correspondientes son [ihkon] (as), [teh] (t), [ohti] (camino) y [amo nitahtowa koyotahtol] (no
hablo espaol), el extracto [ah] presentado proviene de la palabra [nitahtowa].
119
5000
5000
4000
4000
4000
4000
3000
2000
1000
0
0.36
3000
2000
1000
0.41
0.46 0.51
Time (s)
i. [ih]
0.56
0
0.14
Frequency (Hz)
5000
Frequency (Hz)
5000
Frequency (Hz)
Frequency (Hz)
3000
2000
1000
0.19
0.24 0.29
Time (s)
0.34
0
0.38
3000
2000
1000
0.43
0.48 0.53
Time (s)
ii. [eh]
iii. [oh]
Figura 8.14: Transiciones [ih], [eh], [oh], [ah]
0.58
0
0.79
0.84
0.89 0.94
Time (s)
iv. [ah]
120
0.99
5000
5000
4000
4000
Frequency (Hz)
Frequency (Hz)
3000
2000
1000
0
0.3
3000
2000
1000
0.34
0.38
0.42
0.46
0.5
0.54
Time (s)
0.58
0.62
0.66
0.7
0
0.32 0.39 0.46 0.53 0.6 0.67
Time (s)
i. [ehwa]
ii. [wa]
Figura 8.15: Segmentos de [tehwan] (nosotros) y [wan] (y)
121
5000
5000
4000
4000
4000
3000
2000
1000
Frequency (Hz)
5000
Frequency (Hz)
Frequency (Hz)
En la figura 8.16 se muestran las transiciones entre la africada alveolar // y las vocales /i/, /o/,
/a/. Las realizaciones de las que se toman estos segmentos son: [miili] (te dijo), [ionteko] (su
cabeza) y [keniwtimonoa'] (cul es tu nombre?). A pesar de la caracterstica regin fricativa de
esta africada, los espectrogramas nos muestran movimientos formnticos en las transiciones muy
similares a las halladas en [ti], [to], [ta], presentadas en las figuras 8.1, 8.3 y 8.4. Lo anterior se
puede explicar debido a // y /t/ tienen el mismo punto de articulacin. De hecho, la regin
fricativa de la africada nos facilita observar las transiciones, observe por ejemplo el
espectrograma de [i]. Mientras que en la transicin de [i] F2 muestra un movimiento hacia
arriba, en [o] F2 presenta un movimiento hacia abajo; esto est en correspondencia con las
transiciones [ti], [to] ya presentadas. Respecto a la transicin [a], y al contrario de la transicin
[ta], F2 muestra un ligero movimiento hacia abajo, aunque el F1 de ambas transiciones presentan
un claro movimiento hacia arriba.
3000
2000
1000
0
0.57 0.6 0.63 0.66 0.69 0.72
Time (s)
i. [i]
0
0.4
3000
2000
1000
0.43
0.46 0.49
Time (s)
0.52
ii. [o]
0
0.87
0.91
0.95 0.99
Time (s)
1.03
iii. [a]
En la figura 8.17 se aprecian las transiciones de tres vocales a //, fueron tomadas de
[ionteko] (su cabeza), [ime] (su pierna), [noonteko] (mi cabeza). Se observa que F2 desciende
en la transicin, mientras que F1 se mantiene es estado estable.
122
5000
5000
4000
4000
4000
3000
2000
1000
Frequency (Hz)
5000
Frequency (Hz)
Frequency (Hz)
3000
2000
1000
3000
2000
1000
0
0.35 0.37 0.39 0.41 0.43 0.45
Time (s)
0
0.45 0.48 0.51 0.54 0.57 0.6
Time (s)
i. [i]
ii. [e]
0
0.45
0.48
0.51 0.54
Time (s)
0.57
iii. [o]
8.3.2. Alveopalatal
Por ltimo se analizan algunas transiciones entre vocales y la africada alveopalatal. La figura
8.18 muestra dos espectrogramas, el segmento [a] fue extrado de la realizacin [kanai']
(cunto, para formular preguntas); el segmento [ii] proviene de la realizacin [iiltik] (rojo).
5000
5000
4000
4000
Frequency (Hz)
Frequency (Hz)
3000
2000
2000
1000
1000
0
0.66
3000
0.69
0.72 0.75
Time (s)
i. [a]
0.78
0
0.48
0.53
0.58
0.63
0.68
0.73
Time (s)
ii. [ii]
Figura 8.18: Transiciones [a], [ii]
123
124
125
5000
5000
4000
4000
4000
4000
3000
2000
1000
3000
2000
1000
0
1.34 1.36 1.38 1.4 1.42 1.44
Time (s)
2000
1000
0
0.54 0.56 0.58 0.6 0.62 0.64
Time (s)
i. [mi]
3000
Frequency (Hz)
5000
Frequency (Hz)
5000
Frequency (Hz)
Frequency (Hz)
3000
2000
1000
0
0.23 0.25 0.27 0.29 0.31 0.33
Time (s)
0
0.76 0.78 0.8 0.82 0.84 0.86
Time (s)
ii. [me]
iii. [mo]
Figura 9.1: Transiciones [mi], [me], [mo], [ma]
iv. [ma]
Los espectrogramas muestran que la frontera entre los sonidos nasal y vocal es distintiva.
En algunos casos la frontera puede ser reconocida por una discontinuidad abrupta en la regin de
F1 al comienzo de la vocal. Esta discontinuidad es ms aparente en aquellas vocales con un alto
F1 (vea la transicin [m]-[a]). Otra indicacin de la de la frontera es el repentino oscurecimiento
de los formantes superiores al comienzo de la regin de la vocal. Esto lo explica [Oli93],
Cuando el tracto oral se abre, el balance de energa cambia y se nota en los espectros de las
vocales una mayor energa en regiones de alta frecuencia que en las nasales.
5000
5000
4000
4000
4000
4000
3000
2000
1000
0
0.52
2000
1000
0.555
0.59 0.625
Time (s)
i. [ni]
126
3000
0.66
3000
2000
1000
0
0.47 0.49 0.51 0.53 0.55 0.57
Time (s)
0
0.33 0.35 0.37 0.39 0.41 0.43
Time (s)
ii. [ne]
iii. [no]
Figura 9.2: Transiciones [ni], [ne], [no], [na]
Frequency (Hz)
5000
Frequency (Hz)
5000
Frequency (Hz)
Frequency (Hz)
3000
2000
1000
0
0.74 0.76 0.78 0.8 0.82 0.84
Time (s)
iv. [na]
[m]
2035
1633
958 (767)
1127
[n]
2138
1938
(1381)
1479
5000
5000
4000
4000
4000
4000
3000
2000
1000
3000
2000
1000
Frequency (Hz)
5000
Frequency (Hz)
5000
Frequency (Hz)
Frequency (Hz)
Las figuras 9.3 y 9.4 muestran las transiciones de las vocales a las nasales bilabial /m/ y alveolar
/n/, respectivamente. Las realizaciones de la figura 9.3 corresponden a [ime] (su pierna),
[ninemi] (vivo), [komit] (olla) y [tasohkamatik] (gracias). Las realizaciones de la figura 9.4
corresponden a [yekini] (ahora), [tonali] (sol), [kanai'] (cunto). En la regin de la consonante
se observa una prominente lnea oscura en la regin de baja frecuencia. Sin embargo tambin es
observable energa en la nasal a mayor frecuencia, la multiplicidad de resonancias nos revela una
estructura formntica. En la regin F1 de la vocal, los espectrogramas muestran al formante nasal
como un doble formante para las vocales con un alto o mediano F1, y un ensanchamiento de F1
para lasa vocales con bajo F1. La presencia del formante nasal en la regin voclica indica que el
velo se ha abierto en anticipacin de la nasal venidera, de aqu que la vocal est nasalizada. La
nasalizacin es la caracterstica principal en la transicin vocal-nasal.
3000
2000
1000
3000
2000
1000
0
0.25 0.27 0.29 0.31 0.33 0.35
Time (s)
0
0.54 0.56 0.58 0.6 0.62 0.64
Time (s)
0
1.25 1.27 1.29 1.31 1.33 1.35
Time (s)
i. [im]
ii. [em]
ii. [om]
0
0.55
0.58
0.61 0.64
Time (s)
0.67
iv. [am]
127
5000
5000
4000
4000
4000
3000
2000
1000
Frequency (Hz)
5000
Frequency (Hz)
Frequency (Hz)
3000
2000
1000
0
0.46 0.48 0.5 0.52 0.54 0.56
Time (s)
i. [in]
0
0.3
3000
2000
1000
0.34
0.38
Time (s)
0.42
ii. [on]
Figura 9.4: Transiciones [in], [on], [an]
0
0.58 0.62 0.66 0.7 0.74 0.78
Time (s)
iii. [an]
128
5000
5000
4000
4000
4000
3000
2000
1000
0
0.4
Frequency (Hz)
5000
Frequency (Hz)
Frequency (Hz)
La figura 9.5 muestra las transiciones de /l/ a tres vocales del nhuatl. Corresponden a las
realizaciones [pili'] (nio), [inepalewi'] (aydeme) y [olopi] (mentiroso). En esta ocasin se
presentan espectrogramas de tres hablantes masculinos distintos. Estos ejemplos corresponden a
fonemas dentro de la misma slaba. Debido al patrn ms usual CV del nhuatl, las transiciones
/l/-vocal, donde cada fonema pertenezca a diferentes slabas, se podran hallar en fronteras de
palabras; sin embargo recurdese que el corpus slo consta de palabras aisladas. El valor de F1 de
/l/ es casi el mismo en cada hablante: 300 Hz, 376 Hz y 370 Hz en [le], [li] y [lo]
respectivamente. A diferencia de este mismo tipo de transiciones presentadas por [Oli93] en su
estudio fontico del ingls estadounidense donde el F2 de /l/ tiene un valor por debajo de 1000
Hz, en nhuatl los valores de F2 varan por abajo y por arriba de dicho valor. Se puede observar
que la lateral muestra estabilidad en los valores de sus formantes F1 y F2. Tambin se nota que
en la transicin [l]-[i] existe una discontinuidad entre los formantes de ambos sonidos, lo cual no
es apreciable en las transiciones hacia [e] y [o]. Las regiones de [l] para cada vocal son diferentes
en los valores de F2 y F3, podemos concluir que las vocales vecinas ejercen influencia en la
produccin de /l/. Una discontinuidad o un cambio en el nivel de energa en la regin arriba de F2
(hay mayor energa al comienzo de la vocal) nos permite distinguir la unin entre /l/ y vocal.
3000
2000
1000
0.44
0.48
Time (s)
i. [li]
0.52
0
0.94
3000
2000
1000
0.98
1.02
Time (s)
1.06
ii. [le]
Figura 9.5: Transiciones [li], [le], [lo]
0
0.45
0.49
0.53
Time (s)
0.57
iii. [lo]
129
5000
5000
4000
4000
4000
4000
3000
2000
1000
0
0.18
3000
2000
1000
0.22
0.26
Time (s)
i. [il]
0.3
0
0.5
Frequency (Hz)
5000
Frequency (Hz)
5000
Frequency (Hz)
Frequency (Hz)
3000
2000
1000
0.54
0.58
Time (s)
0.62
0
0.28
3000
2000
1000
0.32
0.36
Time (s)
ii. [el]
iii. [ol]
Figura 9.6: Transiciones [il], [el], [ol], [al]
0.4
0
0.62
0.66
0.7
Time (s)
0.74
iv. [al]
130
131
0.1
Amplitud
Estallido
0.05
-0.05
-0.1
1.52
1.54
1.56
1.58
1.6
1.62
Tiempo (s)
1.64
1.66
1.68
1.7
i. [k] sencilla
0.1
Estallido
Amplitud
0.05
-0.05
-0.1
0.82
0.84
0.86
0.88
0.9
0.98
1.02
1.04
1.06
Frequency (Hz)
4000
3000
2000
1000
0
0.78
0.84
0.9
0.96
Time (s)
1.02
1.08
1.14
Ahora examinaremos la interaccin entre dos oclusivas diferentes. La figura 10.3 muestra
la forma de onda y espectrograma del segmento [kt] de la realizacin [pokti'] (humo). El inicio
del estallido de [k] est sealada por una flecha en la forma de onda, despus se presenta la
regin de cierre de [t] y al final ocurre su estallido. El espectrograma muestra los estallidos de
132
Amplitud
0.1
0.05
0
-0.05
-0.1
-0.15
-0.2
0.17
0.2
0.23
0.26
0.29
0.32
Tiempo (s)
0.35
0.38
0.41
0.44
5000
Frequency (Hz)
4000
3000
2000
1000
0
0.11
0.17
0.23
0.29
Time (s)
0.35
0.41
0.47
133
0.5
0.4
0.3
Amplitud
0.2
0.1
0
-0.1
-0.2
-0.3
-0.4
-0.5
0.66
0.68
0.7
0.72
0.74
0.76
0.78
Tiempo (s)
0.8
0.82
0.84
0.86
5000
Frequency (Hz)
4000
3000
2000
1000
0
0.64
0.68
0.72
0.76
Time (s)
0.8
0.84
0.88
134
0.4
0.3
Amplitud
0.2
0.1
0
-0.1
-0.2
-0.3
0.44
0.48
0.52
0.56
0.6
Tiempo (s)
0.64
0.68
0.72
5000
Frequency (Hz)
4000
3000
2000
1000
0
0.44
0.48
0.52
0.56
0.6
Time (s)
0.64
0.68
0.72
135
Amplitud
0.2
0.1
0
-0.1
-0.2
-0.3
-0.4
-0.5
0.22
0.27
0.32
0.37
0.42
Tiempo (s)
0.47
0.52
0.57
5000
Frequency (Hz)
4000
3000
2000
1000
0
0.22
0.27
0.32
0.37
0.42
Time (s)
0.47
0.52
0.57
136
0.4
0.3
0.2
Amplitud
0.1
0
-0.1
-0.2
-0.3
-0.4
1.15
1.17
1.19
1.21
1.23
1.25
1.27
Tiempo (s)
1.29
1.31
1.33
1.35
5000
Frequency (Hz)
4000
3000
2000
1000
0
1.15
1.17
1.19
1.21
1.23
1.25
1.27
Time (s)
1.29
1.31
1.33
1.35
137
0.2
0.4
0.15
0.2
0.3
0.1
0.2
0
-0.1
Amplitud
0.05
Amplitud
Amplitud
0.1
0
-0.05
-0.1
-0.2
0.1
0
-0.1
-0.15
-0.3
-0.2
-0.2
0.74
0.76
0.78
0.8
Tiempo (s)
0.82
0.84
0.86
0.88
-0.25
0.72
0.74
0.76
0.78
0.8
0.82
Tiempo (s)
0.84
0.86
0.88
0.9
-0.3
0.75
0.77
5000
5000
5000
4000
4000
4000
3000
2000
1000
0
0.69
Frequency (Hz)
Frequency (Hz)
0.72
Frequency (Hz)
-0.4
0.7
3000
2000
1000
0.77
0.85
Time (s)
0.93
0
0.68
0.79
0.81
0.83
Tiempo (s)
0.85
0.87
0.89
0.91
3000
2000
1000
0.75
0.82 0.89
Time (s)
0.96
0
0.73
0.81
0.89
Time (s)
0.97
i. Mujer
ii. Mujer
iii. Hombre
Figura 10.8: Secuencias [km] intersilbicas pronunciadas por tres hablantes distintos
Hemos visto en la figura anterior diferentes realizaciones donde las secuencias son
completamente articuladas o bien la explosin de la oclusiva es muy dbil, siendo el caso ms
138
comn. Sin embargo la duracin total de la oclusiva es muy semejante. Hubo variaciones donde
se aspira el sonido oclusivo.
10.2.2. Interaccin oclusiva-aproximante
En la figura 10.9 se muestran dos realizaciones de la oracin [yek weyi ne kowit] (est muy
grande ese rbol), pronunciadas por el mismo hablante. Se presentan las formas de onda y
espectrogramas de cada realizacin. Se muestra a la aproximante [w] en combinacin con la
oclusiva velar [k]. Por lo tanto se trata de una transicin entre fronteras de palabras.
Las formas de onda muestran el fin de la vocal [e], la oclusiva completa [k] y el inicio de
la aproximante. Los espectrogramas toman la mayor parte de [e], la oclusiva completa, la vocal
siguiente completa hasta llegar a la aproximante [y].
0.5
5000
0.4
4000
0.3
Frequency (Hz)
Amplitud
0.2
0.1
0
3000
2000
-0.1
1000
-0.2
-0.3
0.18
0.2
0.22
0.24
0.26
0.28
0.3
Tiempo (s)
0.32
0.34
0.36
0.38
0
0.11
0.4
0.17
0.23
0.29
0.35
Time (s)
0.41
0.47
0.53
0.59
i. Primera realizacin
0.25
5000
0.2
4000
0.15
Frequency (Hz)
Amplitud
0.1
0.05
0
3000
2000
-0.05
1000
-0.1
-0.15
0.28
0.3
0.32
0.34
0.36
0.44
0.46
0.48
0.5
0.52
0
0.21
0.26
0.31
0.36
0.41
0.46 0.51
Time (s)
0.56
0.61
0.66
0.71
0.76
Se aprecia que la oclusiva velar [k] est aspirada. Tambin observe que la transicin desde
[k] a [w] ocurre por completo durante la aspiracin. Cuando comienza la aproximante su F2
empieza su ascenso hacia la vocal adyacente.
En la figura 10.10 se muestra la interaccin de la aproximante palatal [y] con la oclusiva
alveolar [t] a travs de la oracin [ne takat yek nemi] (ese hombre es un vago). La interaccin es
a travs de fronteras de palabras. La forma de onda muestra el estallido de la oclusiva, despus de
esto observe que hay un cierto comportamiento fricativo; el F2 de la aproximante [y] est
descendiendo al comienzo de la sonoridad de dicho fonema. Se presenta tambin el
139
espectrograma aplicando prenfasis y con rango frecuencial de 0 Hz a 7 kHz para observar con
mayor claridad la existencia de la seccin fricativa en esta interaccin.
0.3
0.2
Amplitud
0.1
0
-0.1
-0.2
-0.3
-0.4
0.85
0.87
0.89
0.91
0.93
Tiempo (s)
0.95
0.97
0.99
7000
6000
Frequency (Hz)
5000
4000
3000
2000
1000
0
0.85
0.89
0.93
0.97
1.01
1.05
Time (s)
140
141
0.8
0.6
0.5
0.4
0.4
0.3
0.3
0.2
0.2
0
Amplitud
0.2
Amplitud
Amplitud
0.4
0.5
0.1
0
-0.1
-0.2
-0.3
-0.3
1.51
1.53
1.55
1.57
1.59
1.61
Tiempo (s)
1.63
1.65
1.67
-0.4
-0.4
0.68
1.69
0.7
0.72
0.74
0.76
0.78
Tiempo (s)
0.8
0.82
0.84
-0.5
0.69
0.86
0.7
0.71
5000
5000
4000
4000
4000
3000
2000
1000
Frequency (Hz)
5000
Frequency (Hz)
Frequency (Hz)
-0.6
1.49
-0.2
-0.2
-0.4
0.1
-0.1
3000
2000
1000
0
1.49 1.53 1.57 1.61 1.65 1.69
Time (s)
0.72
0.73
0.74
0.75
Tiempo (s)
0.76
0.77
0.78
0.79
3000
2000
1000
0
0.68 0.72 0.76 0.8 0.84 0.88
Time (s)
0
0.62 0.66 0.7 0.74 0.78 0.82
Time (s)
La figura 10.12 muestra un ejemplo de una nasal seguida de una oclusiva sorda, se trata
de la transicin /nk/ proveniente de [inkali'] (esta casa). El espectrograma tiene prenfasis.
Sabemos que esta nasal y oclusiva se articulan en diferentes lugares, esto colabora para poder
diferenciar ms claramente la frontera entre ambos sonidos; observe que la frontera entre [n] y la
regin de cierre de [k] es claramente visible en el espectrograma. Esta frontera est indicada por
los formantes nasales F1 y F2, donde ambos se extinguen al mismo tiempo.
0.3
0.2
Amplitud
0.1
0
-0.1
-0.2
-0.3
0.5
0.52
0.54
0.56
0.58
0.6
Tiempo (s)
0.62
0.64
0.66
5000
Frequency (Hz)
4000
3000
2000
1000
0
0.42
0.49
0.56 0.63
Time (s)
0.7
142
0.68
El intervalo de cierre de una oclusiva despus de nasal vara mucho, puede ser muy corto
o inclusive casos donde no se diferencie de la nasal. Se presenta un ejemplo de esto en la
interaccin nasal-africada [n] de la figura 10.13, sta presenta un extracto de la palabra
[yekinin] (ahora). El segmento incluye una porcin de la vocal que precede al sonido nasal para
que se aprecie en el espectrograma (el cual tiene prenfasis) la distincin entre vocal y nasal. La
forma de onda muestra la ausencia del intervalo de cierre, pero es posible apreciar la liberacin
de la oclusin.
De acuerdo a Olive, resulta un fenmeno comn que las interacciones nasal-africada a
final de slaba carezcan de un intervalo de cierre e incluso del estallido. Lo anterior resulta
comprensible debido a que en el idioma ingls esos sonidos estn en posicin coda, en esa
situacin el escucha hace uso de su conocimiento contextual o de lxico para identificar la
secuencia nasal-africada. Olive agrega que este fenmeno tambin se presenta en la secuencia
/n/, la cual podra confundirse con /n/.
Como sabemos, la interaccin /n/ en el nhuatl slo puede darse a travs de slabas, por
lo que es de esperar que la africada // cuente con la mayor parte de sus rasgos al estar ubicada en
posicin onset. Esto tiene sentido ya que las realizacin que revis por lo general contaban con el
intervalo de cierre, y en los casos donde no se diferenciaba de la nasal s se poda observar el
estallido. Es decir, las africadas contaban con la mayora de sus rasgos caractersticos.
0.25
0.2
0.15
0
-0.05
-0.1
-0.15
-0.2
0.38
0.39
0.4
0.41
0.42
0.43
0.44
Tiempo (s)
0.45
0.46
0.47
0.48
5000
4000
Frequency (Hz)
Amplitud
0.1
0.05
3000
2000
1000
0
0.31
0.36
0.41 0.46
Time (s)
0.51
143
Frequency (Hz)
4000
3000
2000
1000
0
0.2
0.24
0.28
0.32
0.36
0.4 0.44
Time (s)
0.48
0.52
0.56
0.6
0.64
La figura 10.15 muestra las interacciones [l]-[s] y [l]-[] de las realizaciones [nokipil se
taiw] (mi hijo es un flojo) y [ne siwat itasal ooktik] (esa mujer tiene la ropa verde). Se ve que
las interacciones son a travs de palabras. Estas realizaciones fueron pronunciadas por distintos
hablantes masculinos. Los espectrogramas cuentan con prenfasis e incluyen tanto a las
consonantes en inspeccin como las vocales que las rodean; esto ha sido as ya que se observa
una mayor interaccin entre la lateral con la vocal despus de fricativa que con la misma
fricativa. Razn de esto es el movimiento de los formantes F1 y F2 de cada [l] para alcanzar a los
de la vocales [e], [o] despus de [s] y [] respectivamente. Observe que la duracin de cada fono
lateral es muy diferente y que gradualmente la forma de onda, que muestra un segmento de lateral
y fricativa, se va contaminando con los rasgos de la fricativa, sobre todo en la interaccin [l][s].
144
0.08
0.5
0.06
0.4
0.3
0.04
0.2
Amplitud
Amplitud
0.02
0
-0.02
-0.2
-0.06
-0.3
0.92
0.94
0.96
0.98
Tiempo (s)
1.02
-0.4
1.21
1.04
5000
5000
4000
4000
Frequency (Hz)
Frequency (Hz)
0
-0.1
-0.04
-0.08
0.9
0.1
3000
2000
1000
0
0.8
1.22
1.23
1.24
1.25
1.26
Tiempo (s)
1.27
1.28
1.29
1.3
3000
2000
1000
0.86
0.92
0.98
Time (s)
1.04
1.1
1.16
0
1.2
1.22
1.24
1.26
i. [l]-[s]
1.28
1.3
Time (s)
1.32
1.34
1.36
1.38
ii. [l]-[]
Figura 10.15: Interacciones lateral - fricativa
145
Frequency (Hz)
4000
3000
2000
1000
0
0.24
0.3
0.36
Time (s)
0.42
146
11. Variaciones
11. VARIACIONES
En secciones previas se han presentado los correlatos acsticos del nhuatl de San Miguel
Tzinacapan; tambin se ha ilustrado como estos correlatos acsticos cambian en el tiempo en la
combinacin de fonemas. Por lo general se presentaron ejemplos con segmentos de sonido bien
formados cuyas propiedades acsticas cuentan con la mayora de los rasgos distintivos del
fonema en estudio; para estos ejemplos tambin se tom en cuenta que dicho segmento de sonido
fuera buen representante de las realizaciones de todos los hablantes. De esta manera se procur
presentar la tendencia de los fenmenos relacionados con los fonemas en su interaccin con
otros. Cabe mencionar que hubo algunas excepciones y se presentaron algunas variaciones o
casos excepcionales que resultaban convenientes para incluir en este estudio y as clarificar
algunos fenmenos o advertir de la presencia de otros.
Si las seales de voz fueran siempre bien comportadas, estables, con atributos acsticos
fcilmente identificables, las confusiones en la comunicacin rara vez ocurriran; ms an, los
problemas en las tecnologas del habla como reconocimiento y sntesis de voz seran fcilmente
identificables y resueltos. Sin embargo la seal de voz natural es extremadamente variable como
ha podido apreciar a lo largo de este estudio. An si las variaciones a causa de la edad,
caractersticas anatmicas y otros factores pudieran ser eliminados, habra an variacin en la
seal de voz debido a que incluso el mismo hablante nunca producir la misma combinacin de
fonemas de manera idntica en cada ocasin.
Uno de los sonidos extraordinariamente variable en el nhuatl es la fricativa glotal /h/
debido a que depende enormemente del contexto en el que se produce. Es decir, su realizacin es
muy flexible y sus propiedades cambian cuando ocurre en diferentes ambientes.
En esta seccin se presentarn variaciones que fueron encontradas durante la realizacin
del estudio fontico. Como se ha dicho algunas variaciones importantes ya fueron reportadas, por
lo que se mencionarn algunas otras.
147
11. Variaciones
5000
0.3
4000
Frequency (Hz)
Amplitud
0.2
0.1
0
3000
2000
-0.1
1000
-0.2
-0.3
0.2
0.25
0.3
0.35
0.4
Tiempo (s)
0.45
0.5
0.55
0
0.2 0.27 0.34 0.41 0.48 0.55
Time (s)
148
11. Variaciones
5000
5000
4000
4000
Frequency (Hz)
Frequency (Hz)
La figura 11.2 muestra los espectrogramas de los segmentos [kan] y [ka] extrados de las
realizaciones [nikan] y [nika] pronunciadas por dos hablantes distintos. Se aplic prenfasis a los
espectrogramas. Es completamente notorio que la realizacin que carece de /n/ no cuenta con
rasgos nasales en la vocal, es decir, la presencia de un formante nasal por debajo de F1. El
espectrograma de [kan] muestra todas las caractersticas de la nasal: mltiples resonancias
manifestadas por una estructura formntica en [n] y presencia del formante nasal en la vocal
adyacente por efectos de coarticulacin.
3000
2000
1000
3000
2000
1000
0
0.5 0.61 0.72 0.83 0.94 1.05
Time (s)
0
0.54 0.65 0.76 0.87 0.98 1.09
Time (s)
i. [kan]
ii. [ka]
Figura 11.2: Extractos de las realizaciones [nikan] y [nika]
Para hacer una ltima inspeccin se presentan en la figura 11.3 los espectrogramas de la
vocal final de las realizaciones [tonali] (sol) y [pokti'] (humo) pronunciadas por la misma
hablante. La realizacin [pokti'] indudablemente no tiene nasal al final y resulta til para hacer
una comparacin con la otra realizacin, observe que es posible sospechar la presencia de un
comportamiento nasal en [tonali] debido a que aparentemente hay un formante nasal en la vocal,
es ms notorio al final de ella; mientras que en [pokti'] no se observa este fenmeno. Esto nos da
una pista para determinar si hay nasalizacin a final de palabra (vocal nasal) a pesar de la
ausencia del cierre nasal para producir /m/ o /n/.
149
5000
5000
4000
4000
Frequency (Hz)
Frequency (Hz)
11. Variaciones
3000
2000
2000
1000
1000
0
0.8 0.85 0.9 0.95
Time (s)
i. [i]
150
3000
1.05
0
0.46 0.48 0.5 0.52 0.54 0.56
Time (s)
ii. [i]
Figura 11.3: Extractos de las realizaciones [tonali] y [pokti']
11. Variaciones
Frequency (Hz)
4000
3000
2000
1000
0
0.44
0.48
0.52
0.56
0.6
Time (s)
0.64
0.68
0.72
0.76
0.75
0.79
hablante masculino
5000
Frequency (Hz)
4000
3000
2000
1000
0
0.47
0.51
0.55
0.59
0.63
Time (s)
0.67
0.71
hablante femenino
Figura 11.4: Comparacin de hablantes diferentes
151
11. Variaciones
152
12. ENTRENAMIENTO Y
RECONOCIMIENTO DE VOZ
A continuacin se describe el sistema de reconocimiento de voz, de palabras aisladas y
dependiente del locutor utilizando MSBC (Multisection Bookcode). Este sistema se program en
una computadora personal (PC). El Laboratorio de Procesamiento de Voz de la Facultad de
Ingeniera de la UNAM cuenta con una larga trayectoria en el rea de reconocimiento de voz, por
lo que el autor reconoce la contribucin en esta etapa del trabajo de tesis de la experiencia
adquirida por el laboratorio a travs de las siguientes publicaciones y que se recomienda al lector
interesado consultar: [Her95] en lo que respecta a deteccin de inicio y fin de palabra, [Her00] y
[Her01-01] en lo que respecta a reconocimiento por VQ, [Her01-02] en lo referente a
preprocesamiento, y [Nie03] sobre temas varios de reconocimiento de voz.
El sistema de entrenamiento se divide en dos etapas: entrenamiento y reconocimiento. La
etapa de entrenamiento obtiene los patrones de referencia de un conjunto de palabras
(repeticiones) de entrenamiento. La etapa de reconocimiento emplea el conjunto de patrones de
referencia y a travs de medidas de distorsin entre dicho conjunto y la palabra de entrada en esta
etapa, determina la palabra reconocida.
Las figuras 12.1 y 12.2 ilustran los diagramas de bloques que muestran, de forma general,
los procesos que se realizaron en el entrenamiento y reconocimiento de palabras aisladas,
respectivamente.
Como se observa en los diagramas, existe un mdulo comn en ambas etapas: el
preprocesamiento. Por esta razn, el preprocesamiento se manejar como un mdulo
independiente, para efecto del anlisis.
Como se muestra en la figura 12.1, durante la etapa de entrenamiento se capturan
diferentes seales de voz, a la que denominaremos repeticiones de palabras. A cada repeticin se
le aplica preprocesamiento para obtener una palabra delimitada. Posteriormente, se agrupan todas
las palabras recortadas y con ellas se obtienen sus centroides correspondientes. Estos centroides
se guardan en un archivo para posteriormente cargarlos en memoria al ejecutar el reconocedor.
En la etapa de reconocimiento, como se observa en la figura 12.2, se captura la palabra
que se desea reconocer. A esta palabra, tambin se le aplica preprocesamiento, para recortarla.
Utilizando los centroides, calculados durante el entrenamiento y almacenados en la memoria, se
realizan las comparaciones necesarias, para efectuar el reconocimiento. El xito del evento
depender de ciertos parmetros estadsticos obtenidos mediante el anlisis de una poblacin de
resultados.
153
voz
preprocesamiento
Entrenamiento
Repetici
ones de
palabras
Centroides
Memoria
voz
preprocesa- x(n)
miento
Reconocimiento
Ind.
palabra
Palabra
reconocida
Centroides
Memoria
12.1 Preprocesamiento
El preprocesamiento consta de los siguientes mtodos:
1. Filtrado paso bajas y submuestreo. Esto fue llevado a cabo con el fin de analizar el
rango frecuencial ms importante de la seal de voz (0-5kHz) (e incluso eliminar ruidos
de altas frecuencias) as como procesar un menor nmero de muestras. Se emple un filtro
Chebyshev tipo II de orden 24 con frecuencia de banda de rechazo (stopband) de 5,512
Hz. Tras el filtrado, la seal de voz fue submuestreada por un factor de 4 (conservando
cada cuarta muestra empezando desde la primera de la seal de entrada). De esta manera
la frecuencia de muestreo final se modific de 44,100 Hz a 11,025 Hz. Cabe mencionar
que el filtro paso bajas adems evita el efecto de traslape espectral.
2. Prenfasis. Con el fin de realzar las frecuencias altas presentes en la voz, donde a=0.95.
3. Determinacin de los lmites de la seal de voz. Se emple el algoritmo de deteccin de
inicio y fin de palabra.
154
4. Divisin de la seal en tramas de 256 muestras (23.22 ms), a cada trama se le aplica
una ventana de tipo Hamming, para suavizar el espectro. El traslape entre ventanas es de
un 15%, por ende el corrimiento es de 218 muestras (19.77 ms).
La figura 12.3 muestra el diagrama de bloques para este mdulo.
fc = 5.5 kHz
Voz s(t)
fs2 = 11 kHz
Filtro sn(n)
Convertidor s(n)
paso bajas
A/D
/ Subfs1 = 44.1 kHz
muestreo
a = 0.95
256
muestras
xr (n)
155
12.2 Entrenamiento
Para el entrenamiento, se deben capturar diversas palabras recortadas, por medio del mdulo de
preprocesamiento, que representan las diferentes repeticiones. A partir de estas repeticiones, se
obtiene un conjunto de centroides que se guardan en un archivo y cargarlos en memoria al
ejecutar el reconocedor.
Los archivos de palabras, previamente almacenados, son utilizados para aplicarles varios
procesos a cada uno. Primero se determinan sus vectores de autocorrelacin para obtener los
coeficientes de prediccin lineal. Enseguida, estos coeficientes son segmentados linealmente en 4
partes. Se sigue el mismo procedimiento para todas las repeticiones de una misma palabra.
Posteriormente, una vez que se tienen segmentadas todas las repeticiones, se agrupan en
conjuntos del mismo segmento. Para cada conjunto se obtienen centroides, que representarn al
segmento. Finalmente, estos centroides son guardados en un archivo para su posterior empleo. La
figura 12.4 esquematiza el proceso completo del entrenamiento. Los centroides/vectores de
referencia se almacenaron en archivos independientes.
Autocorrelacin
rmp(l)
Anlisis
LPC
amp(n)
Segmentacin
seg(k)
Cuantizacin
Vectorial
(K-Medias)
Centroides
Archivos
de
palabras
Archivos de
centroides
Figura 12.4 Mdulo de Entrenamiento
El entrenamiento, es la etapa que nos permite obtener los patrones de comparacin, para
las seales de voz. Consta de los siguientes mdulos: autocorrelacin, anlisis LPC,
segmentacin y cuantizacin vectorial.
156
12.3 Reconocimiento
El reconocimiento, recibe las tramas de una seal de voz, proveniente del preprocesamiento, para
efectuar comparaciones con los centroides y obtener un indicador a la palabra reconocida.
Cada trama recibida es utilizada para calcular su autocorrelacin y sus coeficientes de
prediccin lineal. Este proceso se repite hasta que el preprocesamiento detecta el fin de la
palabra. Una vez detectado el final, se segmentan los vectores LPC y los vectores de
autocorrelacin correspondientes, de forma lineal, nuevamente 4 partes, y con segmentos iguales
al patrn de comparacin. Con cada segmento se realiza una comparacin, utilizando la distancia
de Itakura, con los centroides que correspondan al mismo segmento.
El resultado de esta comparacin, aunado con ciertos parmetros estadsticos, determina
el xito o fracaso del reconocimiento. La figura 12.5 muestra el diagrama de bloques del
reconocimiento.
xr (n)
Ind.
p
a p(n) Segmentacin amp(n,l) Comparacin
Autocorre rm (n) Anlisis m
palabra
p
r
(n.l)
m
lacin
LPC
(lineal 4)
(Dist Itakura)
Palabra
reconocida
Centroides
Memoria
Figura 12.5: Mdulo de Reconocimiento
El reconocimiento permite identificar una seal de voz similar a ciertos patrones definidos
previamente. Consta de los siguientes mdulos: autocorrelacin, anlisis LPC, segmentacin y
comparacin.
157
12.4 Resultados
Para efectuar el reconocimiento de una palabra en particular, se emplearon 8 repeticiones de ella
por cada uno de los 11 hablantes. Es decir que en total se tenan 88 pronunciaciones de esa
palabra y que se emplearon en el reconocedor.
Adicionalmente se prob la confiabilidad del sistema reconociendo las mismas
repeticiones que se emplearon para el entrenamiento; es decir, 12 repeticiones pronunciadas por
cada uno de los 11 hablantes, en total 132 pronunciaciones. Reconocer las mismas realizaciones
del entrenamiento es conocido como lmite superior (upperbound).
Como se explic, el reconocimiento se lleva a cabo calculando las distancias de la palabra
a reconocer extrayendo su respectiva informacin: valores de autocorrelacin, coeficientes LPCcon los centroides del diccionario que fueron previamente calculados por el mtodo de K-medias.
Por lo tanto, cada pronunciacin que ingres al sistema fue comparada con el diccionario de 61
palabras.
Cabe mencionar que el diccionario incluye palabras fonticamente semejantes, inclusive
algunos pares mnimos.
En las siguientes pginas se presentan las matrices de confusin del sistema de
reconocimiento tanto del lmite superior como de las nuevas realizaciones. Se ha preferido
emplear la traduccin al espaol para una consulta ms rpida. Las matrices se interpretan de la
siguiente manera: los renglones indican las pronunciaciones que entraron al sistema de
reconocimiento, las columnas indican las palabras reconocidas. Por ejemplo, de 88 repeticiones
de la palabra [mo'], 87 fueron reconocidas correctamente, mientras que 1 fue reconocida
equivocadamente como [:t] (agua).
158
agua
alguien
all
blanco
caliente
casa
cierto
cinco
comida
con
cunto
cuatro
despedida
da
difcil
dnde
dos
l / ella
l quiere
falso
fro
fuego
humo
joven
lejos
maana
mentiroso
mi cabeza
mi esposa
mi hijo
mi mam
mi pap
mosquito
muerto
negro
nio
no (amo)
no (kana)
pjaro
pasado
maana
por qu
qu
quizs
rojo
saludo
sangre
su cabeza
su pierna
tengo hambre
tengo sed
tienes sed
tierra
todava no
tres
t
tu cabeza
tu quieres
uno
yo
yo como
yo quiero
14
15
16
17
da difcil dnde dos
18
19
20
21
22
23
24
25
26
27
28
29
30
l /
l
falso fro fuego humo joven lejos maana mentiroso
mi
mi
mi
ella quiere
cabeza esposa hijo
132
132
131
1
131
1
132
132
131
132
132
131
131
132
132
132
132
1
131
132
131
123
1
131
132
131
132
132
130
132
132
121
132
132
11
6
159
55
t
56
57
58 59
60
61
tu
tu
uno yo
yo
yo
cabeza quieres
como quiero
1
7
11
132
8
124
131
1
132
132
131
1
132
132
132
132
132
131
132
132
132
132
132
132
132
132
5
127
131
132
131
132
1
120
118
8
132
132
132
160
125
agua
alguien
all
blanco
caliente
casa
cierto
cinco
comida
con
cunto
cuatro
despedida
da
difcil
dnde
dos
l / ella
l quiere
falso
fro
fuego
humo
joven
lejos
maana
mentiroso
mi cabeza
mi esposa
mi hijo
mi mam
mi pap
mosquito
muerto
negro
nio
no (amo)
no (kana)
pjaro
pasado
maana
por qu
qu
quizs
rojo
saludo
sangre
su cabeza
su pierna
tengo hambre
tengo sed
tienes sed
tierra
todava no
tres
t
tu cabeza
tu quieres
uno
yo
yo como
yo quiero
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
agua alguien all blanco caliente casa cierto cinco comida con cunto cuatro despedida da difcil dnde dos l / ella
88
88
86
1
88
88
86
85
87
88
1
85
88
88
1
87
87
88
84
88
83
19
20 21
22
23
24
25
26
27
28
29
30
l quiere falso fro fuego humo joven lejos maana mentiroso mi cabeza mi esposa mi hijo
1
1
77
1
86
88
88
88
88
86
1
88
88
67
88
88
1
1
1
2
1
11
9
161
1
1
2
5
21
88
88
88
88
88
85
87
88
88
88
88
87
87
88
88
88
86
88
88
83
5
5
83
87
86
82
87
77
69
10
88
86
88
10
162
73
agua
alguien
all
blanco
caliente
casa
cierto
cinco
comida
con
cunto
cuatro
despedida
da
difcil
dnde
dos
l / ella
l quiere
falso
fro
fuego
humo
joven
lejos
maana
mentiroso
mi cabeza
mi esposa
mi hijo
mi mam
mi pap
mosquito
muerto
negro
nio
no (amo)
no (kana)
pjaro
pasado maana
por qu
qu
quizs
rojo
saludo
sangre
su cabeza
su pierna
tengo hambre
tengo sed
tienes sed
tierra
todava no
tres
t
tu cabeza
tu quieres
uno
yo
yo como
yo quiero
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
Es claro que el principal problema en el lmite superior se debi a las palabras con pares
mnimos y gran semejanza fontica.
Anlisis del reconocedor
Se sigue el mismo procedimiento que en el anterior anlisis, ahora con nuevas pronunciaciones,
para el caso de palabras con 4 o ms repeticiones mal reconocidas. Los datos se presentan en la
tabla 13.2.
Palabra (traduccin)
Palabra(s) con la(s) que hubo confusin
[noontko] (mi cabeza)
[moontko]
[tiknki'] (tu quieres)
[niknki'], [kinki']
[niknki'] (yo quiero)
[tiknki'], [kinki']
[moontko] (tu cabeza)
[noontko]
[kinki'] (el quiere)
[tiknki'], [niknki']
[yi'] (tres)
[key] (por qu), [tiamki'] (tienes sed), [pli'] (nio)
[tiamki'] (tienes sed)
[niamki']
[niamki'] (tengo sed)
[tiamki']
[yh] (l, ella)
[niknki'], [nh] (yo), [niamki'], [miket]
[kni'] (dnde)
[kanli'] (falso)
Tabla 13.2: Palabras con mayores problemas de reconocimiento (reconocedor)
163
164
13. Conclusiones
13. CONCLUSIONES
En este trabajo se ha presentado la fontica-acstica del nhuatl de San Miguel Tzinacapan,
tambin se desarroll un reconocedor de comandos de voz para el dialecto, de dicha lengua,
hablado en dicha localidad. Para realizar esta tarea se tuvo que adquirir la materia prima
realizando las grabaciones directamente en este poblado ubicado en la Sierra Norte del Estado de
Puebla. Es muy valioso conocer el sistema fonolgico de esta lengua para as formular un
cuestionario que contenga todos los sonidos lingsticos existentes. Sin embargo, para realizar un
estudio fontico-acstico es importante tener claridad sobre las interacciones de inters de los
sonidos lingsticos y procurar que el cuestionario tome esto en cuenta tambin.
Esta labor pudiera ser complicada en el caso de lenguas que no han sido muy estudiadas;
an as, aunque se trate de una lengua estudiada, pueden existir dialectos de dicha lengua de los
que tenga poca informacin. Afortunadamente se cont con diversas fuentes de consulta para este
trabajo.
Por otra parte, cabe resaltar que la labor de preprocesamiento de las grabaciones, en
especial la segmentacin, toma un tiempo considerable. Por ejemplo, el algoritmo de inicio y fin
de palabra presentado en secciones pasadas tuvo que modificarse para que detectara varios inicios
y fines de palabras debido a que cada archivo de audio original contena varias repeticiones. La
meta era que cada repeticin se guardara en un archivo diferente para ir creando el corpus o base
de datos. Es muy conveniente realizar ajustes al algoritmo mencionado por las razones descritas
en la seccin 3.2.3. Con estos ajustes se lleg a un detector (y segmentador) ms preciso de
varios inicios y fines de palabras para ambientes relativamente controlados; pero no se lleg a un
detector infalible, pues la variacin del ruido de fondo en segmentos de silencio y la variacin de
las propias pronunciaciones ocasionalmente orillaban a falsas detecciones, aunque ciertamente
muy pocas.
Dado lo anterior, para un vocabulario de 61 palabras, 11 hablantes y al menos 20
repeticiones, se emplearon 13420 pronunciaciones que fueron guardadas independientemente en
el mismo nmero de archivos.
A continuacin se presentan conclusiones ms especficas sobre los dos temas principales
de este trabajo.
165
13. Conclusiones
166
13. Conclusiones
Surgen varias recomendaciones para trabajos futuros, una de ellas es analizar el acento,
averiguar si hay diferentes grados del mismo o quizs, a pesar de que se sabe que en el nhuatl la
penltima slaba es la acentuada, el acento se distribuya en sonidos vecinos. Otro trabajo futuro
podra ser el anlisis de los elementos suprasegmentales del nhuatl (p.e. la entonacin), para esto
resultara conveniente grabar oraciones procurando que haya un alto grado de espontaneidad en
las pronunciaciones.
Tambin podra realizarse el estudio fontico-acstico de las variaciones dialectales de la
lengua nhuatl. Esto es un trabajo muy amplio, por lo que sera posible acotarlo concentrndose
en fonemas que sean de mayor inters.
En cuanto a tecnologas de procesamiento de voz, la informacin obtenida del presente
estudio fontico-acstico del nhuatl podra incorporarse al desarrollo de sistemas de conversin
de texto a habla (sntesis de voz) as como la creacin de diccionarios de unidades acsticas. En
lo que respecta a sistemas de reconocimiento de voz, a travs del presente estudio fonticoacstico se pueden determinar las unidades de reconocimiento si se planteara que el sistema sea
sensible a los fonemas del nhuatl.
167
13. Conclusiones
168
13. Conclusiones
habla entre el espaol de Mxico y el nhuatl; este proyecto est fuertemente considerado por el
Laboratorio de Procesamiento de Voz de la Facultad de Ingeniera de la UNAM.
169
13. Conclusiones
170
Apndices
APNDICES
Apndice 1. Cuestionario
Se presenta el cuestionario elaborado. Note que hay palabras que no fueron consideradas en el
diccionario del reconocedor, esto es debido a varias razones: no se contaba con el suficiente
nmero de repeticiones o de hablantes; tambin hubo variaciones pero no alcanzaban el nmero
suficiente para incorporarlas al reconocedor. Tambin observe que se grabaron algunas
oraciones; sin embargo, como no fueron empleadas para el reconocedor, se grabaron con un
nmero de hablantes y repeticiones limitados.
Como indica Launey [Lau92], la ortografa nhuatl nunca ha sido fijada realmente, por
esta razn se ha preferido nicamente emplear la transcripcin fontica.
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
Espaol
lluvia
camino
fuego
agua
tierra
comida
casa
hombre
mujer
mi esposo
mi esposa
mi mam
mi pap
mi hijo (para nio pequeo)
nio
no
no
s
fro
caliente
joven
difcil
fcil
humo
sol
luna
da
noche
alacrn
Nhuatl (Fontico)
[kiwit]
[hti'] [hti]
[tt]
[:t]
[t:l]
[taplo:l]
[kli] [kli']
[tkat] [tgat]
[swat]
[notkaw]
[noswaw]
[nma] [nom]
[npa] [nop]
[nopli']
[pli']
[kna]
[mo']
[kma]
[ssek]
[totnik]
[okpil]
[wi]
[mo wi]
[pkti'] [pkti]
[tonlin] [tonli]
[mti'] [msti']
[tnal]
[ywak]
[klot]
171
Apndices
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
172
rbol
sangre
pjaro
mosquito
yo como
tu comes
yo bebo
tu bebes
tienes sed
quizs
alguien
ahora
todava no
con
as
dnde
cunto
qu
quin
por qu
saludo local
despedida local
gracias
mi cabeza
tu cabeza
su cabeza
mi brazo
tu brazo
su brazo
mi pierna
tu pierna
su pierna
uno
dos
tres
cuatro
cinco
aqu
all
cerca
lejos
ayer
hoy
maana
antier
pasado maana
[kwit] [kwwit]
[sti']
[kte]
[myot]
[nitkwa']
[titkwa']
[niti'] [nityi']
[titi'] [tityi']
[tiamki']
[:it]
[aks']
[yeknin] [yekni]
[k:ya']
[ka']
[ihk] [ihkn]
[kni']
[kani'] [kani]
[tni']
[akni']
[key]
[niw]
[timta]
[tasohkamtik]
[noontko]
[moontko]
[iontko]
[nomi] [nmai]
[momi] [mmai]
[imi] [mai]
[nme]
[mme]
[me]
[s']
[me']
[yi']
[nwi']
[mkwil]
[nka] [nkan]
[npa']
[kawhka'] [mo whka']
[whka']
[ylwa']
[ma] [man]
[msta']
[yawpta']
[wpta']
Apndices
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
92
94
96
97
98
99
100
101
102
103
104
105
106
107
108
109
110
111
112
113
yo
t
l/ella
nosotros
ustedes
ellos
yo quiero
tu quieres
l quiere
dnde est la olla?
tengo sed
tengo fro
muerto
tengo hambre
te dijo
me dijo
le dijo
mentiroso
cierto
falso
estoy enfermo
negro
rojo
azul
blanco
amarillo
verde
caf
dnde vives?
vivo en San Miguel Tzinacapan
y
buenos das
buenas tardes
aydeme
no lo s - no entiendo
[nh]
[th]
[yh]
[thwan] [thwa]
[namhwan] [namhwa]
[yhwan] [yhwa]
[niknki']
[tiknki']
[kinki']
[kni ytok kmit]
[niamki']
[niskwi']
[mket]
[nimayna']
[mili] [milwi]
[netli] [netlwi]
[kli] [klwi]
[olpi]
[nli']
[kanli']
[nimokokwa']
[tltik]
[iltik]
[ilwiktik]
[stak]
[kstik]
[xoxktik]
[tltik]
[kanintinmi'] [kanitinmi'] [kantinmi']
[ninmi san migl inakpan]
[wan]
[takahti]
[tiotki]
[xinepalwi']
[mo nikmti']
[mo nitahtwa' koyothtol] [mo
nitahta koyothtol]
[noknew]
[nisiwtok]
[tityis tepin :t]
[yk wi in tkit ti tikiwtoke]
[yk wyi n kwit
[n tkat yk nmi]
[ka:ni niptiw in tsal]
[n swa:t itsal oktik]
173
Apndices
Correspondencia
cl
co
er
es
fr
jh
li
mi
ne
qu
vi
yo
Apndices
Apndices
Apndices
Apndices
178
Referencias
REFERENCIAS
[Ace01]
[Are06]
[Ba]
Diccionario Nahuatl-Espaol.
Bauelos, Juan.
Escuela Telesecundaria Tetsijtsilin.
59 pp.
Sin ao, Mxico.
[Can88]
[Cas00]
[Coh94]
[Col92]
179
Referencias
Technical Report CSE 92-014, Oregon Graduate Institute of Science & Technology
Portland, Oregon, EUA.
Septiembre, 1992.
[Cor90]
Los nahuas.
Corts, Gabriela.
Universidad de Mxico. Revista de la Universidad Nacional Autnoma de Mxico.
Vol. XLV, No. 477.
Pg. 2428.
Octubre, 1990.
Mxico.
[Del87]
[Dut97]
[Fan95]
Alphabet recognition.
Handbook of Neural Computation.
Fanty, M; Barnard, E.; Cole, R. A.
Editorial desconocida.
Ao 1995.
[Ger97]
[Her95]
[Her00]
Referencias
Pgs. 1133-1136.
2000.
[Her01-01]Reconocimiento automtico de palabras aisladas usando VQ y la KLT.
Herrera, A.; Gardida, A.
Memorias del Simposio La Investigacin en la Facultad de Ingeniera 1999.
Facultad de Ingeniera, UNAM.
Diskette 1.
2001.
[Her01-02]Reconocimiento automtico de palabras aisladas usando DTW.
Herrera, A.; Ibarra, R.
Memorias del Simposio La Investigacin en la Facultad de Ingeniera 1999.
Facultad de Ingeniera, UNAM.
Diskette 1.
2001.
[Hor92]
[Jak87]
[Ken79]
Referencias
[Lad75]
[Las86]
[Lau92]
[Med90]
[Nie03]
[Oli93]
182
Referencias
[Opp00]
[Osh00]
[Pal94]
[Qui92]
[Qui99]
[Rab78]
[Rab93]
[Sem1]
Referencias
[Web]
[Zue90]
Sitios de internet.
[Cdi]
Qu lengua hablas?.
Comisin Nacional para el Desarrollo de los Pueblos Indgenas.
Mxico.
http://www.cdi.gob.mx/conadepi/index.php?option=news&task=viewarticle&sid=107
[Deu]
[Dis]
El odo.
Discapnet.
http://usuarios.discapnet.es/ojo_oido/los_padres_del_ni%C3%B1o_sordo.htm
[Lli05]
Corpus Orales.
Llisterri, Joaquim.
Curso impartido en la UNAM, enero 2005.
http://homepage.mac.com/joaquim_llisterri/language_resources/UNAM_05/UNAM_0
5.html.
[Mag01]
Referencias
[Pra]
[San06]
[Sil1]
[Sil2]
What is a syllable?.
Summer Institute of Linguistics.
http://www.sil.org/LINGUISTICS/GlossaryOfLinguisticTerms/WhatIsASyllable.htm
[Sil3]
185