Professional Documents
Culture Documents
del habla
El reconocimiento de voz por computadora mejora constan que se producen estos picos reciben el nombre de
temente, pero todavía no puede igualar la capacidad de las per Cada vocal tiene una serie característica -de
sonas para hacerlo. Las computadoras funcionan bien cuando El primer formante tiene la frecuencia más baja, el,
una persona habla despacio y con claridad, y no hay ruido de formante es el más alto, y así sucesivamente.
fondo. Pero los seres humanos podemos percibir el habla en una de la vocal /ae/ (el sonido de la vocal en la palabra
amplia variedad de condiciones, incluyendo la presencia de rui del verbo tener en inglés]) se muestra en el es¡)ec:tr<>lrr·aola
dos de fondo diferentes, una pronunciación descuidada, los dis sonido o sonograma de la figura 13.3. El
tintos dialectos y acentos de la gente y las concesiones mutuas a
menudo caóticas que habitual menee se dan las personas cuando
hablan entre ellas (Sinha, 2002; Zue y Glass, 2000).
Este capítulo le ayudará a apreciar los complejos problemas
perceptuales planteados por el habla y describirá la investiga
ción que nos ha permitido comenzar a entender cómo el sis
tema de percepción del habla humana ha resuelto algunos de
estos problemas.
312:: �CAPfTÜLO 13
'
- .• • :>
Percepción del habla
• ·,
Esquema del tracto vocal
trazado a partir de una
Cambios
imagen de rayos X de la boca
de presión
.
Figura 13.2 1 Izquierda: forma del tracto vocal para los-
sonidos de las vocales /i/ y /u/. Derecha: amplitud de
los cambios de presión producidos para c �da vocal.
Los picos en los cambios de presión son los formant�s:.
El sonido de cada vocal tiene un patrón c aracterístico de '·
formantes que está determinado por la forma del tra�tó
vocal para esa vocal. (De Oenes, P. B. y Pinson, E. N.,
The speech chain, 2a. ed. Copyright© 1993 por W. H.
Freeman and Company. Reproducido con permiso.)
mos en los sonidos /d/ y /f/ (los sonidos del habla se i ndican
por medio de las diagonales que los encierran). Pronuncie-es
tos sonidos y preste atención a lo que sucede con su lengua,
sus labios y dientes. Cuando produzca el sonido /d/, coloque
la lengua contra la cresta que está encima de los dientes supe
riores (el reborde alveolar de la figura 13.1) y luego suelte una
leve ráfaga de aire, mientras retira la lengua del reborde alveo
lar (inténtelo). Cuando produzca el sonido /f/, coloque su labio
inferior contra los dientes frontales superiores y luego empuje
el aire entre los labios y los dientes.
Estos movimientos de la lengua, los labios y otros articu
ladores crean patrones de energía en la señal acústica que
observamos en el espectrograma de sonido. Por ejemplo, el
espectrograma de la frase "Roy read the will" (Roy lee el tes
tamento), que aparece en la figura 13.4, muestra aspectos de la
señal asociada con las vocales y consonantes. Las tres bandas
"Had"
horizontales marcadas como Fl, F2 y F3 son los tres formantes
ra 13.3 1 Espect rogram a de la palabr
a had que asociados con el sonido /e/ de read. Los rápidos cambios en l�
los forman tes primero (F1), segun do (F2) y tercero
frecuencia que preceden o anteceden a los formantes se d.eno
sonido de la vocal ingles a /ae/. (Espectrograma
minan transiciones de formantes y se asocian con las· <:onso:
de Kerry Green.)
nantes. Por ejemplo, T2 y T3 son las transiciones de formantes
asociadas con la /r/ de read.
patrón de frecuen cias e intensi dades en el tiempo que Hemos descrito las características físicas de los estímulos
,•.,..�........,
la señal acústic a. La frecuen cia se indica en el eje del habla. Para comprender la percepción del habla, debemos· con·
Y el tiempo en el eje horizo ntal; la intensi siderar las unidades básicas del habla.
dad se indica
·_ oscura s, las más oscura s denota n mayor intensi dad.
figura 13.3 vemos que los forman tes son concentraciones
.
en frecuen cias específicas, en las que el sonido jae/ Unidades básicas del habla
formantes en 500, 1 700 y 2 500 Hz. Las líneas verticales Nuestra primera tarea en el estudio de la percepción del h�- ,
son oscilac iones de la presión causad as por bla es separar los sonidos del habla en unidades m_i n�jábles.
-·�·-�o...•v•u:;:, de la cuerda vocaL
¿Cuáles son estas unidades? ¿El flujo de un enunciado? ¿UIJ.a.
consonantes se producen por el estrechamie nto o cierre palabra en particular? ¿Una sílaba? ¿El sonido de imale,traf.,
vocaL Para ilustrar cómo ocurre esto nos centrar e- Un enunciado es una unidad demasiado grande- para facilitár
'
.. 4000
Ñ
:X:
.-
111
3000
ü
·e:
G)
:l
o
f 2000
u.
1000
o
R o y r e a d w
los fonéticos que denotan los sonidos del habla. En español, los
fonemas vocálicos son cinco, pero en otros idiomas pueden ser
más. Por ejemplo, en inglés algunas vocales tienen más de una
pronunciación, por lo que hay más sonidos que letras para las
vocales. Por ejemplo, la vocal o suena diferente en boat y hot, y
la vocal e suena diferenre en head y heed. Por consiguiente, los fo sílabas que se combinan para formar palabras. Estas
nemas no se refieren a las letras, sino a los sonidos de la voz que palabras parecen estar ensartadas una tras otra
sirven para distinguir el significado de lo que dice la geme. en un collar. Por ejemplo, percibimos la frase "la
Dado que los disrintos idiomas utilizan sonidos diferemes, fácil" como la secuencia de unidades " la-per-cep-ción
el número de fonemas varía según el idioma. Por ejemplo, en Pero aun cuando la percepción del habla pareciera sólo
hawaiano sólo hay 11 fonemas, mientras que en inglés estado de procesar una serie de sonidos discretos que se.
unidense se han idemificado 47 y en algunos idiomas africanos rras otro, la situación real es mucho más compleja.
hasta 60; el español tiene 24 fonemas. Así, los fonemas se defi En vez de seguir uno después de otro, es decir,
nen en función de los sonidos que se utilizan para pronunciar de una señal sonora vaya seguido del principio de
las palabras en un idioma específico. las !er ras en una página, las señales de los s
Parecería que, una vez idemificado el fonema corno la unidad se superponen enrre sí. Además, el patrón de
básica del habla, podríamos describir la percepción del habla en presión del aire para una palabra determinada puede
términos de las cadenas de fonemas. De acuerdo con esta idea, cho dependiendo de si la persona que habla es hom
percibimos una serie de sonidos llamados fonemas, que crean joven o anciana, lo hace rápido o despacio, o tiene
<LUUO..usté(l . . ,
tre los fonemas dice bate, no redondea los labios, pero C!J.an Ó d dkÚohi;' ií �':Kti� :�:;"
. ' . ·
) hí}�Jf¡�.:}O;.
señal acústica aunque la /b/ es la m1sma en ambas palabras se ai"ticúla
..
d�fua:
nera diferente en cada una. En este ejemplo, la�rncula�lóg
·· ·
�de:JÓ/'
problema principal que los investigadores enfrentan al era en bote se superpone a la articulación de /b/, prov,ocando'que k
encender la percepción del habla es que existe una rela redondeen los labios, incluso antes de producir el sonido fof. ·
·
var iable entre la señal acústica y los sonidos que oímos. En El hecho de que percibimos el sonido de un· fonem.� C�rllO .
palabras, una señal acústica particular puede producir
·.
1 Espectrogramas trazados a mano para /di/ patrones similares en ambos especrrogr;unas,'no hayp��sasen
. (De Líberman et al., 1967.) tre ellas o son mucho menos obvias en el especrrogi-ap1a ·de· la
5000
4000
3000
2000
1000
a)
5000
4000
N'
�
ftS
3000
u
e:
�
:::J
o
�
.t 2000
1000
b)
Figura 13.6 1 a) Espectrograma de la pregunta "What are you doing?" pronunciada despacio
y con claridad . b) Espectrograma de "What are you doing?" pronunciada en el habla coloquial.
(Espectrogramas cortesía de David Pisoni.)
figura 13.6b, y la parte central de este espectrograma es por com Percepción categórica
pleto diferente, con una serie de sonidos del habla faltantes.
Mientras buscaban las conexiones entre la señal y la
La variabilidad en la señal acústica causada por la coar
del habla, los investigadores descubrieron un
ticulación, los distintos hablantes y la pronunciación descui
mado percepción categórica, una amplia gama de
dada, crea un problema para el oyente, quien debe transformar
de señales acústicas en la percepción de un número
de alguna manera la información contenida en esta señal acús
categorías de sonidos. Usaremos un ejemplo específico
tica tan variable en palabras conocidas. En la sección siguiente
para explicar este fenómeno.
consideraremos algunas de las formas en que el sistema de per
El ejemplo que vamos a describir consiste en la
cepción del habla resuelve el problema de variabilidad.
de una característica de la señal acústica llamada ti
inicio de la voz (TIV), que es el tiempo de demora entre
.
Información para la percepción mento en que empieza el sonido y el comienzo de la
de las cuerdas vocales. Para ilustrar esta demora
de fonemas espectrogramas de los sonidos /da/ y /ta/ en la figura
___________ ______...,.
_ . """"
___:UerlOQ';ji .....
... . ÜMI
estos espectrogramas se aprecia que el lapso entre el ·
Una de las formas en que el sistema de percepción del habla sonido /da/ y el comienzo de las vibraciones de las cu
resuelve el problema de la variabilidad es con la simplificación cales {que se representan con las franjas verticales en el
de lo que escuchamos por medio de un proceso llamado percep trograma) es de 17 ms para /da/ y 91 ms para /ta/ Por
ción_ categórica. tiene un TIV breve mientras que el TIV de /ta/ es largo.
�
� 80
10
;¡¡
o.
(1)
=
..
(1)
Gl
;::¡
60
o.
m
Gl
...
Gl
"O
Gl 40
-¡¡¡
..
e:
d a a Gl
o
...
o
13.7 1 Espectrogramas para /da/ y Ita/. El tiempo de Q.
· 20
la voz, es decir, el lapso entre el comienzo del sonido
ción de la sonorización , se indica al principio del
....-trntlrl'llml'l de cada sonido. (Espectrogramas cortesía
Gracias al uso de las computadoras los investigadores han Tiempo de inicio de la voz (ms)
sonoros en los que el TIV varía de breve a largo Figura 13.8 1 Los resultados de un experimento de
..... "'"'""pequeños. Cuando el TIV cambia, al usar estímulos percepción categórica indican que /da/ se percibe por el
los de la figura 13.7, y se pide a los oyentes que indiquen TIV a l a izquierda del l ímite fonético y /ta/, debido a l TIV, se
. sonido escuchan, éstos mencionan sólo uno u otro de los escucha a l a derecha del l ímite fonético. (Tomado de Eímas
fonemas, /da/ o /ta/, aunque se les preseme un gran nú- y Corbit, 1973.)
Otra ca.racterística de la percepción del habla es que es multi se activen durante la lectura labial y la percepción del
modal· es decir la información de otros semidos influye en un mecanismo neuronal que subyace al efecto McGurk.-
..,_ ' -·' '
nu�trapen;:epción del habla. Un ejemplo de cómo influye la in- El vínculo entre la percepción del habla y la del
fórn:i.¡ción visual en la percepción del habla se muestra en la demostrado de otra manera; Katharina von Kriegstein.y
figural3.10. Al principio, nuestro oyeme escucha los sonidos laboradores (2005) midieron la activación por medio d� ·
jba:b;t/como si procedieran de las bocinas, pero cuando a modo mientras los oyentes realizaban una serie de rareas que .
de e�rimulación visual se añade un video en el que se muestra frases pronunciadas po,rpersonas conocida$_ (qU'e tréLDaLJaiJatt·f
a una persona que mueve los labios como si pronunciara el so laboratorio) y desconocida$ (que nunca antes habían
-
nido /ga-ga/, nuestro oyente escucha /da-da/ Aunque el oye me El simple hecho ae escuchar el habla actívó el
sigue recibiendo la seii.al acústica para /ba-ba/, su t\1: �� poral superior (STS, véase la figura 8.13), una zona q
.' .� 2• 3
percepCion cam b'ta, por l o que oye /d a-da1. rudios anteriores se asoció con la percepción del habla
Este efecto se llama efecto McGurk, en honor a la per aL, 2000). Pero cuando se pidió a los oyentes que
sona que lo describió por primera vez (McGurk y MacDonald, tarea que consistía en prestar atención a los sonidos·
1976), e ilustra que a pesar de que la información auditiva es la conocidas, el área fusiforme del rostro (AFR) tambiéti.'
principal fuente de información para la percepción del habla, En contraste, cuando prestaron atención a los sonidos·
la información visual también ejerce gran influencia en lo que desconocidas, el AFR no se activó. Al parecer, cuand�-
oímos. Esta influencia de la visión en la percepción del habla se oye una voz que asocia con una persona determinada s ··
conoce como percepción audiovisual del habla. El efecto Mc áreas no sólo para la percepción del habla, sino también
Gurk es un ejemplo de la percepción audiovisual del habla; otro de los rostros. El vínculo entre la percepción del habla
ejemplo es la manera en que las personas se apoyan rutinaria rostro, que se ha demostrado tanto en experimentos u�'"-'"J:I'.l.!
me� te en la información proporcionada por los movimientos como de comportamiento, proporciona inform
de los labios de la persona para comprender lo que dice en un nos ayuda a hacer frente a la variabilidad de los
ambiente ruidoso (véase también Su mby y Pollack, 1954). tambiénHall et al. 2005, y Wassenhove et al., 2005, para
,
El vínculo entre la visión y el habla también ha demostrado información más detallada sobre la relación entre la
tener una base fisiológica. Gemma Calvert y sus colaboradores ción de alguien que habla y la percepción del habla}.
(1997 ) urilizaron la 1 RMf para medir la actividad cerebral mien
tras los observadores veían un video sin audio de una persona que
movía los labios cuando decía números. Los observadores repitie Información a partir de nuestro
ron en silencio los números mientras veían a la person�, por lo que
conocimiento de la lengua
esta tarea fue similar a lo que la gente hace cuando lee los labios.
En una condición de control, los observadores vieron la escena Una gran camidad de investigación ha demostrado que.
·
estática de un rostro, mientras repetían en silencio los números. fácil percibir los fonemas que aparecen en un
Una comparación de la actividad cerebral en estas dos condicio- ficativo. Philip Rubín, M. T. Turvey y Peter Van G
demostraron que el significado aumenta la capac
oyente para reconocer los fonemas al presentar una '";.'''"··��.-.r
labras breves en inglés, como sin, baty leg, y grupos de let:a:s
eran palabras, como jum, baf y teg, y pedir a los oyentes
"
mieran una tecla lo más rápido posible cuando
sonido que comenzara con jbj. En promedio, los
tardaron 631 ms en responder a los grupos de letras y
las palabras. Asi, cuando un fonema se encuentra al
de una palabra real, se identifica alrededor de 8% mas.
que cuando está al inicio de una sílaba sin sentido.
Richard Warren (1970) demostró de otra manera el
.
significación en la percepción de los fonemas; pidió ,a:
ticipantes que escucharan una grabación del
state governors met with their respective legislatures
in the capital city" (Los gobernadores estatales se
con sus respectivas asambleas legislativas en la
estados). Warren reemplazó a la primera jsj en
Figura 13.10 1 El efecto McGurk. Los labios de la mujer ("legislativas") con el sonido de una tos y pidió a sus .
se mueven mientras dice /ga-ga/, pero el sonido real que se panres que indicaran en qué parte de la frase se
presenta es /ba-ba/. El oyente dice que escucha el sonido Ninguno de ellos identificó la ubicación correcta de la.
/da-da/. Si el oyente cierra los ojos, de modo que ya no vea que es más importante, ninguno se dio cuenta de que
los labios de la mujer, escucha /ba-ba/. De esta manera, ver el la /s/ en "legislarures" ("legislativas"). Este efecto, que
movimiento de los labios influye en lo que el oyente escucha. llama efecto de restauración fonémica, fue
e�¿ _Ror inedio de aud í fonos y les pidieron que repitieran en voz El hecho de que en general no haya espacios eritre lás ·
alta lo que ·escucha ban. Ellos repitieron los enunciados norma bras se hace evidente cuando se escucha a una persona
,
I�s cori una precisión de 89%, pero su exactitud se redujo a 79% idioma extranjero. Para alguien que no está
cori los enunciados anómalas y a 56% para las cadenas grama ese idioma, las palabras pasan a toda velocidad en una
ticales. Las d i ferencias entre los tres tipos de estímulos se hicie ininterrumpida. Sin embargo, para un hablante de ese
ron aún mayores cuando los oyentes escucharon los estímulos las palabras parecen separadas, justo como usted percibe.
acompañados de un r uido de fondo. Por ejemplo, con un nivel su lengua materna. De alguna manera resolvemos el
moderadamente aleo de ruido de fondo, la precisión fue de 63% de la segmentación del habla y dividimos el flujo L'-''·'L'·"u•u,
en los enunciados normales, 22% en las anómalas y sólo 3% en señal acústica en una serie de palabras individuales.
las cadenas de palabras no gramaticales. Este resultado sugiere El hecho de que podamos percibir palabras ·
que cuando las palabras se organizan en un patrón significa en el lenguaje coloquial, aun cuando no haya pausas e n
tivo, es posible percibirlas con mayor facilidad. Pero la mayoría ñal de voz, signi fica que nuestra percepción de las _
de las personas no se dan cuenta de que su conocimiento de la sólo se basa en la energía que estimula a los receptore�c
naturaleza de su idioma es lo que les ayuda a completar los so que nos ayuda a determinar cuándo termina una palabra y
njdos y las palabras que podrían ser difíciles de escuchar. Por pieza otra es el conocimiento de sus sign i ficados. La
ejemplo, nuestro conocimiento de las estructuras de palabras entre la segmentación del habla y el signi ficado se ilustra · ·
admisibles nos dice que ANT, TAN y NAT son secuencias ad siguiente demostración.
misibles de letras en inglés o en español, pero que TQN o NQT
no pueden ser palabras en inglés ni en español.
Un efecto similar de signi ficancia en la percepción también
DEMOSTRACIÓN
se debe a que nuestro conocimiento de las reglas gramaticales
nos dice que "No hay tiempo para preguntar" es un enunciado
Organización de cadenas de sonidos
admisible, pero "Preguntar, tiempo no hay" no es admisible o,
en el mejor de los casos, es muy complicada (a menos que us Lea las palabras siguientes: Elba Lona Trave Sol Había.
ted sea Yoda, de La Guerra de las Galaxias, que dice esto en el que ha leído las palabras, ¿qué significan? 1
Episodio !JI: La Venganza de los Sith). Debido a que la mayor parte
del tiempo encontramos palabras con sentido y enunciados co
rrectos desde el punto de vista gramatical, continuamente usa Si piensa que esto es una lista de palabras sin co
mos nuestro conocimiento de lo que está permitido en nuestro comienzan con el nombre de una mujer, Elba, tiene razón
idioma como ayuda para entender lo que se dice. Esto se vuelve lea esta serie de palabras en voz alta con rapidez e
importante en particular cuando se escucha en condiciones los espacios entre ellas. Cuando lo hace, ¿puede oír una·
menos que ideales, como en entornos ruidosos o cuando es coherente que no empieza con el nombre de Elba? (La
difíci l entender la calidad de la voz del hablante o su acento se encuentra en la página 327, pero no la vea hasta
(véase también Salasoo y Pisoni, 1985). intentado leer las palabras con rapidez.)
Si pudo formar un nuevo enunciado a partir de la
Percepción de pausas entre palabras Así como palabras, se debió a que cambió la organización nPrc:e.ou
vemos los objetos sin esfuerzo cuando observamos una escena de los sonidos; esta modi ficación se logró gracias a su
S p EE CHS E G MEN T A T IO N
Figura 13.11 1 Energía sonora de las p�labras "Speech segmentatio n " (Segmentación del
habla). Note que es d ifíci l decir a partir de este registro dónde termi n a una palabra y empieza
la otra. (Señal de voz cortesía de Lisa Saunders.)
"'
f3 7 .5 1--"-+A+'""'"'�
· Se requieren "más cada" vez. ::S
(J
en
: 7. o �----��---�
'O
o
"Más cada" y "mascada" se pronuncian igual, por lo que es c.
E 6. 5
estas palabras de manera diferenre depende del signifi- Gl
¡::
general del enunciado en el que aparecen. Este ejemplo es
a la conocida frase en inglés " I scream, you scream, we
completa la palabra
for ice cream" que muchas personas aprendieron en
Los estímulos sonoros para "1 scream" y "ice cream" b) Estímulo
-•u'"""·�·vJ, por lo que la organización d istinta debe lograrse
Figura 13.12 1 a) Diseño del experimento de Saffran y
del significado del enunciado en el que aparecen es- colaboradores (1996), en el que los bebés escucharon una
serie continua de sílabas sin sentido y l u ego se realizaron
M ientras la segmentación se apoya en el conocim.iento de pruebas para ver cuáles sonidos percibían u nidos. b) Los
ficados de las palabras y en el uso del contexto en que resultados indicaron que los bebés escucharon por más
los oyentes también utilizan otra información para lo tiempo los estímulos de "parte de la palabra".
la segmentación. A medida que aprendemos un idioma,
que es más probable que ciertos sonidos sucedan uno bebés escucharon estas cadenas, wdas las palabras se pronun
de otro dentro de una palabra, y algunos sonidos son ciaron con la misma entonación y no hubo pausas entre e llas
propensos a estar separados por el espacio entre dos pala que indicaran cuándo finaliza una palabra y empieza la.!Vl�l
4
r- ejemplo, considere las palabras pretty baby. En inglés s¡gu¡ente.
que pre y ty estén en la m isma palabra (pre-tty) y Debido a que las palabras se presentaron al azar y sin es
ba estén separadas por un espacio por lo que estarán en pacios entre ellas, la cadena de palabras de dos minutos que los
u........u .... � diferenres (pretty baby). Por tanto es más probable bebés escucharon se oye como una mezcla de sonidos al azar.
espacio en la frase prettybaby esté entre pretty y baby. Sin embargo, había información en dicha cadena en forma de
Los psicólogos describen la manera en que los sonidos se probabilidades de transición que los bebés podían utilizar para
unos a otros en el lenguaje en función de las probabili determinar qué grupos de sonidos eran palabras. Las probabi
de transición; es decir, la posibilidad de que un sonido l idades de transición emre dos sílabas que aparecieron dentro
después de otro. Cada idioma tiene probabilidades de tran de una palabra siempre fueron de 1.0. Por ejemplo, para la pa
para los diferentes sonidos y, a medida que aprendemos labra bidaku, cuando se presentó jbi/, siempre siguió /da! Del
no sólo asimilamos cómo decir y entender las pala mismo modo, cuando se presentó jda/, siempre siguió jku/ En
y los enunciados, sino también las probabilidades de rran- otras palabras, estos tres sonidos ocurrieron siempre juntos y
que hay en ese idioma. El proceso de aprendizaje acerca en el mismo orden, para formar la palabra bídaku. No obstante,
probabilidades de transición y de otras caracterísücas del las probabilidades de transición entre el final de una palabra y
· se llama aprendizaje est<tdístico. La investigación ha el comienzo de otra eran de sólo 0.33. Por ejemplo, hubo 33% de
uv''''"'uu que los bebés de apenas ocho meses de edad son ca probabilidades de que el último sonido de bidaku, jku/, fuera se
de aprender de manera estadística. guido por el primer sonido de padoti, /pa/, 33% de que le siguiera
Saffran y sus colaboradores ( 1996) l levaron a cabo /tu/ de tupiro y 33% de que después viniera/gol de golabu.
los primeros experimentos que demostraron el aprendi- Si los bebés de Saffran fueran sensibles a las probab.il i
'"-'u"uLu en los niños pequeños. La figura 1 3 . 1 2a muestra dades de transición, percibirían como palabras los estímulos
de este experimento. Durante la fase de aprendizaje bidaku o padoti, porque las tres sílabas de cada una están 'vincu
los bebés escuchaban cuatro "palabras" sin ladas por las probabi lidades de transición de l. O. En contraste,
como bidaku, padoti, golabu y tupiro, que se cambi- los estímulos como tibida (el final de padoti más el comienzo de
a! azar para crear dos minutos de sonido continuo. Un bidaku) no se perciben como palabras porque sus componen.res
de una parte de la cadena creada con la combinación no están vinculados.
palabras es bidakupadotigolabutupiropadotibidaku. . . En Para determinar si los bebés, en efecto, peróbe� é(?[.Il.o-;
.,.- �.,...ucu... . se imprimió en negritas una palabra sí y otra no, palabras Jos estímulos como bidaku y padoti, se l�s ·soine"rió a
fin de ayudarle a distinguirlas. Sin embargo, cuando los una prueba en la que se les presentaro n pares de esríll.\u�os :de
.
prueba "palabra completa". El otro estímulo se creó a partir del nificado de esta frase está determinado por nuestro
·final de una palabra y el comienzo de otra, como tibida. Este del uso actual del español y además (si en realidad
fue el estimulo de prueba "parte de la palabra". mos la observación del estudiante) por el tono de · la
La predicción era que los bebés elegirían escuchar estímu persona que habla, que en este caso sería muy sard.stico.
los de prueba de "parte de la palabra" más que de "palabra com El tono de voz del hablante es un factor que
pleta''. Esta predicción se basó en i nvestigaciones previas que oyentes a determinar el significado de lo que se dice.
mostraron que los bebés pierden interés en los estímulos que se mayor parte de la i nvestigación sobre las característicaS
repiten y que, por ende, se vuelven fami liares, pero prestan más se ha enfocado en cómo la identidad del hablante in
atención a los estímulos novedosos que no han experimentado la percepción del habla. Thomas Palmeri, Stephén G
antes. Por tanto, si los n iños percibían el estímulo de "palabra y David Pisoni ( 1 993) demostraron el efecto de l a ,· �•c:u.uutau.
completa" como palabras que se habían repetido una y otra vez hablante al presentar una secuencia de palabras a los
durante los dos minutos que duraba la sesión de aprendizaje, Después de cada palabra, éstos indicaron si era nueva
prestarían menos atención a e l los que a los más novedosos de primera vez que aparecía) o antigua (que había aparecid�
"parte de la palabra" que no habían percibido como palabras. en la secuencia). Encontraron que los oyentes
Saffran midió cuánto tiempo escucharon los n iños cada mayor rapidez y eran más precisos cuando la misma
sonido al presentar una luz intermitente cerca de la bocina de decía todas las palabras que si las decían varias nPr�r'""
la que provenía el sonido. Cuando la luz atrajo la atención de los sign i fica que los oyentes asimi lan dos niveles de ·
bebés, el sonido se inició y continuó hasta que el bebé apartó la acerca de las palabras: 1) su significado y 2) las '-''''"'"'e '
mirada. Así, el bebé controlaba cuánto tiempo escuchaba cada de la voz del hablante.
so� ido por el tiempo que miraba la luz. De los resultados de este experimento y de otros
La figura 1 3. 1 2b muestra que, como se predijo, los bebés sí mos estudiado, es posible conclu ir que la percepción de�
escucharon los estímulos de "parte de la palabra". Estos resul depende tanto de la información ascendente proporc·
tados son impresionantes, sobre todo porque los n iños nunca ' '
por la señal acústica como de la información des'"'"''�'�'''''''-1
antes habían oído las palabras, no percibían pausas entre ellas aportan los significados de las palabras y los c.wu"'-'''·uv»¡
y sólo habían escuchado las cadenas de palabras durante dos nacim iento del oyente acerca de las reglas
minutos. De resultados como éstos es posible concluir que la características de la voz del hablante (figura 1 3.13).
capacidad para uti l i zar las probabil idades de transición en Podemos apreciar la interacción entre la señal
la segmentación de los sonidos en las palabras comienza a una para el habla y el sign i ficado de las palabras cuando··
edad temprana. bimos que, aunque uti l izamos el signi ficado· corno
para comprender la señal acústica, ésta es el punto de
tida para determinar el significado. Véalo de esta '"'""· '"-"
Información de las características
mi escritura descuidada quizá haya información su
de los h ablantes para que alguien que utiliza el procesamiento ascend�
Cuando usted conversa, escucha una clase o los diálogos de descifre sólo a partir de la base de los garabatos en la
una película, en general enfoca su atención en determinar el pero es mucho más fáci l desc i frarla cuando, al usar el
signi ficado de lo que se dice. Pero al mismo tiempo que usted
asimila estos mensajes también registra, quizá sin darse cuen
ta, las características de la voz del hablante. Estas característi Conocimiento/
significad o
cas, denominadas características índice, contienen información
acerca de los hablantes, como su edad, sexo, lugar de origen ,
estado emocional y si son sarcásticos o serios. Considere, por
ejemplo, la siguiente broma:
sonas• que conocen el uso del español contemporáneo pueden (a partir de la señal acústica).
· 1980). Si bien podría esperarse que la dificultad para en muchas áreas. Hay también una serie de aspectos diferentes ..
las sílabas complicara el entendimienro de las pala de la percepción del habla, ya que ésta recibe la in H ue�ci á de �e:
�·�;'-u'u" pacientes que tienen este problema aún pueden rores cognitivos como el significado de las palabras, el cogrexto
Plasticidad dependiente
de la experiencia Algo que debemos considerar�
Otro ejemplo de la conexión entre el funcionamienco del cerebro percepción del habla y acción.:·
y la percepción del habla es proporcionado por el fénómeno de la
plasticidad dependiente de la experiencia. En el capítulo 4 vimos que Una característica importante del habla es que no sólo .
la plasticidad dependiente de la experiencia se produce cuando la bimos, sino que también la producimos. Este estrecho
capacidad del cerebro para responder ame estímulos específicos entre la percepción y la producción del habla condujo' a,
está determinada por la experiencia. Por ejemplo, para la vista, Liberman y sus colaboradores (1 963, 1967) a onJD<>ne:f!
la crianza de gatitos en un entorno compuesto enteramente por teoría llamada teoría motora de la percepción del
líneas verticales hace que el cerebro de los gatitos comenga neu propone que el habla tiene un estatus especial como ·
ronas que responden sólo a las verricales (página 80), y para la auditivo, que consiste en los mecanismos especiales de
audición, el entrenamiento de monos lechuza para discriminar samiento que no comparren otros estímulos auditivos.
entre dos frecuencias diferentes aumenta el espacio en la correza plicaremos esta idea posteriormente (véase la sección
dedicado a esas frecuencias (capítulo 1 1, página 284). saber más", página 326), sino que estudiaremos o
El efecto de la plasticidad dependience de la experiencia de de la teoría motora: oír un sonido de voz particular
la percepción del habla se ilustra con el modo en que los sonidos canismos motores que controlan el movimiento de
a los que están expuestos los bebés influyen en 1) su capacidad !adores responsables de la producción de sonidos, y la
para oír ciertos sonidos cuando son mayores y 2) la manera en de estos mecanismos motores activa a su vez
que el cerebro responde a estos sonidos. Comenzamos conside cionales que nos permiten percibir el sonido.
rando lo que pueden percibir los niños muy pequeños, y luego Cuando se propuso la teoría motora por pri
lo que sucede cuando se v uelven mayores. década de 1 960, era en extremo polémica. En las ae,c•u•
Los niños pequeños de rodas las culturas pueden men siguieron, la teoría impulsó un gran número de experi
cionar la diferencia entre los sonidos que se producen en los algunos de ellos obtuvieron resultados que apoyaba11
distintos idiomas del mundo, pero a la edad de un año pier y otros que la refutaban. En consecuencia, los
den la capacidad de distinguir algunos de esros sonidos (Kuhl, teoría se revisaron (Liberman y Matringly, 1 989).
2000). El ejemplo clásico de este fenómeno lo constituyen los A los investigadores del habla actuales les preocupa
niños y adultos japoneses. Los bebés japoneses de seis meses si los detalles de la teoría motora son correctos que
de edad pueden diferenciar entre la /r/ y /1/ que se usan en el cía de una serie de experimentos recientes que apoya la
. inglés de Estados Unidos tan bien como los bebés estadouni que, en efecto, existen vínculos entre la percepción
denses. Sin embargo, a los 12 meses, los niños japoneses ya no .
y los mecanismos morares. Uno d e los resultados qu e ·
(por ejemplo, romper un cacahuate) y cuando el mono produClr el habla. Basandose en estos resultados" sugirió que 1) . ) · .
· ·sonido (el que se ha producido por romper un cacahuate) tal vez las neuronas espejo intervienen y 2) su resultado es con-. j
iiifrt!SUlL« de la acción {Kohler, 2002; véase el capítulo 7, pá sistente con la idea propuesta por la teoría motora de que oí� u n .
Curiosamente, las neuronas espejo que se han estu sonido de voz activa los mecanismos motores para la percepción
en el mono se encuentran en un área equivalente al área del sonido. Cualesquiera que sean las implicaciones de los resul
en los seres humanos, por esta razón, algunos inves tados de Watkins y los resultados de la investigación sobre las
sugerido que hay una estrecha relación entre las neu ronas espejo, no hay duda de que nuestra afirmación res
espejo y el lenguaje (Arbib, 2001). pecto a que la actividad motora y la percepción están vinculadas
¿hay pruebas que vinculen directamente la percepción y de manera estrecha es válida no sólo para la vista {página 156 del
del habla en los seres humanos? K. D. Watkins y sus capítulo 7), sino también para la percepción del habla.
:>.-�rl.c.r<•< {2003) ofrecieron algunas pruebas de esta conexión
Ía estimulación magnética transcraneal (EMT) para acti
motora de la corteza que controla los movimientos de
la sección Método: estimulación magnética trans
capítulo 8, página 193). Cuando estimularon esta área,
respuestas pequeñas, llamadas potenciales evocados
. ·(PEM), de los labios (figura 13. 16a). Esto no era sorpren
. ya que la estimulación de esta área de la corteza motora
P I E N S E E N LO S I G U I E NTE
1. ¿Qué t a n bien reconocen el habla l a s computadoras? Us-·
la voz producir ted puede i nvestigarlo al hablar por teléfono con u na de
un sonido a la voz
ellas. M arque un servício como la reservación telefónicá .
de boletos para el ci ne, y en vez de hablar lene¡¡. y c lara
Experimento de estim ulación magnética mente, hágalo de manera normal (con la claridad .�ufi
que proporciona evidencia de un vínculo entre la ciente para que una persona lo entendiera) y vea .s i pued�
y la producción del habla en los seres h u manos. determi nar los l í mites de la capacidad de !á ccimputad?ra
texto para obtener más detalles. (Reimpresión para comprender el habla. (p. 312)
· · -
·:�.:
. ..
SI · D E S EA SA B E R MÁS Patel, A . D . (2008). Music, language, and the brain.
York: Oxford University Press.
· .. ;1_ Tadhm.d: · "oír�' con el tacto. Las personas q ue son sordas y An empírica!
Patel, A. D. y Daniele, J. R. (2003).
ci�gas pueden averiguar lo que dice la gente con un proce
... rison of rhythm in language and music. Lu;Kmrt01�,,
d imiento llamado Tadoma, que consiste en tocar la cara
B35 -B45.
'd e uha p�;sona, mientras ésta habla. (p. 3 1 8)
Peretz, l. y Hyde, K. L . (2003). What is specific to
�
Rt;� ; __c. M., Durlach, N. l., Braida, L. D. y Schultz, M.
Analytic study of the Tadoma method: Iden processing? Insights from congen ital amusia . .
C. (1982).
Cognitive Sciences, 7, 362-367.
tificarion of consonants and vowels by an experienced
Tadóma user. Journal of Speech and Hearing Research, 25, 4. Los mecanismos cerebrales que vinculan al lenguaj�'·
108 - 1 16. acción. Escuchar enunciados que se refieren a dife .
2. ¿El lenguaje es especial? Se trata de una controversia en la partes del c uerpo como la cara, los brazos o las
que algunos investigadores (muchos de ellos defensores de activa áreas del cerebro asociadas con el habl;¡t ·
l a teoría motora de la percepción del habla) sostienen que bién áreas asociadas con el movimiento de esa
en la percepción del habla intervienen mecanismos espe cuerpo. (p. 324)
ciales que otros procesos auditivos no comparten y otro Pulvermuller, F. (2 005). Brain mechanisms
grupo de investigadores sostiene que la percepción del ha language and action. Nature Reviews
bla utiliza los mismos mecan ismos que nos permiten co 576-582.
nocer otros tipos de estímulos auditivos. (p. 324)
5. Enfoques para el estudio de la percepción del habla.
Fowler, C . A. y Rosenblum, L. D . (1990). Duplex per
de diferentes enfoques teóricos para el estudio
ception: A comparison of monosyllables and slamming
cepción del habla que se han propuesto. Ta
doors. Journal of Experimental Psychology: Human Percep
sugerido que nuestro conocimiento de los
tion and Performance, 17, 8 16-828.
la percepción del habla podría mejorar con d
Trout, J. D. (2003). Biological specializations for speech:
de esta última en el marco más general de la e
What can the a n i mals tell us? Current Directions in Ps
audición que se describió en los capítulos 1 1 y 12.
ychological Science, 5, 155-159.
Diehl, R . L ., Lotto, A. J . y Holt, L. L . (2004).
3. La conexión entre el habla y la música. Existen pruebas de que ception. Annual Review ofPsychology, 55, 149-1 c...�
., .-,;:;;
.�
en el habla y la música intervienen mecanismos cerebrales Holt, L. L. y Lotto, A. J. (2008). Speech perceptlotlWJ.t}:
diferentes, pero también hay evidencia de que tienen algu an auditory cognitive science framework.
nos mecanismos en común. tions in Psychological Science, 17, 42-46.
CO N C E PTOS C L AV E
Afasia (p. 323) Espectrograma del sonido (p. 3 1 2) Probabil idades de transición
Afasia de Broca (p. 323) Estímulo acústico (p. 3 1 2) Segmentación del habla (p.
Afasia de Wern icke (p. 323) Fonema (p. 314) Señal acústica (p. 3 1 2)
Apr�ndizaje estadístico (p. 321) Formante (p. 3 1 2) Sombreado (p. 320)
Área de Broca (p. 323) Límite fonético (p. 3 1 7) Sonograma (p. 3 1 2) .
Área de Wernicke (p. 323) Modelo de doble flujo (o doble vía) de Sordera de la palabra (p. j23)
Articulador (p. 3 1 2) la percepción del habla (p. 323) Teoría morora de la percepcwn
Características índice (p. 322) Multimodal (p. 3 18) habla (p. 324)
Coarticulación (p. 315) Percepción audiovisual del habla Tiempo de inicio de la voz (TIV)
.·
R E C U RSO S E N L ( N E A
S i t i o web d e l l i bro C e n g a g e N OW
Sensación y percepción www.cengage.com/cengagenow
www.cengage.com/psychology/goldstein En es re sitio encontrará un vínculo a CengageNOW,
¡En este sitio encontrará tarjetas didácticas, cuestionarios para todo. Haga un examen previo a este capítulo Y
de práctica, vínculos a internet, actualizaciones, ejercicios de NOW generará un plan de esrudio personalizado
pensamiento crítico, foros de discusión, juegos y más! sus resultados. El plan de estudio identi ficará los
específicos multimedia diseñados para ayudarle 4. Estímulos de aprendizaje estadístico Una rp.uestra u<;. <<> '-<>u.o:;u<L o;
lo que está leyendo. El número que está junto a de palabras sin sentido utilizada en el experimento
indica del número del elemento multimedia al 5. Palabrasfantasma Cómo escuchar un sonido
acceder a través de su CD -ROM, CengageNOW o el puede dar lugar a la percepción de las palabras. (Cortesía
Tutor (disponibles sólo en inglés). Diana Deutsch.)