Acústica Musical

Acústica Musical
Luis Colomer Blasco
27 de diciembre de 2016
Contacto: luiscolo12@gmail.com
El curso Acústica Musical puede ser seguido on-line en: Acústica Musical
Este documento esta realizado bajo licencia Creative

Commons “Reconocimiento-CompartirIgual 4.0 In-
ternacional”.
Sobre los materiales multimedia
Este curso multimedia va acompañado de 141 archivos de vídeo e imágenes. Los

archivos de vídeo están en formato .mp4 y los de imágenes en formato .png. Se
puede acceder a los vídeos y a las imágenes en tamaño original haciendo clic en el
pie de cada figura.
También se puede descargar el curso entero, con el texto en .pdf y los materiales
multimedia, desde la página de “Descargas” de la versión on-line del curso Acústica
Musical o, directamente, en esta dirección. Para que funcionen los enlaces del texto,
no se puede cambiar el nombre de la carpeta “Materiales” ni el de los archivos que
contiene. El archivo .pdf del curso y la carpeta “Materiales” deben estar, a su vez,
dentro de la misma carpeta, a la que se le puede llamar, por ejemplo, “Acústica Mu-
sical”. Al intentar descargar el archivo zip, puede salir un aviso que dice: “Google
Drive no puede analizar este archivo en busca de virus. Materiales.zip (541M) su-
pera el tamaño máximo de archivo que puede analizar Google. ¿Quieres descargar
el archivo de todos modos?”. Basta con aceptar para descargarla, pues al contener
solamente archivos de vídeo del tipo .mp4 o imágenes del tipo .png no puede tener
ningún virus.
I
Índice general
Prólogo VIII
1. El sonido como vibración 1

1.1. ¿Qué es el sonido? . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1
1.2. Simulación de la vibración del aire en un sonido simple . . . . . . . . 3
1.2.1. Propagación de la perturbación a través del aire . . . . . . . . 5
1.2.2. Movimiento individual de oscilación . . . . . . . . . . . . . . 6
1.2.3. De la oscilación individual a la propagación ondulatoria . . . 8
1.3. Simulación de la vibración del aire en un fragmento sonoro complejo 14
1.4. Conclusión . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
2. La señal de audio 17
2.1. Representación del sonido . . . . . . . . . . . . . . . . . . . . . . . . 17
2.2. Un ejemplo de registro digital . . . . . . . . . . . . . . . . . . . . . . 19
2.3. El editor de sonido . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22
2.4. El osciloscopio . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25
2.5. Conclusión . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26
3. Características de los sonidos musicales 28

3.1. Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28
3.2. Ruido y sonido musical . . . . . . . . . . . . . . . . . . . . . . . . . 29
3.3. Ruido blanco y sonido simple . . . . . . . . . . . . . . . . . . . . . . 30
3.4. Tráfico con lluvia y notas de clarinete . . . . . . . . . . . . . . . . . 33
3.5. Campanadas y notas de piano . . . . . . . . . . . . . . . . . . . . . . 37
3.6. Habla y canto . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40
II
3.7. Conclusión . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46
4. El sonido simple 47
4.1. Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47
4.2. El sonido simple como fundamento del sonido musical . . . . . . . . 48
4.3. El Movimiento Armónico Simple (MAS) . . . . . . . . . . . . . . . . 51
4.3.1. Un ejemplo de Movimiento Armónico Simple . . . . . . . . 51
4.3.2. Parámetros del Movimiento Armónico Simple . . . . . . . . 56
4.4. El Movimiento Armónico Simple en el sonido . . . . . . . . . . . . . 58
4.4.1. Parámetros del sonido simple . . . . . . . . . . . . . . . . . . 58
4.5. Conclusión . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61
5. Altura tonal, intervalos y volumen sonoro 62

5.1. Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 62
5.2. Relación entre estímulo y sensación: la Ley de Weber-Fechner . . . . . 63
5.3. Frecuencia y altura tonal: notas e intervalos . . . . . . . . . . . . . . 65
5.3.1. El intervalo musical como razón numérica . . . . . . . . . . . 66
5.3.2. Unidades interválicas . . . . . . . . . . . . . . . . . . . . . . 69
5.3.3. Las frecuencias de las notas musicales . . . . . . . . . . . . . . 71
5.4. Amplitud y volumen sonoro . . . . . . . . . . . . . . . . . . . . . . . 74
5.4.1. Unidades interválicas de intensidad sonora: el belio y el deci-
belio . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 74
5.4.2. Correspondencia entre la amplitud normalizada y la intensi-
dad en decibelios . . . . . . . . . . . . . . . . . . . . . . . . . 76
5.4.3. Valores absolutos de intensidad sonora . . . . . . . . . . . . . 78
5.4.4. La percepción del volumen sonoro . . . . . . . . . . . . . . . 80
5.5. Conclusión . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 82
6. Mezcla e interferencia de dos sonidos simples 84

6.1. Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 84
6.2. El Principio de Superposición Lineal de Ondas . . . . . . . . . . . . 86
6.3. Mezcla de dos sonidos simples de la misma frecuencia: Unísono . . . 87
6.4. Mezcla de dos sonidos simples de frecuencias muy próximas: Batidos
de primer orden . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 91
6.4.1. Los batidos de primer orden . . . . . . . . . . . . . . . . . . . 91
III
6.4.2. Causas de los batidos de primer orden . . . . . . . . . . . . . 94
6.4.3. Batidos y afinación . . . . . . . . . . . . . . . . . . . . . . . . 96
6.5. Mezclas de dos sonidos simples en función de la distancia entre sus
frecuencias y de la anchura de su banda crítica . . . . . . . . . . . . . 97
6.6. Mezcla de dos sonidos simples cuyas frecuencias están en relación de
conmensurabilidad próxima: Consonancias . . . . . . . . . . . . . . 100
6.6.1. Conmensurabilidad próxima . . . . . . . . . . . . . . . . . . 101
6.6.2. Consonancias entre sonidos simples . . . . . . . . . . . . . . 102
6.6.3. De la consonancia a la disonancia . . . . . . . . . . . . . . . . 105
6.6.4. Grados de consonancia según la conmensurabilidad . . . . . . 109
6.6.5. La fase inicial en la mezcla consonante . . . . . . . . . . . . . 111
6.7. Mezcla de dos sonidos simples cuyas frecuencias se alejan un poco de
la conmensurabilidad próxima: Batidos de segundo orden . . . . . . 113
6.8. Distorsión y componentes espurios en la mezcla de dos sonidos simples116
6.9. Conclusión . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 119
7. El sonido armónico 122

7.1. Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 122
7.2. Sonidos armónicos y sonidos inarmónicos . . . . . . . . . . . . . . . 124
7.3. La serie armónica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 128
7.3.1. Sonido formado por componentes consecutivos de la serie ar-
mónica: Señal en diente de sierra . . . . . . . . . . . . . . . . 129
7.3.2. Sonido formado por los componentes impares consecutivos
de la serie armónica: Señal rectangular . . . . . . . . . . . . . 131
7.3.3. Cualidad sonora derivada de los componentes de la serie ar-
mónica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 132
7.4. Componentes de la serie armónica y notas de la escala temperada . . 133
7.5. Intervalos entre los sucesivos componentes de la serie armónica . . . 138
7.6. Estructura armónica y reconocimiento de la altura tonal . . . . . . . 141
7.7. Las fronteras de lo armónico. La inarmonicidad en el sonido musical 144
7.8. Conclusión . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 148
8. Ondas estacionarias y resonancia: Generación del sonido armónico 150

8.1. Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 150
Iᴠ
8.2. La cuerda como paradigma de un sistema vibratorio unidimensional 152
8.3. Propagación y reflexión de una perturbación transversal sobre una
cuerda . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 155
8.4. Superposición de dos perturbaciones que viajan en sentido opuesto
sobre una cuerda . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 160
8.5. Formación de ondas estacionarias sobre una cuerda . . . . . . . . . . 164
8.5.1. Reflexión de una onda sinusoidal cuya longitud no es una
parte entera del doble de la longitud de la cuerda . . . . . . . 165
8.5.2. Generación de una onda estacionaria en el modo fundamental
de vibración . . . . . . . . . . . . . . . . . . . . . . . . . . . 170
8.5.3. Generación de ondas estacionarias en los modos de vibración
armónicos . . . . . . . . . . . . . . . . . . . . . . . . . . . . 175
8.6. La resonancia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 183
8.7. Generación del sonido armónico . . . . . . . . . . . . . . . . . . . . 188
8.8. Conclusión . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 192
9. Envolventes de amplitud y de frecuencia 193

9.1. Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 193
9.2. Envolvente de amplitud general . . . . . . . . . . . . . . . . . . . . . 195
9.3. Envolventes de amplitud parciales . . . . . . . . . . . . . . . . . . . . 199
9.4. Envolvente de frecuencia . . . . . . . . . . . . . . . . . . . . . . . . 204
9.5. Conclusión . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 208
10. Análisis espectral de los sonidos musicales 209

10.1. Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 209
10.2. Un modelo ideal de analizador espectral mediante resonancias . . . . 211
10.3. Relación entre duración temporal y resolución frecuencial . . . . . . 215
10.4. El espectrograma . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 219
10.5. Interpretación de los espectrogramas . . . . . . . . . . . . . . . . . . 223
10.5.1. Espectrograma de sonidos armónicos estables . . . . . . . . . 224
10.5.2. Espectrograma de sonidos armónicos cuyos componentes cam-
bian de amplitud . . . . . . . . . . . . . . . . . . . . . . . . . 225
10.5.3. Espectrograma de sonidos cuyos componentes modifican su
frecuencia . . . . . . . . . . . . . . . . . . . . . . . . . . . . 227
ᴠ
10.5.4. Espectrograma de ruido blanco y sonido simple . . . . . . . . 229
10.5.5. Espectrograma de ruido de tráfico y de habla . . . . . . . . . 230
10.6. Conclusión . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 231
11. El timbre 232

11.1. Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 232
11.2. Rasgos tímbricos derivados del contenido espectral . . . . . . . . . . 235
11.2.1. Rasgos espectrales característicos del tipo de instrumento . . . 242
11.2.2. Diferencias del contenido espectral entre las distintas notas
del mismo instrumento . . . . . . . . . . . . . . . . . . . . . 247
11.2.3. Modificación del contenido espectral por la acción del intér-
prete . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 254
11.3. Rasgos tímbricos dependientes de la evolución de los parámetros del
sonido . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 257
11.3.1. Marcas tímbricas y envolvente de amplitud . . . . . . . . . . 257
11.3.2. Marcas tímbricas y envolvente de frecuencia . . . . . . . . . . 263
11.4. Conclusión . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 265
12. Fisiología de la audición 266

12.1. Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 266
12.2. El oído humano . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 267
12.3. La cóclea . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 271
12.3.1. Descripción general de la cóclea . . . . . . . . . . . . . . . . 271
12.3.2. Estructura interna de la cóclea . . . . . . . . . . . . . . . . . 273
12.3.3. El órgano de Corti . . . . . . . . . . . . . . . . . . . . . . . . 278
12.3.4. El ganglio espiral . . . . . . . . . . . . . . . . . . . . . . . . . 284
12.4. La cóclea como analizador mecánico de frecuencias . . . . . . . . . . 287
12.4.1. Tonotopía de la membrana basilar . . . . . . . . . . . . . . . 287
12.4.2. Comportamiento de la membrana basilar ante un sonido com-
plejo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 292
12.4.3. Retroalimentación de las células pilosas externas sobre la mem-
brana basilar . . . . . . . . . . . . . . . . . . . . . . . . . . . 294
12.5. Transducción mecano-eléctrica en la cóclea . . . . . . . . . . . . . . 295
12.6. Codificación de la información sonora en impulsos eléctricos . . . . . 299
ᴠI
12.7. Conclusión . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 303
13. Psicoacústica musical 304

13.1. Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 304
13.2. Limitaciones en la percepción del objeto sonoro debidas a la fisiología
del oído . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 305
13.3. El reconocimiento del patrón armónico . . . . . . . . . . . . . . . . 308
13.4. Percepción de la consonancia entre sonidos musicales . . . . . . . . . 312
13.4.1. Consonancia y disonancia . . . . . . . . . . . . . . . . . . . . 314
13.4.2. Consonancia de octava, de quinta y de cuarta . . . . . . . . . 319
13.5. Conclusión . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 324
14. La voz musical 325

14.1. Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 325
14.2. El concepto de voz musical . . . . . . . . . . . . . . . . . . . . . . . 327
14.3. El movimiento de la voz en el recitado de la primera estrofa de la Oda
a la flor de Gnido de Garcilaso de la Vega . . . . . . . . . . . . . . . . 330
14.4. El movimiento de la voz en los compases iniciales del Lamento de
Ariadna de Monteverdi . . . . . . . . . . . . . . . . . . . . . . . . . . 334
14.5. El movimiento de la voz en el inicio del Adagio de la Sonata I para
violín solo (BWV 1001) de J. S. Bach . . . . . . . . . . . . . . . . . . 337
14.6. El movimiento de la voz en el inicio del Nocturno op.9, nº 1 de Fr.
Chopin . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 340
14.7. El “espacio” de la significación musical . . . . . . . . . . . . . . . . . 344
14.8. Conclusión . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 346
Bibliografía 347
ᴠII
Prólogo
Este curso pretende proporcionar al músico y al musicólogo los conocimientos de

acústica que pueden ser de interés para la realización de su trabajo. El sonido es el
material con el que se hace la música, por lo que a cualquiera que le interese el arte
musical le puede resultar atractivo conocer todo lo que atañe al sonido, tanto en
su realidad física —es decir, al hecho de que sea una onda mecánica—, como en su
realidad psíquica, pues en un sentido estricto hablamos de sonido cuando esa onda
mecánica es percibida por nuestro sistema auditivo.
Ciertamente, no es necesario conocer nada de acústica para interpretar bien un ins-

trumento, ni para investigar en la mayor parte de los aspectos de los que se ocupa la
musicología, pero creo que todos estaremos de acuerdo en que saber en qué consis-
te el sonido, conocer cuáles son sus parámetros físicos, comprender cómo nosotros
percibimos esos parámetros y, en definitiva, conocer cuál es la relación entre la na-
turaleza física del sonido y la manera en la que nuestro sistema auditivo lo percibe,
puede resultar de gran ayuda para la práctica del instrumento y también puede co-
laborar eficazmente en múltiples aspectos de la investigación musicológica. A mi
juicio, es difícil entender bien el lenguaje musical sin un conocimiento, aunque sea
elemental, del sonido musical. En este sentido, uno de los objetivos de este curso
es presentar las bases físicas sobre las que se ha construido el lenguaje musical de
Occidente y también su sistematización teórica.
La pregunta que podemos hacernos a continuación es la siguiente: ¿Es posible es-

tudiar acústica sin utilizar el formulismo matemático que normalmente acompaña
cualquier estudio físico? Mi respuesta es que sí. Creo que se puede entender bien la
naturaleza del sonido, y en particular del sonido musical, mediante la experiencia,
ᴠIII
sin recurrir a ninguna fórmula matemática. Por eso este curso de acústica musical va
a prescindir de toda formulación matemática.
No se trata de realizar cálculos, ni de desarrollar aplicaciones prácticas; el objetivo

de quien siga este curso de acústica musical va a ser entender las ideas fundamen-
tales en torno a la naturaleza del sonido y, en particular, aquellos aspectos que han
sustentado nuestro lenguaje musical. Por ejemplo, desde mi punto de vista, se puede
entender razonablemente bien qué es la descomposición espectral sin necesidad de
conocer la formulación matemática de la Transformada de Fourier. Es verdad que su
conocimiento sería más profundo y estaría mejor expresado si se utilizara el lenguaje
matemático, pero esto sólo sería así una vez que se hubieran entendido las ideas en las
que se basa la descomposición espectral. Creo que para el músico es suficiente con
este conocimiento y también que quien está interesado en la física del sonido, sin
un especial interés musical, le puede venir muy bien observar y experimentar mu-
chos fenómenos que luego podrán ser formalizados matemáticamente. Por ello en
este curso voy a procurar explicar todas las ideas de la manera más intuitiva posible.
Pienso que, armados solamente con el sentido común y con la ayuda de abundan-
tes gráficas y vídeos que nos permitan relacionar lo que oímos con lo que vemos,
podremos entender las principales nociones de acústica musical.
Por todo ello este curso va a utilizar con mucha frecuencia vídeos, la mayor parte
de los cuales han sido elaborados a partir de imágenes obtenidas mediante Matlab.
Estos vídeos van a servir como una suerte de laboratorio de acústica y van a permitir
experimentar de primera mano todo lo que se explica en el texto. En ellos me he
esforzado en mostrar la relación entre lo que se ve y lo que se oye. Así pues, espero
que los conceptos más importantes de acústica musical queden afianzados con ayuda
de las imágenes de estos vídeos, que presentan gráficamente cómo es la naturaleza
del sonido y la manera en la que nosotros percibimos sus parámetros.
Los distintos capítulos de este curso de acústica musical recorren el amplio camino
que va desde la explicación de la naturaleza vibratoria del movimiento mecánico que
origina el sonido y el modo en el que se trasmite, con sus parámetros de frecuencia,
amplitud, periodo y fase, hasta las peculiaridades de la voz musical, es decir, el mo-
vimiento que transcurre interválicamente de una a otra altura tonal y que da lugar a
la melodía, pasando por la explicación de fenómenos acústicos de especial relevancia
en la formación del sonido musical, tales como las ondas estacionarias, la resonancia,
IX
los batidos, la consonancia, las envolventes de amplitud y de frecuencia, etc. A la vez,
se presentan algunas herramientas que nos permiten observar el sonido musical, tales
como el espectrograma y el melograma, y se proporciona un conocimiento básico
sobre cómo funciona nuestra percepción auditiva.
Pero querría, antes de comenzar, hacer algunas aclaraciones. La primera se refie-

re a lo que hay que entender en este curso por “sonido musical”. Si bien es cierto
que la música puede utilizar cualquier tipo de sonido (y no tenemos más que pensar
en las músicas de vanguardia), es necesario aclarar que aquí cuando hablo de “soni-
do musical” me estoy refiriendo exclusivamente al sonido armónico, es decir, aquél
que posee una altura tonal definida y del que, por lo tanto, podemos decir que es
un re, un fa, un mi, o cualquier otra altura tonal, lo que usualmente llamamos una
nota. No descarto en absoluto la posibilidad de que se pueda utilizar musicalmente
cualquier material sonoro, como hace una parte importante de la música contem-
poránea. Menos todavía niego la posibilidad de una música puramente rítmica, en
la cual cualquier sonido o ruido puede servir para marcar el tiempo. Sin embargo,
puesto que uno de los objetivos de este curso es proporcionar las bases acústicas con-
venientes para el estudio de nuestro lenguaje musical estándar, creo que es oportuno
y resulta cómodo restringir la definición de sonido musical al sonido formado por
componentes armónicos.
Lo siguiente que quiero decir es que en este curso me voy a limitar a analizar el
sonido musical desde el punto de vista físico y psicoacústico, sin entrar para nada
en el lenguaje musical. Cualquier sonido obtendrá su valor dentro de una escala o
de un acorde, y allí pasará a adquirir un significado por su posición en el sistema
correspondiente. Pero estas cuestiones pertenecen ya a la teoría musical, por lo que
aquí atenderé únicamente a las características físicas del sonido y a los aspectos psi-
coacústicos de nuestra audición que van a repercutir en la configuración de nuestro
lenguaje musical. Me voy a centrar en cuestiones como, por ejemplo, en qué consiste
la especificidad del sonido musical o armónico, cuáles son los elementos básicos de
todo sonido musical, qué relación hay entre frecuencia y altura tonal, o entre ampli-
tud y volumen sonoro, qué razones numéricas deben cumplir los componentes de
los sonidos musicales o armónicos, cómo es posible lograr una buena afinación —es
decir, determinar con precisión las frecuencias de los sonidos—, qué relación hay
X
entre el hecho físico de la vibración y nuestra forma de percibir los acontecimientos
sonoros, cuáles son los fundamentos físicos de las consonancias, si los hay, etc.
Y por último, una advertencia para poder apreciar correctamente los ejemplos so-
noros que aparecen en los vídeos. Es necesario utilizar un sistema de reproducción
sonora que tenga una distorsión razonablemente pequeña. Puede valer un teléfono
móvil, un iPad o cualquier otra tableta con un sistema de audio razonable, pero es
necesario que disponga de un altavoz mínimamente decente o, en caso contrario,
los ejemplos deben ser escuchados a través de unos auriculares. Si se reproducen los
vídeos en un ordenador también es conveniente que tenga unos altavoces de cierta
calidad. La razón es que la distorsión que introduce un sistema sonoro deficiente da
lugar a la aparición de componentes espurios, es decir, componentes que no están
presentes en la señal original. Se producen principalmente dos efectos no deseados
debidos a la distorsión, con posibles repercusiones en la audición de los ejemplos so-
noros. En primer lugar, en el caso de un sonido simple, la distorsión puede añadir
armónicos, produciéndose la llamada “distorsión armónica”, que provocará que no
los oigamos con la pureza con la que debe sonar un sonido simple auténtico (que
debería tener una cualidad sonora similar a la de un diapasón metálico de los utiliza-
dos para afinar), sino que escuchemos un sonido más áspero y complejo. En segundo
lugar, en el caso de sonidos compuestos o de las mezclas de sonidos, la distorsión
puede provocar la aparición de nuevos componentes, la llamada “distorsión de in-
termodulación” y, en especial en los ejemplos de mezclas de sonidos simples, esta
distorsión puede hacer aparecer un nuevo componente grave, precisamente con una
frecuencia que sería el resultado de la diferencia entre las frecuencias de los sonidos
mezclados. Algunas leyendas sobre la posibilidad de obtener sonidos muy graves a
partir de los tonos de diferencia son simplemente provocadas por la distorsión de los
equipos de reproducción. Para mitigar este último problema, cuando he podido, he
procurado elegir las frecuencias de los sonidos utilizados en los ejemplos de tal for-
ma que estos sonidos espurios de diferencia tuvieran una frecuencia por debajo del
límite de graves que un reproductor de audio mediocre es capaz de dar. Para probar
si nuestro equipo distorsiona más de lo aceptable, podemos atender, por ejemplo, al
vídeo de la figura 9 del capítulo 6, en concreto, cuando se superponen dos sonidos
simples cuyas frecuencias están en razón 3/2 (quinta) y 4/3 (cuarta). En ambos casos
tenemos que oír solamente las dos notas por separado, de modo que si oímos un ter-
XI
cer componente más grave, debemos atribuirlo a la distorsión de intermodulación
provocada por la pobre calidad del equipo.
Espero que este curso sea de utilidad a todas las personas que se animen a seguirlo.
Mi recomendación es hacer en primer lugar una lectura superficial del capítulo que
queramos trabajar, luego atender especialmente a los materiales didácticos y final-
mente repasar de nuevo el texto. Si hay algún profesor que le interese para sus clases
algunos de los vídeos, puede utilizarlos también con toda libertad y complementarlos
con sus propias explicaciones.
XII
Capítulo 1
El sonido como vibración
1.1. ¿Qué es el sonido?
Empecemos conociendo qué es el sonido, cualquier sonido, sea o no musical. La

primera cuestión que es necesario tener clara es que el sonido es una vibración
mecánica que se propaga en un medio elástico.
Si nos molesta el ruido que hace alguien que está en la habitación de al lado es porque
la pared que nos separa se está moviendo, se está deformando, está vibrando. Bien,
es cierto, se mueve muy poco, las deformaciones son mínimas, pero son lo suficien-
temente intensas como para que, a su vez, estas vibraciones mecánicas hagan vibrar
el aire de nuestra habitación y el ruido de la habitación de al lado llegue a nuestros
oídos.
Toda vibración es posible porque el medio que vibra es elástico. En efecto, el aire es
elástico: el aire se comprime y se expande, aumentando y disminuyendo la presión
que ejerce sobre todo lo que rodea. Y la pared, aunque no lo parezca a simple vista,
también es elástica.
Así pues, cualquier vibración mecánica, hablando en términos generales, es sonido.

Pero como habitualmente el medio por el que se transmite el sonido es el aire y como
lo que nos interesa ahora es el sonido que los humanos somos capaces de percibir, para
simplificar podemos pensar que el sonido es la alteración producida en nuestro
1
sistema perceptivo por las pequeñas y rápidas oscilaciones de la presión del aire
en torno a su valor medio.
Ahora bien, decimos que el sonido es movimiento, que la pared a través de la que
llega a nuestros oídos el ruido de la habitación de al lado se está deformando, pero
no vemos que nada se deforme, no apreciamos que nada se mueva. Ello se debe a dos
peculiaridades de las vibraciones mecánicas que percibimos como sonido.
La primera es que las amplitudes de las vibraciones sonoras son, en general, muy pe-
queñas. Por poner un ejemplo, la variación de la presión sonora en una calle con un
tráfico moderado, debida al ruido de los coches y de los transeúntes, es aproximada-
mente una millonésima parte de la presión media del aire.
La segunda es que las vibraciones sonoras son muy rápidas para ser seguidas por
nuestra vista. Nosotros sólo percibimos como sonidos las vibraciones mecánicas que
se producen dentro de un margen temporal adecuado a nuestra percepción, en con-
creto, aquéllas que realizan una oscilación completa en un rango que va desde unas
20 veces por segundo hasta unas 20.000 veces por segundo.
Para obtener una imagen intuitiva de la vibración sonora, podríamos imaginar el

aire como si estuviera formado por pequeñas bolitas o esferitas unidas por diminu-
tos muellecillos, unas esferitas que estarían igualmente espaciadas en su posición de
equilibrio y que oscilarían siguiendo el movimiento de la fuente sonora.
Este modelo es apropiado para simular las variaciones de la presión del aire que cons-
tituyen el sonido. El hecho de que las esferitas se aproximen entre sí se corresponde
con un aumento de la densidad del aire y, por lo tanto, de la presión, mientras que el
que se alejen unas de otras representa la rarefacción y la disminución de la presión del
aire. Los muellecillos simulan la posibilidad de todo medio elástico de ser deformado,
así como su tendencia a recuperar la posición de equilibrio.
Utilizando este modelo de las esferitas y los muelles, he confeccionado varios vídeos
didácticos, cuyos fotogramas han sido generados con Matlab. Estos vídeos nos ayuda-
rán a asimilar los principales conceptos implicados en la vibración sonora, los cuales
son estudiados en los apartados “Simulación de la vibración del aire en un sonido
simple” y “Simulación de la vibración del aire en un fragmento sonoro complejo”.
Espero que esta forma de representación resulte útil para entender en qué consiste la
2
vibración del sonido y cómo se transmite por el aire el movimiento vibratorio desde
la fuente sonora hasta nuestros oídos.
1.2. Simulación de la vibración del aire en un sonido simple
Veamos un vídeo que simula a cámara lenta cómo vibra el aire cuando suena un
sonido simple, es decir, un sonido con una frecuencia y una amplitud estables y
sin armónicos. El vídeo sigue el modelo del aire formado por una serie de bolitas y
muellecillos que se desplazan cuando cambia la presión del aire como consecuencia
de la vibración sonora.
El vídeo representa la vibración del aire cuando suena la nota la4 generada artifi-
cialmente, cuya frecuencia es de 440 Hz. He elegido para este ejemplo un sonido
simple porque, al ser su movimiento vibratorio muy sencillo y repetitivo, nos va a
permitir observar con facilidad los rasgos característicos de toda vibración sonora y
de su propagación. He ralentizado el movimiento 440 veces y he amplificado mucho
el desplazamiento de cada esferita para que se pueda apreciar la vibración con facili-
dad. El sonido del vídeo, sin embargo, corresponde a la nota la4 tal cual, es decir, sin
ralentizar, por lo que la finalidad del sonido es meramente ilustrativa.
Figura 1.1: Vídeo que modeliza, ralentizada 440 veces, la vibración del aire ocasionada por la nota
musical simple la4 .
3
Aunque la finalidad del vídeo es puramente didáctica, he tratado de que el modelo sea
lo más realista posible. Por ello cada cuadro del vídeo ha sido realizado con Matlab.
Este programa me ha permitido calcular la posición instantánea de cada una de las
esferitas del modelo durante la emisión de este sonido. Así, el vídeo simula lo que
ocurre en una imaginaria sección cúbica de aire de 2 metros de lado situada en un
espacio abierto, sin viento y sin obstáculos, lo cual evita la necesidad de tener en
cuenta cualquier perturbación en la propagación del sonido.
Puesto que el sonido en realidad se propaga en todas las direcciones por igual, es
necesario pensar que el cubo está a gran distancia de la fuente sonora, de modo
que los movimientos de las esferitas puedan ser considerados como prácticamente
paralelos. Para ello suponemos que a la izquierda del cubo, a 100 metros o más de
distancia, un altavoz potente está emitiendo la nota musical la4 que acabamos de oír.
Suponemos también que la nota está ya sonando de una forma estable cuando el
vídeo se inicia.
Cada esferita del vídeo representa un volumen esférico de aire de 2,8 cm de radio. En
su posición de equilibrio la distancia entre los centros de estas esferas es de 9,69 cm.
He elegido esta distancia para que la longitud de onda del sonido analizado abarque
un número entero de esferitas en nuestra simulación.
Ya que la propagación de la vibración se realiza de izquierda a derecha, en el vídeo

los muellecillos sólo unen las esferitas en el sentido longitudinal. Esta es también
la razón de que las esferitas que se mueven sincronizadamente estén agrupadas en
paneles paralelos a las caras laterales del cubo.
Debemos suponer que la vibración que vemos en esta simulación está siendo pro-
vocada por la masa de aire que se encuentra a la izquierda del cubo, la cual, a su vez,
está siendo movida por el cono del altavoz que está emitiendo la nota musical la4 .
Cuando el cono del altavoz se desplaza a la derecha, desplaza a la derecha la masa de
aire que está en contacto inmediato con él, con lo que éste se comprime. Cuando se
comprime, su densidad aumenta y, por lo tanto, la presión que ejerce sobre lo que
le rodea se hace más elevada. Ello hace que, a su vez, pero con un cierto retraso,
desplace y comprima el aire que sigue a continuación, y así sucesivamente. Cuando
el cono del altavoz se desplaza hacia la izquierda, el vacío que deja atrae el aire de
4
sus inmediaciones, con lo que su densidad disminuye y su presión desciende. Esta
disminución de la presión provoca, a su vez, la atracción del aire vecino.
1.2.1. Propagación de la perturbación a través del aire
Los movimientos de la fuente sonora provocan una cadena de compresiones y ra-

refacciones que constituyen ondas de presión que se desplazan por el interior de la
masa de aire. Veamos cómo se producen.
Lo primero que observamos a simple vista en el vídeo es un cubo que vibra, estirán-
dose y encogiéndose como si fuera una especie de fuelle, y lo hace de una manera
totalmente regular. La regularidad y simplicidad de esta vibración es debida a que
estamos simulando un sonido simple, es decir, una nota musical sin armónicos.
Si nos distanciamos un poco de la pantalla para tener una visión de conjunto, po-
demos apreciar unas perturbaciones que se desplazan de izquierda a derecha. Estas
perturbaciones, que se corresponden con las alteraciones de la presión del aire, cons-
tituyen un movimiento ondulatorio, que es la manera en la que se propaga el sonido
desde la fuente sonora hasta nuestros oídos.
En efecto, distinguimos varias áreas donde los paneles de esferitas progresivamente se

amontonan, dando una sensación de mayor densidad o, lo que viene a ser lo mismo,
de mayor presión. Estas áreas de mayor densidad parecen surgir de la cara lateral
izquierda del cubo, viajar de izquierda a derecha y desaparecer por la cara lateral
derecha. Cada una de estas condensaciones que surge deja a su paso otra zona donde
los paneles de esferitas se van separando y en la que, por lo tanto, la densidad y la
presión del aire serán menores.
Podemos ver en el vídeo que estas condensaciones se renuevan una vez por segun-
do. En efecto, cada segundo parece surgir de la cara izquierda del cubo una nueva
condensación, por lo que la frecuencia de las ondulaciones que apreciamos en este
vídeo es de 1 Hz. Teniendo en cuenta que en él se representa el movimiento vibra-
torio ralentizado 440 veces, la frecuencia real con la que se renuevan estas zonas de
presión en el aire será de 440 veces por segundo, lo que coincide con la frecuencia
de la nota musical que está sonando, un la4 de 440 Hz.
5
Si midiéramos con exactitud, mediante un editor de vídeo u otro programa similar, el
tiempo que tarda cada una de las condensaciones en recorrer el cubo, veríamos que es
de 2,58 segundos. Como el lado del cubo representado mide 2 metros, en un segundo
cada condensación recorrerá 0,775 metros (2 ÷ 2, 58 = 0, 775). Como la realidad es
440 veces más rápida, la velocidad real en la que se propagaría la perturbación sería
de 341 m/s (0, 775×440 = 341), lo cual es coherente con la velocidad de propagación
del sonido en el aire.
1.2.2. Movimiento individual de oscilación
Sin embargo, si nos fijamos en cada una de las esferitas nos daremos cuenta de que
no se van desplazando indefinidamente hacia la derecha, sino que tienen únicamente
un movimiento oscilatorio horizontal en torno a su posición de equilibrio: sólo se
mueven realizando un sencillo vaivén de izquierda a derecha y de derecha a izquier-
da, en un rango muy reducido de desplazamiento respecto a su posición central. Y
lo mismo ocurre con los paneles en los que se agrupan.
Además, si observamos con un poco de detenimiento varias esferitas elegidas al azar

podremos comprobar que todas ellas realizan el mismo movimiento. Unas se mueven
antes y otras después en función del panel en el que se encuentran, pero todas las
esferitas del cubo oscilan exactamente de la misma manera.
Dado que en nuestra simulación hemos elegido un sonido simple, el movimiento de

cada esferita es un sencillo vaivén. Este sencillo vaivén repite el movimiento que ha
efectuado el cono del altavoz al emitir el sonido.
Para observar con detalle el movimiento de una esferita cualquiera he realizado un

vídeo en el que aparece la oscilación de una esferita del cubo aislada, ralentizada ahora
880 veces, es decir, el doble que en el vídeo de la figura 1.1. Conforme va oscilando
se va dibujando la forma de su movimiento en el tiempo.
6
Tiempo
Desplazamiento
Figura 1.2: Vídeo con el movimiento de oscilación de una esferita cualquiera del cubo de la figura
1, ralentizado 880 veces.
Vemos que la forma de la gráfica que dibuja el movimiento de oscilación de cada

esferita en el tiempo es una sucesión de eses. En efecto, en el momento en el que
la esferita alcanza su máximo desplazamiento hacia la derecha se detiene instantá-
neamente y cambia de sentido, empezando a moverse hacia la izquierda. Entonces
va aumentando progresivamente su velocidad hasta pasar por la posición de equili-
brio, a partir de la cual va frenándose gradualmente hasta alcanzar su desplazamiento
máximo hacia la izquierda. En ese momento de nuevo se detiene instantáneamente
y cambia de sentido, moviéndose ahora hacia la derecha, recorriendo de la misma
manera el mismo camino, pero en sentido opuesto, hasta llegar otra vez a su despla-
zamiento máximo por el lado derecho, donde inicia una nueva oscilación.
Observamos que la esferita tarda 2 segundos en realizar una oscilación completa. Esta
duración es el periodo de oscilación de la esferita que vemos en la pantalla. Como el
vídeo está ralentizado 880 veces, el periodo real de la oscilación de este sonido será
de 2,3 milésimas de segundo (2 ÷ 880 = 0, 0023).
Visto de otra manera, en un segundo la esferita de este vídeo realiza media osci-
lación completa. Eso quiere decir que su frecuencia de oscilación es de 0,5 Hz. Al
estar ralentizado 880 veces, la frecuencia real de la oscilación es de 440 Hz, que es
7
la frecuencia de vibración del la4 que está sonando. Comprobamos, así pues, que la
frecuencia de oscilación de las esferitas es la misma que la frecuencia del movimiento
ondulatorio de propagación, es decir, la frecuencia con la que se renuevan las con-
densaciones en un punto del espacio que hemos visto en el apartado anterior.
1.2.3. De la oscilación individual a la propagación ondulatoria
Al oír la palabra ondulación nos viene enseguida a la mente la imagen de las olas del
mar o la de los círculos concéntricos que surgen en un estanque de agua al arrojar
una piedra. Pero en nuestra simulación no vemos nada que ondule, nada que tenga la
forma de una onda; a lo más, intuimos un cierto carácter ondulatorio en la sucesión
de condensaciones y rarefacciones. Ello se debe a que las ondas mediante las que
se propaga el sonido son ondas de presión longitudinales, mientras que las ondas
del estanque o del mar son principalmente transversales.
Voy a explicar a continuación cómo son las ondas longitudinales mediante las que se
propaga el sonido. Veremos cómo surgen las ondas sonoras a partir del movimiento
individual de oscilación, que reproduce la oscilación de la fuente sonora, y de la
elasticidad del medio, en este caso, el aire. Comprenderemos, así mismo, que como
consecuencia de la elasticidad del medio, la forma de la onda en el espacio es la
misma que la forma de la oscilación de la fuente sonora en el tiempo.
En términos de nuestra simulación, vamos a estudiar cómo a partir del movimiento

oscilatorio de cada una de las esferitas se genera el movimiento ondulatorio mediante
el que se propaga la perturbación.
Para ello he fabricado un vídeo con una fila aislada del cubo de la figura 1.1, en el que
las esferitas aparecen oscilando, pero ahora con el movimiento ralentizado 880 veces.
La oscilación de cada una de las esferitas se va dibujando en el tiempo con trazos de
ocho colores distintos. La línea ondulada verde que aparece por encima y por debajo
de las esferitas indica la variación de la presión del aire a lo largo del espacio.
8
Tiempo
Espacio
Figura 1.3: Vídeo con el movimiento oscilatorio de una fila de esferitas.
Analicemos con un poco de detenimiento lo que vemos en este vídeo y lo que sucede
en la realidad que simula.
a) En las ondas longitudinales la dirección de propagación es la misma que la de la oscila-

ción
Podemos apreciar con claridad que la oscilación de cada una de las esferitas se rea-
liza en la misma dirección que la propagación de las perturbaciones, en este caso,
de izquierda a derecha. Por eso los desplazamientos individuales de las esferitas, al
oscilar en torno a su posición de equilibrio, se camuflan en el movimiento general
de propagación, lo que explica que en el cubo del aire vibrando de la figura 1.1 no
se observe ninguna forma ondulada en el espacio.
En la realidad, los pequeñísimos desplazamientos del aire, representados por la osci-

lación de las esferitas, oscilan en la misma dirección en la que se propaga el sonido
por el espacio, repitiendo el movimiento de la fuente sonora. Este tipo de ondas se
llaman longitudinales y mediante ellas se propaga el sonido.
9
b) Los desfases provocados por la elasticidad transforman los desplazamientos oscilatorios
del aire en oscilaciones de la presión
En el vídeo observamos que la elasticidad de los muellecillos causa retrasos en la

transmisión del movimiento oscilatorio de las esferitas. Vemos que la fuente del mo-
vimiento de cada esferita es la que está situada inmediatamente a su izquierda; ahora
bien, la elasticidad de la unión entre la esferita impulsora y la impulsada hace que los
constantes cambios de velocidad del movimiento oscilatorio de la esferita impulsora
se transmitan con retraso. Esto explica que los dibujos en forma de ese que cada es-
ferita va trazando en el tiempo, aún siendo iguales en la forma, estén desfasados, lo
que queda reflejado por los distintos colores con los que están pintados.
A su vez, el retraso en la transmisión del movimiento provoca que en unos momentos

las esferitas se vayan aproximando y en otros se vayan alejando, con las correspon-
dientes compresiones y elongaciones de los muellecillos que las unen.
Para entender cómo surge la oscilación de la presión a partir de los desfases derivados
de la elasticidad, presento un nuevo vídeo con un detalle ampliado del movimiento de
las dos primeras esferitas. En el rectángulo de la derecha se va trazando la separación
entre ellas, o lo que es lo mismo, el grado de compresión o elongación del muelle
que las une.
Tiempo
Tiempo
Desplazamiento Distancia entre esferitas
Figura 1.4: Vídeo con la oscilación de las dos primeras esferitas y la evolución de sus distancias.
10
Podemos apreciar en este nuevo vídeo cómo la evolución en el tiempo del grado de
compresión o elongación del muelle reproduce, aunque desfasada, la forma y el ritmo
de la oscilación de las esferitas individuales. En este caso, como estamos analizando
un sonido simple, ambas oscilaciones tienen la forma de una sucesión de eses, que
repiten la oscilación de la fuente sonora.
En efecto, en la vibración real la presión del aire en cualquier punto del espacio
oscila con la misma forma y ritmo que los pequeñísimos desplazamientos de aire
provocados por la oscilación de la fuente sonora.
c) La onda que se desplaza por el espacio tiene la misma forma que la oscilación en el tiem-
po
Como consecuencia de los desfases debidos a la elasticidad, se produce una cade-

na de condensaciones y rarefacciones del aire que se extiende por el espacio. Estas
variaciones de la presión del aire a lo largo del espacio constituyen la onda sonora.
Podemos hacernos una idea intuitiva de lo que es la onda sonora si nos fijamos en
la línea ondulada verde del vídeo de la figura 1.3. Allí podemos ver también que la
forma de esta onda que se desplaza imita los dibujos de colores que las oscilaciones
de cada una de las esferitas van trazando en el tiempo.
En efecto, los retrasos producidos por la elasticidad de los muelles son también la
causa de que el movimiento oscilatorio que realizan las esferitas en el tiempo se di-
buje en el espacio. Si miramos con un poco más de atención ese vídeo, podremos
apreciar que, en un instante cualquiera, la secuencia a lo largo del espacio de aproxi-
maciones y separaciones entre las esferitas reproduce la secuencia de aproximaciones
y separaciones de las dos primeras esferitas a lo largo del tiempo.
Como la fuente sonora está a la izquierda, lo que está más a la derecha en el espacio es
lo que ha sucedido antes en el tiempo, pues es lo que ha tardado más en llegar. Puesto
que la evolución de las distancias entre las esferitas repite el movimiento de la fuente
sonora, conforme se encuentren más a la derecha —o sea, más lejos de la fuente—,
su estado se corresponderá con un momento anterior. Por poner un ejemplo, la dis-
tancia entre las dos últimas esferitas de la derecha en un instante determinado es la
misma que la que había en un instante anterior entre la penúltima y la antepenúl-
11
tima, que, a su vez, es la misma que en otro instante anterior se producía entre la
antepenúltima y la que le antecede, y así sucesivamente.
Así pues, en un instante dado, las distancias entre las sucesivas esferitas a lo largo de
la fila reflejan la historia del movimiento de la fuente sonora.
Podemos observar también en este vídeo que la secuencia de separaciones entre las
esferitas se va desplazando por el espacio. Lo que se desplaza a lo largo del espa-
cio no son las esferitas, que sólo tienen un pequeño movimiento oscilatorio, sino el
patrón de proximidad y lejanía entre ellas. Lo mismo sucede en la vibración real,
donde lo que se desplaza no son las masas de aire, sino la onda de presión y con ella
la información que lleva implícita, que no es otra sino la información de la fuente
sonora.
d) En un sonido simple la onda de presión del aire tiene forma de ese y una longitud defini-
da
Veamos ahora lo que es específico de un sonido simple y, en concreto, de la onda

que corresponde a la nota la4 de nuestro ejemplo.
En el vídeo de la figura 1.3 podemos ver que la acumulación de los desfases provo-
ca que todas las esferitas que estén separadas entre sí por ocho muellecillos oscilen
siempre sincronizadamente.
En efecto, en los dibujos en forma de ese que trazan las esferitas al oscilar podemos
apreciar que los retrasos con los que todas ellas repiten el movimiento de la primera de
la izquierda se van incrementando linealmente, es decir, según la misma cantidad.
La acumulación de los sucesivos retrasos hace que en la novena esferita el desfase
respecto a la primera coincida exactamente con una oscilación completa, de modo
que ambas oscilan de manera sincronizada. Los dibujos de las esferitas que oscilan
sincronizadamente están pintados en el vídeo con el mismo color.
Como consecuencia de ello, las separaciones entre las esferitas forman un patrón en el
espacio que se repite cada ocho esferitas. En cualquier momento en el que paremos el
vídeo de la figura 1.3, si tomamos como primera la esferita que en ese momento está
entre los muelles más comprimidos, siempre comprobaremos que la quinta esferita
12
estará entre los muelles más distendidos y la novena, de nuevo, entre los muelles más
comprimidos.
Al margen de las imprecisiones debidas al reducido número de esferitas, este patrón

de compresiones y elongaciones representa la onda de presión sonora en el espacio.
Podemos observar en ese vídeo que los valores máximos de presión, representados
por los picos de la gráfica verde, vienen a coincidir con los puntos del espacio en
los que los muellecillos están más comprimidos, mientras que los valores mínimos
coinciden con aquellos puntos en los que los muelles están más estirados.
Para apreciar mejor la forma de la onda en el espacio en este sonido simple, presento
una instantánea de la cara frontal del cubo de la figura 1.1, en la que he trazado la
gráfica de la presión del aire. He teñido cada esferita siguiendo la misma serie de
colores del vídeo de la figura 1.3, lo que facilita el reconocimiento del patrón.
Figura 1.5: Cara frontal del cubo con la gráfica de la onda de presión en el espacio.
La longitud de onda es la distancia entre dos puntos equivalentes de la perturbación

o, lo que en nuestra simulación viene a ser lo mismo, entre dos esferitas del mismo
color. En este caso, dado que la distancia entre las esferitas en la posición de equilibro
es de 9,69 cm, esta longitud es de 77,5 cm (9,69 x 8), lo que corresponde a la longitud
de onda esperada para la nota la4 a 440 Hz con una velocidad del sonido de 341
m/s.
13
Si ahora volvemos de nuevo al vídeo de la figura 1.3 y prestamos un poco de atención,
podremos apreciar también que en el tiempo en el que cualquier esferita realiza una
oscilación completa, es decir, en el tiempo del periodo de la oscilación —en este vídeo
2 segundos—, el patrón que representa la onda de presión ha recorrido exactamente
la distancia que lo define, en este caso el espacio abarcado entre los centros de nueve
esferitas.
De la misma manera, en la vibración real de un sonido simple la longitud de la onda

coincide con la distancia que recorre la onda de presión durante el tiempo que
dura una oscilación completa, es decir, el periodo de la oscilación. En nuestro
ejemplo, como el periodo de la oscilación real es, redondeando, de 2,3 milésimas de
segundos ((2 ÷ 880) = 0, 002273) y la velocidad del sonido que hemos supuesto es
de 341 m/s, la longitud de onda será de 77,5 cm ((2 ÷ 880) × 341 = 0, 775) , lo que
coincide con la medida que hemos obtenido a partir de esta figura 1.5.
1.3. Simulación de la vibración del aire en un fragmento sonoro

complejo
El carácter sencillo y repetitivo de la vibración en el caso de un sonido simple se

debe a que no posee armónicos y su amplitud y frecuencia permanecen constantes
a lo largo de toda su duración. Pero la realidad sonora es mucho más compleja: los
sonidos van cambiando con el tiempo; es frecuente que varias notas distintas estén
sonando a la vez; y puede que ni siquiera se trate de un fragmento musical, sino de
una conversación o del ruido de tráfico, por ejemplo.
Para hacernos una idea de cómo varía la presión del aire en el caso de un sonido com-
plejo he fabricado un vídeo que representa la vibración ocasionada por un brevísimo
fragmento del inicio de la Quinta Sinfonía de Beethoven. El sonido es meramente
ilustrativo, pues la vibración que simula el vídeo correspondería solamente a 27 mi-
lésimas de segundo. He utilizado el mismo modelo del cubo de aire simulado por
esferitas unidas por muellecillos. La única diferencia es que ahora, para que se pueda
apreciar con más facilidad el movimiento individual de oscilación, he destacado con
más luz una esferita.
14
Figura 1.6: Vídeo que modeliza, ralentizada 440 veces, la vibración del aire ocasionada por un
fragmento de 27 milésimas de segundo del inicio de la Quinta Sinfonía de Beethoven.
Si nos fijamos en el movimiento de oscilación de la esferita más iluminada, no en-

contramos nada parecido al sencillo vaivén del vídeo que simula un sonido simple.
En efecto, en el caso de un fragmento sonoro real, con toda su complejidad, los pe-
queñísimos desplazamientos de aire no consisten ya en una simple oscilación de tipo
pendular que se repite una y otra vez, sino que se trata de una oscilación bastante más
compleja, que se va transformando con el transcurso del tiempo. Además, y como
consecuencia de ello, tampoco la onda de presión en el espacio tendrá una forma
fija, sino que irá cambiando constantemente. Por eso, conceptos como periodo y
frecuencia de la oscilación o longitud de onda ya no serán tan evidentes.
Pero, lo esencial de todo movimiento ondulatorio se cumple también en el caso de

cualquier sonido complejo, sea o no musical.
Dado que en ambas simulaciones hemos supuesto las mismas condiciones para el aire,
podemos apreciar que en los dos casos el retraso ocasionado por la elasticidad de los
muellecillos es el mismo y, en consecuencia, la velocidad con la que se propagan las
perturbaciones es también igual.
Y lo que es más importante, aunque el movimiento de oscilación sea complejo, ob-

servamos que también ahora todas las esferitas del cubo repiten, cada una con su
retraso, el mismo movimiento, el movimiento que está inducido por la fuente. Esto
nos ilustra sobre lo que ocurre en la vibración del aire. En el aire la oscilación de la
presión en cualquier punto del espacio repite, con su correspondiente desfase
15
en función de la lejanía, las variaciones de la presión originadas por la fuente
sonora al emitir cualquier sonido.
Así mismo, vemos que también en el caso de un fragmento sonoro complejo, la

secuencia de distancias entre las esferitas reproduce la forma de la oscilación de cada
una de ellas. En lo que concierne al aire, la onda de presión a lo largo del espacio
adquiere la misma forma que la oscilación de la presión en un punto a lo largo del
tiempo.
1.4. Conclusión
Mediante la simulación por ordenador de la vibración sonora en el aire, hemos ex-

perimentado qué significa que el sonido sea una vibración mecánica que se propaga
por un medio elástico. Hemos visto que el movimiento oscilatorio de la fuente so-
nora, sea simple o complejo, se repite en cualquier punto del medio elástico por el
que se propaga, dando lugar a oscilaciones de la presión. Así mismo, hemos com-
prendido cómo en la transmisión del movimiento oscilatorio se generan ondas de
presión que toman la misma forma que la oscilación de la fuente. En consecuencia,
podemos concluir que la información sonora está contenida tanto en la oscilación de
la presión en cualquier punto del espacio, como en las formas que va adquiriendo la
onda al propagarse.
16
Capítulo 2
La señal de audio
2.1. Representación del sonido
Dada la rapidez y el reducido rango de las oscilaciones de la presión del aire que dan
lugar al sonido, nosotros no podemos observarlo directamente. Sin embargo, con
el avance de la tecnología, se han desarrollado diversos sistemas capaces de registrar
el movimiento vibratorio que lo constituye, lo que ha permitido, por un lado, re-
producirlo más tarde a voluntad y, por otro, estudiarlo y hasta manipularlo. Todos
estos métodos están basados en conseguir que la forma de la vibración sonora deje
un rastro, una huella, es decir, una señal.
En efecto, toda la información que lleva consigo el sonido está contenida dentro de
la forma de la vibración. La señal de audio es el dibujo que esa vibración traza
en el tiempo. En el caso del aire, la señal de audio viene dada por la forma de la
oscilación de la presión en torno a su valor medio, en un punto determinado del
espacio. Bastará, así pues, con obtener el dibujo de esa oscilación de la presión para
lograr una representación del sonido. Cuando el contenido de la vibración sonora es
una pieza o un fragmento de música, a esa representación del sonido se la denomina
señal musical.
Desde mediados del siglo XIX se desarrollaron varios ingenios para atrapar el soni-
do, es decir, para guardarlo y volver a reproducirlo posteriormente. Surgieron los
primeros fonógrafos, que, como su nombre indica, pretendían “escribir el sonido”.
17
Aquellos fonógrafos consistían en una membrana capaz de vibrar solidariamente con
el aire y que, a través de una serie de palancas intermedias que ampliaban la vibra-
ción, transmitía su movimiento a un fino estilete. El estilete iba dibujando la forma
de la oscilación en una capa de cera o en un papel ahumado colocado sobre la su-
perficie de un cilindro que rotaba. De esta manera, la huella de la vibración quedaba
registrada.
Figura 2.1: Un fonógrafo. Dibujo de la época.
Con el desarrollo de la electricidad, las oscilaciones mecánicas de la membrana que

captaba el sonido pasaron a transformarse en oscilaciones de la tensión eléctrica, las
cuales, a su vez, podían de nuevo ser transformadas en vibraciones mecánicas. Na-
cían el micrófono y el altavoz eléctrico. La aparición de las válvulas electrónicas y,
luego, de los transistores permitió controlar la amplificación y mejorar la fidelidad
del registro sonoro, así como difundir por radio la señal a lugares remotos. Poste-
riormente se desarrolló el registro de la señal de audio en un soporte magnético, lo
que facilitó la edición del sonido.
Todas estas representaciones del sonido que imitan de manera más o menos directa
el dibujo de la vibración sonora se conocen con el nombre de señal analógica de
audio, con independencia de que el soporte utilizado sea cera, vinilo, cinta magnética
o cualquier otro.
Pero desde hace unas décadas el avance de la tecnología ha permitido dar un paso
más y transformar la oscilación de la presión del aire en una lista de números. Para
ello es necesario tomar una cantidad muy elevada de mediciones por segundo de la
18
señal analógica. Mediante estas mediciones, que recogen con la precisión deseada el
movimiento vibratorio original, se digitaliza la señal sonora. Obtenemos así la lista
de números que constituye la representación digital de la vibración y que recibe, por
ello, el nombre de señal digital de audio. Conforme mayor sea la cantidad de mues-
tras obtenidas —es decir, la frecuencia del muestreo—, mejor será la aproximación al
movimiento vibratorio real que obtendremos.
La transformación en números de la vibración sonora permite que el tratamiento del

sonido se pueda realizar simplemente mediante operaciones matemáticas simples. Por
ejemplo, amplificar un sonido consiste en multiplicar cada una de sus muestras por
una cantidad constante; para mezclar dos grabaciones digitales sólo hay que sumar
los valores correspondientes de cada una de sus muestras, etc. Además, la señal digital
de audio, al tratarse solamente de una lista de números, no se pierde ni se deteriora
por muchas veces que sea reproducida. Y a partir de esa lista de números se pueden
generar con facilidad gráficas e imágenes que facilitan la observación y el estudio de
los sonidos.
2.2. Un ejemplo de registro digital
Veamos mediante un ejemplo en qué consiste el registro de la señal de audio digital.

Un sistema muy sencillo y al alcance de cualquiera puede estar formado simplemen-
te por un micrófono de condensador con salida digital y conectado a un ordena-
dor.
La cápsula de un micrófono de condensador posee una membranita muy fina que

vibra como consecuencia de las variaciones de la presión del aire que llegan hasta ella.
Esta membranita constituye una de las dos placas de las que consta un condensador
eléctrico. Al desplazarse esta membranita, debido a la vibración del aire, se acerca o
se aleja de la placa fija del condensador, lo que produce un cambio en la capacitancia
de éste, un cambio que es proporcional al desplazamiento de la membranita. De
esta manera las vibraciones mecánicas que dan lugar al sonido se transforman en
variaciones de la tensión eléctrica.
Si a este mecanismo le unimos un sistema capaz de medir con rapidez esas variaciones
de la tensión eléctrica, tendremos ya una herramienta que nos permitirá transformar
19
en números lo que sucede en la vibración sonora. Se trata de un pequeño circuito
integrado llamado Conversor Analógico Digital (CAD o ADC, por sus siglas en
inglés). La cantidad de mediciones que se toman por segundo se llama frecuencia de
muestreo. Una frecuencia de muestreo estándar con la que se puede conseguir ya la
máxima fidelidad es 44.100 muestras por segundo.
Hay que tener en cuenta que las muestras no contienen los valores absolutos de las
variaciones de la presión del aire, sino valores que son relativos entre sí, habitualmente
normalizados entre 1 y -1. El valor 0 corresponde a la presión ambiental del aire
en ausencia de sonido y los valores 1 y -1 a la presión sonora máxima y mínima
respectivamente que el sistema puede registrar.
Por su parte, el ordenador nos proporciona un lugar para almacenar las medicio-
nes que vamos obteniendo y nos permite también generar, a partir de esta lista de
números, todo tipo de gráficas e imágenes.
Supongamos que queremos registrar y guardar en un archivo de ordenador los com-

pases iniciales de la Quinta Sinfonía de Beethoven interpretada por una orquesta cual-
quiera en un día cualquiera. Los números obtenidos —es decir, las medidas o muestras
que resulten de digitalizar la oscilación de la presión del aire en torno a su valor me-
dio en el lugar en el que hayamos colocado el micrófono— constituirán la señal de
audio digital de esta interpretación concreta. Y esta lista de números será el archivo
de sonido que guardaremos en el ordenador.
Para ilustrar cómo surge la señal de audio digital a partir de la vibración sonora, he
fabricado un vídeo con imágenes obtenidas mediante Matlab. En el vídeo se simula,
a cámara lenta, el movimiento arriba y abajo de la membranita del micrófono, pro-
vocado por la variación de la presión del aire en el punto donde se halla colocado,
cuando suena un pequeñísimo fragmento del inicio de la Quinta Sinfonía de Beet-
hoven. El resultado de ese movimiento se va dibujando en el panel de la izquierda,
dibujo que da lugar a la señal analógica de ese fragmento. En el panel de la derecha
va apareciendo el valor numérico de las muestras que se van obteniendo, es decir, lo
que constituye la señal digital.
El movimiento que apreciamos en el vídeo está ralentizado 1.000 veces. Aunque el

sonido es meramente ilustrativo, hay que tener en cuenta que el movimiento de la
membrana, el dibujo de la señal y el valor numérico de las muestras que aparecen en
20
el vídeo se corresponden a las 20 primeras milésimas de segundo de esa grabación
concreta de la interpretación de esta sinfonía de Beethoven realizada por esa orquesta
en ese momento.
Figura 2.2: Vídeo que ilustra el proceso de digitalización sobre un fragmento de 20 ms de los
primeros compases de la Quinta Sinfonía de Beethoven.
El espacio de color azul viene a representar el interior de la cápsula del micrófono,

mientras que la raya horizontal de color amarillo que se desplaza arriba y abajo es
la membranita del micrófono que se mueve dentro de la cápsula, aunque la medida
real del desplazamiento de la membranita por la cápsula del micrófono sería de unos
pocos micrómetros.
La señal analógica es la gráfica de color blanco que se dibuja desde la cápsula del
micrófono como consecuencia de la transformación de la oscilación de la presión del
aire en oscilación de la tensión eléctrica. Las pequeñas cruces verdes que están sobre
esta gráfica de la señal representan los puntos en los que se van tomando las muestras
para la digitalización. Estas muestras se toman a intervalos de tiempo iguales, lo que
se llama la frecuencia de muestreo, que en este caso ha sido de 25.000 muestras por
segundo.
Esas mediciones van apareciendo en el recuadro de la derecha. Si detenemos el vídeo

en un instante cualquiera, podemos comprobar que el último número que aparece,
el situado en la parte superior de la lista, corresponde a la posición de la membranita
en ese momento. La lista de todas estas muestras numéricas es la señal digital de este
21
fragmento sonoro. Estos números se pueden almacenar en un archivo de ordenador,
de modo que el sonido quede registrado.
Si continuáramos digitalizando el sonido de la Sinfonía completa a tiempo real y

guardáramos la enorme lista de números, sin alteración alguna, obtendríamos exac-
tamente esa interpretación concreta, tal como fue recogida por el micrófono. Y lo
más interesante es que si conserváramos esa lista de números, no ya en un ordenador
o en un CD, sino, por poner un ejemplo disparatado, uno detrás de otro en un papel,
tendríamos exactamente la grabación original, sin que se perdiera nada de ella.
A partir de esta señal digital de audio que puede ser guardada en un archivo del or-
denador es posible reproducir el sonido de esta interpretación. El sistema de sonido
de cualquier ordenador posee un circuito integrado capaz de convertir los núme-
ros en variaciones de la tensión eléctrica, un Conversor Digital Analógico (CDA, o
DAC, por sus siglas en inglés). De esa manera se puede recuperar la misma forma
original de la señal analógica. Idealmente, el altavoz al que tenemos conectado el
ordenador vibrará siguiendo la lista de números de la señal de audio que tenemos
almacenada y provocará las mismas oscilaciones de la presión de aire que habían sido
registradas.
2.3. El editor de sonido
Veamos ahora cómo podemos representar y observar con ayuda de un editor de so-
nido la señal digital de ese fragmento sonoro. Existen muchos editores de sonido,
algunos de ellos, como Audacity, de libre distribución. Mediante cualquiera de ellos
podemos trazar, a partir de los números que hemos guardado en el archivo del or-
denador, la gráfica de la señal que hemos registrado.
Abrimos desde el editor de sonido el archivo con la señal de audio digital de ese
fragmento de música. Elegimos una presentación en la que podamos ver todo el
fragmento en una sola pantalla, para lo que, probablemente, necesitaremos hacer un
zoom negativo. Veremos y oiremos algo similar a lo siguiente:
22
Figura 2.3: Vídeo con la señal de audio de los compases iniciales de la Quinta Sinfonía de Beethoven.
En el vídeo podemos observar la representación de la señal de audio de un fragmento

de aproximadamente 21 segundos de duración. El valor de la coordenada vertical
representa la variación de la presión del aire en torno a su valor medio en el punto
en el que estuviera colocado el micrófono en el momento de la grabación. Dado que
los valores de presión que muestran las gráficas de las señales de audio no son valores
absolutos, sino relativos, no se indica ninguna unidad de presión.
Comprobamos a simple vista que esa mancha verde, la señal de audio, guarda cierta
relación con lo que estamos oyendo. Por ejemplo, los niveles sonoros más fuertes
coinciden con desplazamientos verticales más amplios, y viceversa. Pero en realidad
lo único que vemos son unas manchas más o menos amplias con un perfil bastante
simétrico y muy escarpado.
En efecto, con esta presentación no apreciamos el detalle de la vibración sonora, no

podemos ver cómo se ha movido la membrana del micrófono en cada instante, ni
por lo tanto, cómo ha variado la presión del aire que ha hecho que nuestro tímpano
vibrara. Esta gráfica consta aproximadamente de 1.000.000 de muestras, por lo que no
podemos ver los detalles. Ahora bien, basta hacer sucesivos zoom —ahora positivos—
en nuestro editor de sonido para acercarnos al interior de la señal. Obtendremos una
gráfica similar a la siguiente:
23
Figura 2.4: Fragmento de 50 ms de la señal de audio del inicio de la Quinta Sinfonía de Beethoven.
En esta imagen sí podemos observar con bastante detenimiento cómo ha sido la

vibración sonora en un pequeño intervalo temporal. Debido a que la gráfica está
representando solamente 50 milésimas de segundo (en concreto, desde el segundo 2
hasta el segundo 2,05), ahora es posible apreciar con detalle la vibración.
Vemos que esa gráfica va dibujando un movimiento de subidas y bajadas que oscilan
en torno a un valor central. Esta gráfica es el resultado de unir los valores de cada
una de las muestras digitales que han sido tomadas en el momento de la grabación
y que han constituido la señal de audio. Por lo tanto, podemos decir que la gráfica
verde representa la oscilación del valor de la presión del aire en el punto donde estaba
colocado el micrófono.
Si seguimos la forma de la gráfica verde en la pantalla utilizando un dedo o el ratón

del ordenador, nos estaremos haciendo una idea bastante intuitiva, como si fuera
a cámara lenta, de los pequeñísimos desplazamientos sucesivos que ha realizado la
membrana del micrófono que ha registrado el sonido. Mediante el editor de audio
podemos movernos por las barras de desplazamiento hacia la izquierda y la derecha y
recorrer toda la señal, de modo que podemos observar toda la vibración sonora con
el detenimiento que queramos.
24
2.4. El osciloscopio
Pero lo que realmente nos interesaría para estudiar el movimiento vibratorio que es
el sonido sería ver con este mismo detalle el dibujo de la señal de audio mientras
oímos lo que está representando. Con el editor de sonido podemos conseguir algo
aproximado si hacemos que la ventana en la que se representa la señal se vaya actua-
lizando conforme la música va sonando. Pero la forma idónea de representar en vivo
las vibraciones sonoras es mediante un osciloscopio.
Un osciloscopio es un instrumento de observación y medición que hace pasar a tiem-

po real la señal de audio por una ventana de observación. En Teoría de Señal se llama
ventana de observación a la función matemática que recorta un fragmento de la señal
de un determinado tamaño.
Para simular un osciloscopio he realizado un vídeo en el que podemos ver y escuchar

sincronizadamente la oscilación de los mismos compases iniciales de la Quinta Sin-
fonía de Beethoven del vídeo anterior. He elegido una ventana de observación de
50 milésimas de segundo porque ese tamaño es lo suficientemente corto como para
que se pueda apreciar el detalle de la vibración y lo suficientemente largo como para
permitirnos observar la forma de las oscilaciones.
Figura 2.5: Vídeo con la representación en un osciloscopio simulado de los compases iniciales de la
Quinta Sinfonía de Beethoven.
25
Podemos entender de manera intuitiva en qué consiste un osciloscopio si imagina-
mos que la señal de audio, la gráfica de la vibración, va pasando por delante de nuestra
ventana de observación a la vez que va sonando, entrando por la derecha y saliendo
por la izquierda. Algo así como si tuviéramos la gráfica de la señal de todo el frag-
mento sonoro escondida a la derecha de la ventana del osciloscopio (una ventana en
la que caben 50 milésimas de segundo) y la hiciéramos pasar de derecha a izquierda
por delante de nuestra ventana a la misma velocidad con la que está sonando.
El hecho de ver casi simultáneamente un fragmento de 50 milésimas de segundo nos

permite estudiar una realidad como la vibración sonora que cambia tan rápidamente
que de otro modo sería imposible observar. Mediante esta especie de osciloscopio
digital podremos apreciar la forma de la vibración que está sonando y su evolución
conforme el sonido va cambiando. Podemos parar el vídeo en cualquier momento y
analizar la forma de la vibración en las 50 milésimas de segundo correspondientes al
momento en el que lo hemos detenido.
Mediante este vídeo-osciloscopio podemos apreciar que cuando suena una nota mu-
sical aislada las formas de la vibración tienden a repetirse, lo que nos produce la im-
presión de que en ese momento el movimiento de la gráfica se hubiera detenido o
ralentizado. En realidad estamos viendo pasar la gráfica a la misma velocidad que
antes, pero, como las formas de la oscilación se repiten muchas veces con escasas
variaciones, la sensación óptica que obtenemos es más estática.
Esta repetición, unida al ritmo en el que se actualizan los cuadros en el vídeo y a

la persistencia en nuestra retina de las imágenes, nos produce diferentes ilusiones
ópticas: a veces parece que las formas de la oscilación se dirigieran a la derecha, otras
a la izquierda, otras parecen casi detenerse y en otras ocasiones da la impresión de
que se superpusieran dos vibraciones distintas. Pero estas ilusiones ópticas no nos
interesan ahora, pues nuestra atención solamente debe estar dirigida a la forma de la
vibración y a su evolución.
2.5. Conclusión
Al margen de las numerosas utilidades prácticas en los campos del registro, edición
y difusión de las obras musicales o de los acontecimientos sonoros de todo tipo, la
26
representación digital del sonido ofrece muchas posibilidades para el estudio acústico.
Puesto que la señal de audio digital es una representación fidedigna de la vibración
sonora, a partir de ella podemos obtener con facilidad todo tipo de gráficas e imágenes
que nos ayudarán a entender el sonido y la relación entre los parámetros físicos de
la vibración y nuestra percepción. Así mismo, podremos utilizar técnicas numéricas
para extraer la información que contiene.
27
Capítulo 3
Características de los sonidos musicales
3.1. Introducción
Imaginemos que hacemos escuchar a un grupo de personas de distintas edades, cul-

turas y formación musical varios fragmentos sonoros y les pedimos que nos digan
en cada caso cuándo se trata de música y cuándo no. Con independencia de instru-
mentos, de afinaciones y escalas o de su procedencia cultural, nadie dudará en decir
si lo que está escuchando es música o no lo es.
En efecto, distinguimos con facilidad los sonidos propios de la música del ruido que
produce un atasco de tráfico, o del murmullo de una fuente de agua, o de las palabras
de una conversación, por poner unos ejemplos. Ciertamente, hay circunstancias en
las que esta distinción no resulta tan obvia, como, por ejemplo, cuando en una obra
musical contemporánea se utilizan los ruidos procedentes de una fábrica. Pero, al
margen de casos similares, todos sabemos reconocer si lo que está sonando son o no
son sonidos musicales.
Ahora bien, ¿en qué consisten estas diferencias que percibimos? ¿Las señales de audio
que contienen información musical tienen alguna particularidad que las hace distin-
tas de otros tipos de señales sonoras? ¿Por qué el ruido se considera lo opuesto al
sonido musical? Este capítulo va a tratar de responder a estas cuestiones, mostrando
las peculiaridades que poseen las vibraciones de los sonidos que consideramos musi-
cales.
28
3.2. Ruido y sonido musical
Habitualmente se contrapone el sonido musical al ruido. Si bien esta oposición es

de gran utilidad para ayudarnos a entender qué es lo específico del sonido musical,
necesitamos precisar antes qué entendemos por sonido musical y en qué sentido
usamos la palabra ruido, pues este término tiene varias acepciones.
Cualquier sonido puede ser utilizado con un propósito musical, como, por ejemplo,
los sonidos de los instrumentos de percusión, los efectos sonoros que se generan en
la música electrónica o los ruidos diversos que se pueden incluir dentro de una obra
de música. Pero por sonido musical, en sentido estricto, vamos a entender aquí
solamente aquel sonido en el que podemos identificar una altura tonal, es decir,
aquél del que podemos decir que es un re o un la o cualquier otra nota.
Por otra parte, en el sentido cotidiano del término, ruido es cualquier sonido no
deseado. Así, si el vecino de al lado está escuchando ópera y a mí no me apetece
nada oír la ópera que pone mi vecino, esa ópera, paradójicamente, es ruido para mí.
Este es el sentido en el que se utiliza la palabra ruido en acústica ambiental, donde el
objetivo es atenuar las molestias que el sonido indeseado puede ocasionar.
Así mismo, desde el punto de vista de la Teoría de la Información, ruido es cualquier

perturbación en la transmisión del mensaje. Por poner un ejemplo similar al anterior,
si estoy hablando por el móvil en una cafetería en la que está sonando música a un
volumen muy elevado, el sonido de la música, aunque parezca también paradójico, es
un ruido que perturba mi comunicación y que altera la transmisión de la información
al colarse en el canal por el que viaja la conversación.
Aquí, sin embargo, vamos a usar el término ruido en un sentido distinto. Ruido va a
ser lo opuesto al sonido musical. Así pues, ruido será una masa de sonido indife-
renciado de la que nunca podríamos extraer notas musicales individuales. Del
ruido, cómo mucho, podremos decir que es grave o que es agudo o que predominan
en él los tonos medios, pero nunca podremos intuir, ni siquiera remotamente, una
nota musical.
Pero, ¿son tan claras las cosas?, ¿es tan nítida esta separación?, ¿qué es el habla, ruido
o sonido musical?, ¿y el sonido de una campana? A continuación intentaré responder
a estas cuestiones, utilizando una serie de ejemplos que nos van a permitir comparar
29
por medio del osciloscopio las vibraciones de los sonidos específicamente musicales
con las de otros sonidos que no lo son.
3.3. Ruido blanco y sonido simple
Antes de entrar en la observación de señales reales, voy a presentar dos sonidos ge-
nerados artificialmente que definen los polos opuestos entre los que se mueven los
sonidos naturales: el ruido blanco y el sonido simple. En un extremo, el ruido blanco
—llamado así por analogía con la luz blanca— contiene todas las frecuencias del es-
pectro con la misma intensidad. En el otro extremo, el sonido simple posee una sola
frecuencia que se mantiene estable durante toda su duración y es el paradigma del
sonido musical.
Para comparar cómo es la forma de la vibración en ambos casos, he construido un

vídeo en el que se observa en el osciloscopio un fragmento de ruido blanco seguido
de un sonido simple de 440 Hz.
Figura 3.1: Vídeo que simula un osciloscopio con un fragmento de ruido blanco y otro de un sonido
simple de 440 Hz.
Durante toda la primera parte del vídeo, cuando suena el ruido blanco, resulta im-
posible identificar alturas tonales, notas musicales. Aun es más, ni siquiera podríamos
30
responder a la pregunta de si este sonido es agudo o grave. En principio, el chispo-
rroteo de la parte aguda es lo que resulta más evidente, pero con un poco de esfuerzo
podemos distinguir también el ronroneo de los graves. Esta diferencia de apreciación
se debe a que nuestro oído no responde a todas las frecuencias por igual, sino que
es más sensible a la banda situada entre los 2.000 y los 5.000 Hz. Pero, al margen de
las irregularidades de nuestra sensibilidad auditiva, en el vídeo podemos apreciar que
este sonido contiene todas las frecuencias del espectro audible, de la misma manera
que la luz blanca contiene todos los colores visibles.
En la segunda parte del vídeo, sin embargo, la situación es completamente distinta.

Todos oímos una nota musical, en concreto, un la4 afinado a 440 Hz, la nota que
habitualmente sirve de referencia para definir la afinación estándar.
Atendamos ahora a la señal de audio, al dibujo que traza la vibración y que se observa
en el osciloscopio. Cuando suena el ruido blanco la gráfica va cambiando aleatoria-
mente a lo largo del tiempo y no hay manera de reconocer en ella ningún orden.
Si paramos el reproductor del vídeo en un cuadro cualquiera, veremos una imagen
similar a la siguiente:
Figura 3.2: Gráfica de la señal de audio de ruido blanco.
Vemos en esta gráfica que el movimiento de la vibración no posee forma alguna, ni

siquiera se aprecia una tendencia. Por consiguiente, no hay nada que nos permita
predecir cómo va a continuar, es absolutamente indeterminado. Esto se debe a la
31
manera en la que ha sido generada esta señal: para calcular el valor de las muestras he
utilizado una secuencia de números aleatorios, como si hubiera echado a suertes el
valor de cada muestra en una lotería en la que estuvieran todos los números posibles,
sin que los valores que hubieran salido previamente influyeran en las probabilidades
de los siguientes. Así pues, la señal de audio del ruido blanco es completamente
aleatoria.
Por el contrario, en la segunda parte del vídeo, mientras suena el sonido simple,
la gráfica que dibuja la vibración en la pantalla del osciloscopio tiene una forma
definida: una serie de eses iguales. Si paramos el reproductor del vídeo obtendremos
una imagen como ésta:
Figura 3.3: Gráfica de la señal de audio de un sonido simple de 440 Hz.
Al ver la gráfica de esta nota simple podemos predecir con total seguridad cómo
va a continuar. Ello se debe a que los valores de las muestras de esta señal han sido
obtenidos mediante una función matemática. Por ello decimos que la señal de audio
de un sonido simple es puramente determinista.
Y, lo que es más importante, en esta gráfica distinguimos que la forma se repite en

intervalos de tiempo exactamente iguales, es decir, existe un periodo de repetición.
Podemos apreciar que en las 50 milésimas de segundo de la gráfica se han sucedido 22
oscilaciones completas; en un segundo, por lo tanto, se habrán producido 440 osci-
laciones. Vemos, así pues, que la frecuencia de este sonido, el número de oscilaciones
32
completas que se producen en un segundo, es de 440 hercios. Nos encontramos con
un concepto que es esencial al sonido musical: la periodicidad de la vibración.
Esta periodicidad de la vibración es la que posibilita que nuestro sistema auditivo
reconozca una altura tonal, es decir, una nota musical.
Mediante este vídeo hemos podido observar las dos referencias extremas de las seña-
les sonoras: la señal puramente aleatoria, la indeterminación absoluta, por un lado, y
la señal totalmente predecible, la determinista pura, por otro. O, visto de otra ma-
nera, la máxima complejidad, la reunión infinita de todas las frecuencias audibles
posibles, frente a la máxima simplicidad, un sonido con una sola frecuencia siempre
estable.
Pero la realidad no es nunca ni totalmente impredecible ni completamente determi-

nada. Solo en el caso de sonidos generados artificialmente podremos obtener tanto
una máxima predictibilidad como una máxima impredecibilidad. Ambas señales, el
ruido blanco y el sonido simple, son dos formas paradigmáticas de los constituyen-
tes que están presentes en la mayoría de los sonidos reales, es decir, vienen a ser las
referencias ideales entre las que se mueven los sonidos naturales.
3.4. Tráfico con lluvia y notas de clarinete
Comparemos ahora dos situaciones acústicas naturales de índole opuesta: por un lado,
el ambiente sonoro de una ciudad en un día de lluvia y con tráfico abundante y, por
otro, unas pocas notas de clarinete tomadas de los compases iniciales de la Rapsodia
para piano y clarinete de Claude Debussy.
33
Figura 3.4: Vídeo que simula un osciloscopio con ruido de tráfico en un día lluvioso, en la primera
parte, y cinco notas de clarinete de la Rapsodia para piano y clarinete de C. Debussy, en la segunda.
Durante la primera parte, el ambiente sonoro de fondo del tráfico con lluvia nos
recuerda el ruido blanco que hemos oído en el vídeo anterior. Sin embargo, nos
damos cuenta enseguida que ahora tienen más presencia los componentes graves.
Podríamos decir, siguiendo la analogía de los colores, que esta sonoridad tiende al
rojo, la parte inferior del espectro. Esto es debido a la aportación que hace el tráfico
al sonido de la lluvia. Si detenemos el vídeo en los segundos iniciales observaremos
una imagen similar a la siguiente:
Figura 3.5: Gráfica de la señal de audio de ruido de tráfico con lluvia.
34
Vemos en esta señal que, igual que en el caso del ruido blanco, ni hay periodicidad
alguna ni resulta posible predecir con seguridad el valor de cualquier muestra a partir
de las que le preceden. Sin embargo, el grado de aleatoriedad es ahora menor, pues las
muestras anteriores sí influyen en las posibilidades de la que viene a continuación. En
efecto, en la gráfica podemos apreciar, tomando como referencia una muestra cual-
quiera, que los valores más próximos a las muestras inmediatamente anteriores son
más frecuentes que los más alejados. Esto explica que la gráfica, aun siendo una línea
quebrada, mantenga una cierta continuidad. Cuando analicemos esta señal mediante
el análisis espectral entenderemos mejor el significado de todo esto.
Por otro lado, en medio de este ruido rojo de fondo, podemos distinguir varios acon-
tecimientos sonoros. Oímos el motor de un coche que acelera, con lo que su sonido
se va haciendo más agudo y se incrementa su volumen. Oímos también otros coches
más lejanos. Y ya casi al final de esta primera parte del vídeo escuchamos la bocina
de un coche. Si prestamos atención, nos damos cuenta de que esta bocina está dando
una nota musical, en concreto, una nota que podríamos situar entre un sol4 y un
lab4 . En el osciloscopio podemos ver que la señal, que hasta entonces era claramente
aleatoria, parece adquirir en ese momento cierta periodicidad.
En la segunda parte del vídeo, sin embargo, todos oímos con claridad las cinco notas
del clarinete (la4 , si4 , solb4 , mib4 , re4 ). Puede que quien no tenga oído absoluto o sus
conocimientos de música sean menores no sea capaz de darles nombre, es decir, no
pueda determinar si se trata de un la o de un si, pero todos sabemos que lo que suena
son notas musicales.
Podemos observar también que mientras está sonando cada una de las notas, la gráfica
que aparece en la pantalla del osciloscopio es bastante estable, pues la vibración se
repite de manera parecida durante la duración de la nota. Por eso, ahora también
podemos hablar de una forma de la vibración, como ocurría en el caso del sonido
simple, si bien se trata de una forma más compleja que una sencilla ese. Como se
explica en el capítulo dedicado al sonido armónico, la forma de ese dibujo tiene que
ver con la cualidad del sonido, con el hecho de que sea más suave o más áspero, por
poner un ejemplo.
Si paramos el reproductor del vídeo cuando suena la nota si4 , obtendremos una grá-
fica parecida a la siguiente:
35
Figura 3.6: Gráfica de la señal de audio de una nota de clarinete.
Puesto que hay una forma que se repite, podremos hablar aquí también de periodo
de la oscilación y, a partir de ahí, deducir su frecuencia. En efecto, en esta gráfica,
que representa 50 milésimas de segundo, podemos distinguir casi 25 oscilaciones,
pues la última no está del todo completa, por lo que deducimos que en un segundo
se habrán producido un poco menos de 500 oscilaciones. Esta frecuencia de 500
Hz es ligeramente superior al valor que esperaríamos para la nota si4 en la afinación
estándar (493,9 Hz), pero se aproxima bastante a la frecuencia real de la nota que
estamos escuchando (497 Hz).
Y, puesto que existe una forma, es posible también predecir cómo va a continuar
la señal en las próximas milésimas de segundo, a no ser, claro está, que se produzca
algún cambio repentino, como, por ejemplo, que empiece a sonar otra nota.
Así pues, hemos podido observar que durante la primera parte del vídeo, en el tráfi-
co con lluvia, predomina la aleatoriedad, por lo que la señal de audio que vemos en
el osciloscopio tiene muchos rasgos en común con la del ruido blanco que hemos
analizado en el apartado anterior. Durante la segunda parte del vídeo, sin embar-
go, cuando suenan las notas del clarinete, hemos comprobado que la señal tiende a
ser de tipo determinista y también hemos podido apreciar con claridad su periodici-
dad.
Mediante los ejemplos que hemos estudiado hasta ahora podemos obtener la idea
general de que el ruido se corresponde con el desorden, con la aleatoriedad, con
36
la imposibilidad de predecir lo que va a suceder a continuación, mientras que
el sonido musical tiene que ver con el orden, la predictibilidad y, lo que es más
importante, con la periodicidad.
3.5. Campanadas y notas de piano
Ahora bien, ¿son tan claras las cosas? ¿Hay una línea que delimita con nitidez las
vibraciones propias de los sonidos musicales? ¿Podemos determinar con precisión
dónde empieza el sonido musical y dónde termina el ruido? E incluso más, ¿hay
siempre una separación clara entre los sonidos periódicos y los que no lo son? La
respuesta es que no, que en medio hay un amplio territorio difuso. Ciertamente,
hay sonidos que no pueden ser considerados como ruidos, pero que tampoco son
propiamente periódicos; y hay sonidos que son claramente musicales, pero que están
lejos de ser estrictamente periódicos.
A continuación vamos a comparar dos sonidos que pertenecen a esta zona intermedia
que se encuentra lejos de los extremos opuestos de la pura aleatoriedad y la periodi-
cidad estricta, es decir, lejos del ruido blanco y del sonido simple. Se trata del sonido
de una campana de iglesia y el de una nota de piano, en concreto un sol3 .
Figura 3.7: Vídeo que simula un osciloscopio con el sonido de una campana, en la primera parte, y
el de una nota de piano, en la segunda.
37
Podemos apreciar en el vídeo que existe un gran parecido en la forma en la que evo-
luciona la vibración de los dos sonidos. Ciertamente, ambos son sonidos percutidos,
por lo que las vibraciones que observamos en el osciloscopio tienen bastantes seme-
janzas: el ataque es muy rápido y abrupto, ruidoso en ambos casos, y va seguido de
un decrecimiento inmediato que conduce a un nivel sonoro considerablemente más
bajo; una vez alcanzado ese nivel, el sonido prolonga su duración durante bastante
tiempo, decayendo lentamente.
Todo este proceso va acompañado de un cambio constante en la cualidad del sonido,

pues con el paso del tiempo se van extinguiendo progresivamente los componen-
tes más agudos. Por eso vemos en el osciloscopio que la forma de la vibración se va
haciendo cada vez más sencilla, hasta recordar al final la gráfica de un sonido sim-
ple.
Pero, aunque el sonido de la campana y el del piano tienen todos estos rasgos en co-
mún, ambos se diferencian en algo que es fundamental para discernir si son sonidos
musicales: la posibilidad de atribuirles una altura tonal. Cuando suenan las notas del
piano todos percibimos una altura tonal que permanece constante, aquí en concreto
un sol3 . Pero si tratamos de responder a la pregunta de qué nota está dando la cam-
pana, nos encontraremos que durante la mayor parte de su duración no podemos
dar una respuesta, y sólo al final, en la parte que queda resonando, podemos apreciar
una altura tonal clara, un lab4 un poco bajo. Por ello, podemos afirmar que en el caso
del sonido de esta campana estamos al otro lado de la frontera que delimita el sonido
musical.
Esta diferencia que percibimos al oír ambos sonidos responde a las diferencias que se
producen en la vibración, como podemos observar en las dos señales de audio. En el
caso de la campana, a excepción de la resonancia final donde la forma de la vibración
es similar a la de un sonido simple, no podemos reconocer en la gráfica ninguna
periodicidad, si bien comprobamos que está muy lejos de las gráficas del ruido blanco
o del ruido de tráfico que hemos observado en los vídeos anteriores.
Para apreciar esto con claridad, veamos las gráficas que se obtienen si paramos el
vídeo en un momento cualquiera en pleno sonido de la campana, primero, y del
piano, después.
38
Figura 3.8: Gráfica de la señal de audio de un sonido de campana.
La gráfica de la campana no muestra ninguna periodicidad, lo que explica que no

podamos apreciar una nota determinada, pero lo cierto es que tampoco presenta una
gran complejidad. Su aspecto no es el de una señal aleatoria. Más bien su forma nos
llevaría a pensar que pudiera tratarse de varias notas musicales sencillas de frecuencias
diferentes que estuvieran sonando a la vez. De hecho, una persona entrenada o un
profesional de la afinación podría extraer algunos de los componentes frecuenciales
que constituyen este sonido.
Figura 3.9: Gráfica de la señal de audio de una nota de piano.
39
En la gráfica del piano la situación es diferente. A pesar de que ni siquiera durante este
breve intervalo de 50 milésimas de segundo, la forma que dibuja la vibración se repite
idénticamente igual, sí es posible reconocer en ella una forma compleja que, aun con
variaciones, se renueva cada cierto intervalo exacto de tiempo. Por lo tanto, aunque
no podamos decir que esta señal sea estrictamente periódica, sí podemos afirmar sin
ninguna duda que posee un periodo de oscilación que se mantiene constante y que
posibilita el reconocimiento de una altura tonal. En efecto, en esta gráfica podemos
contar aproximadamente unas nueve oscilaciones y media, lo cual correspondería a
una frecuencia de 190 Hz, muy próxima a la frecuencia real del sol3 que está sonando,
196 Hz.
Movimiento vibratorio periódico, en un sentido estricto, significa que el movimiento

tiene que repetirse exactamente igual cada cierto intervalo de tiempo, su periodo.
Pero en el caso de una nota musical real, como ésta que estamos observando, con
toda su complejidad, la periodicidad no es perfectamente estricta. Su oscilación es
compleja, por lo que la forma que se repite no es exactamente igual, sino que va
evolucionando con el paso del tiempo, y eso es lo que le proporciona su riqueza
sonora. Y no sólo su forma va cambiando, sino que también con el paso del tiempo
varía su amplitud.
No obstante, a pesar de todos estos cambios e inestabilidades, en ese intervalo de

tiempo de 50 milésimas de segundo que estamos observando, la forma de la vibración
de esta nota de piano resulta lo suficientemente periódica como para poder percibir
una altura tonal. Este es el estado que predomina en los sonidos musicales reales, salvo
en los momentos en los que se producen cambios abruptos, como, por ejemplo, en
el inicio de una nueva nota.
Así pues, la frontera que delimita el sonido musical reside en que su vibración
sea lo suficientemente periódica como para poder percibir una altura tonal de-
terminada.
3.6. Habla y canto
Hemos visto hasta ahora que la periodicidad es esencial al sonido musical. Pero, ¿po-
demos afirmar que todos los sonidos que muestran cierta periodicidad son musicales?
40
¿Qué sucede con los sonidos del habla? Vamos a comparar ahora en el osciloscopio
las vibraciones de los sonidos del habla con los del canto, a fin de precisar con más
nitidez qué es lo específico del sonido musical.
Para estudiar estas diferencias he fabricado un vídeo en el podremos observar con

detalle las particularidades que adquieren los sonidos del habla cuando reciben mú-
sica. En la primera parte se presenta la señal de audio de un breve fragmento hablado
de una locutora de radio y, en la segunda, la señal de un pequeño fragmento canta-
do, en concreto, el inicio del Lamento de Ariadna de Claudio Monteverdi. En ambos
casos se trata de sonidos propios del habla; la única diferencia es que en el segundo
la prosodia natural del lenguaje hablado ha sido sustituida por la melodía del canto.
Mediante este vídeo podremos ver en qué se diferencia la vibración de los sonidos en
los que podemos reconocer de qué vocal se trata (si es una a o es una e, por poner un
ejemplo) de otros sonidos en los que, además de reconocer su fonema, percibimos
claramente una nota musical.
Figura 3.10: Vídeo que simula un osciloscopio con un fragmento de una locutora de radio, en la
primera parte, y el inicio del Lamento de Ariadna, en la segunda.
El texto de la locutora es:
“Dice: Pero no se pueden aceptar normas éticas a la carta. La sociedad

necesita criterios reconocibles, saber que las varas de medir se aplican a
todos por igual”.
41
La letra del Lamento de Ariadna es:
“Lasciáte mi morire”.
Y las notas musicales que van sobre cada sílaba, respectivamente, son: la4 , sib4 , fa4 ,
fa4 , mi4 , mi4 ,mi4 .
En la primera parte, durante el enunciado de la locutora, podemos ver en el osci-

loscopio que la vibración va alternando rápidamente entre unas formas breves, pero
periódicas, que recuerdan a las de los sonidos musicales, y otras, mucho más breves
todavía, de aspecto aleatorio, similares a las del ruido. Esta alternancia corresponde,
simplificando un poco, a la que se produce en el habla entre las vocales y las conso-
nantes.
Por el contrario, en el fragmento del canto vemos constantemente formas periódi-

cas claramente reconocibles. Podemos apreciar que cambian con el texto y con la
música, incluso que durante la emisión de la misma vocal van modificando su forma
y su amplitud, pero se reconoce en ellas un patrón lo suficientemente estable como
para concluir que son sonidos musicales, incluso si simplemente los viéramos en el
osciloscopio, sin oír lo que suena.
Veamos la gráfica de un pequeño fragmento de la primera parte del vídeo en la que

podemos apreciar muy bien cómo se articula el lenguaje hablado, es decir, cómo los
sonidos consonánticos se unen con los vocálicos para formar la cadena hablada. La
gráfica corresponde al momento en el que la locutora pronuncia la palabra “éticas”.
He elegido ahora una duración más extensa que la ventana de observación que he
utilizado en los vídeos del osciloscopio, a fin de presentar un panorama general de
la vibración cuando se emite una palabra completa. La duración de este fragmento
es de 400 milésimas de segundo, es decir, ocho veces mayor que el de la ventana
del vídeo, lo que explica que las formas de la vibración se vean ahora mucho más
apretadas.
42
Figura 3.11: Gráfica de la señal de audio correspondiente a la emisión de la palabra “éticas”.
La parte de la señal correspondiente a cada fonema está delimitada por unos cor-
chetes. Aunque es imposible una separación precisa, responde bastante fielmente a
la realidad de lo que oímos. Podemos apreciar que existe una diferencia muy clara
entre la forma de la vibración de las consonantes y la de las vocales: las vocales son
claramente periódicas, mientras que las consonantes no son periódicas y tienden al
ruido. Observamos también que las consonantes oclusivas, la t y la k, son muy breves,
mientras que la s es bastante más larga y relativamente parecida al ruido blanco.
Si midiéramos mediante un editor de sonido el periodo de cada una de las vocales y,

a partir de ello, dedujéramos su altura tonal, comprobaríamos que la sílaba acentuada
é es casi un semitono más aguda que la vocal siguiente i y cerca de semitono y medio
más alta que la tercera vocal a, cuya sílaba, sin embargo, es la que tiene más intensidad
sonora y mayor duración.
Comprobamos que en español el acento de la palabra no se produce ni por una mayor

intensidad sonora ni por un alargamiento de la duración, sino por una elevación de
la altura tonal, lo cual justifica que se llame “sílaba tónica” a la que va acentuada. Así
pues, al margen de la entonación general propia de la prosodia, la relación de agudeza
y gravedad entre los sonidos de la cadena hablada explica nuestra distinción entre
sílabas acentuadas y sin acentuar, como podemos apreciar si volvemos a escuchar
con detenimiento cómo suena la palabra “éticas”.
43
Pero lo que interesa ahora es responder a la pregunta siguiente: ¿las vocales, cuyo
movimiento vibratorio es periódico, son propiamente sonidos musicales? Lo cierto
es que no oímos una nota musical cuando suenan. La razón de que, en principio, en
la cadena hablada no identifiquemos una nota musical cuando se emite una vocal, a
pesar de que se trata de un sonido periódico, reside en la brevedad de la parte pe-
riódica. En efecto, vemos que cada vocal apenas llega a completar unos pocos ciclos.
Esto, debido al constante entrecortarse en su articulación con el sonido consonánti-
co vecino, impide que reconozcamos esa periodicidad y que la apreciemos como un
sonido musical.
Para observar un detalle de la forma de la vibración cuando se emite la sílaba ti,

presento una gráfica que tiene la misma duración que la ventana de observación de
los vídeos y en la que he hecho zoom en la amplitud, que ha quedado delimitada
entre -0,4 y 0,4.
Figura 3.12: Gráfica de la señal de audio correspondiente a la emisión de la sílaba ti.
Vemos que el periodo de la vocal i es un poco más de 5 milésimas de segundo, lo

que corresponde a una frecuencia ligeramente inferior a 200 Hz, es decir, se trata
aproximadamente de un sol3 . Pero la duración de este sonido es muy breve: solo
se observan entre cuatro y cinco ciclos completos, lo que explica que no oigamos
ninguna nota musical cuando suena esta sílaba.
En el fragmento del canto, sin embargo, la situación es totalmente distinta. En la

gráfica de abajo, correspondiente a la vocal a de la primera sílaba, las, podemos ver
44
que la señal permanece claramente estable al menos durante todo el tiempo que dura
la observación.
Figura 3.13: Gráfica de la señal de audio correspondiente a la vocal a cantada.
Vemos que durante las 50 milésimas de duración la señal permanece estable, lo cual
es suficiente para que se pueda percibir una altura tonal. Conforme evolucione el
sonido, incluso durante la propia emisión de la vocal a, se modificará la forma, la
amplitud e incluso el periodo, pero, al margen de estas modificaciones, el sonido
en el canto es lo suficientemente estable y duradero como para permitirnos apreciar
con claridad una altura tonal. Por poner un ejemplo, si emitimos al hablar la vocal a,
no pensaremos que estamos dando una nota musical; ahora bien, si prolongamos la
duración de la vocal y nos esforzamos en mantener constante la misma altura tonal,
enseguida nos daremos cuenta de que estamos emitiendo una nota musical.
Así pues, el requisito de “suficientemente periódico”, que hemos reconocido en el

apartado anterior como necesario para determinar que un sonido sea musical, exige
también una cierta duración, es decir, necesitamos que la periodicidad se man-
tenga durante el suficiente tiempo como para que nuestro sistema perceptivo
sea capaz de apreciar una frecuencia, y con ella, una altura tonal.
45
3.7. Conclusión
A lo largo de este capítulo hemos podido apreciar las características que posee el
sonido musical. Ayudándonos de la señal de audio que queda representada en el os-
ciloscopio, hemos comparado lo que oímos cuando escuchamos un sonido musical,
con lo que oímos cuando se trata de sonidos ruidosos y de otros de cualidad inter-
media, de modo que hemos podido experimentar que un sonido es considerado por
nuestra percepción auditiva como musical cuando su vibración es lo suficientemente
periódica y duradera cómo para que podamos reconocer una altura tonal.
46
Capítulo 4
El sonido simple
4.1. Introducción
El sonido simple, también llamado sonido puro, es el sonido al que da lugar la vi-
bración más sencilla posible, aquella que se comporta siguiendo lo que en Física se
denomina Movimiento Armónico Simple (MAS). El calificativo armónico pa-
ra describir este movimiento procede precisamente de su vinculación con la músi-
ca.
Empecemos observando cómo es un sonido simple. En el capítulo 1, El sonido como

vibración, he utilizado un sonido simple para estudiar la vibración del aire, precisa-
mente porque su oscilación es muy sencilla y repetitiva, un simple vaivén. Volvamos,
pues, al vídeo de la figura 1.1 de ese capítulo donde se simula a cámara lenta el mo-
vimiento del aire cuando suena un sonido simple generado artificialmente, la nota
musical la4 a 440 Hz, sin armónicos y de frecuencia y amplitud totalmente estables.
En el vídeo de la figura 1.2 de ese capítulo tenemos el detalle del movimiento osci-
latorio de una de las esferitas de la simulación, donde se ve cómo la oscilación dibuja
en el tiempo una serie de eses enlazadas.
Veamos ahora un vídeo donde podemos apreciar en tiempo real mediante el osci-
loscopio la forma de la vibración cuando suena esa misma nota.
47
Figura 4.1: Vídeo con un sonido simple, la4 a 440 Hz, visto en un osciloscopio.
Podemos detener el reproductor en cualquier momento y observaremos con más

claridad la forma de ese constantemente repetida de la oscilación. Esta forma de ese,
como veremos enseguida, es el resultado de que la gráfica de la oscilación de un
sonido simple es una función sinusoidal del tiempo.
A lo largo de este capítulo estudiaremos en detalle en qué consiste el sonido simple y

comprenderemos por qué su vibración es la más sencilla de todas las posibles formas
de vibración. Me parece que este estudio puede ser útil para entender los fundamentos
acústicos de la teoría musical, e incluso algunas consideraciones filosóficas que esta
teoría ha generado a lo largo de la historia.
4.2. El sonido simple como fundamento del sonido musical
El sonido simple es en sí mismo un sonido musical; aun es más, es la referencia ideal

de todo sonido musical. Y es también el constituyente elemental del que están for-
mados todos los sonidos musicales. Además, la descomposición en sonidos simples
está presente en la forma en la que nuestro sistema perceptivo procesa y entiende
todo sonido, sea o no musical. Este carácter de constituyente elemental que posee el
sonido simple reside, en última instancia, en la simplicidad esencial del movimiento
que lo produce.
48
Veamos a continuación brevemente las implicaciones que se derivan de las propie-
dades del sonido simple.
a) El sonido simple es el paradigma del sonido musical
El sonido simple es periódico en el sentido más estricto, es decir, su vibración se

repite idénticamente igual cada cierto intervalo de tiempo durante toda su duración.
Por ello su frecuencia y su amplitud permanecen constantes, con lo que su altura
tonal puede ser percibida con total nitidez.
Su estabilidad, unida a su simplicidad, hacen del sonido simple el lugar más adecuado
para estudiar los parámetros físicos del sonido musical, así como la relación entre estos
parámetros físicos y nuestra sensación.
Idealmente un sonido simple no tendría comienzo ni final, sino que estaría sonando
eternamente, pues todo comienzo o final supone una discontinuidad y produce un
ruido. Hablando con rigor, deberíamos decir que lo que oímos en el vídeo de la
figura 4.1 es un fragmento de un sonido simple eterno.
El sonido simple, estable y sin armónicos, es principalmente un sonido de laboratorio.

Entre los sonidos naturales, el que se aproxima mejor a un sonido simple es el que
produce un diapasón metálico de los que se utilizan para afinar los instrumentos, pues
emite una nota sin armónicos y, una vez pasado el ataque inicial, mantiene durante
cierto tiempo una amplitud casi constante.
b) El sonido simple es el elemento constitutivo de todo sonido musical
El sonido musical puede ser considerado como una composición de sonidos simples
cuyas frecuencias mantienen entre sí unas determinadas relaciones de conmensura-
bilidad. En este sentido, al sonido musical se le llama también sonido armónico,
pues la palabra griega harmonía designaba, en origen, la buena mezcla que resulta de
una proporción adecuada.
En efecto, al margen de fenómenos transitorios y de la parte de ruido que cualquier

sonido natural lleva consigo, todo sonido musical está formado por un conjunto de
sonidos simples denominados parciales. Salvo excepciones, las frecuencias de estos
49
parciales son múltiplos de un sonido simple más grave. Estos múltiplos siguen el
orden de los números naturales y constituyen la serie armónica. Los sonidos simples
que forman parte de la serie armónica de un sonido se denominan componentes
armónicos.
La presencia o ausencia en un determinado sonido musical de unos u otros armó-

nicos, así como el mayor o menor peso de cada uno de ellos, determinará en gran
medida la cualidad del sonido musical resultante. Por ejemplo, los sonidos con pocos
armónicos tienden a ser más dulces, mientras que aquellos en los que predominan
los armónicos impares son más ásperos.
c) Nuestra audición extrae sonidos simples del complejo sonoro
Toda vibración —ya sea mecánica, como el sonido, o electromagnética, como la

luz— puede ser descompuesta matemáticamente en componentes simples, es decir,
en oscilaciones que realizan un simple vaivén, similar al que hemos visto en el ví-
deo de la figura 4.1. Esta descomposición matemática recibe el nombre de análisis
frecuencial o análisis armónico.
Salvando las distancias, nosotros percibimos el sonido de una manera similar. En

efecto, nuestro sistema auditivo extrae continuamente del complejo sonoro los com-
ponentes simples más relevantes. A nuestro cerebro no llega la forma de la vibración
tal cual, es decir, lo que llamamos la señal de audio, sino que la propia fisiología de
nuestro oído detecta los componentes más significativos presentes en esa señal en
cada momento y transmite sus parámetros al cerebro, iniciándose con este filtrado
el procesamiento de la información que contiene. Y este proceso se realiza así con
independencia de que se trate de música o de cualquier otro tipo de sonido.
d) El sonido simple es la vibración más sencilla posible
El sonido simple o puro no sólo es simple porque es el componente elemental de todo

sonido musical o incluso, en un sentido amplio, de todo sonido, sino que es simple,
principalmente, porque la vibración que realiza es la más sencilla posible.
50
Como veremos enseguida, el Movimiento Armónico Simple es la proyección uni-
dimensional del Movimiento Circular Uniforme y comparte con él el atributo de
sencillez. Entiendo aquí por movimiento sencillo aquél que no cambia, o que cambia
lo menos posible y de la forma más suave y continua posible. En este sentido, el so-
nido simple es la expresión sonora del movimiento más elemental, sencillo y natural
que surge de las propias condiciones de simplicidad exigidas a la razón: el Movi-
miento Circular Uniforme. Por utilizar una metáfora, el sonido simple es la forma
en la que suena lo que gira eternamente sobre sí mismo.
Estas relaciones de afinidad entre la vibración del más simple de los sonidos musicales
y el Movimiento Circular Uniforme iluminan en parte algunas de las afirmaciones
hechas por matemáticos, físicos y filósofos de todos los tiempos sobre la constitución
armónica o musical del universo.
4.3. El Movimiento Armónico Simple (MAS)
Puesto que el sonido simple es el resultado de un Movimiento Armónico Simple, es

conveniente conocer con un cierto detalle en qué consiste este movimiento. El Mo-
vimiento Armónico Simple es la forma más sencilla de oscilación, aquella que surge
de modo natural cuando la fuerza que tiende a recuperar la posición de equilibrio es
proporcional al desplazamiento realizado.
4.3.1. Un ejemplo de Movimiento Armónico Simple
Para ilustrar el Movimiento Armónico Simple he fabricado mediante Matlab una

animación que simula matemáticamente el movimiento que realiza una bola sus-
pendida de un muelle, al ser liberada después de haber sido desplazada de su posición
de equilibrio.
51
Figura 4.2: Vídeo que representa en esquema un MAS, su relación con el Movimiento Circular
Uniforme y su desarrollo sinusoidal en el tiempo.
En el vídeo hay tres paneles, cada uno con su correspondiente bola roja. Las tres
bolas se mueven al mismo tiempo. Si atendemos únicamente al movimiento vertical
de las bolas rojas, veremos que las tres bolas se encuentran en cada instante a la misma
altura. La línea de puntos verde que las une resalta este hecho.
Analicemos con detalle lo que vemos en cada uno de estos tres paneles:
a) Panel central
En el panel del medio vemos una pequeña bola roja que simula estar suspendida de
un muelle colgado del techo. Suponemos que antes de comenzar el vídeo hemos
desplazado la bola hacia abajo, desde la posición de equilibrio, que en la gráfica se
corresponde con la altura 0, hasta la altura -1. El vídeo empieza justo en el momento
en el que hemos soltado la bola y ha comenzado a oscilar.
Para entender lo que sucede es necesario tener presente un principio de carácter uni-
versal que constituye el fundamento de la Física, la Segunda Ley de Newton, la cual
dice que cualquier cuerpo sobre el que no actúa ninguna fuerza conserva indefinida-
mente su velocidad. Por otra parte, es necesario suponer también que hemos elegido
52
un muelle adecuado al peso de la bola, de modo que su fuerza de restauración sea
proporcional al desplazamiento de ésta.
La acción combinada del peso de la bola y de la fuerza de restauración del muelle

tenderá a colocar la bola en la posición de equilibrio, la altura 0. No especifico si la
altura se mide en metros, centímetros o cualquier otra unidad, pues es irrelevante
para el ejemplo. Cuando la bola esté por debajo de la altura 0, la fuerza total ejercida
sobre ella estará dirigida hacia arriba, hacia la posición de equilibrio, y será mayor
conforme más alejada se encuentra la bola de esa posición de equilibrio. Por el con-
trario, si la bola está por encima de la altura 0, la fuerza total ejercida sobre ella estará
dirigida hacia abajo, y será mayor también conforme más alejada esté de su posición
de equilibrio.
No importa la forma en la que ambas fuerzas, el peso y el muelle, se reparten el traba-

jo. Hay momentos en los que las dos fuerzas colaboran y otros en los que se oponen.
Lo importante es que la fuerza total que actúa sobre la bola siempre estará dirigida
hacia la posición de equilibrio y que la magnitud de esta fuerza será proporcional a
la distancia en la que se encuentre la bola respecto a esa posición de equilibrio. Por
eso la magnitud de esta fuerza será la misma en las posiciones simétricas.
Observamos que al soltar la bola en la altura -1, ésta comienza a ascender impul-
sada por la fuerza de restauración del muelle, que supera el peso de la bola. En el
vídeo podemos apreciar que este desplazamiento ascendente adquiere cada vez ma-
yor velocidad. Ciertamente, la fuerza total ascendente que se ejerce sobre la bola es
progresivamente menor conforme se va acercando a la posición de equilibrio. Pe-
ro, hasta que se llega a la posición de equilibrio, sigue ejerciéndose una fuerza hacia
arriba, por lo que la velocidad ascendente tiene que seguir incrementándose. Por
eso, cuando la bola roja pasa por la posición de equilibrio, la altura 0, podemos ver
en el vídeo que la velocidad es la máxima, pues todo el tiempo ha ido recibiendo
fuerza.
A partir de allí las cosas se invierten, pues la combinación del peso y de la fuerza
de restauración del muelle apunta hacia la posición de equilibro y se opone, por lo
tanto, a la velocidad ascendente que lleva la bola. Así, la velocidad ascendente de la
bola va siendo frenada hasta llegar a la altura 1, la simétrica a la altura -1.
53
En ese punto justo la bola se detiene y su velocidad se hace 0. Pero esta pausa es
instantánea, pues la fuerza que la ha frenado sigue apuntando hacia abajo, por lo que
inmediatamente la bola comienza a descender. Y va ganando de nuevo velocidad,
ya que ahora, al apuntar la fuerza en la misma dirección que va la bola, no la frena,
sino que la acelera, hasta pasar de nuevo por la posición de equilibrio, la altura 0, a
la misma velocidad máxima con la que había pasado al subir.
Una vez superada la posición de equilibrio, la bola comienza a ser frenada hasta llegar
a la altura -1, donde otra vez se detiene instantáneamente. Y de nuevo comienza a
ascender. Y así sucesivamente.
Este movimiento continuaría eternamente si no fuera por las fuerzas de fricción, en-
tre otras la del aire, que progresivamente van atenuando la oscilación de la bola.
b) Panel izquierdo
El panel izquierdo ilustra la conexión del Movimiento Armónico Simple con el Mo-
vimiento Circular Uniforme y muestra que el Movimiento Armónico Simple es la
proyección unidimensional del Movimiento Circular Uniforme. Este relación
nos permite entender el concepto de fase instantánea de la oscilación y nos muestra
que la altura que alcanza la bola en cada instante es el seno de esta fase.
En este panel de la izquierda vemos otra bola roja que va recorriendo una circun-
ferencia. El radio de esta circunferencia es igual a la altura máxima que alcanza el
desplazamiento de la bola del panel central. Además, ambas bolas, la que se desplaza
por la circunferencia y la del muelle, están sincronizadas: la altura instantánea de la
bola que gira uniformemente alrededor de la circunferencia es la misma que la altu-
ra de la bola que oscila en el muelle. Dicho de otro modo, la altura de la bola es la
proyección en el eje vertical de la posición de la bola en la circunferencia.
Pero, a diferencia de la bola que oscila en el muelle, la celeridad del movimiento de

la bola que se traslada por la circunferencia en el panel de la izquierda se mantiene
constante: en cada unidad de tiempo recorre un arco de circunferencia de la misma
longitud. Si lo expresamos en medidas angulares vemos que, en este ejemplo, recorre
90º en cada segundo, por lo que tarda 4 segundos en realizar una vuelta completa,
como podemos comprobar en el propio reloj del vídeo.
54
De esta manera, la posición de la bola en la circunferencia nos permite expresar
utilizando medidas angulares el estado en el que en ese momento se encuentra la
oscilación. Este estado, cuantificado así, recibe el nombre de fase instantánea de la
oscilación.
En nuestro ejemplo el estado inicial de la oscilación coincide con el momento en

el que la bola está desplazada a su posición más baja, y por eso decimos que la fase
en ese instante inicial es de 270º. En el segundo 1 el estado de la bola alcanza en
su movimiento ascendente la posición de equilibro y la fase instantánea es 0º. En el
segundo 2 el estado de la bola ha alcanzado la altura máxima y su fase instantánea
es 90º. En el segundo 3 la bola vuelve a la posición de equilibrio, pero ahora en un
movimiento descendente, y la fase instantánea es 180º.
Dicho de otro modo, la fase instantánea es el ángulo que expresa la posición de la bola
sobre la circunferencia. Observamos también que la altura en la que se encuentra
la bola en cada instante es el seno de este ángulo, como podemos apreciar en la
siguiente figura:
Figura 4.3: Altura de la bola cuando la fase de la oscilación es 60º.
La figura muestra el momento en el que la fase de la oscilación es 60º. Puesto que el

radio es 1, la altura (h) es el seno de 60º, que es igual a 0,866.
55
c) Panel derecho
El panel derecho sirve para ilustrar que el Movimiento Armónico Simple es una
función sinusoidal del tiempo.
La gráfica del panel de la derecha va describiendo las sucesivas alturas por las que pasa
la bola al oscilar a lo largo del tiempo. De hecho, si seguimos con el dedo esta gráfi-
ca, podemos verificar de manera intuitiva la descripción del Movimiento Armónico
Simple que he presentado al comentar el desplazamiento de la bola en el panel cen-
tral. En efecto, podemos apreciar, entre otras cosas, cómo el movimiento aumenta su
velocidad conforme se acerca a la posición de equilibrio; cómo la disminuye cuando
se aleja de ésta; cómo se detiene instantáneamente y cambia de sentido al alcanzar
los desplazamientos máximos en los segundos 0, 2, 4, 6, 8, 10, 12.
Como hemos visto, la altura de la bola es la proyección en el eje vertical de su posición

en la circunferencia. Esta proyección es el seno del ángulo que define la posición de
la bola en la circunferencia, la fase de la oscilación. Dado que la celeridad de la bola al
recorrer la circunferencia es constante —con independencia de que su movimiento
pueda ser más o menos rápido—, este movimiento giratorio depende linealmente
del tiempo, es decir, es la misma imagen del tiempo, como si fuera un reloj. Por
ello la descripción de la evolución temporal del Movimiento Armónico Simple que
realiza la bola en su ascender y descender es una función sinusoidal que depende del
tiempo.
4.3.2. Parámetros del Movimiento Armónico Simple
Ahora, con ayuda del vídeo, voy a explicar brevemente los parámetros que intervie-
nen en el Movimiento Armónico Simple: amplitud, fase inicial, periodo y frecuen-
cia.
a) Amplitud
La amplitud es el valor absoluto del desplazamiento máximo que alcanza la

oscilación desde la posición de equilibrio. En el vídeo del ejemplo vemos que
56
este valor es 1, tanto cuando la bola del muelle va hacia arriba, como cuando va hacia
abajo.
b) Fase inicial
La fase inicial de la oscilación es la fase instantánea en la que se encuentra la

oscilación en el tiempo 0. En nuestro ejemplo la fase inicial es 270º, pues ésta es
la fase instantánea en la que se halla la bola en el momento en el que se inicia la
oscilación, como podemos comprobar en el panel de la izquierda del vídeo.
c) Periodo y frecuencia
El periodo de la oscilación es el tiempo que tarda un movimiento oscilatorio en

realizar una oscilación completa. En nuestro vídeo podemos observar que la bola
tarda 4 segundos en completar una oscilación. Así pues, el periodo de esta oscilación
es 4 segundos.
La frecuencia de la oscilación es el número de oscilaciones completas que se

producen en un segundo. La unidad de frecuencia es el hercio. Un hercio equivale
a una oscilación completa por segundo. En este ejemplo la frecuencia es 0,25 Hz. En
efecto, puesto que una oscilación tarda 4 segundos en completarse, en un segundo
sólo habrá realizado la cuarta parte de la oscilación.
Vemos que periodo y frecuencia son recíprocos. Ambos nombran la misma reali-
dad, pues decir cuántos segundos se tarda en completar un ciclo equivale a decir
cuántos ciclos se producen en un segundo.
Por otra parte, hay que tener en cuenta que el desplazamiento inicial no influye en
la frecuencia de la oscilación. Podríamos haber alejado la bola al inicio a cualquier
distancia —dentro de los márgenes en los que el muelle trabaja bien— y la frecuencia
de la oscilación hubiera sido la misma. La frecuencia depende únicamente de dos
valores: en este caso, de la elasticidad del muelle y de la masa de la bola. Es decir, para
ese sistema concreto de bola y muelle la frecuencia será siempre la misma. Es su fre-
cuencia natural de oscilación. Podemos decir que este conjunto de bola y muelle
57
—o, generalizando, de masa y resorte— tiene una frecuencia natural de oscilación de
0,25 Hz.
4.4. El Movimiento Armónico Simple en el sonido
El sonido simple es una vibración mecánica que se comporta según el modelo osci-
latorio que acabamos de estudiar. En efecto, el sonido simple es un caso particular
del Movimiento Armónico Simple. Ahora bien, para ser percibida por nosotros
como sonido, la oscilación debe ser lo suficientemente rápida, en concreto, debe rea-
lizar entre 20 y 20.000 oscilaciones completas por segundo, que es aproximadamente
el rango en el que se mueve nuestro sistema auditivo.
Así pues, el movimiento oscilatorio que he descrito con detenimiento en el ejemplo

de la bola y el muelle nos puede servir para entender cómo es la vibración de un
sonido simple. En lugar de la bola oscilante pensemos ahora en un pequeño volumen
de aire que se comprime y se expande de la manera más sencilla posible, es decir, con
un Movimiento Armónico Simple.
Cuando se emite un sonido simple, los valores que va tomando la oscilación de la

presión del aire en un punto del espacio a lo largo del tiempo describen una gráfica
sinusoidal similar a la del panel derecho que aparece en el vídeo de la figura 4.2. En
efecto, en el sonido simple la presión del aire oscila según una función sinu-
soidal del tiempo.
Examinemos ahora los parámetros del Movimiento Armónico Simple en el caso con-
creto de la vibración sonora.
4.4.1. Parámetros del sonido simple
Veamos los parámetros del sonido simple en una gráfica que muestra las primeras 50
milésimas de segundo de la señal de audio correspondiente a la nota la4 que hemos
observado en el osciloscopio de la figura 4.1.
58
Figura 4.4: Gráfica de los 50 ms iniciales de un sonido simple, la4 a 440 Hz, con la amplitud y el
periodo.
Esta gráfica representa la variación, respecto a su valor medio, de la presión del aire en
un punto del espacio a lo largo del tiempo o, lo que podemos considerar equivalente,
el desplazamiento de la membrana de un micrófono situado en ese punto del espacio
que hubiera recogido esa variación de la presión del aire.
a) Amplitud
La amplitud es la variación máxima que alcanza la presión del aire respecto

a su valor medio como consecuencia del movimiento vibratorio del sonido
en el punto del espacio elegido como referencia. Si pensamos que este punto es
el lugar en el que hemos colocado el micrófono, podemos interpretar la amplitud
como el desplazamiento máximo que alcanza la membranita del micrófono cuando
está recogiendo el sonido.
En la gráfica la amplitud está señalada en color rojo. El 0 representa el valor medio

de la presión del aire. Es costumbre utilizar el valor 1 y -1 para representar la varia-
ción máxima de la presión del aire que el sistema de grabación tendría capacidad de
registrar. En este ejemplo la amplitud tiene un valor de 0,2. Esto quiere decir que
el valor máximo de la oscilación de la presión del aire debida a la vibración de este
sonido es el 20 % del valor máximo que el sistema podría registrar.
59
La amplitud de un sonido dependerá del punto del espacio que tomemos como re-
ferencia, pues disminuirá conforme mayor sea la distancia de la fuente sonora.
b) Fase inicial
La fase inicial es el estado en el que se encuentra la oscilación de la presión

del aire en el tiempo 0 en el punto del espacio elegido como referencia. En la
gráfica vemos que en el tiempo 0 la oscilación pasa por la posición de equilibrio en
sentido ascendente, es decir, la fase inicial es 0º.
La fase instantánea cambia también con la posición espacial, pues en función de la

velocidad con la que se propaga la vibración, el estado en el que se encuentra la
oscilación en un mismo instante varía de un lugar a otro.
c) Periodo y frecuencia
El periodo es el tiempo que tarda la vibración sonora en realizar una oscilación

completa. Fijémonos, por ejemplo, en el primer pico de la oscilación y sigamos
la evolución de la señal, primero hacia abajo y luego hacia arriba, hasta completar
una vuelta entera y llegar al siguiente pico. Éste es el periodo de la vibración. Si
en lugar del primer pico, comenzamos en cualquier otro punto de la oscilación y
realizamos el mismo proceso completando una vuelta entera, obtendremos el mismo
valor. En la gráfica he indicado el periodo mediante una línea de color azul que une
alternativamente los picos y valles de la señal de audio.
La frecuencia es el número de oscilaciones completas que se producen en un

segundo. En el caso de nuestro ejemplo sabemos que la frecuencia de la nota es
440 Hz, por lo tanto, en nuestra gráfica, que tiene una duración de 50 milésimas de
segundo, tendremos que encontrar 22 ciclos completos (440 × 0, 05 = 22), como así
sucede.
Como ya hemos dicho periodo y frecuencia son recíprocos, por lo tanto el periodo de
esta vibración, redondeando, será 2,3 milésimas de segundo (1÷440 = 0, 0023).
60
La frecuencia de la vibración, así como su recíproco el periodo, es independiente
del lugar del espacio que tomemos como referencia. Esto hace de la frecuencia un
parámetro idóneo para transmitir la información musical.
4.5. Conclusión
El sonido simple es la forma sonora del Movimiento Armónico Simple, la oscilación

más sencilla y elemental, que resulta de la proyección unidimensional del Movimien-
to Circular Uniforme. El sonido simple no sólo es en sí mismo un sonido musical,
sino que es también el elemento constitutivo de todo sonido musical.
61
Capítulo 5
Altura tonal, intervalos y volumen sonoro
5.1. Introducción
Al margen del carácter convencional y arbitrario de los diversos lenguajes musicales,

carácter que es inherente a cualquier creación del espíritu humano, todos los sistemas
musicales se construyen sobre unos condicionantes previos que se derivan tanto de la
naturaleza física del sonido en sí mismo, como de la manera en la que nosotros perci-
bimos los fenómenos sonoros. Por ello, para entender la Teoría Musical es necesario
estudiar las relaciones que se producen entre los parámetros físicos de la vibración
sonora y las sensaciones auditivas que nosotros experimentamos.
Dado que el sonido simple es sencillo y estable, y además puede ser considerado
como el paradigma de todo sonido musical, resulta muy adecuado para examinar
cómo afecta a nuestra sensación la variación de sus parámetros físicos.
A lo largo de este capítulo analizaremos la manera en la que percibimos la frecuencia

y la amplitud en el caso de un sonido simple. Veremos que la frecuencia determina
la altura tonal que apreciamos y, por lo tanto, la nota musical que reconocemos, y
que la amplitud guarda relación con el volumen sonoro que percibimos.
Sin embargo, no nos vamos a ocupar de la fase inicial, pues, aunque es un parámetro
importante para la localización espacial de la fuente sonora y puede provocar diferen-
tes efectos en la reunión simultánea de varios sonidos, no tiene un correlato directo
62
en nuestras sensaciones. En efecto, si escuchamos un sonido simple de frecuencia y
amplitud determinadas cuya fase inicial es de 0º, y luego escuchamos otro sonido de
la misma amplitud y frecuencia, pero cuya fase inicial sea, pongamos por caso, 180º,
no apreciaremos ninguna diferencia.
5.2. Relación entre estímulo y sensación: la Ley de Weber-Fechner
Puesto que nuestra sensación auditiva se comporta de manera similar al resto de nues-
tros sentidos, comenzaremos estudiando las relaciones matemáticas que se establecen
entre los estímulos físicos y nuestras sensaciones. Me refiero al carácter logarítmico
de nuestro sistema sensorial, tal como ha quedado definido mediante la llamada Ley
de Weber-Fechner.
En la segunda mitad del siglo XIX Gustav Fechner, basándose en los trabajos previos
de Ernst Weber, expresó una ley que relacionaba los estímulos físicos con las sensa-
ciones que experimentamos al recibirlos. Al margen de matizaciones y excepciones,
la Ley de Weber-Fechner establece que el estímulo debe crecer en progresión geo-
métrica para que la intensidad de la sensación crezca en progresión aritmética. Esto
significa que la relación entre la variación de los parámetros físicos que actúan
de estímulo y la de nuestras sensaciones no es lineal, sino logarítmica.
Veamos con un ejemplo qué significa que nuestra sensación responda logarítmi-
camente al incremento o disminución de los estímulos. Imaginemos que recibimos
cuatro estímulos sucesivos, a los que llamamos a, b, c y d. El parámetro físico asociado
al estímulo a tiene una intensidad de 100; el de b, de 200; el de c, de 400; y el de d,
de 800. Podemos comprobar que cada uno de ellos es el doble del anterior, es decir,
que crecen manteniendo una progresión geométrica cuya razón es 2 y cuyo primer
término es 100:
100; 100 × 2 = 200; 100 × 2 × 2 = 400; 100 × 2 × 2 × 2 = 800; ...
Cuando pasamos del estímulo a al b, entre los cuales hay una distancia aritmética
de 100, nuestra sensación aprecia una diferencia. Tomemos para nuestro ejemplo
63
esa diferencia sensorial como unidad y consideremos a partir de ahora que nuestra
sensación se ha incrementado en un grado al pasar del estímulo a al estímulo b.
Examinemos ahora lo que sucederá al pasar del estímulo b al c. La diferencia aritmética

entre los parámetros físicos del estímulo b y del estímulo c es de 200 (400-200), es
decir, el doble de la diferencia aritmética que hay entre los estímulos a y b. Si nuestra
sensación respondiera de forma lineal al incremento del parámetro físico, cuando
pasáramos del estímulo b al c tendríamos que percibir un incremento de dos grados.
Sin embargo, esto no sucede así, sino que experimentamos un incremento de un
grado, el mismo que hemos percibido al pasar del estímulo a al b. Y este mismo
incremento de un grado es también el que percibiremos cuando pasemos del estímulo
c al d, aunque la diferencia aritmética entre sus parámetros sea de 400 (800-400).
La explicación reside en que nuestra sensación reconoce como incremento de

un grado el cociente entre las intensidades de los estímulos, no su diferencia
aritmética. Por eso, aunque en nuestro ejemplo hayamos tomado como unidad sen-
sitiva el paso del estímulo a al b, lo significativo no ha sido la diferencia aritmética
que hay entre ambos estímulos (es decir, 100), sino la razón b/a que se establece entre
ellos, que es la misma que c/b y que d/c. En este caso, se trata de la razón doble, la
representada por el número 2:
200 400 800 2

= = =
100 200 400 1
Esto quiere decir que cada vez que el parámetro físico se multiplique por 2, nuestra
sensación se incrementará un grado.
Imaginemos ahora que tenemos un nuevo estímulo al que llamaremos e, cuya inten-
sidad es de 3200, y queremos saber cuántos grados sensoriales de incremento perci-
birá nuestra sensación al pasar del estímulo a a ese estímulo e.
La razón entre el estímulo e y el estímulo a es 3200/100, es decir, la representada por

el número 32. Puesto que en nuestro ejemplo hemos tomado como unidad de grado
sensorial la razón 2/1, representada por el número 2, la pregunta que nos tenemos que
hacer ahora es: ¿cuántas veces tenemos que multiplicar el número 2 por sí mismo para
obtener el número 32? O, dicho de otra manera, ¿a qué exponente hay que elevar el
número 2 para obtener el número 32?
64
La respuesta es el logaritmo en base 2 del número 32, el cual es 5: 25 = 32. Esto signi-
fica que si la intensidad del parámetro físico pasa de 100 a 3200, nosotros sentiremos
un incremento de 5 grados. Así pues, el paso del estímulo a al estímulo e provoca-
rá una sensación 5 veces más intensa que la que hemos experimentado al pasar del
estímulo a al estímulo b.
Generalizando, para saber cuántos grados sensoriales experimentamos cuando

el estímulo cambia de intensidad, basta obtener el logaritmo del cociente entre
el estímulo final y el inicial, logaritmo que ha de tener como base la razón
numérica que hemos elegido como unidad sensorial.
En efecto, el logaritmo, como su nombre indica, es el número que mide la razón (la
palabra logaritmo procede del griego lógos, razón, y arithmós, número) y, por ello, el
logaritmo realiza la conversión de los valores de los parámetros físicos a las unidades
en las que se miden nuestras sensaciones. Por eso se dice que nuestra percepción es
logarítmica.
Con todas las matizaciones, excepciones y limitaciones que sería necesario hacer en
cada caso, la Ley de Weber-Fechner tiene especial interés para conocer cómo oímos la
música, pues, como veremos enseguida, nuestra audición percibe las diferencias de
frecuencia y de amplitud de modo logarítmico.
5.3. Frecuencia y altura tonal: notas e intervalos
La altura tonal que percibimos al oír un sonido periódico y con ella la nota musical
que reconocemos está determinada por el parámetro físico de frecuencia (o por su
inversa, el periodo). Conforme mayor es la frecuencia de un sonido, más aguda es la
altura tonal que apreciamos, y viceversa.
A continuación vamos a analizar el modo en el que las notas y los intervalos musicales
están vinculados con la frecuencia de los sonidos. Comenzaremos comprobando que,
dado el carácter logarítmico de nuestro sistema perceptivo, los intervalos se definen
por las razones numéricas que se establecen entre las frecuencias. Luego examinare-
mos las unidades musicales que habitualmente utilizamos para comparar intervalos
entre sí: el intervalo de octava y sus divisiones. Y finalmente estudiaremos cómo se
65
establece mediante los intervalos una correspondencia directa entre las frecuencias
de los sonidos y las notas musicales.
5.3.1. El intervalo musical como razón numérica
Aunque la altura tonal de una nota tiene un valor musical por sí misma, lo cierto es
que los elementos que definen las escalas y los acordes musicales no son las alturas
absolutas de los sonidos, sino los intervalos que se producen entre ellas.
Igual que ocurre con la mayor parte de nuestro sistema sensitivo, en lo que concierne
a la percepción del intervalo musical también está presente la Ley de Weber-Fechner:
la manera en la que percibimos las variaciones de la frecuencia no responde a una
escala lineal, sino a una escala logarítmica. Esto explica que el intervalo musical no
sea la diferencia aritmética entre sus frecuencias, sino su razón numérica, el cociente
que se establece entre ellas.
He fabricado un vídeo que nos va a permitir comprobar cómo percibimos las va-
riaciones de la frecuencia y por qué las magnitudes de los intervalos musicales son
razones numéricas. El vídeo está formado por una sucesión de sonidos simples agru-
pados de dos en dos para que se pueda distinguir con facilidad el intervalo que hay
entre ellos. Consta de dos partes separadas por una pausa larga. En la primera parte
se oyen en primer lugar dos sonidos seguidos, cuyas frecuencias son 220 Hz y 440
Hz, y tras una breve pausa, se oyen otros dos sonidos seguidos de 440 Hz y 660 Hz.
En la segunda parte del vídeo se oye primero otra vez la pareja de sonidos de 220 Hz
y 440 Hz, y luego otra nueva pareja que tiene como frecuencias 440 Hz y 880 Hz. A
medida que se van sucediendo los sonidos, se muestra en un recuadro la frecuencia
y la nota musical correspondiente.
66
Figura 5.1: Vídeo con una sucesión de sonidos simples agrupados por parejas que forman distintos
intervalos.
Podemos apreciar con claridad que percibimos mayor altura tonal en aquellos sonidos
que presentan las oscilaciones más apretadas, es decir, los que tienen un periodo
menor y, por lo tanto, una mayor frecuencia. Pero, sobre todo, lo que nos interesa
experimentar mediante este vídeo es que el intervalo que percibimos entre dos notas
musicales no está definido por la diferencia aritmética entre sus frecuencias, sino por
el cociente entre ellas.
En la primera parte del vídeo vemos que entre el primer sonido, el de 220 Hz, y
el segundo, el de 440 Hz, hay una diferencia aritmética de 220 Hz. Apreciamos al
oírlos un salto de altura tonal que es un intervalo de octava, en concreto, el que existe
entre el la3 y el la4 . Ahora bien, cuando escuchamos el salto entre los sonidos de la
segunda pareja —entre el tercero, de 440 Hz, y el cuarto, de 660 Hz— no percibimos
un intervalo de octava, a pesar de que su diferencia aritmética es también de 220 Hz.
Nuestra sensación nos dice que el salto ha sido bastante más pequeño que el que se
producía entre el sonido de 220 Hz y el de 440 Hz. En efecto, ahora no reconocemos
el la5 , sino el mi5 , que está a una distancia interválica de quinta respecto al la4 .
Sin embargo, al oír los cuatro sonidos de la segunda parte del vídeo apreciamos la
misma diferencia interválica entre la altura tonal de las dos parejas: entre el primer
sonido, cuya frecuencia es de 220 Hz, y el segundo, de 440 Hz, oímos un intervalo
de octava, que es el mismo que oímos entre el tercer sonido, de 440 Hz, y el cuarto,
de 880 Hz. Pero la diferencia aritmética entre las frecuencias es distinta: mientras
67
que entre los dos primeros sonidos es de 220 Hz, entre los dos segundos es de 440
Hz.
Comprobamos que lo que ocurre es que la razón entre las frecuencias que definen los
dos intervalos de esta segunda parte del vídeo es la misma: el segundo sonido respec-
to al primero mantiene la misma razón numérica que el cuarto respecto al tercero,
exactamente la razón doble, 2/1, la cual es la propia del intervalo de octava:
440 880 2
= =
220 440 1
Hemos podido experimentar que reconocemos el mismo intervalo, la misma distan-

cia perceptiva, cuando entre los sonidos se mantiene la misma razón numérica. Esto
se debe a que lo que define el intervalo musical no es la diferencia aritmética
entre sus frecuencias, sino la razón que hay entre ellas, su cociente.
En el vídeo, además de los dos intervalos de octava, oímos un intervalo de quinta, el

que hay entre la segunda pareja de sonidos, la4 (440 Hz) y mi5 (660 Hz). Si atendemos
a la relación que se establece entre sus frecuencias vemos que están en razón 3/2, que
es la razón que define el intervalo de quinta natural:
660 3
=
440 2
Así mismo, aunque no las oigamos seguidas, podemos ver que el intervalo que hay
entre la última nota de la primera parte, mi5 (660 Hz), y la última nota de la segunda
parte, la5 (880 Hz), es de una cuarta. Si nos fijamos en sus frecuencias veremos que
mantienen la razón 4/3, que es la que define el intervalo de cuarta natural:
880 4
=
660 3
Los intervalos que podemos considerar estructurales en nuestro sistema musical tie-
nen una razón simple entre sus frecuencias: dos sonidos están a un intervalo de octava
cuando sus frecuencias mantienen la razón doble, 2/1; están a un intervalo de quinta
cuando mantienen la razón 3/2, la llamada razón sesquiáltera; y están a un intervalo
de cuarta cuando mantienen la razón 4/3, la llamada razón sesquitercia. Ahora bien,
68
en nuestra música habitualmente no oímos los intervalos naturales de cuarta y quinta,
sino los intervalos temperados, los cuales están ligerísimamente desviados.
Finalmente, del hecho de que el intervalo sea una razón numérica se deduce que el
intervalo que se obtiene de la composición de otros intervalos es el resultado
de multiplicar sus respectivas razones. Por ejemplo, de la composición del inter-
valo de quinta y el de cuarta surge el intervalo de octava, como podemos apreciar si
unimos el intervalo que hay entre las notas la4 y mi5 (3/2) con el que hay entre mi5 y
la5 (4/3):
3 4 2
× =
2 3 1
De manera inversa, la diferencia entre dos intervalos es la división de sus razones.

Así entre el intervalo de octava —por ejemplo, el que hay entre la4 y la5 (2/1)— y el
intervalo de quinta —por ejemplo, entre la4 y mi5 (3/2)— existe una diferencia inter-
válica de una cuarta (4/3) —la que hay entre mi5 y la5 —, lo cual se obtiene dividiendo
entre sí ambas razones:
2 3 4
÷ =
1 2 3
5.3.2. Unidades interválicas
Como acabamos de ver, los intervalos se definen mediante las razones entre sus fre-
cuencias, pero, en tanto que el intervalo es un elemento de nuestra percepción mu-
sical, necesitamos una unidad perceptiva que nos permita comparar unos intervalos
con otros. En la música disponemos de una unidad natural. Esta unidad natural es el
intervalo de octava, la razón 2/1 entre las frecuencias de los sonidos.
Sonidos que distan un intervalo de octava poseen una especial afinidad reconocida en
la práctica totalidad de los sistemas musicales de las diferentes culturas. Hay que tener
presente que cuando dos sonidos que forman una octava son emitidos simultánea-
mente, el más ligero alejamiento de la relación doble es percibido inmediatamente
como desafinación. Así pues, la octava es una unidad interválica de carácter uni-
69
versal y en referencia a ella establecemos las restantes unidades que utilizamos
para medir los intervalos.
Veamos cómo podemos expresar cualquier intervalo en número de octavas. Ima-

ginemos dos sonidos cuyas frecuencias sean a y b. El intervalo será la razón b/a. Si
aplicamos lo que hemos estudiado con carácter general en el apartado sobre la Ley
de Weber-Fechner para medir las distancias perceptivas, concluiremos que el núme-
ro de octavas que mide este intervalo será el logaritmo en base 2 del número b/a
(recordemos que 2 es la razón de la octava). Así pues, para expresar la medida de
un intervalo en octavas bastará tomar el logaritmo en base 2 del número que
define la razón entre las frecuencias de los sonidos que lo delimitan, sin que el
resultado tenga que ser necesariamente un número entero.
Por ejemplo, el intervalo que hay entre el último sonido del vídeo, el la5 de 880 Hz,
y el primero, el la3 de 220 Hz, está definido por la razón 880/220, es decir, 4/1. Por lo
tanto, el número de octavas de este intervalo será el logaritmo en base 2 del número
4, que es 2. Efectivamente, entre el la5 y el la3 hay dos octavas.
Pero en la mayor parte de las ocasiones la octava es un intervalo demasiado grande

para medir las diferencias entre las alturas tonales de los sonidos. Por eso se recurre
a divisiones de la octava. Una unidad interválica habitual es el semitono tem-
perado, que se define como la doceava parte de la octava. Por eso la razón que
representa el semitono temperado es el número que multiplicado 12 veces por sí mis-
√
mo da como resultado el número 2, la razón de la octava. Este número es 12 2, que
expresado con 15 decimales es: 1,059463094359295.
Cuando se trata de medir las sutilezas de la afinación el semitono sigue siendo una
unidad muy grande, por lo que es común también utilizar como unidad inter-
válica la centésima parte del semitono temperado, la cual recibe el nombre de
cent. Como el cent es la 1/1200 parte de la octava, la razón que define el intervalo de
cent es aquella que multiplicada por sí misma 1200 veces da el número 2. Esta razón
√
es 1200 2, que con 15 decimales es: 1,000577789506555.
De las propiedades de los logaritmos se deduce que para expresar un intervalo cual-
quiera en semitonos o en cents basta con tomar el logaritmo en base 2 de la razón de
70
las frecuencias de sus notas y multiplicar el resultado respectivamente por 12 o por
1200.
A modo de ejemplo veamos cómo podemos expresar en semitonos temperados el

intervalo de quinta natural definido por la razón 3/2. Basta simplemente calcular
el logaritmo en base 2 del número 3/2 y multiplicarlo luego por 12. El resultado
redondeado a centésimas de semitono es 7,02.
3
log2 × 12 = 7, 02
2
Comprobamos que el intervalo de quinta natural, definido por la razón 3/2, es 2

centésimas de semitono —es decir, 2 cents— mayor que el de quinta temperada, que
por definición consta de 7 semitonos temperados.
Así mismo, si queremos expresar en semitonos el intervalo de cuarta natural, la razón

4/3, calcularemos el logaritmo en base 2 del número 4/3 y lo multiplicaremos por
12. El resultado será 4,98 semitonos.
4
log2 × 12 = 4, 98
3
Este resultado nos indica que el intervalo de cuarta natural es 2 cents menor que el
de cuarta temperada, que por definición consta de 5 semitonos.
Una vez realizadas estas comparaciones, nos daremos cuenta de que el sistema tem-
perado se caracteriza porque acorta muy ligeramente las quintas y alarga las cuartas,
exactamente 2 cents en ambos casos.
5.3.3. Las frecuencias de las notas musicales
Para determinar las frecuencias de las notas musicales de la escala, además de cono-
cer los intervalos que las separan, es necesario también elegir la frecuencia de una
nota que sirva de punto de partida para calcular todas las demás. La elección de la
frecuencia de esta nota determina la altura absoluta de toda la escala.
71
Aunque el intervalo es el elemento más relevante para el lenguaje musical, lo cierto
es que la altura absoluta también tiene un importante valor en sí misma. Es evidente
que el efecto musical que produce una melodía es muy distinto cuando se interpreta
en un registro grave que cuando se hace en un registro agudo. Así mismo, también
resultan claras las diferencias entre una pieza interpretada, pongamos por caso, en la
tonalidad de do mayor o la misma pieza transportada a la tonalidad de mi mayor. Y
hay todavía otras diferencias más sutiles: por ejemplo, una pieza de Händel ejecutada
en la afinación que se considera propia de su música, con el la4 en torno a 422 Hz,
no suena igual que esa misma pieza interpretada en la afinación estándar actual, con
el la4 a 440 Hz.
Veamos cómo se determinan las frecuencias de las notas de nuestra escala temperada.
Supongamos que elegimos como nota de referencia el la4 a 440 Hz y queremos
hallar la frecuencia a la que debe estar afinada la nota do6 . La cantidad de semitonos
temperados que separan ambas notas es 15 (12 semitonos de la octava la4 a la5 , más
3 de la5 a do6 ). El número que define el intervalo de 15 semitonos será el resultado
de multiplicar 15 veces por sí misma la razón del semitono, que como hemos visto
√
es 12 2:
√
12
215 = 2, 378414230005442
El número 2,378414230005442 es, así pues, la razón que define el intervalo de 15

semitonos. Nos bastará ahora con multiplicar este número por la frecuencia de la
nota que hemos tomado como referencia inicial, en este caso 440 Hz, para obtener
la frecuencia de la nota do6 en la escala temperada estándar. Su valor será 1046,5
Hz.
√
440 ×
12
215 = 1046, 5
A continuación presento una tabla con las frecuencias de las notas musicales en la
escala temperada estándar. Los números de la fila superior indican la octava a la que
corresponde cada nota. Aunque no hay unanimidad en la asignación de los números
de octava, he seguido el criterio que me parece más acertado, el que hace correspon-
der el do central del piano con el inicio de la octava número 4.
72
Sobre fondo amarillo está destacada la frecuencia de la nota utilizada como referen-
cia, el la4 . Las notas cuyo fondo está en color naranja coinciden con la extensión
completa de un piano moderno, que va del la0 al do8 . Las notas sobre fondo lila son
completamente excepcionales en la práctica musical: resulta muy difícil reconocer la
altura tonal de las más agudas, mientras que las más graves –algunas de las cuales se
pueden encontrar en algún tubo de órgano– casi no se perciben como sonido, sino
más bien como un zumbido sordo.
0 1 2 3 4 5 6 7 8
do 16,4 32,7 65,4 130,8 261,6 523,3 1.046,5 2.093,0 4.186,0
do# 17,3 34,6 69,3 138,6 277,2 554,4 1.108,7 2.217,5 4.434,9
re 18,4 36,7 73,4 146,8 293,7 587,3 1.174,7 2.349,3 4.698,6
mib 19,4 38,9 77,8 155,6 311,1 622,3 1.244,5 2.489,0 4.978,0
mi 20,6 41,2 82,4 164,8 329,6 659,3 1.318,5 2.637,0 5.274,0
fa 21,8 43,7 87,3 174,6 349,2 698,5 1.396,9 2.793,8 5.587,7
fa# 23,1 46,2 92,5 185,0 370,0 740,0 1.480,0 2.960,0 5.919,9
sol 24,5 49,0 98,0 196,0 392,0 784,0 1.568,0 3.136,0 6.271,9
lab 26,0 51,9 103,8 207,7 415,3 830,6 1.661,2 3.322,4 6.644,9
la 27,5 55,0 110,0 220,0 440,0 880,0 1.760,0 3.520,0 7.040,0
sib 29,1 58,3 116,5 233,1 466,2 932,3 1.864,7 3.729,3 7.458,6
si 30,9 61,7 123,5 246,9 493,9 987,8 1.975,5 3.951,1 7.902,1
Tabla 5.1: Frecuencia de las notas musicales (Hz) en las diferentes octavas.
73
5.4. Amplitud y volumen sonoro
El mayor o menor volumen sonoro, que es una sensación subjetiva, está en relación
directa con la intensidad de las ondas sonoras que llegan a nuestros oídos. La inten-
sidad es una magnitud física que mide la potencia sonora que transmite la onda por
unidad de superficie y se expresa en vatios por metro cuadrado (W/m2 ). Es decir, la
intensidad sonora es la cantidad de energía que, como consecuencia del movimiento
vibratorio que transmiten las ondas, fluye en un instante dado a través de un área del
espacio, como puede ser el tímpano de nuestro oído.
Puesto que la intensidad de las ondas sonoras cuando se propagan por el aire es inde-
pendiente de la frecuencia y, en el caso de un sonido simple, es directamente propor-
cional al cuadrado de la amplitud con la que la presión oscila, el volumen sonoro
que percibimos al escuchar un sonido simple viene determinado por el cua-
drado de su amplitud.
Igual que ocurre con la altura tonal, también ahora está presente la Ley de Weber-
Fechner, de modo que el cambio en el volumen sonoro que percibimos guarda una
relación logarítmica con la variación de la intensidad o, lo que viene a ser lo mismo,
con la variación del cuadrado de la amplitud, a la que la intensidad es directamente
proporcional. Por ello, lo que nuestro sistema perceptivo interpreta como un
grado en la variación del volumen sonoro es el cociente entre las intensidades
de los sonidos, no su diferencia aritmética.
5.4.1. Unidades interválicas de intensidad sonora: el belio y el decibelio
El rango de intensidades que podemos oír es mucho más amplio que el de frecuencias.
Mientras el sonido más agudo que oímos tiene una frecuencia de unas mil veces la
del sonido más grave (recordemos que el rango frecuencial de nuestra audición va
aproximadamente de 20 Hz a 20.000 Hz), el sonido más fuerte que podemos escuchar
es por lo menos un billón de veces más intenso que el más débil. En efecto, el rango
de intensidades de la audición humana va desde un picovatio por metro cuadrado
(1 pW/m2 =0,000000000001 W/m2 ), donde se sitúa el umbral de audición, hasta un
74
vatio por metro cuadrado (1 W/m2 ), donde la sensación auditiva se transforma en
dolorosa.
Además, para medir la percepción de la intensidad sonora no existe una unidad obje-
tiva que cumpla una función similar al intervalo de octava en el caso de la percepción
de las alturas tonales en la música. Pero, puesto que se ha comprobado de una manera
estadística que un incremento en la intensidad del sonido de 10 veces es percibido
por nuestra sensación auditiva como si se hubiera doblado el sonido, se ha establecido
como unidad convencional la razón 10:1.
Por eso, para poder comparar las diferentes intensidades de los sonidos de una mane-
ra acorde con la forma en la que percibimos el volumen sonoro se utiliza la relación
10:1. Esta unidad recibe el nombre de bel o belio (B) en honor del científico Alexan-
der Graham Bell. El belio, que sirve también como unidad logarítmica para otras
magnitudes relativas, es el logaritmo en base 10 de la razón entre las magnitu-
des que se quieren comparar. En lo que concierne al sonido, podríamos decir que
el belio es una medida interválica de las intensidades sonoras y cumple una función
similar a la que realiza la octava en la percepción de la frecuencia.
Pero como en la mayor parte de las ocasiones el belio resulta en la práctica una unidad
demasiado grande, para medir la intensidad sonora habitualmente se utiliza el
decibelio (dB), que es la décima parte del belio. Así pues, para saber cuántos
decibelios de diferencia hay entre dos sonidos, se toma el logaritmo en base 10 de
la razón entre sus respectivas intensidades —o de la razón entre los cuadrados de sus
amplitudes— y se multiplica el resultado por 10.
Veamos con ayuda de un ejemplo cómo se puede expresar en decibelios la diferencia

de volumen sonoro entre dos sonidos cuyas amplitudes son una el doble de la otra.
Dado que la intensidad es directamente proporcional al cuadrado de la amplitud, las
( )2
diferencias entre sus intensidades estarán en razón cuádruple: 21 = 41 . Calculamos
el logaritmo en base 10 de 4 y multiplicamos el resultado por 10. Redondeando,
obtenemos el número 6,02. Así pues, el intervalo de intensidades, la diferencia de
volumen sonoro que percibimos entre dos sonidos cuya amplitud es una el doble
que la otra, es aproximadamente de 6 dB.
Podemos aprovechar las propiedades de los logaritmos para simplificar el cálculo (el
logaritmo de un número elevado al cuadrado es igual al logaritmo de ese número
75
multiplicado por 2), por lo que es suficiente multiplicar por 20 el logaritmo en base
10 de la razón 2/1 que hay entre las amplitudes:
( )2 ( )
2 2
10 × log10 = 20 × log10 = 6, 02
1 1
Resumiendo, para expresar en decibelios las diferencias de volumen sonoro en-

tre dos sonidos simples basta tomar el logaritmo en base 10 del cociente entre
sus amplitudes y multiplicarlo por 20.
5.4.2. Correspondencia entre la amplitud normalizada y la intensidad en de-

cibelios
Los editores de sonido ofrecen la posibilidad de acompañar las gráficas que represen-
tan la evolución temporal de la amplitud de la presión sonora —cuyos valores están
generalmente normalizados entre 1 y -1— con una escala logarítmica en decibelios
que indica la intensidad a la que corresponden. Esto nos permite comparar entre sí las
amplitudes de varios sonidos de una manera más próxima a la sensación de volumen
que percibimos.
Para obtener los valores de intensidad relativa en una escala expresada en decibelios,
se aplica la fórmula anterior, es decir, se calcula el logaritmo en base 10 del valor de
cada amplitud y se multiplica por 20. Así, el valor de amplitud 1 equivale a 0 dB de
intensidad (el logaritmo en base 10 de 1 es 0); el valor 0,5 de amplitud corresponde a
-6,02 dB de intensidad relativa; y así sucesivamente. Los valores negativos se deben
a que el logaritmo de los números inferiores a la unidad es negativo, de modo que 0
dB se corresponde con la amplitud máxima.
A continuación presento una tabla de correspondencias entre los valores de amplitud

normalizados y su intensidad expresada en decibelios. En la columna de la izquierda
se muestran una serie de valores de amplitud normalizada que cubren el rango que
un sistema de 16 bits es capaz de digitalizar. Los valores van decreciendo de modo
que cada uno de ellos es la mitad del anterior, hasta llegar al valor mínimo que es
posible representar con 16 bits. En la columna de la derecha se expresa en decibelios
los correspondientes valores de intensidad. Podemos observar que las intensidades
76
van decreciendo de manera lineal, disminuyendo 6,02 dB cada vez que la amplitud
se reduce a la mitad.
Amplitud Intensidad
normalizada normalizada (dB)
1,000000 0,00
0,500000 -6,02
0,250000 -12,04
0,125000 -18,06
0,062500 -24,08
0,031250 -30,10
0,015625 -36,12
0,007813 -42,14
0,003906 48,16
0,001953 -54,19
0,000977 -60,21
0,000488 -66,23
0,000244 -72,25
0,000122 -78,27
0,000061 -84,29
0,000031 -90,31
0,000015 -96,33
Tabla 5.2: Equivalencias entre amplitudes y decibelios de intensidad.
77
5.4.3. Valores absolutos de intensidad sonora
Por razones prácticas, hay algunas ocasiones en las que es conveniente referirse a la
intensidad del sonido en términos absolutos, como por ejemplo para determinar si
el nivel sonoro de un lugar está dentro de la normativa legal. En estos casos es útil
establecer una escala logarítmica de intensidades absolutas adecuada a la manera en
la que nosotros percibimos el volumen sonoro.
Dado que el belio o el decibelio son unidades que miden intervalos entre intensi-
dades, para expresar con ellas valores absolutos es necesario tomar una intensidad de
referencia con la que comparar las que queremos medir. Como sonido de referencia
al que se asigna el valor 0 dB, se ha elegido lo que se considera el umbral mínimo de
la audición humana: un sonido simple de 1 pW de intensidad, a una frecuencia de
1000 Hz.
Para hacernos una idea de las intensidades que corresponden al volumen que per-
cibimos en distintos ambientes sonoros, pongo debajo una escala de intensidades
absolutas y su correspondiente valor en dB, acompañada de unos ejemplos orienta-
tivos. En la columna de la izquierda se muestra la intensidad en W/m2 y en la del
medio la intensidad en dB, a partir del valor de referencia inicial de 0 dB para 1
pW/m2 . El valor de cada intensidad es 10 veces mayor que el de la fila anterior, por
lo que el incremento en dB es de 10. Como la intensidad depende de la proximidad
o lejanía de la fuente sonora, se indica la distancia o el lugar en el que se debería
hacer la medición. Hay que insistir en el carácter meramente orientativo de cada
ejemplo, dada la gran variedad de intensidades que pueden darse en cada situación
sonora.
78
Intensidad Intensidad
Ejemplo sonoro orientativo
2
W(m ) (dB)
- Umbral de audición para un sonido simple de 1000 Hz.

0,000000000001 0
- Suave aleteo de una mariposa a 1 m.
- Zumbido de un mosquito a 1 m.
0,000000000010 10
- Suave murmullo de hojas de árbol a 10 m.
- Respiración tranquila de una persona a 1 m.

0,000000000100 20
- Ordenador silencioso a 1 m.
- Murmullo de un arroyo en el campo a 1 m.

0,000000001000 30
- Susurro a 2 m en una biblioteca silenciosa.
- Oleaje junto a la orilla de una playa tranquila.

0,000000010000 40
- Piano vertical en un pasaje pianissimo (pp) a 3 m.
- Ruido de lluvia moderada en una calle sin tráfico.

0,000000100000 50
- Piano vertical en un pasaje piano (p) a 3 m.
- Conversación entre dos personas a volumen medio a 1 m.

0,000001000000 60
- Piano vertical en un pasaje mezzoforte (mf ) a 3 m.
- Autobús urbano de gasóleo a 10 m.

0,000010000000 70
- Piano vertical en un pasaje forte (f ) a 3 m.
- Ruido de tráfico intenso a 10 m.

0,000100000000 80
- Piano vertical en un pasaje fortissimo (ff ) a 3 m.
- Moto de gran cilindrada a 10 m.

0,001000000000 90
- Orquesta sinfónica a pleno volumen en sala de conciertos.
- Sirena de una ambulancia a 20 m.

0,010000000000 100
- Tren suburbano llegando a la estación en el andén.
- Avión de pasajeros despegando a 100 m.

0,100000000000 110
- Música a gran volumen en el interior de una discoteca.
- Martillo neumático a 0,5 m.

1,000000000000 120
- Umbral de molestias serias.
Tabla 5.3: Niveles de volumen sonoro de diferentes sonidos.
79
5.4.4. La percepción del volumen sonoro
He confeccionado un vídeo que nos va a permitir experimentar cómo percibimos

el mismo grado de disminución del volumen sonoro cuando la amplitud se reduce,
manteniendo la misma razón. En él podemos oír seis veces el sonido simple la3 a 220
Hz con una amplitud que es cada vez la mitad de la anterior. En la parte superior del
vídeo va apareciendo el valor de la amplitud normalizada de la nota que está sonando
y su correspondiente intensidad en decibelios. La primera nota tiene una amplitud de
0,5 y las siguientes notas reducen su amplitud sucesivamente a la mitad, coincidiendo
con los valores de la tabla.
Figura 5.2: Vídeo con la nota la3 a 220 Hz repetida con una amplitud que se reduce cada vez a la
mitad.
Para apreciar que los valores de amplitud e intensidad son relativos, nos basta con
subir o bajar el volumen del reproductor de sonido. Al hacer esto, aumenta o dis-
minuye la presión sonora que el altavoz origina y, con ello, la intensidad que llega a
nuestros oídos. Ahora bien, si escuchamos de nuevo todo el vídeo con el nuevo volu-
men, comprobaremos que percibimos el mismo grado de disminución del volumen
sonoro al pasar de nota en nota. En efecto, el intervalo entre las intensidades sonoras,
lo que nosotros percibimos como un grado en el volumen sonoro, sigue siendo el
mismo: cada vez que la amplitud se reduce a la mitad nosotros percibimos el mismo
descenso de volumen sonoro, el que corresponde aproximadamente a 6 dB.
80
Hemos podido comprobar que nuestra percepción del volumen sonoro guarda mu-
chas similitudes con nuestra percepción de la altura tonal. Sin embargo, hay varias
diferencias que conviene tener presente, debidas tanto a las peculiaridades físicas del
sonido, como a las de nuestro sistema auditivo.
A diferencia de la frecuencia que, salvo situaciones excepcionales, se mantiene inva-

riable en su transmisión a través de las ondas, la amplitud y la intensidad dismi-
nuyen progresivamente conforme el sonido se aleja de la fuente: la amplitud
de forma lineal y la intensidad según el cuadrado de la distancia. Además, am-
bas magnitudes son muy sensibles a las múltiples incidencias que las ondas pueden
encontrase en su camino.
Por otra parte, nuestra sensación no responde de igual manera a todos los so-
nidos de la misma intensidad, sino que el grado de volumen sonoro que per-
cibimos depende en buena medida de la frecuencia. Para permitir comparar el
volumen sonoro en función de la frecuencia se ha establecido una unidad de refe-
rencia: el fon o fonio. Hay que tener en cuenta que el fonio no es una unidad física
objetiva, sino que se trata de una unidad establecida a partir de criterios psicoacús-
ticos estadísticos. El número de fonios de un sonido simple es la sensación de
volumen sonoro que experimenta un oyente medio cuando escucha un sonido
de 1000 Hz de ese número de decibelios de intensidad absoluta.
Por ello la escala de fonios coincide con el valor de intensidad sonora de un sonido a
1000 Hz. Por ejemplo, cuando hablamos de un sonido que provoca una sensación de
volumen sonoro de 50 fonios, estamos refiriéndonos a un sonido simple de 1000 Hz
cuya intensidad sonora expresada en decibelios absolutos es de 50 dB. Si la frecuencia
del sonido fuera de 200 Hz, para provocar la misma sensación de volumen sonoro
—es decir, 50 fonios— sería necesario que tuviera una intensidad de 60 dB, expresada
en unidades absolutas.
Podemos verlo en las gráficas que habitualmente se establecen con los valores psico-
acústicos de la percepción del volumen sonoro en función de la frecuencia.
81
Figura 5.3: Gráficas de la percepción del volumen sonoro en las diferentes frecuencias.
La raya azul marca los 1000 Hz, la frecuencia de referencia donde el número de
fonios coincide con el valor de la intensidad sonora absoluta. Podemos observar que
en torno a los 4000 Hz es donde, con la misma intensidad sonora, la percepción
del volumen es mayor, tal vez debido a la resonancia de nuestra canal auditivo. Por
otra parte, las zonas extremas, tanto graves como agudas, requieren una intensidad
mucho mayor para que el oyente experimente el mismo número de fonios, es decir,
la misma sensación de volumen sonoro.
5.5. Conclusión
A lo largo de este capítulo hemos podido comprobar que nuestra percepción musical
de los parámetros físicos del sonido es logarítmica. Percibimos razones interválicas,
no diferencias aritméticas. Mientras la altura tonal es el correlato perceptivo de la
frecuencia, el volumen sonoro está en relación directa con el cuadrado de la am-
plitud. En ambos casos, nuestra sensación se incrementa de grado en grado cuando
se mantiene la misma razón en la variación de los parámetros físicos. El intervalo
melódico entre dos notas musicales queda determinado por la razón entre sus fre-
82
cuencias y puede ser expresado utilizando como unidad la octava —la razón 2/1—
o cualquiera de sus subdivisiones, como el semitono o el cent. Así mismo, también
podemos definir el “intervalo” de volumen sonoro entre dos sonidos como la razón
entre el cuadrado de sus amplitudes y utilizar para medirlo el belio —la razón 10/1—
o el decibelio. El hecho de que, a diferencia de la amplitud, la frecuencia permanezca
invariable a lo largo de la transmisión ondulatoria ha posibilitado su codificación en
las notas y escalas del lenguaje musical.
83
Capítulo 6
Mezcla e interferencia de dos sonidos

simples
6.1. Introducción
Los sonidos que oímos todos los días, sean o no musicales, no suelen ser sonidos
simples, sino el resultado de la superposición de un conjunto de vibraciones que
coinciden en un momento dado. En el caso de la música, que es lo que nos interesa
ahora, estas superposiciones se pueden producir en cualquier lugar: en el cuerpo
mismo de los instrumentos, en el espacio por el que se transmiten las ondas sonoras
o en el interior de nuestro oído.
Cuando se mezclan las vibraciones sonoras se producen diversos fenómenos acús-

ticos, fenómenos que dan lugar a las diferentes cualidades sonoras que oímos. Estas
mezclas, dependiendo de sus características, pueden ser combinaciones armónicas
que percibimos como notas musicales o pueden ser otro tipo de combinaciones en
las que apreciamos simplemente ruido. En efecto, los fenómenos acústicos derivados
de las distintas combinaciones de sonidos simples (es decir, de componentes sinu-
soidales) generan buena parte de la riqueza sonora de nuestro entorno. En lo que
concierne a la música, los fenómenos que se crean al combinarse las vibraciones de
distintos sonidos o de distintos componentes de un mismo sonido constituyen buena
parte del fundamento acústico de nuestro sistema musical.
84
Como se estudia en el capítulo siguiente, el sonido armónico o musical, hablando en
general, está formado por una serie de componentes simples cuyas vibraciones se su-
perponen de una manera especial. Las características de las mezclas y combinaciones
de sonidos simples que dan lugar al sonido musical son la causa de su particular natu-
raleza sonora. Estas características explican, además, los principios físicos que rigen
las consonancias, los pilares del lenguaje musical.
En este sentido, este capítulo prepara el estudio del sonido armónico, es decir, de la
estructura armónica creada por la combinación de componentes simples que man-
tienen entre sí unas determinadas relaciones. Puesto que los principios que rigen la
superposición de dos componentes simples son los mismos que los que están detrás de
la mezcla de cualquier número de componentes, conviene experimentar cómo son
los fenómenos que se crean cuando interfieren entre sí las vibraciones de dos sonidos
simples y analizar a qué se deben esos fenómenos. Después será sencillo entender
las especiales relaciones de conmensurabilidad que se establecen entre las frecuencias
de un número cualquiera de componentes simples cuando se superponen unos con
otros para formar un sonido armónico.
Así pues, en este capítulo vamos a comprobar que los fenómenos acústicos que se
crean en las diferentes tipos de mezclas de sonidos simples son el resultado bien de
la diferencia aritmética entre las frecuencias de los sonidos que se superponen o bien
de la razón numérica que hay entre esas frecuencias, y que estos fenómenos están
condicionados por la anchura de la banda crítica correspondiente a sus respectivas
frecuencias. Además, vamos a atender a los fundamentos acústicos de las consonan-
cias musicales, es decir, a los fenómenos que se producen cuando se mezclan dos
sonidos simples cuyas frecuencias mantienen unas especiales relaciones de conmen-
surabilidad.
Por otra parte, al estudiar todos estos fenómenos, vamos a entender el mecanismo
acústico que permite la afinación de los instrumentos musicales. Comprenderemos
cómo, a lo largo de la historia, de manera natural y sin recurrir a ninguna herra-
mienta externa, ha sido posible afinar con precisión los instrumentos y, a partir de
esas afinaciones, han sido establecidas las diferentes escalas musicales. En efecto, po-
dremos experimentar que las interferencias que se crean cuando se mezclan entre sí
los sonidos permiten determinar de manera empírica las alturas tonales que dan lugar
a los intervalos y a las escalas, y que eso se hace con tanta exactitud que muy ligeras
85
variaciones son interpretadas por nuestra percepción como extrañas a esa escala o
desafinadas.
Experimentaremos también los límites de nuestra capacidad para discernir indivi-

dualmente sonidos simultáneos, comprobando que estos límites dependen de la an-
chura de la banda crítica correspondiente a cada zona frecuencial.
Y, por último, mediante la introducción de una distorsión artificial en la señal, com-

probaremos los efectos que ésta puede ocasionar en la mezcla de sonidos simples, al
dar lugar a la aparición de componentes espurios. Esta es la razón de que, para po-
der apreciar correctamente las características sonoras que se muestran en los vídeos,
sea necesario que la distorsión del equipo de audio en el que los reproduzcamos sea
pequeña, como he indicado en el Prólogo de este libro.
A mi juicio, el modo más sencillo que tenemos hoy en día para estudiar los fenóme-
nos acústicos y psicoacústicos que se crean al mezclarse los sonidos es observar como
se comportan dos sonidos fabricados por ordenador. El hecho de utilizar sonidos
artificiales nos garantiza su estabilidad y permite que sus parámetros estén perfecta-
mente controlados. Mediante vídeos que simulan un osciloscopio creados a partir de
Matlab, a lo largo de este capítulo vamos a escuchar cómo suenan las diferentes mez-
clas de interés musical de dos sonidos simples y observar la forma de la vibración de
la señal resultante, atendiendo tanto a los fenómenos acústicos en sí mismos, como a
la manera en la que nosotros los percibimos.
6.2. El Principio de Superposición Lineal de Ondas
Antes de analizar cada uno de los casos de interés musical que se producen cuando
se mezclan dos sonidos simples, vamos a prestar atención brevemente al principio
general que rige toda mezcla de sonidos. Puesto que el sonido es un movimiento
vibratorio que se transmite en forma de ondas, cuando se mezclan dos sonidos en
las situaciones habituales se cumple el Principio de Superposición Lineal de Ondas.
El Principio de Superposición Lineal de Ondas dice que cuando en un tiempo
dado coinciden en un punto dos o más ondas la alteración total que se produce
en ese punto es igual a la suma de las alteraciones que cada onda individual
86
habría producido. Es decir, cuando dos ondas interfieren, el comportamiento indi-
vidual de cada una de ellas no se ve afectado por el de la otra.
Si pensamos en términos de señal de audio, podemos decir que la señal que resulta
de la reunión de dos señales independientes es una nueva señal cuyas muestras son
simplemente la suma de las muestras de cada una de ellas.
Hay que tener en cuenta que para que se cumpla el Principio de Superposición Lineal
de Ondas es necesario que el medio por el que se transmite el sonido no altere la
forma de la vibración, es decir, que no distorsione la señal de audio. Si esto no se
cumple (por ejemplo, si el equipo reproductor de sonido presenta una distorsión
significativa) surgirán componentes extraños no presentes en la señal original. Un
ejemplo de los efectos de tales distorsiones son los llamados Tonos de Tartini, que no
son componentes reales que pertenezcan a la vibración sonora en sí misma, sino el
resultado de la pequeñísima distorsión que introduce nuestro propio oído.
A continuación vamos a estudiar una serie de fenómenos físicos, todos ellos de inte-
rés musical, que surgen al mezclarse dos sonidos simples. Todos estos fenómenos, así
como la forma en la que nosotros los percibimos, dependen de tres factores: la distan-
cia aritmética entre las frecuencias de los sonidos que se mezclan; la razón numérica
que se establece entre sus frecuencias; y la región frecuencial a la que pertenecen.
Generalizados a la mezcla de cualquier número de componentes, estos fenómenos y
la forma en la que nosotros los percibimos constituyen el fundamento acústico sobre
el que se ha construido nuestro Sistema Musical.
6.3. Mezcla de dos sonidos simples de la misma frecuencia:

Unísono
Empecemos analizando lo que ocurre cuando se superponen en el mismo espacio y

tiempo dos sonidos simples que tienen exactamente la misma frecuencia, es decir,
que forman un unísono.
He confeccionado un vídeo que nos va a permitir observar que el resultado de

la superposición de dos sonidos simples de igual frecuencia es siempre otro
87
sonido simple de la misma frecuencia, cuya amplitud depende no solo de la de
cada sonido, sino también del desfase que hay entre ellos.
En el vídeo se emiten cinco veces dos sonidos simultáneos que tienen la misma fre-
cuencia, 220 Hz, un la3 en la afinación estándar. En cada emisión oímos el sonido
resultante de la mezcla de ambos componentes.
Para reconocer con facilidad la forma de la señal de cada componente en el simulador

del osciloscopio, he generado los sonidos con una ligera diferencia entre sus ampli-
tudes. Si fueran exactamente iguales, las gráficas de ambas señales se superpondrían y
no podríamos distinguirlos, particularmente en el momento en el que están en fase.
La amplitud de la señal azul es 0,20 y la de la señal magenta 0,22.
En cada repetición los sonidos componentes se van desfasando entre sí: la primera vez
que suenan tienen la misma fase inicial; luego la fase inicial del sonido representado
por la señal azul se adelanta un poco, de modo que los dos sonidos quedan desfasados
entre sí 45º; a continuación la señal azul se adelanta todavía más, siendo el desfase
entre los componentes de 90º; luego el desfase es de 135º; y, finalmente, de 180º, es
decir, ambos sonidos están en oposición de fase.
Figura 6.1: Vídeo con dos sonidos unísonos que van incrementando su desfase.
Podemos ver en el osciloscopio dos señales finas sinusoidales de amplitudes muy pa-
recidas, una magenta y otra azul, que representan los sonidos simples componentes.
88
Vemos también una señal más gruesa de color verde, que es la resultante de la mezcla
y que corresponde al sonido que estamos escuchando en el vídeo.
En cada una de las cinco repeticiones percibimos un solo sonido simple. Comproba-
mos, así pues, que la mezcla de dos sonidos simples de la misma frecuencia produce
un sonido simple que conserva el mismo periodo y, por lo tanto, la misma frecuencia
que los componentes, en este caso 220 Hz. En efecto, en el osciloscopio vemos que
la gráfica de la señal resultante, de color verde, es también una señal sinusoidal. Al
escuchar como suenan podemos apreciar que la mezcla ha sido tan perfecta que los
sonidos que la han compuesto han sido fundidos, de modo que oímos un solo sonido
simple.
Veamos ahora en qué se diferencian las distintas repeticiones de esa nota. Enseguida
nos damos cuenta de que el volumen sonoro que percibimos es diferente en cada
caso. No voy a explicar ahora cómo se puede calcular la amplitud y la fase inicial
del sonido resultante de la mezcla, pues no es relevante para nuestro objetivo; nos
basta comprobar en el osciloscopio que la amplitud de la señal verde, la del sonido
que oímos, disminuye conforme aumentan los desfases en las sucesivas emisiones.
Como casos especiales podemos observar que cuando los dos sonidos están en fase
—la primera emisión, desfase de 0º—, la amplitud del sonido resultante es la suma
de las amplitudes de cada uno de los componentes (0,20 + 0,22 = 0,42), mientras
que cuando ambas señales están en oposición de fase —la última emisión, desfase
de 180º—, la amplitud de la señal resultante es la diferencia de las amplitudes de los
componentes (0,22 – 0,20 = 0,02).
Para ver en detalle lo que sucede, la figura de abajo presenta una instantánea de la
forma de la vibración en cada una de las cinco emisiones, de modo que cada gráfica
corresponde a uno de los desfases que hemos visto en el vídeo.
89
Figura 6.2: Formas de la vibración de dos sonidos simples unísonos con diferentes desfases.
Puesto que cada muestra de la señal resultante es, según el Principio de Superposición
Lineal, la suma de las correspondientes muestras de las señales componentes, vemos
que, conforme se van incrementando los desfases, la pérdida de sincronía da lugar
a que la amplitud resultante vaya disminuyendo. En la gráfica de la quinta fila, en
la que ambas señales están en oposición de fase, podemos apreciar que los valores
de todas las muestras son prácticamente opuestos, de modo que resulta fácil deducir
que si ambos componentes hubieran tenido la misma amplitud, el sonido resultante
hubiera tenido una amplitud de 0, es decir, hubiera desaparecido por completo.
Así pues, en este vídeo hemos podido observar que el resultado de la mezcla de dos
sonidos simples de igual frecuencia siempre es otro sonido simple de la misma fre-
cuencia y que el cambio en la fase inicial sólo modifica la amplitud del sonido simple
resultante y, por lo tanto, solo repercute en el volumen sonoro que apreciamos, sin
que afecte a la cualidad sonora que percibimos.
Los cambios en el volumen sonoro derivados de los desfases entre dos sonidos uní-
sonos explican algunos problemas que pueden surgir al realizar una grabación en un
estudio. En el caso de que la misma fuente sonora sea recogida por dos micrófonos,
pudiera suceder que algunos componentes llegaran a cada micrófono casi en oposi-
90
ción de fase, lo que podría dar lugar a que, al realizarse la mezcla, esos componentes
quedaran significativamente atenuados. Si esto ocurre se puede percibir una especie
de agujero acústico en el sonido grabado. Para evitar este problema las mesas de mez-
clas suelen llevar un dispositivo que permite invertir la fase de cada señal de entrada.
En la audición directa este problema queda minimizado por el hecho de que dispo-
nemos de dos oídos y porque los sonidos habitualmente llegan hasta nosotros con
múltiples desfases, debido a que, por regla general, provienen de diversos lugares,
como consecuencia de las reflexiones en las paredes, techos y suelos.
6.4. Mezcla de dos sonidos simples de frecuencias muy próxi-

mas: Batidos de primer orden
Vamos a estudiar ahora lo que ocurre cuando se mezclan dos sonidos simples cu-
yas frecuencias están separadas entre sí por una pequeña distancia, menos de 15 Hz
aproximadamente. El fenómeno acústico que se produce se denomina “batidos de
primer orden” y ha sido empleado desde tiempos muy antiguos para la afinación de
los instrumentos musicales y la determinación de las escalas.
6.4.1. Los batidos de primer orden
Para experimentar cómo son los batidos o pulsaciones, he fabricado un vídeo en el

que se oyen sucesivamente seis sonidos, cada uno de los cuales es el resultado de la
mezcla de dos componentes simples de frecuencias muy próximas. En cada nuevo
sonido las frecuencias de los dos componentes están cada vez más cercanas.
91
Figura 6.3: Vídeo con diferentes casos de batidos de primer orden.
En el osciloscopio se representan dos señales finas, que pertenecen a cada uno de

los dos componentes que se mezclan y una señal más gruesa, que es la del sonido
resultante de la mezcla y que es el que oímos. La señal de color magenta es la del
componente más grave y la de color azul es la del componente más agudo, mientras
que la de color verde pertenece al sonido resultante. Para poder distinguir bien cada
uno de los dos componentes y para que la profundidad del batido no sea excesiva, he
elegido amplitudes diferentes para cada componente: la amplitud del primero es 0,2
y la del segundo es 0,1.
En cada uno de los seis sonidos que escuchamos, la frecuencia del primer compo-
nente es de 220 Hz (un la3 en la afinación estándar) mientras que la del segundo va
cambiando, de modo que la diferencia entre los dos componentes es cada vez más pe-
queña, hasta llegar a coincidir en el último sonido: en el primer sonido la frecuencia
del componente agudo es de 228 Hz, por lo que la diferencia respecto al componente
grave es de 8 Hz; en el segundo, el componente agudo tiene una frecuencia de 224
Hz, de modo que tiene una diferencia de 4 Hz respecto al grave; en el tercero, la
frecuencia del componente agudo es de 222 Hz, por lo que están a 2 Hz de distancia
del grave; en el cuarto caso la frecuencia del agudo es de 221 Hz, estando sólo a 1
Hz del primer componente; en el quinto sonido la frecuencia del agudo es de 220,5
Hz, por lo que solo están separados 0,5 Hz; y, finalmente, en el último caso, los dos
componentes tienen la frecuencia de 220 Hz,de modo que suenan al unísono.
92
A excepción del último sonido, en todos los casos oímos una especie de sonido tre-
molado, es decir, unos batidos o pulsaciones que se repiten de manera periódica y
que coinciden con la oscilación de la amplitud de la señal verde que vemos en el os-
ciloscopio. Si prestamos atención al vídeo comprobamos que el número de batidos
por segundo que oímos (es decir, la frecuencia de los batidos) coincide con la dife-
rencia que hay entre la frecuencia de los dos componentes que han intervenido en
la mezcla. En efecto, en el primer caso oímos 8 batidos por segundo; en el segundo
4; en el tercero 2; en el cuarto 1; en el quinto 1 batido cada dos segundos (es decir,
0,5 cada segundo); y en el último los batidos desaparecen y los dos componentes se
quedan fundidos plenamente en un solo sonido estable y continuo.
Ahora bien, si detenemos el vídeo en cualquier momento, con independencia de que

haya o no batidos, observaremos que en todos los casos la vibración sigue teniendo
una forma sinusoidal. Esto explica que en todos esos sonidos, incluso cuando están
formados por dos componentes de diferente frecuencia, oímos un solo sonido simple,
con una altura tonal bien definida.
En resumen, cuando se producen los batidos de primer orden la amplitud del

sonido oscila periódicamente, pero su frecuencia permanece estable durante
toda su duración.
Si tenemos un oído muy fino podremos apreciar que la altura tonal desciende lige-
rísimamente de un sonido a otro, conforme se van aproximando más las frecuencias
de los dos sonidos componentes. La frecuencia del sonido resultante depende de
la frecuencia y la amplitud de los componentes que lo forman. Si la amplitud de
ambos componentes hubiera sido la misma, la frecuencia resultante de la mezcla hu-
biera sido la media aritmética de las frecuencias de los dos componentes; pero como
en todos los casos de este vídeo el componente más grave tiene mayor amplitud, la
frecuencia resultante se aproxima más a la de este componente. Por ello la frecuencia
de los seis sonidos que oímos desciende ligeramente de un caso a otro: desde 222 Hz
en el primero, hasta 220 Hz en el último cuando desaparecen los batidos y ambos
componentes suenan al unísono.
93
6.4.2. Causas de los batidos de primer orden
Para ver en detalle a qué se debe este fenómeno, vamos a centrar nuestra atención en
las señales del primer caso del vídeo, cuando las frecuencias de los dos componentes
están a una distancia de 8 Hz. Veamos una gráfica que corresponde a 2 décimas de
segundo de este primer sonido, en concreto, las que están entre los segundos 1 y 1,2.
En esta gráfica las señales están más comprimidas que en la ventana del osciloscopio,
donde se representan sólo 50 milésimas de segundo, con lo que ahora podremos
apreciar la forma de los batidos.
Figura 6.4: Detalle de un batido de primer orden.
La gráfica representa algo más de un batido y medio. En ella podemos ver que la
ligera diferencia entre las frecuencias de los dos componentes provoca unos desfases
que van cambiando durante toda la emisión del sonido. Así, vemos que la señal azul
y la señal magenta (que, recordemos, corresponden respectivamente al componente
de 220 Hz y al de 228 Hz) pasan alternativamente por momentos en los que están
en fase y por momentos en los que están en oposición de fase. En el primer caso la
señal resultante tiene la máxima amplitud y en el segundo, la mínima.
Por ejemplo, podemos observar que en torno a los segundos 1,07 y 1,20 las señales
magenta y azul coinciden en sus fases, con lo que en ese momento, al sumarse la
94
amplitud de ambos componentes, la señal verde adquiere su máxima amplitud (0,2
+ 0,1 = 0,3). Por el contrario, en torno a los segundos 1,00 y 1,13 ambas señales se
encuentran en oposición de fase, por lo que en ese momento la amplitud resultante
es la diferencia entre la amplitud de ambos componentes, teniendo su valor más bajo
(0,3 – 0,2 = 0,1). La profundidad del batido es la diferencia entre la amplitud máxima
y mínima de la señal resultante, por lo que en este caso es de 0,2 (como en el resto
de los sonidos del vídeo en los que hay batidos).
La variación en los desfases entre los componentes es la causa de que la amplitud de la

señal resultante vaya modificándose a lo largo del tiempo, oscilando también de una
forma sinusoidal. Ese cambio periódico de la amplitud es lo que origina los batidos
que escuchamos. El ritmo de los batidos o pulsaciones es la diferencia aritmética entre
las frecuencias de los componentes.
Para entenderlo mejor podemos imaginarnos la señal de cada componente simple

como si fuera el resultado de un movimiento circular uniforme, similar al del panel
de la izquierda del vídeo de la figura 4.2 del capítulo 4. En un segundo el componente
de color magenta dará 220 vueltas, mientras que el componente de color azul dará
228 vueltas. Por lo tanto, como si se tratara de una carrera de coches, en un segundo el
componente magenta habrá “doblado” 8 veces al componente azul. Y cada vez que
lo “doble” sus fases volverán a sincronizarse, de modo que en la vuelta de después
de la sincronización, en la que ambos componentes irán casi a la vez, se producirá
la máxima amplitud del sonido resultante; por el contrario, como consecuencia de
los desfases, cuando ambos componentes estén en oposición, el sonido resultante
alcanzará su amplitud mínima.
En resumen, cuando se mezclan dos sonidos de frecuencias muy próximas, el

resultado es un solo sonido simple, cuya frecuencia se encuentra entre la de los
dos componentes y cuya amplitud oscila de forma sinusoidal tantas veces por
segundo como la diferencia que hay entre la frecuencia de los dos componen-
tes, dando lugar a los batidos de primer orden.
Hay que tener en cuenta que para que se perciban los batidos la diferencia entre las
frecuencias de los componentes debe ser inferior a 15 Hz, aproximadamente, pues
nuestro sistema perceptivo no tiene capacidad para distinguir con nitidez cambios
más rápidos en la variación de los parámetros sonoros.
95
6.4.3. Batidos y afinación
Cualquier músico que tiene que afinar su instrumento está habituado a “poner el oí-
do”, es decir, a prestar atención y escuchar las pequeñas oscilaciones en el volumen
sonoro que se producen cuando las frecuencias de dos sonidos distintos que se emi-
ten simultáneamente están muy próximas, pero no son idénticas. En efecto, como
el fenómeno de los batidos se produce de manera natural siempre que se mezclan
sonidos de frecuencias muy próximas, su observación ha sido el método habitual-
mente utilizado para afinar los instrumentos musicales: si se conoce la frecuencia de
un sonido que se utiliza de referencia, este método permite la determinación precisa
de la frecuencia de otro.
El vídeo de la figura 6.3 nos sirve para entender cómo se utilizan los batidos para la
afinación. Por ejemplo, para afinar la cuerda de una guitarra, tomando como refe-
rencia la nota ya afinada de una cuerda inferior, empezaremos tensándola de manera
aproximada para acercarla al sonido de referencia y, una vez en ese rango, iremos
ajustando su tensión hasta que los batidos desaparezcan por completo. En el vídeo
vemos que, conforme las frecuencias de los componentes están más próximas, el
ritmo de los batidos va disminuyendo, hasta desaparecer cuando los sonidos están
completamente afinados.
Incluso cuando no se busca una coincidencia exacta, el número de batidos que se

produce cada cierto tiempo proporciona al músico una medida precisa de la dife-
rencia entre las frecuencias de los dos sonidos. El número de batidos que se produce
por segundo (es decir, la frecuencia de los batidos) es un medio para determinar con
precisión el grado de desafinación.
Este procedimiento no sólo es válido para afinar notas unísonas, sino también para
determinar la afinación de las principales consonancias musicales y, a partir de ahí,
la escala entera. Aunque en este capítulo estamos estudiando el modelo de dos so-
nidos simples cuyas frecuencias se superponen en un momento dado, tenemos que
tener presente que la mayoría de los sonidos que emiten los instrumentos musica-
les no son simples, sino que están formados por muchos componentes armónicos,
como se estudia en el capítulo 7. Por ello, en la afinación natural la frecuencia de
algún importante componente armónico de una nota coincidirá exactamente con la
frecuencia de otro armónico de la otra nota. En la afinación temperada, donde ya
96
no se produce esa coincidencia exacta, el número de batidos permite bajar con pre-
cisión las quintas, exactamente en la pequeña cantidad requerida. Éste es el método
habitualmente utilizado por los afinadores de pianos.
6.5. Mezclas de dos sonidos simples en función de la distancia

entre sus frecuencias y de la anchura de su banda críti-
ca
Debido a las características de nuestro sistema auditivo, cuando se mezclan dos so-
nidos simples de diferente frecuencia es necesario que entre ellos exista suficiente
distancia frecuencial para que podamos percibirlos individualmente. Esta separación
mínima, a la que llamamos “anchura de la banda crítica”, no es igual en todas las
regiones frecuenciales, pues la capacidad de resolución de nuestra percepción au-
ditiva depende de la zona frecuencial en la que están situados los sonidos que se
mezclan.
En efecto, según la separación entre las frecuencias de dos sonidos simples emitidos
simultáneamente, se pueden producir cuatro situaciones diferentes:
a) Cuando la diferencia es menor de unos 15 Hz oímos un solo sonido tremo-

lado, los batidos de primer orden que acabamos de ver.
b) A partir de 15 Hz, aproximadamente, de distancia entre ellos, dejamos de

oír un solo sonido tremolado y empezamos a escuchar una especie de zumbido
áspero, sin que todavía seamos capaces de distinguir dos alturas tonales diferen-
ciadas.
c) Cuando la separación está cerca de la anchura de la banda crítica corres-

pondiente a la zona frecuencial en la que se hallan los dos componentes que se
mezclan, comenzamos a distinguir ya dos sonidos, pero la cualidad sonora de la
mezcla sigue siendo áspera y rugosa.
d) Conforme aumenta la distancia entre las frecuencias de los dos componentes,

la cualidad sonora se va haciendo cada vez menos rugosa, hasta que, una vez
97
superada holgadamente la anchura de su banda crítica, llega un momento en el
que percibimos con nitidez los dos sonidos.
Para experimentar esto, he fabricado, a partir de fotogramas construidos mediante

Matlab, un vídeo con cuatro sonidos en los que se mezclan dos componentes simples
de la misma amplitud. Las frecuencias de los dos componentes se van distanciando
progresivamente: en todos los casos la frecuencia del componente grave es 220 Hz,
un la3 temperado; en el primer sonido, la frecuencia del componente agudo es 233,1
Hz, que corresponde al sib3 de la escala temperada habitual, de modo que la distancia
frecuencial respecto al componente grave es de 13,1 Hz; en el segundo sonido, la
frecuencia del componente agudo es 246,9 Hz, el si3 de la escala temperada, con lo
que la distancia respecto al grave es de 26,9 Hz; en el tercer sonido, la frecuencia del
componente agudo es 261,6 Hz, el do4 de la escala temperada, con lo que la distancia
respecto al grave es de 41,6 Hz; y en el cuarto sonido la frecuencia del componente
agudo es 311,1 Hz, el mib4 de la escala temperada, de modo que la diferencia con el
componente grave es de 91,1 Hz.
Figura 6.5: Vídeo que muestra la importancia de la banda crítica en la percepción individual de dos
sonidos próximos.
En el primer sonido, donde los componentes están separados 13,1 Hz, oímos una
nota simple tremolada, con unos batidos muy rápidos y muy profundos, similares a
los que hemos oído en los primeros casos del vídeo de la figura 6.3. En efecto, como
la distancia frecuencial es menor de 15 Hz, estamos ante un caso de una mezcla en la
98
que se percibe un solo sonido, pero en la que se producen batidos de primer orden,
como hemos visto en el apartado anterior. Lo he incluido aquí para que podamos
comparar su sonido con el de los siguientes casos. La altura tonal que percibimos
corresponde a una nota situada entre el la3 y el sib3 , pues, al ser igual la amplitud de
ambos componentes, la frecuencia del sonido resultante es la media aritmética entre
ellos, es decir, 226,6 Hz.
En el segundo sonido, cuando la distancia entre las frecuencias de los dos compo-
nentes es de 26,9 Hz, no oímos ya ninguna nota musical, ni una sola nota tremolada,
ni tampoco las dos notas por separado, sino un sonido áspero y rugoso, como un
zumbido. Ello se debe a que, cuando la diferencia aritmética entre las frecuencias de
los dos componentes supera los 15 Hz aproximadamente, la frecuencia de los bati-
dos es tan rápida que nuestro sistema auditivo es incapaz de seguirlos. Por eso ya no
podemos distinguir un solo sonido simple tremolado, sino que oímos un sonido su-
cio y rugoso, un zumbido borroso en el que no oímos en absoluto los componentes
individuales de la mezcla.
En el tercer sonido, en el que la distancia entre las frecuencias es de 41,6 Hz, podemos
apreciar ya las dos notas por separado, el la3 y el do4 , aunque la cualidad de la mezcla
que oímos sea sucia y borrosa.
En el cuarto sonido, sin embargo, cuando la distancia entre las frecuencias es de 91,1
Hz, distinguimos con nitidez dos notas individuales, el la3 y el mib4 , y el carácter
rugoso de la mezcla anterior ha desaparecido, siendo sustituido por una sonoridad
mucho más clara y eufónica.
Estos fenómenos son de orden psicoacústico, es decir, se deben a las peculiaridades

de nuestro sistema auditivo, en concreto, a la fisiología de nuestro oído interno.
Como consecuencia de ello, para poder distinguir dos sonidos simples simultáneos
es necesario que la separación entre ellos supere una distancia mínima. La anchura
de la banda crítica varía en función de la zona frecuencial de los sonidos que
se superponen, incrementándose conforme los sonidos son más agudos. En los
casos del vídeo la anchura de la banda crítica está en torno a los 40 Hz. Ello explica que
no hayamos sido capaces de distinguir en el vídeo los componentes simples cuando
la distancia entre sus frecuencias era inferior a esta cantidad y, sin embargo, en el
99
último caso, cuando la separación excede en mucho a la anchura de la banda crítica
de esta región frecuencial los oímos con claridad.
Es oportuno aclarar que, si en lugar de sonidos simples, se hubieran superpuesto

notas normales —es decir, compuestas por varios armónicos—, hubiéramos podido
distinguirlas con facilidad, pues la distancia entre sus armónicos superiores hubiera
excedido la anchura de su banda crítica correspondiente.
6.6. Mezcla de dos sonidos simples cuyas frecuencias están en

relación de conmensurabilidad próxima: Consonancias
Cuando las distancias entre las frecuencias de dos sonidos simples que se superponen
sobrepasan holgadamente la anchura de la banda crítica, de modo que ya no per-
cibimos zumbidos o rugosidades, hay ocasiones en las que se produce una mezcla
tan bien amalgamada que los dos sonidos casi parecen fundirse en uno. Esta mezcla
recibe el nombre de consonancia.
Antes de continuar, conviene hacer una aclaración. El concepto de consonancia que

vamos a estudiar en estos capítulos no hace referencia al carácter más o menos eu-
fónico que resulta de la mezcla de los sonidos, sino al especial acoplamiento físico
entre las vibraciones sonoras que se produce cuando sus frecuencias son cercana-
mente conmensurables. Por ejemplo, el acorde de séptima disminuida puede per-
fectamente ser considerado hoy en día eufónico, pero nunca será una combinación
consonante.
Si bien las consonancias entre los sonidos reales de la música, cada uno de ellos forma-
do habitualmente por muchos componentes armónicos, se estudiarán más adelante
(en el capítulo dedicado al modo en el que reconocemos el sonido musical), prime-
ro es conveniente entender en qué consiste la consonancia entre sonidos simples.
Así pues, a continuación vamos comprobar, mediante nuestra experiencia auditiva
directa, que cuando se superponen dos sonidos simples cuyas frecuencias man-
tienen entre sí una relación de conmensurabilidad próxima se produce una
consonancia.
100
6.6.1. Conmensurabilidad próxima
Empecemos puntualizando qué es la conmensurabilidad próxima. Dos cantidades

son conmensurables cuando tienen una medida común, es decir, cuando la relación
entre ellas puede ser expresada mediante un número racional o, lo que es lo mismo,
mediante el cociente de dos números enteros. Por ejemplo, 11/7 ó 23/12.
Ahora bien, en física, astronomía, otras ciencias en general y en la música en parti-

cular, hay circunstancias en las que es relevante que esa razón sea sencilla. Podemos
considerar que una razón es sencilla cuando, expresada como fracción irreducible,
sus términos están comprendidos entre los primeros números enteros positivos. Di-
remos en ese caso que su conmensurabilidad es próxima. Así pues, dos números
están en razón de conmensurabilidad próxima cuando los términos de la frac-
ción irreductible que los relaciona son alguno de los primeros números enteros
positivos. Conforme menores sean los términos de la fracción irreducible, más sen-
cilla será la razón y más próxima la conmensurabilidad. En este sentido, 2/1 es una
razón más sencilla que 3/2, y ésta más sencilla que 4/3.
En lo que concierne a la música, esta sencillez tiene que ver con los límites de nuestro
sistema auditivo. La proximidad de los términos de la razón entre las frecuencias de
dos sonidos simples va a permitir que nuestro oído perciba su superposición como
una buena mezcla y los reconozca como consonantes: cuando las dos frecuencias
que se superponen son cercanamente conmensurables, las vibraciones de los
sonidos coinciden de modo periódico cada pocos ciclos, lo que hace que el
patrón de repetición de las coincidencias sea lo suficientemente sencillo como
para que nuestro sistema perceptivo sea capaz de seguirlo. De ese modo podemos
oír la mezcla como un sonido perfectamente amalgamado.
Cuando las frecuencias de los dos sonidos componentes están en una relación doble,
2/1, sucede que mientras una vibración completa un ciclo entero, la otra completa
exactamente dos; cuando están en una relación sesquiáltera, 3/2, ocurre que mientras
una vibración realiza dos ciclos, la otra hace exactamente tres. Por eso conforme más
próxima es la conmensurabilidad, más unitaria resulta la mezcla de las vibraciones de
los dos sonidos simples, hasta el punto de que en la octava, 2/1, la más perfecta de las
consonancias, prácticamente oímos un solo sonido.
101
Así pues, la consonancia, más que un hecho físico externo, viene dada por la
capacidad de nuestro oído para reconocer un sonido unitario cuando se com-
binan dos vibraciones cuya periodicidad coincide cada pocos ciclos. Por eso,
conforme la conmensurabilidad se aleja, percibimos un sonido cada vez más comple-
jo: cada vez oímos menos el resultado de la mezcla y los componentes individuales
van adquiriendo más presencia.
La cuestión sería precisar hasta dónde podemos considerar que una razón expresa una
conmensurabilidad próxima. La teoría musical creada por los antiguos, que realizaba
los cálculos atendiendo a la longitud de la cuerda y no al valor de la frecuencia, con-
sideraba que sólo los intervalos formados por razones cuyos términos estaban com-
prendidos entre los cuatro primeros números enteros eran consonantes. De acuerdo
a este criterio, dentro del rango de la octava, serían consonantes las mezclas de soni-
dos que están en razón doble (2/1), es decir, que están a distancia interválica de una
octava; en razón sesquiáltera (3/2), los que están a distancia de un intervalo de quinta;
o en razón sesquitercia (4/3), en un intervalo de cuarta. No en vano estos intervalos
son los que han estructurado las escalas musicales de Occidente.
Desde el punto de vista de nuestra percepción musical, la relación 5/4 podría incluirse
también entre las razones simples, pero lo cierto es que el intervalo de tercera mayor
(al que, en principio, correspondería en nuestras escalas) queda ya bastante alejado de
esta razón: el intervalo de 5/4 está 14 cents por debajo de la tercera mayor temperada
y 22 cents por debajo del dítono que surge en la afinación por quintas justas de
3/2.
6.6.2. Consonancias entre sonidos simples
Una vez entendido qué es la conmensurabilidad próxima en acústica y por qué da

lugar a las mezclas consonantes, vamos ahora a experimentar cómo son las señales
de audio de las mezclas de dos sonidos simples cuyas frecuencias, expresadas como
fracción irreducible, son uno de los cuatro primeros números enteros positivos. Si-
guiendo el procedimiento habitual, he fabricado varios vídeos mediante los cuales
podremos comprobar que en esos casos nuestro oído reconoce con claridad la buena
mezcla, lo que llamamos la consonancia.
102
En el vídeo de la figura 6.6 podemos escuchar las consonancias que se pueden esta-
blecer entre los cuatro primeros números enteros positivos: la consonancia de octava,
la de doble octava, la de octava y quinta, la de quinta y la de cuarta.
En todos los ejemplos del vídeo la frecuencia del componente grave es 220 Hz (la3 ).
En el primer caso la frecuencia del componente agudo es 440 Hz (la4 ), por lo que
ambos sonidos mantienen la razón 2/1, que es la que define el intervalo de octava. En
el segundo, el componente agudo tiene una frecuencia de 660 Hz (mi5 natural), por
lo que los dos componentes están entre sí en razón 3/1, la que define el intervalo de
octava y quinta natural. En el tercero, el sonido agudo es de 880 Hz (la5 ) y la razón
respecto al componente grave es 4/1, por lo que entre ambos forman un intervalo de
doble octava. En el cuarto, el componente agudo es de 330 Hz (mi4 natural) y forma
respecto al grave una razón de 3/2, que corresponde al intervalo de quinta natural.
En el quinto caso, la frecuencia del sonido agudo es 293,3 Hz (re4 natural) y su razón
respecto al grave es 4/3, con el que forman un intervalo de cuarta natural. Para que se
distingan mejor los dos componentes, la amplitud de cada uno de ellos es diferente:
la del componente grave es 0,2 y la del agudo 0,1.
Figura 6.6: Vídeo con las consonancias definidas por los cuatro primeros números enteros.
Si ponemos un poco de atención, en todos estos ejemplos, además del sonido re-
sultante de la mezcla, también podemos oír cada uno de los dos componentes por
separado. Solamente en el primer caso, cuando las frecuencias están en razón 2/1,
103
predomina la tendencia a percibir un solo sonido, en lugar de dos sonidos simultá-
neos distintos que se mezclan bien. Pero incluso ahí, si orientamos un poco nuestra
escucha para hacerla más analítica, podemos apreciar las dos notas individuales.
Para entender por qué percibimos en todos los casos la superposición de los dos
sonidos componentes como una mezcla consonante, vamos a fijarnos en la forma de
la vibración de cada uno de los ejemplos que vemos en el osciloscopio del vídeo. Para
poder comparar unas formas con otras, la figura 6.7 representa un fragmento de la
señal de audio de cada uno de los ejemplos del vídeo.
Figura 6.7: Formas de la vibración de las consonancias entre los cuatro primeros números enteros.
En los tres primeros casos podemos observar que cada vez que el componente grave,
el de color magenta (el sonido de 220 Hz, que es común a todos ellos) realiza un ciclo
completo, el componente agudo, el de color azul, completa exactamente un número
entero de ciclos: dos ciclos en el caso de la octava (de ahí la razón 2/1); tres en el caso
de la octava y quinta natural (de ahí la razón 3/1); y cuatro en el caso de la doble
octava (de ahí la razón 4/1). Ello hace que en todos estos casos el sonido resultante de
la mezcla tenga el mismo periodo que el del componente más grave, como podemos
comprobar en las gráficas.
104
En la cuarta gráfica, en el caso de la quinta natural, vemos que cada dos ciclos del
componente grave, el componente agudo completa exactamente tres (de ahí la razón
3/2). Por ello, el periodo del sonido resultante es el doble que el del componente más
grave o, lo que es lo mismo, el triple del periodo del componente más agudo.
En la última gráfica, en el caso de la cuarta natural, observamos que cada tres ciclos
del componente grave, el componente agudo completa exactamente cuatro (de ahí
la razón 4/3). De esta forma, el periodo del sonido resultante es el triple del periodo
del componente más grave y el cuádruple del más agudo.
Así pues, en este vídeo y en las gráficas correspondientes, hemos podemos observar
que la conmensurabilidad es la causa de la aparición de una periodicidad en la
mezcla resultante.
Podría parecer que esta periodicidad debería haber dado lugar a la percepción de la
altura tonal correspondiente a la mezcla. Si esto hubiera sido así, en el cuarto caso,
por ejemplo, deberíamos haber oído la nota la2 , que correspondería al periodo de la
mezcla resultante, en lugar de las notas individuales la3 y mi4 bien amalgamadas y
formando la consonancia de quinta. Sin embargo, esto no ocurre así, salvo que el
equipo de música en el que estemos oyendo los ejemplos distorsione y provoque la
aparición de componentes espurios, como veremos un poco más adelante. La expli-
cación de ello reside en que nuestra percepción es frecuencial, de modo que, como
estudiaremos en el capítulo correspondiente, oímos dos notas y no una sola nota más
grave correspondiente a la señal resultante.
6.6.3. De la consonancia a la disonancia
Pero, debido a los márgenes de nuestra percepción, las fronteras entre lo que nos
suena consonante y lo que nos parece disonante son algo difusas.
Para observar donde acaba la consonancia y donde empieza la disonancia, he fabrica-

do un vídeo con varios casos en los que se mezclan dos sonidos simples cuya distancia
interválica está en torno a la quinta: la quinta natural o quinta justa (la que propia-
mente está en razón 3/2), la quinta temperada, la quinta disminuida y una quinta
desafinada. He elegido el ámbito interválico de la quinta por dos razones: primero
porque la quinta justa es la consonancia en la que se pueden distinguir con más faci-
105
lidad los dos componentes; y, segundo, porque en nuestro sistema musical también
se encuentran la quinta temperada y la quinta disminuida, por lo que estamos fa-
miliarizados con ellas y podemos compararlas. He añadido la quinta desafinada para
permitir apreciar la diferencia.
En todos los ejemplos la frecuencia de la nota grave es 220 Hz (la3 ). En el primer caso
la frecuencia de la nota aguda es 330 Hz (mi4 natural), por lo que están exactamente
en razón 3/2 y forman el intervalo de quinta natural o justa. En el segundo caso
la frecuencia de la nota aguda es de 329,6 (mi4 temperado) por lo que forman un
intervalo de quinta temperada (700 cent) con la nota grave (la quinta temperada está
solamente 2 cent por debajo de la quinta justa). En el tercer caso la frecuencia de
la nota aguda es 325,8 Hz (mi4 desafinado) y forman un intervalo de quinta que
está 20 cent por debajo del que formaría con el mi4 temperado. Y en el cuarto caso
la frecuencia de la nota aguda es 311,1 Hz (mib4 ) y forma un intervalo de quinta
disminuida (600 cent) con la nota grave. Para permitir que se distingan la amplitud
del componente grave es 0,2 y la del agudo 0,1.
Figura 6.8: Vídeo que ilustra el paso de la consonancia a la disonancia.
En todos los casos oímos los dos sonidos de forma independiente, pues la distancia
entre ellos excede con mucho la anchura de la banda crítica de esa zona frecuencial,
que está en torno a los 55 Hz, lo cual, como hemos visto en los apartados anteriores,
106
es una condición necesaria para que podamos reconocer con claridad ambos sonidos.
Analicemos con un poco de detenimiento lo que ocurre en cada caso.
a) En el primer caso, cuando las frecuencias de los componentes están exac-

tamente en razón 3/2 y forman la consonancia de quinta natural, oímos una
mezcla muy bien amalgamada y observamos en el osciloscopio que la forma
de la vibración resultante permanece totalmente estable. En efecto, el máximo
común divisor de las frecuencias de los dos componentes (220 y 330) es 110.
Esto quiere decir que la forma de la vibración de la mezcla resultante se repite
110 veces por segundo y que, por lo tanto, su periodo es 1/110 s, o sea, redon-
deando, 9 milésimas de segundo. Así pues, cada 9 ms aproximadamente ambos
componentes se sincronizan: el sonido grave completa 2 ciclos mientras que el
sonido agudo completa 3, como podemos comprobar en el osciloscopio si de-
tenemos el vídeo. Este periodo de 9 ms está dentro del rango temporal en el que
nuestro sistema auditivo es capaz de detectar periodicidades en la forma de la vi-
bración. Por eso, aunque seguimos oyendo los dos componentes por separado,
percibimos que se combinan muy bien, por lo que obtenemos una clara sensa-
ción de buena mezcla, una mezcla sin perturbaciones que no varía a lo largo del
tiempo.
b) En el segundo caso, en el que se mezclan dos sonidos que están en inter-

valo de quinta temperada, la razón entre sus frecuencias, redondeadas a déci-
mas de hercio, es 3296/2200. Esta razón expresada como fracción irreducible es
412/275, la cual no es para nada una razón sencilla, por lo que las frecuencias
de los componentes están muy lejos de mantener una relación de conmensura-
bilidad próxima. Sin embargo, la diferencia entre la frecuencia del componente
agudo (329,6 Hz) y la del componente agudo del caso de la consonancia de
quinta natural (330 Hz) es solamente de cuatro décimas de hercio. En efecto,
bastaría con subir 0,4 Hz la frecuencia de la nota aguda para obtener la razón
simple 3/2. Por ello también ahora oímos un intervalo de quinta cuyas notas se
mezclan bien, lo que coincide con la cuasi-periodicidad que observamos en la
señal verde del vídeo. Ahora bien, la mezcla que oímos ya no es totalmente esta-
ble como en el caso anterior, sino que, si prestamos atención, podremos oír que
va acompañada de una lenta y periódica evolución de la cualidad sonora, lo cual
también se refleja en la cíclica evolución de la forma de la señal resultante que
107
observamos en el osciloscopio, una forma que parece estirarse y encogerse como
si se tratara de una goma elástica. En el siguiente apartado, en el que se estudian
los batidos de segundo orden, se explica a qué se debe este fenómeno.
c) En el tercer caso, en la superposición de dos sonidos que forman un intervalo

de quinta desafinada (20 cent menos que la quinta temperada), vemos que la ra-
zón entre sus frecuencias es 3258:2200, que expresada como fracción irreducible
es 1629:1100, la cual está muy alejada de ser una razón simple y, por lo tanto,
de mantener una conmensurabilidad próxima. El sonido agudo, el de 325,8 Hz,
es 4,2 Hz más grave que el sonido agudo de la mezcla consonante justa, que
tiene 330 Hz. Es decir, le faltan 4,2 Hz para mantener, respecto al sonido grave,
la razón simple más cercana, en este caso la razón 3:2. Y esta diferencia es ya
significativa. Por ello ahora percibimos que esta mezcla nos produce una sensa-
ción de inestabilidad. El ritmo de las modificaciones de la cualidad sonora es ya
tan rápido que dificulta la buena amalgama de los dos componentes y percibi-
mos ahora claramente los batidos de segundo orden. Podemos apreciar también
esa inestabilidad en el osciloscopio del vídeo, donde la señal resultante modifica
constantemente su forma.
d) En el cuarto caso, en el que se superponen dos sonidos que están en un inter-

valo de quinta disminuida, oímos una disonancia. Percibimos con claridad cada
uno de los sonidos componentes, pero ahora ya no tenemos la sensación de que
se amalgamen el uno con el otro. Así mismo vemos en el osciloscopio que la
forma de la vibración cambia constantemente. Si atendemos a sus frecuencias
(220 Hz y 311,1 Hz), vemos que la razón entre ellas es 3111:2200, que es ya una
fracción irreducible, por lo que su conmensurabilidad es muy alejada: el soni-
do grave tendría que completar 2200 ciclos y el agudo 3111 para que sus fases
volvieran a sincronizarse y se repitiera de nuevo la forma de la vibración. El pe-
riodo de la señal resultante sería, por lo tanto, de 10 segundos, lo que, a efectos
de nuestra percepción, es equivalente a decir que no hay ningún periodo. Con
la finalidad de expresar este intervalo como una razón más simple, podríamos
bajar la afinación del sonido agudo 1,1 Hz y atribuirle una frecuencia de 310
Hz. En ese caso la razón simple entre las frecuencias expresada como fracción
irreducible sería 31:22, por lo que cada 22 ciclos del sonido grave, el sonido
agudo completaría 31. Pero, incluso en este caso, la conmensurabilidad seguiría
108
siendo muy alejada —el periodo de la señal resultante sería ahora un segundo—
por lo que percibiríamos esa mezcla también como una disonancia.
En resumen, en el intervalo de quinta natural oímos una mezcla perfecta y totalmente

estable; en el de quinta temperada el ritmo con el que se producen las alteraciones de
la cualidad sonora es tan lento que no apreciamos ninguna inestabilidad, por lo que la
sensación de mezcla es casi perfecta, e incluso notamos que esa pequeña inexactitud
dulcifica y da calor al sonido resultante; en el intervalo de quinta desafinada la mezcla
está perturbada por un cierta inestabilidad provocada por unas rápidas y periódicas
alteraciones de la cualidad sonora; y en el intervalo de quinta disminuida no tenemos
para nada la sensación de que los componentes se hayan mezclado entre sí.
Mediante este vídeo hemos podido experimentar que, si bien solo percibimos exac-
tamente como una buena mezcla la superposición de dos sonidos simples cuyas fre-
cuencias están en conmensurabilidad próxima, nuestra percepción auditiva permite
ciertos márgenes de tolerancia dentro de los cuales se encuentran los ajustes pro-
pios de las escalas temperadas. Hemos comprobado que, más allá de esos márgenes,
cuando no se produce una razón matemática simple entre las frecuencias de los com-
ponentes, los periodos de ambas vibraciones solo se sincronizan tras un periodo de
tiempo demasiado largo como para que nuestro oído sea capaz de reconocerlo, por
lo que no oímos una buena mezcla, sino dos sonidos independientes que van cada
uno por su lado y su combinación nos resulta disonante.
Así pues, hemos podido experimentar que la consonancia entre sonidos simples
se debe al reconocimiento de una periodicidad en la vibración resultante. Esta
periodicidad no da lugar a la desaparición de los sonidos individuales en la mezcla
resultante, pues nuestra audición es principalmente frecuencial, pero en el caso de
los sonidos simples es la única razón que explica que percibamos la especial buena
mezcla a la que llamamos consonancia.
6.6.4. Grados de consonancia según la conmensurabilidad
Nuestra percepción auditiva no es igual para todas las consonancias, sino que el grado
de perfección de la consonancia disminuye conforme la conmensurabilidad entre
109
las frecuencias de los dos sonidos simples que se mezclan se hace más lejana. Para
experimentar este fenómeno he confeccionado un vídeo con cinco ejemplos en los
que se mezclan dos componentes simples, dentro del rango de una octava. En todos
los casos sus frecuencias están en una razón simple próxima y, por lo tanto, forman
una consonancia, pero su conmensurabilidad se va alejando, desde el unísono (1/1)
hasta la consonancia de tercera mayor natural (5/4).
En todos los ejemplos la frecuencia del componente grave es 440 Hz, un la4 en la
afinación habitual. La frecuencia del componente agudo va cambiando: en el primer
caso es también 440 Hz, por lo que ambas notas forman un unísono (1/1); en el
segundo, es 880 Hz, un la5 , por lo que forman una octava (2/1); en el tercero es
660 Hz, un mi5 , formando un intervalo de quinta natural (3/2); en el cuarto caso,
redondeando a décimas de hercio, es 586,7 Hz, un re5 , por lo que forman un intervalo
de cuarta natural (4:3); y en el quinto caso la frecuencia aguda es 550 Hz, un do#5 ,
formando una tercera mayor natural (5:4). En este vídeo he elegido como nota grave
la4 , una nota que está en una octava más aguda que la de los vídeos anteriores, para
evitar que en la consonancia de tercera mayor las frecuencias de los dos sonidos se
aproximaran a la anchura de la banda crítica y se generara alguna rugosidad en la
mezcla resultante. Como referencia para nuestro oído, a fin de facilitar la escucha
individualizada de los componentes del intervalo de octava, he incluido también el
unísono.
Figura 6.9: Vídeo con las consonancias de unísono, octava, quinta, cuarta y tercera mayor.
110
En el osciloscopio del vídeo podemos apreciar que la forma de la vibración permane-
ce totalmente estable en todos los casos y que en cada uno de ellos oímos con claridad
una mezcla consonante. En efecto, al mantener las frecuencias de los dos sonidos una
relación de conmensurabilidad próxima, el periodo de la señal resultante está dentro
de los márgenes en los que nuestro sistema auditivo es capaz de detectar la sincroni-
zación de ambas vibraciones, de modo que percibimos una buena mezcla.
Pero si escuchamos con un poco de atención nos damos cuenta de que no todas
las mezclas son igualmente armoniosas, sino que, a medida que avanza el vídeo y
la conmensurabilidad entre las frecuencias se va alejando, se produce una pérdida
progresiva de la sensación de “buena mezcla”. Conforme la conmensurabilidad
de las frecuencias es más alejada, el periodo de su sincronización es mayor y
la forma de la vibración resultante adquiere mayor complejidad, por lo que
cada vez se hace más difícil percibir las coincidencias periódicas entre los dos
sonidos. Ello da lugar a la progresiva disminución de la sensación de buena mezcla:
desde la octava, en la que la amalgama de los dos componentes es tan fuerte que
se hace difícil su escucha individualizada, hasta la tercera mayor natural, donde la
sensación de buena mezcla es ya bastante débil.
6.6.5. La fase inicial en la mezcla consonante
Veamos ahora cómo afecta la fase inicial a las consonancias. En el caso de la mezcla
unísona hemos visto que la diferencia de fase entre los componentes modifica nota-
blemente la amplitud del sonido resultante y, en consecuencia, el volumen sonoro
que percibimos. Pero, a diferencia del unísono, los desfases entre dos componentes
consonantes, si bien modifican la forma de la vibración resultante, no alteran
el volumen sonoro que oímos, ni ninguna otra cualidad sonora, al menos de
un modo claramente perceptible.
Para observar que la forma de la vibración viene determinada por la fase inicial de
los sonidos componentes y experimentar que nuestro oído no aprecia diferencias
significativas, he confeccionado un vídeo con seis ejemplos en los que se mezclan dos
sonidos simples, todos ellos en consonancia de octava, pero con diferentes desfases
entre sus componentes.
111
En todos los casos las frecuencias de los sonidos son las mismas: 220 Hz (la3 ) y 440 Hz
(la4 ). La fase inicial del componente grave es siempre 0º, pero el sonido agudo se va
adelantando sucesivamente 60º respecto al caso anterior: en el primero es también de
0º; en el segundo es 60º; en el tercero, 120º; en el cuarto, 180º; en el quinto, 240º; y
en el sexto, 300º. La amplitud del componente agudo es 0,3 y la del grave 0,1.
Figura 6.10: Vídeo de dos sonidos en consonancia de octava con diferentes desfases.
Podemos ver en el osciloscopio que la forma de la vibración es diferente en cada

caso. Pero, ¿hasta qué punto las diferencias en la forma de la vibración que aparecen
en el osciloscopio pueden ser percibidas por nuestro oído? Comprobamos que no es
sencillo reconocer diferencias. Si prestamos mucha atención y oímos repetidas ve-
ces los diferentes ejemplos, puede que apreciemos alguna sutil diferencia entre ellos,
pero se trata de algo que es prácticamente irrelevante. Como mucho, podemos reco-
nocer un pequeño cambio de volumen o una ligerísima modificación en la cualidad
sonora.
Lo mismo hubiera sucedido si hubiéramos elegido cualquier otra consonancia. La

conclusión, así pues, es que las diferencias de fase entre los sonidos componentes de
una mezcla consonante no son reconocidas por nuestra percepción auditiva.
112
6.7. Mezcla de dos sonidos simples cuyas frecuencias se ale-
jan un poco de la conmensurabilidad próxima: Batidos de
segundo orden
Cuando las frecuencias de dos sonidos simples que se superponen se alejan lige-
ramente de las que deberían tener para estar en una razón de conmensurabilidad
próxima y ser, por lo tanto, consonantes se produce una modificación periódica de
la forma de la vibración resultante, la cual es percibida por nuestro oído como una
oscilación regular de la cualidad sonora. Este fenómeno recibe el nombre de “bati-
dos de segundo orden”. Estos fenómenos recuerdan mucho a las interferencias que
se producen entre sonidos muy próximos al unísono (es decir, los batidos de primer
orden), pero sus causas y sus efectos no son exactamente los mismos.
He fabricado un vídeo que nos va a permitir experimentar cómo se producen los ba-
tidos de segundo orden cuando se mezclan dos sonidos cuyas frecuencias están muy
próximas a la consonancia de octava. En todos los casos la frecuencia del componente
más grave es de 220 Hz (la3 ). En el primer caso la frecuencia del componente agudo
es de 446 Hz, con lo que la diferencia respecto a la frecuencia que debería tener para
estar en razón doble (440 Hz) es de 6 Hz; en el segundo caso la frecuencia del com-
ponente agudo es de 444 Hz, es decir, tiene una diferencia respecto a la consonancia
de octava de 4 Hz; en el tercer caso la frecuencia aguda es de 442 Hz con lo que
su diferencia es de 2 Hz; y en el cuarto caso la frecuencia del sonido agudo es de
440 Hz, con lo que la razón que mantiene con el sonido grave es exactamente la de
octava. Para que se distingan bien los dos componentes y para que se aprecie mejor
el fenómeno de los batidos de segundo orden, la amplitud de cada componente es
diferente: la del primero es 0,3 y la del segundo 0,1.
113
Figura 6.11: Vídeo con los batidos de segundo orden de dos sonidos cuyas frecuencias están muy
próximas a la octava.
En los tres primeros sonidos podemos observar que la forma de la vibración resultante
cambia periódicamente, como si se tratara de una goma elástica, mientras que su
amplitud, al margen de los cambios de posición que acompañan la evolución de
la forma, permanece prácticamente constante. En el último caso, por el contrario,
cuando son perfectamente consonantes, la señal permanece totalmente estable. En
todos ellos, el ritmo con el que la forma de la vibración evoluciona coincide con la
variación periódica en la cualidad del sonido que oímos. Estas variaciones periódicas
dan lugar a los batidos de segundo orden. Los batidos de segundo orden se repiten
tantas veces por segundo como la diferencia que hay entre la frecuencia que tiene
el sonido agudo y la que debería tener para mantener la razón exacta de octava (440
Hz): en el primer caso, 6 veces por segundo; en el segundo caso, 4 veces por segundo;
y en el tercero, 2 veces por segundo. En el último caso, al mantener la frecuencia de
los dos sonidos la razón 2:1 exacta, desaparecen los batidos y los dos sonidos se funden
perfectamente.
Veamos la explicación de este fenómeno. En el vídeo de la figura 6.10, donde los

dos sonidos mantienen exactamente la razón 2/1, hemos visto que los desfases entre
los sonidos dan lugar a diferentes formas en la vibración resultante, pero, puesto que
esos desfases permanecen constantes durante la emisión de cada sonido, la forma de la
vibración resultante se mantiene estable en todos los casos. Pero ahora las frecuencias
de los dos sonidos que se mezclan no están exactamente en la razón 2/1, sino que el
114
sonido agudo difiere en algunos hercios del que debería tener para que la mezcla
fuera exactamente una octava.
Esta ligera diferencia da lugar a que el desfase entre ambas señales vaya aumentando,
haciendo que la forma de la vibración resultante no permanezca constante, sino que
vaya cambiando a lo largo del tiempo. Estas modificaciones en la forma de la vibra-
ción se repiten cíclicamente, pues el progresivo incremento de los desfases hace que
cada cierto periodo de tiempo ambos sonidos vuelvan a estar en fase y comience un
nuevo ciclo. Los batidos de segundo orden son los cambios cíclicos en la forma
de la vibración que nuestro oído percibe como una periódica oscilación en la
cualidad sonora.
Así pues, la razón por la que se producen tanto los batidos de primer orden como los
de segundo orden es la misma: la evolución en el desfase entre los dos componentes
cuando se alejan ligeramente de los números que definen las razones exactas del
unísono (1/1) o de las consonancias (2/1, 3/2, 4/3).
Sin embargo, la naturaleza de los batidos de primer orden (que se producen en lo

que podríamos llamar cuasi-unísono) y los de segundo orden (que se dan en lo que
podríamos llamar cuasi-consonancia) es distinta. Los primeros provocan una evolu-
ción cíclica de la amplitud y son percibidos por nuestro oído como un trémolo en
el sonido resultante, mientras que los batidos de segundo orden no afectan a la am-
plitud de la señal resultante, sino que producen una modificación, también cíclica,
de la forma de la vibración y son percibidos por nuestro oído como una variación
periódica de la cualidad sonora. En el capítulo dedicado a la fisiología de la audición
estudiaremos la causa de que, siendo nuestra audición frecuencial, percibamos estos
batidos de segundo orden.
En el caso de la cuasi-consonancia de octava, el número de batidos por segundo es

la diferencia entre la frecuencia que tiene el sonido más agudo y la que debería tener
para mantener la relación exacta 2/1, como hemos podido apreciar en el vídeo de la
figura 6.11.
En lo que respecta a la cuasi-consonancia de quinta, el número de batidos por segun-

do es el doble de la diferencia que hay entre la frecuencia del sonido agudo y la que
debería tener para mantener la razón exacta de 3/2. En efecto, si volvemos al vídeo
115
de la figura 6.8, podemos apreciar que la desafinación del intervalo de quinta provoca
batidos de segundo orden. Donde se perciben más claramente es en el ejemplo en
el que la quinta está bajada 20 cent. Allí el componente agudo tiene una frecuencia
de 325,8 Hz, cuando debería tener 330 Hz para mantener la razón exacta de quinta,
3/2, con el componente grave de 220 Hz. La diferencia es de 4,2 Hz y el número de
batidos que percibimos por segundo es 8,4, el doble de esa diferencia. En el caso de
la quinta temperada la diferencia es de 0,4 Hz y el número de batidos por segundo
de 0,8.
En el caso de la cuasi-consonancia de cuarta el número de batidos por segundo que

percibimos es el triple de la diferencia entre la frecuencia que tiene el componente y
la que debería tener para mantener la razón exacta de la cuarta, 4/3.
6.8. Distorsión y componentes espurios en la mezcla de dos so-

nidos simples
Por último, para concluir este capítulo quiero explicar, aunque sea brevemente, lo
que puede suceder en la mezcla de dos sonidos simples si el equipo de sonido que los
reproduce presenta una distorsión significativa.
En un sentido amplio, distorsión es cualquier modificación que sufre la señal de audio

al pasar por un sistema, como ocurre, por ejemplo, en un equipo de música provis-
to de ecualizador, donde la intensidad de las diferentes bandas de frecuencia puede
ser amplificada a voluntad. De hecho, toda señal que pasa por un sistema que no
sea idealmente plano sufre algún tipo de distorsión, pues algunos componentes son
amplificados más que otros. Por ejemplo, mediante un ecualizador, podemos refor-
zar la presencia de los graves o de los más agudos, o bien de los medios, y todo ello
ocasionará modificaciones en la forma de la vibración y en la cualidad del sonido
que oímos. Sin embargo, en otras ocasiones la alteración de la importancia de las
bandas de frecuencia puede ser un problema, como cuando la acústica de una sala
de conciertos refuerza en exceso unos determinados componentes en detrimento de
otros.
116
Pero ahora vamos a referirnos a la distorsión en un sentido más limitado: aquellas de-
formaciones de la señal de audio que provocan la aparición de nuevos componentes
frecuenciales que no estaban en la señal original. Esta distorsión es muy importante,
pues no se limita a teñir o matizar los componentes de la señal original, sino que
introduce en ella componentes espurios.
Cuando la señal de audio consta de un solo componente sinusoidal esta distorsión

provoca que surjan en la señal nuevos componentes que son armónicos del com-
ponente original, por lo que recibe el nombre de distorsión armónica. Se llama ar-
mónica porque los componentes que se introducen son armónicos del sonido simple
original, es decir, sus frecuencias son múltiplos de éste. Como veremos en el capítulo
dedicado al sonido armónico, esto quiere decir que si el sonido original es un sonido
simple de 220 Hz, por ejemplo, el sonido resultante será un sonido que, además de
este componente original, tendrá otro u otros componentes cuyas frecuencias sean
múltiplos de la de ese componente original. Es decir, será la suma del componente
original de 220 Hz, más otro en 440 Hz, y tal vez otro en 660 Hz, y así sucesivamente
en función de la importancia de la distorsión.
En el caso de que la señal de audio esté compuesta por dos o más sonidos simples,
el resultado de la señal distorsionada estará formada no sólo por los armónicos co-
rrespondientes a la distorsión de cada uno de los sonidos que intervienen en la mez-
cla, sino también por nuevos componentes que serán la suma y la diferencia de las
frecuencias de los componentes originales. Esta distorsión recibe el nombre de dis-
torsión de intermodulación y altera considerablemente la señal original, de tal modo
que, a partir de cierto nivel, dificulta seriamente la audición de la música.
Si bien las razones de esta distorsión exceden nuestro objetivo, a continuación voy
a mostrar un caso particular de distorsión de intermodulación, la cual ha dado lugar
a que en ocasiones se haya interpretado mal el fenómeno de la mezcla de dos so-
nidos simples. Vamos a ver lo que puede suceder si el equipo reproductor presenta
cierta cantidad de distorsión cuando los dos componentes que se mezclan forman
un intervalo de quinta natural (3/2). En los vídeos de la figura 6.6 y de la figura 6.8
hemos podido apreciar que ambos se oyen como una consonancia de quinta. Sin
embargo ahora vamos a poder experimentar que si el equipo presenta una distorsión
relevante pueden ser oídos como si se tratara de un solo sonido cuya frecuencia fuera
una octava más grave que la del más grave de los dos componentes. He elegido este
117
caso precisamente para mostrar hasta qué punto es fácil confundir el resultado de un
proceso producido por la distorsión con una propiedad derivada de la mezcla entre
sonidos.
En el vídeo que vamos a ver a continuación se han mezclado dos componentes sim-
ples cuyas frecuencias son de 440 Hz (la4 ) y 660 Hz (mi5 natural), ambos de igual
amplitud.
Figura 6.12: Vídeo que ilustra el efecto de la distorsión en la mezcla de dos sonidos simples.
En el osciloscopio podemos ver en color verde, en torno al valor de 0,4 la señal re-
sultante que oímos y debajo, en color azul, centrada en el valor -0,4, la señal original
tomada como referencia para apreciar el efecto de la distorsión. Si nuestro repro-
ductor de sonido no distorsiona (en caso contrario igual es buena idea probar con
unos auriculares), en el primer caso debemos oír dos notas consonantes muy bien
mezcladas. Vemos en el osciloscopio que la señal verde, la que estamos oyendo, y la
señal azul, la original, son totalmente idénticas.
En el segundo caso, en el que artificialmente he provocado una distorsión de in-

termodulación, oímos un solo sonido que está a una octava más grave que el la4 ,
es decir, oímos el la3 , pero con una cualidad sonora más rica que la de un sonido
simple. Si nos fijamos en la forma de la vibración (podemos parar el reproductor de
vídeo) y comparamos la señal resultante, ahora distorsionada, con la referencia ori-
ginal de color azul podremos apreciar que la señal verde no es capaz de continuar
118
hacia abajo cuando desciende, reproduciendo el movimiento de la señal azul, sino
que da lugar a una clara deformación respecto a la señal de referencia, la original.
Esta deformación provoca que la señal verde no esté ahora formada únicamente por
los dos componentes originales, sino que tenga nuevos componentes.
Los componentes más destacados han sido los que resultan de la suma y de la diferen-
cia de los componentes reales: un componente en 1100 Hz y otro en 220 Hz. Luego,
los que son el doble de los originales: uno de 880 Hz y el otro de 1320 Hz. Si los
reordenamos todos sucesivamente nos encontramos con que tenemos los siguientes
componentes: 220, 440, 660, 880, 1100, 1320. Como veremos en el capítulo dedi-
cado al sonido armónico, estos componentes forman una serie armónica, pues todos
ellos son los sucesivos múltiplos de 220 Hz. Y ésta es la razón por la que ahora oímos
el la3 (220 Hz) como la nota fundamental y no oigamos ya los dos componentes
aislados, las notas la4 y mi5 formando una consonancia.
En el tercer caso tenemos la misma situación, pero ahora con una distorsión mucho
más exagerada. Vemos que incluso los movimientos descendentes han sido transfor-
mados en gran medida en ascendentes. El resultado es similar al anterior, sólo que
ahora todavía apreciamos una cualidad sonora más plena. Esto explica por qué, de
una manera aparentemente paradójica, la distorsión nos puede dar lugar a un resulta-
do engañoso y nos puede hacer pensar que la mezcla de dos componentes simples en
relación de quinta ocasiona un nuevo sonido una octava más baja. Este error aparece
a veces incluso en algún libro de texto y por ello me ha parecido oportuno explicarlo
aquí.
Cuando lleguemos al capítulo dedicado al análisis espectral podremos entender mejor

las causas de que la distorsión pueda alterar las propiedades de la mezcla de los sonidos,
ya que podremos observar con más detalle los componentes espurios que surgen
como consecuencia de esta distorsión de intermodulación.
6.9. Conclusión
En este capítulo hemos podido experimentar que cuando dos sonidos simples suenan
simultáneamente se producen diferentes fenómenos acústicos y psicoacústicos, los
cuales dependen de la diferencia aritmética entre sus frecuencias, de la anchura de la
119
banda crítica de nuestro oído en esas frecuencias y de la razón numérica que hay entre
ellas. Estos fenómenos, que fundamentan una parte importante de nuestro lenguaje
musical, pueden ser resumidos de la siguiente manera:
- Si los dos sonidos simples tienen la misma frecuencia, el resultado es un solo so-
nido simple de esa frecuencia, cuya amplitud depende no sólo de la amplitud de sus
componentes, sino también del desfase que hay entre ellos.
- Si la diferencia aritmética entre la frecuencia de los dos sonidos simples es menor de

unos 15 Hz, percibimos un solo sonido simple, cuya amplitud oscila sinusoidalmente
dando lugar a un efecto de trémolo (batidos de primer orden) y cuya frecuencia se
sitúa entre la de los dos componentes, aproximándose más a la del que tiene mayor
amplitud. La frecuencia con la que se repite la oscilación de la amplitud (el número
de batidos por segundo) es la diferencia aritmética entre las frecuencias de los dos
sonidos componentes. Estos batidos, al permitir determinar con precisión la diferen-
cia entre la frecuencia de los dos componentes, posibilitan afinar con facilidad los
instrumentos musicales y establecer con exactitud los intervalos que dan lugar a las
escalas.
- Cuando la diferencia aritmética entre las frecuencias de los dos sonidos simples
supera aproximadamente los 15 Hz, nuestro sistema auditivo no puede seguir el rit-
mo de los batidos y dejamos de percibir un solo sonido simple tremolado. Si esta
diferencia está dentro de la anchura de la banda crítica correspondiente a esa zona
frecuencial, oímos un sonido áspero y rugoso, a modo de zumbido, en el que no
podemos distinguir individualmente los dos componentes. Cuando esta diferencia
se aproxima al límite de la anchura de la banda crítica, aunque la cualidad del soni-
do siga siendo rugosa, progresivamente pasamos a reconocer los dos componentes
individuales. Y cuando la diferencia supera con cierta holgura esa anchura de la ban-
da crítica desaparece la sensación de rugosidad y percibimos ya nítidamente los dos
componentes por separado.
- Cuando las frecuencias de los dos sonidos simples mantienen una relación de con-
mensurabilidad próxima (razones entre los primeros números enteros positivos), la
mezcla sonora resultante es periódica y la forma de la vibración es lo suficientemente
sencilla como para que nuestro sistema auditivo pueda reconocer las coincidencias
periódicas entre los dos componentes. A consecuencia de ello, si las frecuencias de
120
estos componentes superan la anchura de la banda crítica, percibimos una sensación
de buena mezcla que explica la consonancia musical entre dos sonidos simples.
- Cuando las frecuencias de los dos sonidos simples se alejan ligeramente de una
razón de conmensurabilidad próxima, percibimos un cambio periódico en la cualidad
de la mezcla resultante (batidos de segundo orden). A diferencia de los batidos de
primer orden, los batidos de segundo orden no son el resultado de una oscilación
de la amplitud, sino que se producen porque nuestro sistema auditivo es capaz de
reconocer cambios cíclicos en la forma de la vibración.
- La distorsión de intermodulación puede dar lugar a una mala interpretación de los

resultados de la mezcla de sonidos.
121
Capítulo 7
El sonido armónico
7.1. Introducción
La palabra griega harmonía originalmente designaba al conjunto que resulta del buen
ensamblaje de sus partes. Por ello, en la Antigüedad las escalas musicales, estructu-
radas mediante consonancias, eran llamadas armonías y la música era considerada el
paradigma de lo armónico. En tanto que el sonido musical es un conjunto formado
por partes perfectamente ensambladas, hasta el punto de que es percibido como un
solo sonido, también es llamado sonido armónico.
Hasta ahora hemos estudiado la vibración de un sonido simple y los fenómenos acús-
ticos que se producen al superponerse dos vibraciones simples, pero la mayor parte de
los sonidos que oímos son bastante más complejos, pues en realidad son el resultado
de la combinación de muchos sonidos simples.
Los sonidos simples cuando forman parte de un sonido compuesto reciben el nom-
bre de parciales. Ahora bien, cualquier combinación de sonidos simples no genera
un sonido musical, es decir, el sonido resultante no siempre vibra de una manera lo
suficientemente periódica como para que nuestro sistema auditivo sea capaz de re-
conocer una altura tonal. Para que se produzca un sonido musical es necesario que
las relaciones entre las frecuencias de los componentes simples que intervienen en la
mezcla sean armónicas, es decir, que sus frecuencias sean múltiplos de una frecuen-
cia fundamental. En ese caso se crea una estructura armónica y los sonidos simples
122
que la constituyen se llaman componentes armónicos, o simplemente armónicos. El
sonido simple puede ser considerado como un caso particular de sonido armónico,
aquél que consta de un solo componente sinusoidal.
El sonido musical o armónico puede ser definido como el sonido formado por
la superposición simultánea de varios sonidos simples cuyas frecuencias son
múltiplos de una frecuencia fundamental, es decir, de una frecuencia que es el
máximo común divisor de todas ellas. La frecuencia de ese sonido fundamental
determina la periodicidad del sonido resultante y, por lo tanto, la altura tonal que per-
cibimos. Y ello es así incluso si esa frecuencia fundamental no está presente, siempre
que el número de componentes armónicos sea suficiente como para que podamos
percibir la mezcla como un solo sonido. Por el contrario, cuando las frecuencias de
los componentes no son múltiplos de una frecuencia fundamental se generan sonidos
inarmónicos.
Los elementos mediante los que se producen los sonidos musicales en los instrumen-
tos —por ejemplo, las cuerdas o las columnas de aire de los tubos— habitualmente
son capaces de vibrar de diferentes modos a la vez, cada uno de ellos con su propia
frecuencia de vibración, generando diferentes sonidos simples. Esos instrumentos
emiten sonidos musicales porque, debido a su propia constitución física, las frecuen-
cias de todos esos modos de vibración son conmensurables entre sí, es decir, son
todas ellas múltiplos de una frecuencia base, llamada fundamental o primer armóni-
co. El resultado es una vibración armónica, a la que podemos asignar una altura tonal
definida, por lo que reconocemos una nota musical.
En este capítulo vamos a limitarnos a estudiar el sonido armónico, dejando al margen

las mezclas inarmónicas de componentes parciales. Por razones didácticas vamos a
analizar el comportamiento de sonidos totalmente estables, es decir, de sonidos for-
mados por componentes cuyos parámetros de frecuencia y amplitud permanecen
sin cambios durante toda su duración. Esto nos va a facilitar la observación aislada
de las diferencias en la cualidad sonora derivadas de la presencia o ausencia de unos
u otros componentes de la serie armónica, así como de su mayor o menor ampli-
tud, dejando para más adelante el estudio de los rasgos sonoros que dependen de la
evolución temporal de los parámetros, es decir, de las envolventes de frecuencia y de
amplitud.
123
He confeccionado mediante Matlab varios vídeos que nos van a permitir observar con
detenimiento qué es el sonido armónico. En la parte superior de todos ellos podremos
examinar la forma de la vibración, es decir, la señal de audio, como en el osciloscopio
virtual que hemos visto en los vídeos de los capítulos anteriores, y en la parte inferior
podremos ver unas gráficas que representan la frecuencia y la amplitud de cada uno
de los componentes que constituyen ese sonido. El color de cada componente en
esas gráficas viene determinado por su amplitud, siguiendo una escala que va del
negro (el valor cero) al blanco (el valor máximo que podría representarse en el eje
de ordenadas), pasando por los distintos colores que adquiere el hierro al calentarse:
negro rojizo, rojo oscuro, rojo claro, naranja, amarillo y, finalmente, blanco, con
todos sus matices intermedios. Este mapa de color es el que se utilizará en las gráficas
de los capítulos siguientes cuando sea necesario representar mediante colores el valor
de la amplitud.
7.2. Sonidos armónicos y sonidos inarmónicos
Empecemos diferenciando la forma de la vibración de los sonidos armónicos de la de

los inarmónicos. En el vídeo de la figura 7.1 se presenta primero un sonido inarmóni-
co y luego un sonido armónico. Ambos están constituidos por cuatro componentes
sinusoidales estables, pertenecen a la misma banda frecuencial y tienen las mismas
relaciones de amplitud entre ellos. En el primer caso las frecuencias de los compo-
nentes son: 220 Hz, 311 Hz, 557 Hz y 929 Hz. Comprobamos que estas cantidades
no son conmensurables con ninguna otra que pudiera servir de fundamental (o, lo
que es lo mismo, su máximo común denominador es la unidad). En el segundo caso,
sin embargo, todas las frecuencias son múltiples de la más grave: 220 Hz, 440 Hz,
660 Hz y 880 Hz. Todas estas cantidades son múltiplos sucesivos de 220, que es su
máximo común divisor: 220; 220 x 2 = 440; 220 x 3 = 660; 220 x 4 = 880.
124
Figura 7.1: Vídeo que muestra la diferencia entre los sonidos armónicos y los inarmónicos.
El color de cada componente en ambas gráficas viene determinado por su amplitud,

según la escala de color del hierro al calentarse, mientras que la señal resultante de
la mezcla está en color verde. Dada la proximidad de las amplitudes, los colores son
bastante similares, lo cual dificulta su visualización, pero he optado por mantenerlos
así para que coincidan con los valores de la gráfica de abajo y también para que nos
vayamos familiarizando con el mapa de color que se usará en los capítulos siguientes,
cuando se estudie el análisis frecuencial.
En la gráfica de abajo aparecen la frecuencia y la amplitud de cada componente

que interviene en la mezcla, representadas respectivamente en el eje de las abscisas
y en el de las ordenadas. Además, la leyenda indica la frecuencia de cada uno de los
componentes con el color correspondiente a su amplitud: 0,12; 0,10; 0,08; y 0,06.
Como vemos en el eje de las ordenadas, ahora el valor máximo de la amplitud (al que
le correspondería el color blanco) es 0,15. Puesto que los componentes no cambian
en amplitud, esta gráfica no se modifica a lo largo de la duración del sonido.
En el primer caso oímos un sonido que no es un ruido, pero del que para nada po-
dremos decir que se trate de una nota musical. Como mucho, algún experimentado
afinador de instrumentos o alguien con un oído analítico particularmente bueno
podría detectar los componentes individuales, que aproximadamente son: la3 , mib4 ,
do#5 , sib5 . En efecto, estamos ante un sonido que podríamos calificar como inarmó-
nico: no es ruido, pero tampoco es una nota musical.
125
En el segundo caso, por el contrario, todos oímos claramente una nota musical, en
concreto, el la3 a 220 Hz. Aunque un buen oído analítico muy entrenado podría
identificar aisladamente cada componente, lo cierto es que los percibimos como un
único sonido musical, pues han amalgamado perfectamente bien. Se ha producido
la mezcla armónica.
Si nos fijamos en las gráficas de arriba, las del osciloscopio, comprobamos que hay una
evidente diferencia en la forma de la señal entre el primer sonido y el segundo. En el
caso del sonido inarmónico, vemos que la forma de la vibración no es estable, sino
que va cambiando constantemente, de modo que es imposible reconocer ninguna
periodicidad en ella. En el caso del sonido armónico, por el contrario, la forma de
la vibración permanece constante, con lo que podemos apreciar la estabilidad de su
dibujo, es decir, su periodicidad.
En la gráfica de abajo apreciamos la disposición espacial de los componentes. Tam-

bién ahora las diferencias son claras. Vemos que en el caso del sonido inarmónico los
componentes mantienen entre sí distancias totalmente desiguales, sin que podamos
encontrar ningún patrón espacial, mientras que en el caso del sonido armónico to-
dos los componentes están igualmente espaciados. Conviene fijarnos en que, en este
segundo caso, la distancia entre los componentes armónicos es la misma que la que
hay entre 0 y la frecuencia del primer componente, es decir, 220 Hz.
Para entender lo que sucede podemos fijarnos en un pequeño fragmento de la señal

de la segunda parte del vídeo, cuando se produce la superposición de cuatro compo-
nentes parciales armónicos:
126
Figura 7.2: Forma de la vibración de un sonido armónico y sus componentes.
Vemos que, mientras el componente más luminoso y de mayor amplitud, repre-

sentado en amarillo claro (el de 220 Hz), realiza un ciclo completo, el componente
amarillo oscuro (el de 440 Hz) realiza exactamente dos ciclos, el naranja (el de 660
Hz), tres ciclos exactos, y el rojo (el de 880 Hz), cuatro ciclos. Todos los componen-
tes se sincronizan con total precisión cada vez que el de 220 Hz empieza un nuevo
ciclo.
Esta sincronización hace que la señal verde, la resultante de la mezcla de los cuatro
componentes, se repita exactamente igual cada cierto tiempo. En efecto, esta señal
verde es periódica y su periodo, como podemos observar en la gráfica, es aproxima-
damente de 4,5 milésimas de segundo (1/220). Podemos apreciar que ese periodo es
la inversa de la frecuencia del componente más grave, el fundamental. Y puesto que
los componentes han amalgamado bien formando un solo sonido, una mezcla armó-
nica, podemos atribuirle una frecuencia. De ahí que en la segunda parte del vídeo
oigamos una nota de 220 Hz, el la3 en nuestra afinación estándar.
Fijémonos ahora en la forma de la señal cuando se mezclan componentes sinusoidales

que no mantienen entre sí una relación armónica, como ocurre en la primera parte
del vídeo.
127
Figura 7.3: Forma de la vibración de un sonido inarmónico y sus componentes.
En la figura 7.3 no apreciamos ninguna regularidad: al no haber ninguna sincroni-

zación entre los componentes individuales, sino que que cada uno lleva su propio
ritmo de repetición, en la señal verde resultante no existe ninguna forma que se re-
pita. Este sonido carece de periodicidad y, por lo tanto, no podemos asignarle una
frecuencia y no oímos una altura tonal concreta.
7.3. La serie armónica
En música se denomina serie armónica a la sucesión de sonidos simples cuyas

frecuencias son múltiplos enteros y sucesivos de una frecuencia base, llamada
fundamental o primer armónico. Esta frecuencia fundamental es la que determina
la nota musical que percibimos.
Los componentes armónicos se designan por el ordinal que le corresponde en la serie

armónica: primer armónico o fundamental; segundo armónico, el que tiene una fre-
cuencia que es doble de la fundamental; tercer armónico, el que tiene una frecuencia
que es triple de la fundamental, y así sucesivamente. Por ejemplo, si tomamos como
frecuencia base un sonido simple de 100 Hz, la frecuencia del primer armónico o
fundamental será 100 x 1 = 100 Hz; la del segundo armónico será 100 x 2 = 200 Hz;
la del tercero, 100 x 3 = 300 Hz; la del cuarto 100 x 4 = 400 Hz, etc.
128
A continuación vamos a estudiar cómo influye en la cualidad del sonido resultante el
número y el peso de los componentes que constituyen su estructura armónica. Los
ejemplos que vamos a observar en los vídeos nos servirán también para comprender
que cualquier forma de vibración periódica, por compleja que sea, puede ser gene-
rada a partir de componentes armónicos. Para ello he fabricado dos vídeos a partir de
fotogramas creados mediante Matlab. En ambos vídeos podemos observar que con-
forme se añaden armónicos al sonido la forma de la vibración se va haciendo cada vez
más compleja, alejándose de la forma sinusoidal, y la cualidad sonora va adquiriendo
cada vez más brillantez. El primer vídeo muestra cómo se va formando una señal en
dientes de sierra y el segundo una señal rectangular. Igual que en el vídeo anterior, en
la parte de arriba podemos ver la forma de la vibración del sonido resultante, a modo
de osciloscopio, y en la de abajo la frecuencia y la amplitud de los componentes que
lo constituyen. A medida que van apareciendo, se muestra también el número de
armónico del que se trata y su frecuencia.
En ambos vídeos suena ocho veces la misma nota, un la3 a 220 Hz, lo que nos permite
apreciar cómo va cambiando la cualidad sonora conforme se van añadiendo nuevos
componentes armónicos. En los dos casos empieza sonando el componente funda-
mental aislado, un sonido simple de 220 Hz. En el primer vídeo se van incorporando
uno detrás de otro todos los componentes de la serie armónica, tanto pares como
impares, hasta llegar al octavo armónico. En el segundo vídeo sólo se incorporan los
armónicos impares, de modo que, puesto que también se van añadiendo un total de
ocho componentes, llegan hasta el decimoquinto armónico. En los dos vídeos la am-
plitud de cada armónico se decrementa proporcionalmente al ordinal del armónico
correspondiente: la amplitud del armónico quinto, por ejemplo, es la quinta parte de
la amplitud del fundamental. En todos los casos los componentes simples tienen la
misma fase inicial.
7.3.1. Sonido formado por componentes consecutivos de la serie armónica:

Señal en diente de sierra
Empecemos escuchando y observando la forma de la señal cuando al sonido simple

fundamental se añaden uno tras otro componentes cuyas frecuencias siguen la serie
armónica.
129
Figura 7.4: Vídeo que muestra la generación de una señal en diente de sierra a partir de los com-
ponentes consecutivos de la serie armónica.
Podemos apreciar que el carácter puro, seco y más bien mate del sonido simple aisla-
do que oímos al inicio, se va perdiendo con la adquisición de nuevos componentes.
Observamos que progresivamente el sonido va adquiriendo más cuerpo y nos va
transmitiendo una sensación de mayor grosor y de mayor brillo. En efecto, la incor-
poración del segundo armónico elimina ya la sequedad del sonido simple y le otorga
una cualidad dulce y redondeada. Con el tercer armónico se introduce una clara
sensación de nasalidad. El cuarto armónico refuerza el carácter redondo y compacto,
atenuando un poco la nasalidad que había introducido el tercer armónico. El quinto
aporta plenitud al sonido, produciéndonos la sensación de una sonoridad compacta
y llena. El sexto añade de nuevo nasalidad. El séptimo introduce, por primera vez,
una sensación de aspereza. Y el octavo refuerza la coherencia total del sonido, au-
mentando el brillo y la luminosidad del conjunto.
En lo que respecta a la forma de la señal que vemos en el osciloscopio, comproba-

mos que conforme se van añadiendo nuevos armónicos, va haciéndose más y más
compleja, adquiriendo nuevas ondulaciones y alejándose de la forma sinusoidal que
tenía al principio. El hecho de que todos componentes que introducimos estén en
fase y que la relación entre sus amplitudes se decremente proporcionalmente al nú-
mero del armónico, hace que esas ondulaciones tiendan a aproximarse a una forma
rectilínea, conforme aumenta el número de armónicos que se incorporan. Aunque
130
en este vídeo para construir el sonido compuesto sólo he sumado ocho armónicos,
podemos darnos cuenta de que la incorporación de un número mayor nos permitiría
aproximarnos cada vez más a una señal que tuviera la forma de dientes de sierra.
7.3.2. Sonido formado por los componentes impares consecutivos de la serie

armónica: Señal rectangular
Veamos ahora cómo suena y cómo es la forma de la señal de un sonido armónico

formado sólo por componentes impares.
Figura 7.5: Vídeo que muestra la generación de una señal rectangular a partir de los componentes
impares de la serie armónica.
Podemos apreciar que la incorporación del tercer armónico hace que el sonido tenga
un carácter nasal muy destacado. Así mismo, la ausencia del segundo armónico nos
produce un efecto de hueco. El quinto armónico aporta también ahora una sensa-
ción de acabado, pero dentro de una cualidad sonora dominada por la nasalidad. Los
restantes armónicos que se van incorporando (el séptimo, el noveno, el undécimo, el
decimotercero y el decimoquinto) proporcionan cada vez más brillo al sonido, pero
el resultado es también progresivamente más áspero.
131
Respecto a la forma de la vibración, observamos que va evolucionando con la in-
corporación de nuevos armónicos, hasta adquirir un aspecto rectilíneo, una señal
rectangular. Esta forma rectangular se debe a la concentración de las ondulaciones
en los tramos superior e inferior de la señal, unas ondulaciones que van aumentando
en número y atenuándose en amplitud con cada nueva incorporación de armónicos.
Igual que en el caso de la señal en dientes de sierra, también ahora podemos imagi-
nar que si se siguieran añadiendo componentes armónicos impares, manteniendo la
misma proporción en el decremento de la amplitud, podríamos aproximarnos cuánto
quisiéramos a una señal rectangular.
El predominio de los armónicos impares es un rasgo característico del timbre de

algunos instrumentos como, por ejemplo, el clarinete.
7.3.3. Cualidad sonora derivada de los componentes de la serie armónica
Como hemos podido experimentar en los dos vídeos anteriores, la presencia o au-
sencia de unos u otros componentes influye decisivamente en la cualidad sonora de
la mezcla armónica. Pero hay que tener en cuenta que la coloración que añade cada
componente a la mezcla armónica se ve matizada por otras circunstancias, en es-
pecial, la anchura de la banda crítica en la que está localizado o la existencia o no
de componentes vecinos dentro de su banda frecuencial con los que pueda interfe-
rir.
Dejando al margen esto, podemos generalizar lo que hemos observado en los vídeos
y deducir cómo afecta cada uno de los componentes de la serie armónica a la cualidad
sonora de la mezcla resultante:
a) En líneas generales, el incremento del número de armónicos aumenta la bri-

llantez del sonido.
b) Los armónicos segundo, cuarto, octavo, decimosexto, etc. —es decir, los que
mantienen una relación de octava con el fundamental— refuerzan la coherencia
tonal del sonido.
132
c) Los armónicos tercero, sexto, duodécimo, etc. —es decir, los que están en
relación de octava con el tercer armónico— aportan un carácter nasal (llamado
así por recordar al que se produce en el habla al emitir los sonidos nasales).
d) Los armónicos quinto y décimo añaden una sensación de plenitud.
e) El resto de los armónicos añaden cierto matiz de aspereza.
f) Un sonido con numerosas lagunas entre sus armónicos tiende a producir una
sonoridad hueca, mientras que un sonido más completo produce una sonoridad
plena y maciza.
Hay que tener presente que si hubiéramos alterado la fase inicial de los componen-
tes armónicos, hubiéramos cambiado la forma de la vibración, pero la cualidad del
sonido resultante no hubiera sufrido ninguna modificación relevante.
Por otra parte, mediante estos dos vídeos podemos comprender que cualquier forma
de vibración periódica, por alejada que esté de la sinusoidal, puede ser generada a
partir de componentes armónicos. Y, a la inversa, podemos deducir también que
cualquier forma de vibración periódica puede ser descompuesta en sus componentes
armónicos, como los que aparecen en la ventana inferior de los dos vídeos.
7.4. Componentes de la serie armónica y notas de la escala

temperada
Una vez que hemos visto que los sonidos musicales complejos se forman combinando
diversos componentes de la serie armónica, nos interesa conocer la correspondencia
entre esos componentes y las notas e intervalos de la escala musical temperada, la
habitual en nuestra música.
Muchos teóricos de la Armonía han considerado que los acordes imitan en cierta
manera la estructura armónica de los sonidos musicales, por lo que es común que los
tratados de Armonía comiencen enumerando los componentes de la serie armónica
e indicando las notas de la escala a las que más se aproximan. Aunque estas conside-
raciones hoy en día están en desuso, lo cierto es que existe una gran afinidad entre los
133
elementos de nuestro lenguaje musical y la organización interválica de la serie armó-
nica. Esta afinidad se debe a que la estructura cognitiva que posibilita la percepción
unitaria de un sonido armónico es la misma que la que está detrás de la construcción
de nuestro lenguaje musical.
Por otra parte, conocer la correspondencia entre los componentes de la serie ar-
mónica y las notas de la escala musical nos va a permitir entender por qué oímos
consonancias o disonancias cuando se mezclan notas musicales. Puesto que habi-
tualmente las notas de las voces y de los instrumentos musicales constan de múltiples
componentes armónicos, cuando se emiten simultáneamente dos o más notas se va a
producir la mezcla e interferencia entre sus respectivos componentes. La coinciden-
cia o divergencia entre los armónicos de cada una de esas notas determinará el grado
de consonancia que se establezca entre ellas.
Para ver las correspondencias entre los componentes armónicos y las notas de
la escala temperada, primero debemos traducir a semitonos temperados los in-
tervalos que forman cada uno de los componentes de la serie armónica con el
fundamental o primer armónico. Las razones que definen estos intervalos vienen
dadas por las que se establecen entre sus respectivos números de armónico: el inter-
valo del segundo armónico con el fundamental tiene la razón 2/1 (o sea, 2); el del
tercero con el fundamental, la razón 3/1 (o sea, 3); el del cuarto, la razón 4/1 (o sea,
4); y así sucesivamente. Como hemos visto en el capítulo 5, para expresar estas razo-
nes en semitonos temperados bastará tomar el logaritmo en base 2 de los sucesivos
enteros positivos que constituyen la serie armónica y multiplicar el resultado por 12.
Por ejemplo, para expresar en semitonos temperados el intervalo que forma el tercer
armónico con el fundamental, tomaremos el logaritmo en base 2 del número 3 y
multiplicaremos el resultado por 12, lo que nos dará, redondeado a centésimas de
semitono, 19,02 semitonos.
En la tabla de abajo presento el número de semitonos temperados, redondeados a

cents, que tiene el intervalo que forma cada uno de los componentes de la serie
armónica con el fundamental.
134
Nombre del intervalo Número de Diferencia en
Armónico que forma el componente armónico semitonos cents entre el
con el fundamental temperados intervalo natural
y el temperado
1º Unísono 0 0
2º Octava 12 0
3º Octava más quinta natural 19,02 +2
4º Doble octava 24 0
5º Doble octava más tercera mayor natural 27,86 -14
6º Doble octava más quinta natural 31,02 +2
7º Doble octava más séptima menor natural 33,69 -31
8º Triple octava 36 0
9º Triple octava más tono de 9/8 38,04 +4
10º Triple octava más tercera mayor natural 39,86 -14
11º Triple octava más cuarta aumentada natural 41,51 -49
12º Triple octava más quinta natural 43,02 +2
13º Triple octava más sexta menor natural 44,41 +41
14º Triple octava más séptima menor natural 45,69 -31
15º Triple octava más séptima mayor natural 46,88 -12
16º Cuádruple octava 48 0
Tabla 7.1: Intervalos que se establecen entre los componentes de la serie armónica y el fundamental.
En la primera columna se indica el número del armónico; en la segunda, el nombre

del intervalo que forma ese armónico con el fundamental, habitualmente adjetivado
con el calificativo “natural” para diferenciarlo del temperado; en la tercera, el número
de semitonos temperados que tiene ese intervalo natural redondeado a cents; y en la
cuarta, la diferencia en cents entre el intervalo natural y el intervalo temperado más
próximo.
135
Así, por ejemplo, en la quinta fila, el ordinal 5º indica que se trata del quinto compo-
nente armónico y que, por lo tanto, la razón con el fundamental es 5/1. En la segunda
columna figura el nombre habitual de ese intervalo, en este caso, “doble octava más
tercera mayor natural”. En la tercera columna se presenta el número de semitonos
temperados de este intervalo, que es el resultado de tomar el logaritmo en base 2 de 5
y multiplicarlo por 12, lo que nos da un valor, redondeado a centésimas de semitono,
de 27,86 semitonos. Esta cantidad será de utilidad para averiguar cuál es la nota musi-
cal de nuestra escala temperada que más se aproxima a ese componente en una serie
armónica concreta, es decir, una serie armónica con un componente fundamental
determinado (por ejemplo, la serie armónica que comienza en do2 que podemos ver
en la figura 7.6). En la cuarta columna se presenta la diferencia en cents entre el
intervalo que forma ese componente armónico con el fundamental y el intervalo
temperado más próximo (recordemos que por definición todo intervalo temperado
tiene un número entero de semitonos). Puesto que en este caso el valor en semitonos
que forma el quinto armónico con el fundamental es de 27,86, la diferencia con el
intervalo temperado más próximo, el de 28 semitonos, será de -14 cents, tal como
aparece en la cuarta columna. Dicho de otra manera el intervalo natural de 5/1 es
14 cents menor que el intervalo de 28 semitonos, el intervalo de doble octava más
tercera mayor temperada.
Una vez que hemos expresado en semitonos temperados el valor interválico de cada
armónico con el fundamental, es sencillo asignar el primer armónico a una nota
cualquiera y, a partir de ahí, determinar la nota musical que más se aproxima a cada
uno de los componentes armónicos.
La figura que presento a continuación nos va a permitir observar que la frecuencia

de algunos componentes armónicos coincide exactamente con la frecuencia de una
nota de la escala temperada, que la de otros se aproxima mucho, pero que la frecuen-
cia de otros se aleja significativamente de la de cualquier nota de esa escala. Estas
coincidencias y divergencias entre las frecuencias de los componentes armónicos y
las de sus correspondientes notas de la escala temperada condicionan el grado de
consonancia que se establece entre las notas musicales, como se explica en el capítulo
que trata de la consonancia entre sonidos compuestos.
Para minimizar el número de bemoles y sostenidos, suele ser habitual presentar las
notas de la serie armónica tomando como referencia la nota do. He elegido como
136
fundamental el do2 , para evitar sobrepasar en exceso los límites del pentagrama. La
serie armónica que presento a continuación se extiende hasta los primeros dieciséis
componentes armónicos.
Figura 7.6: Serie armónica con fundamental en do2 y diferencias entre las notas naturales corres-
pondientes a cada armónico y las temperadas.
Debajo del pentagrama vemos el número del armónico al que se asigna cada nota.
Los colores de las notas representan la cualidad sonora característica que aporta cada
armónico a la mezcla: en negro están los que proporcionan coherencia al sonido; en
magenta, los que añaden una sensación de nasalidad; en azul, los que aportan una
impresión de plenitud; y en rojo, los que introducen cierto matiz de aspereza.
En la fila que está situada inmediatamente encima del pentagrama se indica la fre-
cuencia de cada nota en la escala temperada estándar (la4 = 440 Hz), redondeada
a décimas de hercio. En la siguiente fila, se muestra la frecuencia del componente
armónico —al que podemos llamar la nota natural—, la cual es el resultado de multi-
plicar la frecuencia de la nota do2 (130,8 Hz) por el número del armónico, redondeada
también a décimas de hercio. En la tercera fila se indica, cuando la hay, la diferencia
en hercios entre la frecuencia del componente armónico y la frecuencia de la nota
temperada, redondeada a décimas de hercio. Y en la fila superior, destacada en color
137
azul, se presenta, expresado en cents, el intervalo que hay entre la nota natural —es
decir, el componente armónico— y la nota temperada más próxima. Puesto que este
intervalo es el mismo que la diferencia que hay entre el intervalo natural que forma el
componente armónico con el fundamental y el intervalo temperado más próximo,
podemos ver que estos valores coinciden con los de la cuarta columna de la tabla
7.1.
Por ejemplo, vemos que el quinto componente armónico se corresponde, aproxima-

damente, con la nota mi4 temperada, cuya frecuencia es 659,3 Hz. Como la frecuen-
cia del quinto armónico es 654,1 Hz, comprobamos que es 5,2 Hz menos que la de la
nota mi4 temperada. El intervalo que hay entre la nota natural, es decir, la correspon-
diente al componente armónico, y la nota temperada es de -14 cents (27,86 - 28 =
-14). Podemos verificarlo también calculando el intervalo que hay entre la frecuencia
de la nota natural y la frecuencia de la nota temperada, tomando el logaritmo en base
2 de la razón entre sus frecuencias (654,1/659,3) y multiplicando el resultado por 12,
con lo que obtendremos el mismo resultado de -14 cents. Así pues, el número -14
que está sobre la nota mi4 indica que la nota correspondiente al quinto armónico de
la serie está 14 cents por debajo del mi4 de nuestra escala temperada.
7.5. Intervalos entre los sucesivos componentes de la serie ar-

mónica
Dadas las afinidades entre la constitución de la serie armónica y la estructura inter-

válica que da lugar a las escalas y acordes de nuestro lenguaje musical, nos interesa
comparar las relaciones interválicas que se establecen entre los sucesivos compo-
nentes armónicos con los intervalos de nuestra escala temperada. Para ello vamos a
utilizar la fila superior de la figura 7.6, en color azul, donde se indica, redondeado a
cents, el intervalo de diferencia que hay entre la nota de la serie armónica y la nota
temperada correspondiente. Así mismo, para diferenciar con claridad cuándo esta-
mos refiriéndonos a la nota de la serie armónica y cuándo a la nota correspondiente
de nuestra escala temperada, utilizaré el adjetivo “natural” para las notas de la serie
armónica y el adjetivo “temperada” para las de la escala temperada.
138
a) En los cuatro primeros armónicos están contenidas las consonancias
que estructuran todo nuestro sistema musical: la octava (2/1), entre el se-
gundo y el primer armónico; la quinta (3/2), entre el tercero y el segundo;
y la cuarta (4/3) entre el cuarto y el tercero. En la serie armónica de la figura
7.6, cuyo fundamental es do2 , estas consonancias corresponden a los intervalos
que se establecen entre do3 —do2 , sol3 —do3 y do4 —sol3 , todas ellas notas naturales.
Hay que tener en cuenta que, si bien estos intervalos exactos han constituido el
fundamento sobre el que se ha desarrollado nuestro lenguaje musical, a partir
del desarrollo de la moderna tonalidad las quintas y las cuartas han sido lige-
ramente matizadas para establecer el sistema temperado: la quinta temperada
está aproximadamente 2 cents más baja que el intervalo de quinta natural y la
cuarta temperada está unos 2 cents más alta que la cuarta natural. Esto último
lo podemos deducir fácilmente, pues si la quinta natural es 2 cents mayor que
la quinta temperada, la cuarta natural ha de ser necesariamente 2 cents menor
para que la octava tenga los cents justos que le corresponden (1200 cents por
definición, 12 semitonos). Hay que tener presente que, al ser la octava el inter-
valo de referencia, carece de sentido la distinción entre octava natural y octava
temperada.
b) Entre el quinto y el cuarto armónico (5/4) hay una tercera mayor natu-
ral que es sensiblemente más corta que la tercera temperada, en concreto,
14 cents menos. En la serie armónica que estamos utilizando como ejemplo
corresponde al intervalo que se establece entre mi4 —do4 , ambos naturales.
c) Entre el sexto y el quinto armónico (6/5) hay una tercera menor natu-
ral que excede en 16 cents a la tercera menor temperada. En nuestra serie
armónica corresponde al intervalo que se establece entre sol4 —mi4 , ambos na-
turales. En efecto, puesto que el quinto armónico (mi4 natural) es 14 cents más
bajo que la nota temperada correspondiente (mi4 temperado) y el sexto armó-
nico (sol4 natural), es 2 cents más alto que el sol4 temperado, la diferencia entre
el intervalo que forman las notas naturales (la tercera menor natural) y la que
forman las correspondientes notas temperadas (la tercera menor temperada) es
de 16 cents.
d) Los intervalos entre los armónicos cuarto, quinto y sexto (5/4, 6/5) cons-
tituyen un acorde perfecto mayor. Si incluimos el séptimo armónico forman
139
un acorde de séptima de dominante, aunque su correspondiente séptima tem-
perada está ya muy lejos de la séptima natural, en concreto la séptima natural
es 31 cents inferior a la séptima temperada. En la figura 7.6 corresponden a las
notas do4 , mi4 , sol4 , sib4 , todas ellas naturales.
e) Entre el noveno y el octavo armónico se establece el tono de 9/8, tam-

bién llamado tono pitagórico, que resulta de la composición de dos quintas
naturales a la que posteriormente se sustrae una octava. En nuestra serie armó-
nica corresponde al intervalo que se establece entre re5 —do5 , ambos naturales.
Podemos construir este tono de 9/8 si añadimos a la quinta natural que hay en-
tre el cuarto y el sexto armónico (do4 —sol4 naturales), la quinta natural que hay
entre el sexto armónico y el noveno armónico (sol4 —re5 naturales), con lo que
obtenemos un intervalo de octava más un tono diatónico. Luego, al ascender
una octava el sonido más grave del intervalo así formado (el do4 pasa a ser do5 ),
dejamos solamente el tono diatónico. Como cada quinta natural excede en 2
cents a la quinta temperada, este tono pitagórico será 4 cents mayor que el tono
temperado.
f) Entre el décimo y el noveno armónico se forma un intervalo de tono de

10/9, el llamado tono menor. En nuestra serie armónica corresponde al inter-
valo que se establece entre mi5 —re5 naturales. Este intervalo es 18 cents menor
que el tono temperado. En efecto, puesto que el noveno armónico (re5 natural)
es 4 cents más alto que la correspondiente nota temperada (re5 temperado) y
el décimo armónico (mi5 natural) es 14 cents más bajo que su correspondiente
nota temperada (mi5 temperado), la diferencia respecto al tono temperado es de
18 cents.
g) Entre el decimosexto y el decimoquinto armónico se produce un in-

tervalo de semitono de 16/15, el llamado semitono mayor que se usaba en
algunas escalas musicales antiguas. En nuestra serie armónica corresponde al
intervalo que se establece entre do6 —si5 naturales. Este intervalo excede en 12
cents al semitono temperado, pues el si5 natural es 12 cents más bajo que el si5
temperado.
h) El resto de los intervalos que se forman entre los sucesivos armónicos

quedan lejos de los intervalos usados en nuestras escalas musicales.
140
7.6. Estructura armónica y reconocimiento de la altura tonal
La estructura armónica es el conjunto de componentes de la serie armónica

que están presentes en un sonido concreto, cada uno de ellos con su propia
amplitud. Como hemos podido apreciar en los vídeos anteriores, cuando escucha-
mos un sonido formado por componentes armónicos, nuestro sistema perceptivo
reconoce la estructura armónica que forman esos componentes, lo que hace que, de
manera totalmente inconsciente, seamos capaces de reconocer una altura tonal y, por
lo tanto, una nota musical. En los vídeos de este capítulo la estructura armónica del
sonido queda representada en las gráficas de abajo, donde aparecen los componentes
frecuenciales, cada uno con su amplitud.
Como hemos visto en los apartados anteriores, los componentes de la serie armónica
están separados unos de otros por la misma distancia frecuencial. Esta distancia es el
máximo común divisor de las frecuencias de todos ellos y coincide con la frecuen-
cia del primer componente de la serie. Cuando oímos un sonido, nuestro sistema de
reconocimiento auditivo intenta organizar sus componentes, intenta buscar una dis-
tancia frecuencial que se repita, es decir, intenta reconocer una estructura armónica.
Si lo consigue, está ante un sonido armónico, de modo que puede asignarle la altura
tonal del componente fundamental de la serie armónica a la que pertenece, incluso
cuando ese componente fundamental no está presente en la estructura armónica de
ese sonido concreto. Ello es así porque, como veremos en el capítulo 13, nuestro
cerebro unifica los componentes frecuenciales para reconstruir la unidad del objeto
sonoro, con lo que puede identificar la nota musical correspondiente en la escala. En
definitiva, si somos capaces de oír notas musicales es porque reconocemos el patrón
armónico de un sonido concreto, aunque para ello sea necesario rellenar los huecos
de los componentes frecuenciales que faltan en su estructura armónica, de modo que
sea posible reconstruir la serie armónica a la que pertenece.
A continuación vamos a comprobar experimentalmente que la altura tonal de un

sonido musical viene determinada por la frecuencia del componente funda-
mental de su estructura armónica, con independencia de que ese componente
esté o no presente en ese sonido concreto. Veremos también que el reconocimien-
to del patrón armónico se produce incluso cuando la estructura armónica presenta
un número importante de huecos, como hemos podido observar en el caso de la señal
141
rectangular formada únicamente por componentes impares que aparece en el vídeo
de la figura 7.5.
Para apreciar cómo se produce el reconocimiento de la estructura armónica he con-

feccionado un vídeo en el que se presentan tres notas musicales cuyas alturas tonales
distan entre sí una octava. En lo tres casos la frecuencia del componente más grave
presente en la señal es 220 Hz; sin embargo, en el primero oímos un la3 a 220 Hz,
en el segundo un la2 a 110 Hz, y en el tercero un la1 a 55 Hz.
Figura 7.7: Vídeo que muestra que la percepción de la altura tonal del sonido armónico no se ve
afectada por la ausencia del componente fundamental o incluso de los primeros componentes.
Como era de esperar, la primera nota que oímos es un la3 , pues esa es la frecuencia
del componente fundamental, tal como aparece indicado en la leyenda. Si atende-
mos a la gráfica de abajo y nos fijamos en su estructura armónica, vemos que todos
los componentes son múltiplos de 220 Hz y que están presentes los ocho primeros
armónicos de su serie. En la ventana del osciloscopio podemos ver que la forma de
la vibración es totalmente periódica. En efecto, si detenemos el vídeo en cualquier
momento, y hacemos un cálculo aproximado, podremos ver que su periodo ocupa
un poco menos de la anchura de un rectángulo de la retícula, es decir, un poco me-
nos de 5 milésimas de segundo, lo cual es coherente con el periodo correspondiente
a la frecuencia de 220 Hz, es decir, 4,5 milésimas de segundo (1/220 = 0,0045).
142
La segunda nota que oímos es un la2 . La estructura armónica de esta nota está forma-
da también por ocho componentes consecutivos, pero ahora el primer componente
de esa serie armónica está ausente. En efecto, vemos que las frecuencias de todos los
componentes son múltiplos de 110, y no de 220. O lo que es lo mismo, el máximo
común divisor de las frecuencias de todos los componentes de esta estructura armó-
nica es 110. Así pues, deducimos que la frecuencia del componente fundamental de
la serie armónica a la que pertenece esta nota es 110 Hz y que en este caso está au-
sente. En efecto, los componentes presentes en esta estructura armónica comienzan
con el segundo armónico, el de 220 Hz, y consecutivamente llegan hasta el noveno,
el de 990 Hz. En el osciloscopio vemos que la señal es también claramente periódica,
pero que el periodo es el doble del periodo del caso anterior, aproximadamente, 9
milésimas de segundo, como corresponde a una frecuencia de 110 Hz (1/110 = 0,009,
redondeando a milésimas).
La tercera nota que oímos es el la1 . En este caso el máximo común divisor de todos los
componentes que forman la estructura armónica de ese sonido es 55, de modo que la
frecuencia del componente fundamental de la serie armónica a la que pertenece es 55
Hz. Pero este componente no está. Podemos también observar que el componente
más grave que está presente en la estructura armónica de esta nota musical es el cuarto
armónico. A partir de él están los sucesivos componentes hasta el undécimo, el de 605
Hz. Así pues, en este caso, no sólo falta el fundamental, sino que también faltan los tres
primeros componentes. Pero nosotros oímos con total claridad una nota que es una
octava más grave que la anterior, es decir, un la1 . Si nos fijamos en la periodicidad,
vemos que también se corresponde con la frecuencia del fundamental ausente. En
el osciloscopio podemos observar que el periodo de esta señal es el doble del de la
anterior, aproximadamente 18 milésimas de segundo (1/55 = 0,018, redondeando a
milésimas).
Mediante este ejemplo hemos podido experimentar que la altura tonal que percibi-
mos en un sonido armónico es independiente de la existencia o no del componente
fundamental o incluso de los componentes más graves. Ello explica que seamos ca-
paces de oír notas graves con cualquier sistema de reproducción de sonido, por muy
deficiente que sea: aunque la calidad sonora saldrá perjudicada, la percepción de la
nota de la que se trata no se ve modificada. Por poner un ejemplo, la mayor parte de
los reproductores de sonido económicos son incapaces de dar frecuencias inferiores
143
a 100 Hz; sin embargo, en esos reproductores nosotros no oímos las notas graves
cambiadas de octava, sino que, incluso en el peor equipo de música, reconocemos,
pongamos por caso, el la1 del piano, cuya frecuencia fundamental está en 55 Hz y
no lo confundimos con el la2 , cuya frecuencia es 110 Hz. Ahora bien, la cualidad, el
color del sonido, no será el mismo si están o no están presentes los componentes más
graves.
7.7. Las fronteras de lo armónico. La inarmonicidad en el sonido

musical
A continuación me propongo mostrar que la estructura armónica del sonido pue-

de deformarse hasta cierto punto sin que desaparezca la percepción de una
altura tonal definida. Observaremos, además, que esa deformación, debida al esti-
ramiento progresivo de la distancia frecuencial entre los componentes, produce una
modificación de la cualidad sonora.
Como acabamos de ver, la altura tonal de un sonido musical queda definida por la
distancia frecuencial entre los componentes que constituyen su estructura armónica,
al margen de los posibles huecos que pueda haber en ella. Ahora bien, en la reali-
dad, los sonidos de algunos instrumentos deforman esa estructura, incrementando la
distancia entre sus componentes. Y, además, lo hacen de una forma no lineal: con-
forme mayor es el ordinal del armónico, mayor es el intervalo musical en el que se
alejan.
Por poner un ejemplo, en el caso del piano la deformación ocasionada por la rigidez
de sus cuerdas metálicas puede dar lugar en una nota grave a que la frecuencia del ar-
mónico decimoquinto, pongamos por caso, sea 16 veces la frecuencia del fundamen-
tal, es decir, la frecuencia que debería tener el armónico decimosexto. Ahora bien, la
deformación de la estructura armónica, cuando se mantiene dentro de unos límites,
no impide el reconocimiento de una nota musical, si bien es cierto que la altura tonal
que se percibe es ligeramente más aguda que la correspondiente a la frecuencia del
componente fundamental. Además esta inarmonicidad modifica la cualidad sonora:
cuando es muy ligera aporta un cierto grosor y hace que el sonido sea más cálido;
144
cuando el estiramiento es ya más pronunciado, el sonido adquiere un color metálico
y empieza a recordar al sonido de una campana.
He fabricado un vídeo que nos va a permitir experimentar lo que sucede cuando

la estructura armónica se deforma dentro de ciertos márgenes. En los tres casos que
se presentan suena la nota la3 constituida por los ocho primeros armónicos. Pero
mientras que en el primer caso los componentes son equidistantes, lo que da lugar a
una estructura armónica perfecta, en los dos casos siguientes la estructura creada por
los ocho componentes se va deformando: en el segundo caso las distancias entre ellos
están ligeramente estiradas, lo que provoca una pequeña inarmonicidad, mientras
que en el tercero el estiramiento se acerca ya al límite de lo que podemos considerar
una estructura armónica y, por lo tanto, también al límite de nuestra capacidad para
percibir una altura tonal definida. La amplitud de cada uno de los componentes es la
misma en los tres casos.
Figura 7.8: Vídeo que muestra que la introducción de una ligera inarmonicidad en un sonido ar-
mónico no impide la percepción de una altura tonal.
La leyenda que aparece a la derecha de la ventana inferior del vídeo muestra la fre-
cuencia de los componentes y su número de armónico, así como la desviación en
hercios de cada uno de ellos respecto a la frecuencia que tendría el armónico sin
deformar y su correspondiente distancia interválica expresada en cents.
145
En el primer caso oímos un sonido estable y claro, una nota musical, en concreto,
un la3 a 220 Hz. En la ventana del osciloscopio podemos apreciar que la forma de
la vibración permanece siempre idéntica a sí misma, totalmente estable. Si paramos
el vídeo en cualquier momento y atendemos a la leyenda, comprobaremos que los
componentes de este sonido son los ocho armónicos consecutivos exactos, múltiplos
sucesivos de la frecuencia fundamental. Por eso en todos ellos la desviación es 0. En
resumen, la deformación de la estructura armónica en este caso es nula.
Si comparamos el segundo caso con el anterior, notamos que son muy similares.
Aunque tenemos una cierta sensación de que la altura se ha elevado muy ligera-
mente, seguimos oyendo sin ninguna duda una nota musical clara. Ahora bien, si
prestamos un poco más de atención, apreciamos que la cualidad sonora se ha modifi-
cado sensiblemente respecto al sonido anterior: se ha hecho más cálida y ha adquirido
una coloración que nos recuerda algo al efecto producido por los batidos de segundo
orden cuando se mezclan dos sonidos consonantes que se apartan ligerísimamente
de la conmensurabilidad exacta. En la ventana del osciloscopio apreciamos que aho-
ra la forma de la vibración cambia a cada momento, si bien el periodo se mantiene
constante.
Podemos parar el vídeo y ver en la leyenda que ahora ya hay una desviación en la
frecuencia de los componentes, una desviación que es muy pequeña en los primeros
armónicos y que va creciendo, tanto en hercios como en cents, a medida que aumenta
su ordinal. Pero nos damos cuenta de que incluso en el último componente, que es
donde se produce la desviación máxima, el intervalo que se desvía respecto al valor
que le correspondería al octavo armónico exacto es solo de 16 cents. Vemos, así pues,
que en este sonido la estructura armónica se ha deformado ligeramente. En efecto,
cuando he generado este sonido, he elegido a propósito los valores de deformación
de cada componente para que simulara aproximadamente el estiramiento que se suele
producir en una cuerda media del piano. Para ello he usado una variante de la fórmula
habitualmente utilizada para calcular la frecuencia de cada uno de los componentes
de una nota de piano a partir de un coeficiente dado de inarmonicidad.
En el tercer caso, si atendemos a nuestra percepción auditiva, comprobamos que

resulta todavía posible asignar al sonido una altura tonal, aunque ya de una forma
más confusa que en los dos casos anteriores. Observamos que esta altura tonal es
más elevada. Al poner un poco más de atención apreciamos que la cualidad cálida
146
del caso anterior ha pasado ahora a adquirir cierta aspereza y a transformarse en un
sonido metálico. En efecto, la cualidad sonora nos recuerda bastante al sonido de
una campana (aunque no esté presente la atenuación progresiva característica de la
campana). Estamos en el límite de la posibilidad de distinguir una altura tonal estable
y de reconocer que se trata de una nota musical.
Si prestamos atención a la ventana del osciloscopio, vemos que la periodicidad resulta

ya difícil de reconocer, incluso cuando detenemos el vídeo. Podemos aventurar un
cierto valor temporal que parece marcar la evolución de la vibración y que, más o
menos, coincidiría con el periodo de los dos casos anteriores, pero de una manera
bastante imprecisa.
En la leyenda podemos comprobar ahora que las desviaciones de los armónicos son
ya bastante importantes, tanto en hercios como en cents. También ahora la desvia-
ción va creciendo conforme mayor es el ordinal, hasta el punto de que la frecuencia
del octavo componente está ya muy lejos de la que le correspondería al octavo ar-
mónico. En efecto, su desviación en cents es de 152, es decir, un semitono y medio.
Podemos ver que la frecuencia de este octavo componente (1921,5 Hz) se aproxima
a la frecuencia que le correspondería al noveno armónico: teniendo en cuenta que
la frecuencia fundamental es 220 Hz, el noveno armónica tendría una frecuencia de
1980 Hz (220 x 9 = 1980). Ahora la estructura armónica ha sido deformada, estirán-
dose los componentes hasta casi romper la estructura armónica. Un poco más allá
de estas fronteras dejaríamos ya de percibir una altura tonal y el sonido dejaría de
ser armónico. En efecto, para generar este tercer sonido he utilizado la misma fór-
mula que en el caso anterior, pero con un coeficiente de inarmonicidad diez veces
mayor.
Para entender a qué se debe el cambio de cualidad sonora provocada por una ligera
inarmonicidad vamos a fijarnos en el segundo caso. Vemos en la ventana del osci-
loscopio que la forma de la vibración cambia constantemente, mientras se mantiene
la periodicidad. Este fenómeno es una generalización a múltiples componentes de
lo que observamos en el caso de los batidos de segundo orden respecto a la mezcla
de dos componentes. La explicación del fenómeno es, pues, similar. Las pequeñas
diferencias de frecuencia provocan desfases, los cuales dan lugar a modificaciones
constantes de la forma de la vibración, que son las que dotan al sonido de esa cua-
lidad cálida. La forma de la vibración, no obstante, mantiene su periodicidad y eso
147
hace que tenga una frecuencia propia y, en consecuencia, que tenga sentido atribuir-
le una altura tonal. La diferencia respecto a los batidos de segundo orden reside en
que la complejidad de los desfases, debida al elevado número de componentes, evita
una rotación repetida de la forma de la vibración, por lo que no percibimos batidos,
sino solamente un sonido más cálido.
Conforme la inarmonicidad aumenta la periodicidad tiende a desaparecer y se com-

plica la percepción de una altura tonal, pues nuestro sistema auditivo tiene dificulta-
des para organizar los componentes en un patrón armónico. En el último ejemplo de
este vídeo, la deformación de la estructura es tan importante que el patrón armónico
es percibido ya de una manera difusa, totalmente alejada de la percepción nítida con
la que se percibe en el primer caso.
7.8. Conclusión
A lo largo de este capítulo hemos podido comprobar que la Armonía está presente
incluso en la constitución misma del sonido musical. Hemos visto que los sonidos
armónicos o musicales son el resultado de la buena mezcla, mientras que los inarmó-
nicos son aquellos cuyos componentes no se mezclan bien, no amalgaman unos con
otros.
Hemos podido observar cómo al combinarse varias vibraciones que guardan entre sí
determinadas razones y proporciones se produce una nueva entidad, una nota musi-
cal clara y diferenciada. Lo que hace musical a la vibración que resulta de esta mezcla
es la estructura armónica que posee, una estructura que en sí misma no es otra cosa
que unas determinadas relaciones de conmensurabilidad. Por eso los componentes
del sonido armónico no desaparecen, sino que pueden ser de nuevo descompuestos,
tal como hace nuestro sistema auditivo y como podemos realizar mediante las herra-
mientas matemáticas propias del análisis frecuencial. Es por ello por lo que la rama
de las matemáticas que se ocupa de la descomposición de funciones en componentes
sinusoidales se denomina Análisis Armónico.
Puesto que la estructura armónica, que es lo propio del sonido musical, se crea por
la conmensurabilidad de las frecuencias de todos los componentes respecto al fun-
damental, y puesto que esa conmensurabilidad permite que amalgamen bien unos
148
componentes con otros, podemos considerar que el sonido armónico viene a ser la
generalización a un número indeterminado de componentes de la “buena mezcla”
que se produce entre dos sonidos simples consonantes. En ambos casos la conmen-
surabilidad da lugar a la sincronización de las fases de los distintos componentes, y
esa sincronización posibilita su buena mezcla. En este capítulo hemos visto que los
intervalos que hay entre los primeros componentes de una serie armónica son preci-
samente los principales intervalos consonantes (2/1, 3/1, 4/1, 3/2, 4/3), de modo que
la estructura sonora que se crea mediante la mezcla de cualquier número de compo-
nentes pertenecientes a la misma serie armónica da como resultado un sonido en el
que se ha producido la “buena mezcla”, un sonido musical.
Mediante los ejemplos que se presentan en los vídeos de este capítulo hemos podido
experimentar que la vibración del sonido armónico o musical mantiene siempre una
periodicidad y que, por lo tanto, posee una frecuencia concreta, con lo que se le puede
atribuir una altura tonal. Dado que nosotros no somos capaces de seguir al detalle el
desarrollo temporal del movimiento vibratorio para captar su periodicidad, sino que
nuestro sistema auditivo extrae su estructura frecuencial, podemos considerar que la
estructura armónica sirve de puente entre la naturaleza periódica del sonido y nuestra
percepción de la altura tonal.
Nuestra especial facultad para reconstruir intuitivamente la serie armónica explica la

abundante presencia en las acciones de los hombres del sonido armónico: silbar, gri-
tar, cantar, vocalizar, todas estas acciones producen una vibración armónica a la que
dotamos de sentido y de significación. Esta facultad también pudiera tener que ver
con la invariabilidad de la frecuencia a lo largo de todo el recorrido de la vibración
sonora, desde la emisión hasta su recepción. El sonido puede perder amplitud con
la distancia, puede perder componentes frecuenciales por el camino, pero en condi-
ciones normales nunca modifica su periodo de vibración, o sea, su frecuencia.
Las coincidencias que hemos podido observar entre los armónicos y las notas e in-
tervalos de nuestro lenguaje musical contribuyen a explicar que el mismo sistema
cognitivo que posibilita la percepción unitaria de un sonido compuesto por varios
componentes armónicos esté presente en la constitución de nuestro lenguaje musi-
cal, tanto en la determinación de los elementos estructurales de las escalas, como en
la construcción de los acordes.
149
Capítulo 8
Ondas estacionarias y resonancia:

Generación del sonido armónico
8.1. Introducción
El material de la música, el sonido armónico, es un fenómeno tan frecuente que forma

parte de nuestra experiencia cotidiana en el reconocimiento del entorno. En efecto,
el sonido armónico está por todas partes: si ponemos un poco de atención, podemos
oír notas musicales en medio del ruido del tráfico, en el silbido del aire cuando se
filtra por los tubos de una chimenea o por las grietas de las rocas, en el canto de los
pájaros o incluso en el aullido de algunas fieras. Por otra parte, es sencillo generar
sonidos armónicos: basta soplar ligeramente en el cuello de una botella vacía, frotar
con suavidad el borde de una copa de cristal o pellizcar una cuerda lo suficientemente
tensa para que se produzcan sonidos musicales.
La pregunta es: ¿por qué es tan habitual la existencia de vibraciones cuyos compo-
nentes tienen frecuencias que son múltiplos enteros de una frecuencia fundamental?
La respuesta nos lleva a la geometría: si el sonido armónico abunda tanto en la natu-
raleza y en los utensilios de todo tipo que hemos fabricado los humanos es porque es
muy común la existencia de estructuras geométricas adecuadas para la generación de
ondas estacionarias armónicas y para su amplificación mediante resonancias.
150
En cierto modo podemos decir que todo sonido armónico se produce mediante
un proceso de resonancia, un proceso por el cual la onda excitadora se acopla
con sus sucesivos reflejos, dando lugar a la aparición de ondas estacionarias.
A lo largo de este capítulo vamos a examinar por qué se produce el sonido armó-
nico. Para ello estudiaremos el mecanismo físico mediante el cual surgen las ondas
estacionarias y el fenómeno de la resonancia. Comprenderemos que determinadas
propiedades físicas y geométricas de los cuerpos que vibran posibilitan la aparición
de ondas estacionarias con unos modos de resonancia que son armónicos entre sí
y que cuando estos modos naturales de vibración son excitados por algún agente
surgen sonidos armónicos.
Mediante vídeos ilustrativos que he elaborado con Matlab y que simulan el com-
portamiento de una cuerda tensada y fija en sus extremos, podremos experimentar
qué son las ondas estacionarias y en qué consiste el fenómeno de la resonancia. Los
vídeos nos van a permitir observar cómo las ondas estacionarias surgen de la inter-
ferencia reiterada de una onda sinusoidal con su reflejo. Veremos también que la
cuerda tensada, como todo sistema vibratorio unidimensional, posee por naturaleza
unos modos de vibración que son armónicos. Observaremos que la resonancia se
produce cuando un sistema vibratorio es excitado por cualquier perturbación, por
pequeña que sea, que coincida con una de sus frecuencias naturales de vibración.
Y comprenderemos por qué, al ponerse a vibrar en las frecuencias de estos modos
naturales de vibración, la cuerda produce un sonido periódico y musical.
Finalmente, antes de entrar en materia, me gustaría señalar que el fenómeno de la

resonancia no sólo es importante para la acústica musical, sino que atañe a toda la
acústica e incluso a la física en su conjunto y, de una u otra manera, a la ciencia en
general. La noción de resonancia ha salido del campo estrictamente acústico y ha
servido para explicar multitud de fenómenos en todas las áreas de las ciencias, desde
fenómenos electromagnéticos hasta los que conciernen a la física de partículas, a la
astronomía, e incluso a la biología molecular. Allí donde está presente la vibración o
la oscilación está también presente el fenómeno de la resonancia.
151
8.2. La cuerda como paradigma de un sistema vibratorio unidi-
mensional
Para estudiar los fenómenos de las ondas estacionarias y de la resonancia vamos a ana-
lizar lo que ocurre en una simple cuerda tensada y fija en sus extremos. Este modelo
puede ser considerado como paradigma de un sistema vibratorio unidimensional.
Dado que los sonidos musicales suelen ser producidos por sistemas vibratorios uni-
dimensionales, si analizamos el comportamiento de una cuerda cuando es inducida
a vibrar podremos comprender los mecanismos mediante los cuales se produce el
sonido armónico.
En todo movimiento ondulatorio hay que distinguir entre el movimiento de propa-

gación de la onda y el movimiento oscilatorio que realiza cada una de las partículas
que se ven afectadas por el paso de la onda. Cuando la dirección de ambos movimien-
tos es la misma, decimos que las ondas son longitudinales, como vimos que ocurre
con las condensaciones y rarefacciones en el aire al transmitir un sonido. Cuando la
dirección del movimiento oscilatorio es perpendicular a la del movimiento propa-
gatorio, decimos que las ondas son transversales.
Por otra parte, la propagación de las ondas puede producirse en las tres dimensiones
del espacio, en dos dimensiones o solamente en una: las condensaciones y rarefac-
ciones que se producen al propagarse un sonido por el aire en un espacio abierto
son de carácter tridimensional, pues se extienden de forma radial por todo el espa-
cio circundante; la ondulación que se propaga por las aguas de un estanque o por
la membrana de un tambor es bidimensional, pues viaja a lo largo y ancho de una
superficie; y las perturbaciones que se propagan a través de una cuerda tensada o en
el aire contenido en el tubo de una flauta son unidimensionales, pues viajan en una
sola dirección del espacio.
Al margen de que sean transversales o longitudinales, los sistemas vibratorios unidi-

mensionales tienden a producir ondas estacionarias con modos normales de vibración
armónicos. Por eso los sonidos musicales son generados por sistemas vibratorios uni-
dimensionales, tales como los instrumentos de cuerda y los de viento. Habitualmente
las cuerdas de los instrumentos al excitarse dan lugar a ondas transversales: el macillo
en un piano golpea la cuerda y la desplaza transversalmente; lo mismo sucede al ser
152
frotada la cuerda de un violín con un arco o al ser pulsada la cuerda de una guitarra
con el dedo. En el caso de los instrumentos de viento, sin embargo, las ondas que se
producen son longitudinales, pues la oscilación de las partículas de aire se produce
en la misma dirección en la que se propagan las variaciones de la presión, es decir, a
lo largo de la propia longitud de la masa de aire que está contenida en el tubo.
Para estudiar cómo se genera el sonido armónico me ha parecido oportuno tomar

como ejemplo un sistema constituido por una cuerda tensada que está fija en ambos
extremos, como puede ser la cuerda de un piano, de una guitarra o de cualquier otro
instrumento similar. Se trata de un sistema vibratorio unidimensional y transversal.
Dado que en las ondas transversales las partículas oscilan de forma perpendicular a la
dirección de propagación, son más fáciles de observar que las ondas longitudinales,
donde la oscilación de las partículas tiende a camuflarse con el movimiento de la onda
que propaga la perturbación. Aunque al estudiar el comportamiento de la cuerda
tensada nos centraremos en las ondas transversales, las ideas que vamos a examinar
pueden ser generalizadas al caso de las ondas longitudinales unidimensionales, como
las que se producen en el interior de los tubos de los instrumentos de viento.
Así pues, con el propósito de permitir entender con facilidad cómo se producen las
ondas estacionarias y en qué consiste el fenómeno de la resonancia, he fabricado va-
rios vídeos en los que se simula a cámara lenta el movimiento de una cuerda cuando
se provocan en ella diversas perturbaciones transversales. Supondremos que se trata
de una cuerda de piano sin encorchar de un metro de longitud —como podría ser
cualquiera de las cuerdas que dan una nota en la octava que va de do3 a do4 — y que
ha sido extraída del instrumento y sujetada por sus extremos a unos soportes que la
mantienen tensada. Supondremos también que estos soportes pueden ser desplazados
arriba y abajo mediante algún artilugio mecánico para inducir en la cuerda diversos
tipos de perturbaciones. La perturbación se provocará mediante el desplazamiento
vertical del soporte izquierdo al que está unida la cuerda o, en alguna ocasión, de los
dos soportes. Una vez que la perturbación haya sido introducida, los soportes volve-
rán a quedar fijos. A fin de modelizar la inercia y la elasticidad, podemos considerar
que la cuerda está constituida por un conjunto de bolitas unidas por pequeñas gomas
o muellecillos que se estiran y se encogen.
En el eje vertical de la gráfica que aparecen en los vídeos se representa el desplaza-

miento vertical de las partículas que suponemos forman la cuerda. Como nos interesa
153
observar el detalle de la perturbación y de sus reflejos e interferencias, las unidades del
eje vertical están en milímetros. En el eje horizontal se representan las sucesivas posi-
ciones de la cuerda a lo largo de su longitud. Las unidades en este caso, sin embargo,
están en metros. Esta diferencia en las unidades hace que en los vídeos resulten muy
exageradas las deformaciones de la cuerda provocadas por su vibración (tengamos
en cuenta que la cuerda real mide un metro y que la deformación máxima que va a
sufrir es de dos milímetros), pero nos va a permitir ver con mucha más facilidad los
fenómenos ondulatorios que se producen.
Por otra parte, como queremos observar con detenimiento el movimiento que se
genera en la cuerda, nos interesa que en nuestra simulación la velocidad de propa-
gación de las perturbaciones sea suficientemente lenta. La velocidad con la que se
transmite cualquier perturbación transversal en una cuerda real está determinada por
la tensión a la que está sometida y por la masa por unidad de longitud que posee. En
el caso de una cuerda de piano que emite una nota media (como puede ser el la3 ) la
velocidad de propagación de una perturbación transversal puede estar en torno a los
400 m/s. En nuestra simulación, sin embargo, la velocidad con la que se propaga la
perturbación a lo largo de la cuerda es de 1 metro por segundo, es decir, 400 veces
más lenta que en la cuerda real. El movimiento vertical del soporte mediante el que
se generan las perturbaciones está ralentizado en esa misma proporción.
Hay que tener en cuenta también que la cuerda de nuestro modelo se comporta de
forma ideal. En las simulaciones de los vídeos se ha prescindido del rozamiento con
el aire o con los soportes que la sujetan, por lo que no se produce ninguna amor-
tiguación en el movimiento de la cuerda. Así mismo, supondremos que la cuerda
vibra siempre en el mismo plano —en concreto, en el plano vertical arriba/abajo—,
aunque las cuerdas de los instrumentos reales no se comportan siempre así (por ejem-
plo, en un piano de cola, como consecuencia de la acción del macillo que la golpea
desde abajo, la cuerda comienza a oscilar en la dirección arriba/abajo, pero durante
su vibración tiende a rotar su plano de oscilación y a oscilar también de izquierda a
derecha, en la dirección paralela al teclado).
Comenzaremos examinando cómo se propaga por la cuerda una perturbación trans-

versal y cómo esa perturbación se refleja cuando llega a los extremos fijos. Luego ana-
lizaremos lo que ocurre cuando interfieren dos perturbaciones que viajan en sentidos
opuestos. Después comprobaremos que las ondas estacionarias surgen de la interfe-
154
rencia de una onda sinusoidal con su reflejo, cuando, en el tiempo que tarda una
oscilación en completarse, la onda recorre exactamente una parte entera del camino
de ida y vuelta a lo largo de la cuerda. A continuación veremos que la cuerda tensada,
en función de la velocidad de propagación ondulatoria, posee unos modos normales
de vibración propios, cuyas frecuencias siguen la serie armónica. Después podremos
observar que, cuando una cuerda es excitada en cualquiera de esos modos de reso-
nancia naturales, basta una mínima perturbación para producir una gran ondulación.
Y finalmente, podremos ver el movimiento de una cuerda cuando resuena simultá-
neamente en varios de sus modos naturales de vibración, como sucede habitualmente
en las cuerdas de los instrumentos musicales.
8.3. Propagación y reflexión de una perturbación transversal so-

bre una cuerda
Para estudiar cómo se propaga una perturbación transversal a lo largo de una cuerda
y cómo se refleja al llegar a un punto fijo que le impide seguir en el mismo sentido, he
fabricado un vídeo en el que se simula el comportamiento de nuestra cuerda cuando
se introduce en ella una perturbación de 1,5 milésimas de segundo de duración.
Imaginemos que para iniciar la perturbación hemos desplazado, con ayuda de un
artilugio mecánico, 1 mm hacia arriba el soporte al que está sujeta la cuerda por la
izquierda y luego lo hemos hecho descender hasta su posición original. Dado que la
simulación está ralentizada 400 veces, la duración del impulso en el vídeo de nuestra
simulación es de 0,6 segundos. Los 20 segundos que dura el vídeo corresponden a las
primeras 50 milésimas de segundo del movimiento de la supuesta cuerda real.
Para que se apreciara claramente en el vídeo que la perturbación se invierte cuando se

refleja en los soportes fijos de los extremos, interesaba que el impulso inicial fuera sólo
hacia arriba, sin que al descender sobrepasara la posición de equilibrio de la cuerda,
de manera que antes de reflejarse por primera vez la perturbación viajara sólo por
la parte superior. Para ver cómo es el impulso que ha generado la perturbación, es
decir, el movimiento vertical que ha realizado el soporte de la cuerda, presento una
gráfica que muestra el desplazamiento del soporte en función del tiempo.
155
Figura 8.1: Gráfica de la perturbación introducida.
Podemos apreciar que el desplazamiento del soporte es simétrico y que tiene forma
de campana de Gauss. Las unidades del eje horizontal corresponden al tiempo de la
simulación en el vídeo.
Veamos ahora el vídeo que simula el comportamiento de la cuerda.
Figura 8.2: Vídeo que simula la propagación de una perturbación en una cuerda tensada y su reflejo
cuando alcanza un extremo fijo.
156
Podemos observar en el vídeo que el movimiento vertical del soporte izquierdo pro-
voca una perturbación en la cuerda que se transmite a lo largo de ella por la parte
superior hasta alcanzar el soporte derecho. Allí la perturbación, al no poder conti-
nuar, se refleja de modo invertido, regresando por la parte inferior hasta alcanzar el
soporte izquierdo, donde se vuelve a reflejar para invertirse de nuevo y seguir por
la parte superior. Dado que no hemos contemplado ningún tipo de amortiguación,
la propagación de la perturbación se repite constantemente, reflejándose de modo
invertido cada vez que alcanza un extremo.
La propagación de la perturbación es consecuencia de la elasticidad de la cuer-

da. En nuestra simulación podemos apreciar que la elasticidad introduce un retraso
en la comunicación del movimiento de una bolita a la siguiente, de modo que las
bolitas van repitiendo sucesivamente, pero con su correspondiente demora, el despla-
zamiento vertical del impulso inicial, como podemos apreciar en el vídeo si atende-
mos al movimiento individual de cualquiera de ellas. De esta manera el movimiento
temporal que ha realizado el soporte, la campana de Gauss que hemos visto en la
figura 8.1, queda dibujado en el espacio. Así mismo, la anchura de la perturbación
que dibuja la cuerda depende también de los retrasos que introduce la elasticidad,
los cuales determinan la velocidad con la que se propaga cualquier perturbación a
lo largo de esa cuerda. En la simulación ralentizada de nuestro vídeo, dado que la
velocidad de transmisión es de 1 m/s y que el impulso dura 0,6 segundos, la anchura
de la deformación provocada en la cuerda es de 0,6 metros.
La reflexión se produce cuando la perturbación que se transmite a lo largo de la

cuerda encuentra un obstáculo que no puede mover. En nuestro caso, cuando la
perturbación llega al extremo derecho de la cuerda no puede desplazar el soporte.
Puesto que, según la Tercera Ley de Newton, la fuerza ejercida hacia arriba por la
cuerda sobre el soporte es la misma que la que el soporte ejerce hacia abajo sobre la
cuerda, el resultado es que el soporte, al no poder moverse, hace que la cuerda rebote
hacia abajo, con lo que la perturbación se invierte y retorna por la parte inferior. La
misma situación se repite cuando la cuerda llega de nuevo al soporte izquierdo, el
cual, una vez introducido el impulso inicial, ha quedado también fijo. De nuevo la
perturbación rebota y sigue su recorrido, ahora por la franja superior.
Podemos también interpretar el fenómeno de la reflexión como el resultado de la

superposición de dos perturbaciones simétricas que viajaran en sentido opuesto a lo
157
largo de dos cuerdas virtuales. Esta forma de entenderlo es más intuitiva y nos sirve
para explicar los desplazamientos que sufre la cuerda en los momentos en los que se
solapa la perturbación incidente y la reflejada, lo cual nos va a facilitar el estudio de
las ondas estacionarias.
Estas dos cuerdas virtuales, que no estarían sujetas a ningún soporte, se prolongarían
por un espacio imaginario que existiría más allá del obstáculo fijo en el que se refleja la
perturbación real. La prolongación sería igual a lo que mide la cuerda real, por lo que
las cuerdas imaginarias medirían el doble de ésta. Por una de estas cuerdas imaginarias
viajaría la perturbación incidente, que se prolongaría por el espacio imaginario sin
ser influida por la existencia del obstáculo; por la otra viajaría en sentido opuesto
la perturbación reflejada, una perturbación idéntica a la real, pero invertida, que se
habría originado simultánea y simétricamente en esta segunda cuerda imaginaria. En
todo momento el desplazamiento de cada punto de la cuerda real sería el resultado
de la superposición lineal de ambas cuerdas virtuales.
Entenderemos mejor esta idea si imaginamos que en el punto del espacio en el que se
halla el obstáculo que la perturbación no puede mover —en nuestro caso, el soporte
derecho al que está fijada la cuerda— existiera una suerte de espejo que separara el
espacio real del espacio virtual. Veamos un vídeo de carácter didáctico en el que se
ilustra lo que ocurre cuando la misma perturbación del vídeo anterior se refleja en
el soporte derecho. Para poder apreciar los detalles, la velocidad del vídeo ha sido
ralentizada 5 veces respecto al anterior.
Figura 8.3: Vídeo que ilustra el reflejo especular de una perturbación que viaja por una cuerda
cuando alcanza un extremo fijo.
158
En el vídeo podemos ver dos planos claramente diferenciados y separados por una
línea blanca vertical que representa el espejo. A la izquierda aparece el plano de la
realidad, cuyo fondo está en color azul oscuro, el mismo color que el del resto de
los vídeos que simulan el comportamiento de la cuerda, y a la derecha está el plano
virtual, el del otro lado del espejo, en color gris.
La cuerda está representada en el mundo de la realidad por las mismas bolitas y gomi-
llas que en el vídeo anterior. Las dimensiones coinciden: la longitud es de 1 metro y la
anchura de la perturbación es de 0,6 metros. Junto a la cuerda, por encima y por de-
bajo, vemos unas líneas de puntos que representan las cuerdas imaginarias por donde
viajan las perturbaciones virtuales. Ambas líneas deberían coincidir exactamente con
la cuerda, pero, para que resultara más fácil distinguirlas, las he dibujado ligeramente
por encima y por debajo de la cuerda real. Por la línea de arriba, en color amarillo,
va la perturbación incidente, la que va de la realidad al espejo, la cual continúa su ca-
mino cuando se encuentra con el soporte fijo, como si no hubiera obstáculo alguno.
Por la línea de abajo, en color turquesa, viaja la perturbación reflejada, la originada
al otro lado del espejo y que se dirige al plano de la realidad.
Observamos que, a la vez que se introduce una perturbación que afecta a la cuerda
real de nuestra simulación y a la línea de puntos amarilla, al otro lado del espejo se
inicia la misma perturbación, pero invertida, una perturbación que viaja por la línea
de puntos de color turquesa con la misma velocidad que la perturbación original.
Vemos que ambas perturbaciones siguen por su línea de puntos como si no hubiera
ningún obstáculo, atravesando en el mismo instante la separación entre la realidad y
el mundo del espejo.
Vemos que la cuerda real, la que está formada por las bolitas, se comporta como si
fuera el resultado de sumar los desplazamientos de ambas perturbaciones virtuales, la
que va por la línea de puntos amarilla y la que va por la línea de puntos turquesa. Esto
es de especial interés para explicar lo que sucede en el tiempo en el que la perturba-
ción incidente y la reflejada se solapan. Podemos apreciar que ambas perturbaciones,
la incidente y la reflejada, alcanzan a la vez el soporte fijo de la cuerda, es decir, la
frontera entre el mundo imaginario y el real, y a partir de ese momento empiezan
a solaparse hasta que cada una termina de pasar totalmente al otro lado. Esto ocu-
rre porque ambas perturbaciones han sido producidas simultáneamente a la misma
distancia del punto del reflejo y viajan a la misma velocidad. Así mismo, puesto que
159
una es la inversa de la otra, el valor de su superposición en el punto en el que se
produce el reflejo (es decir, el valor de la suma de sus desplazamientos individuales
en el extremos fijo de la cuerda real) como era de esperar, es siempre cero.
8.4. Superposición de dos perturbaciones que viajan en sentido

opuesto sobre una cuerda
Examinaremos a continuación el comportamiento de la cuerda cuando se cruzan

en ella dos perturbaciones que se desplazan en sentidos opuestos. He fabricado dos
vídeos en los que podemos ver que cuando las dos perturbaciones se solapan, sus
desplazamientos se suman, pero que, una vez han terminado de cruzarse, cada una
de ellas continúa su camino sin sufrir ninguna modificación, como si no hubiera
ocurrido nada.
En ambos vídeos las perturbaciones han sido ocasionadas por dos impulsos dados
simultáneamente en los dos extremos de la cuerda mediante el desplazamiento verti-
cal de los respectivos soportes. En el primer vídeo (el de la figura 8.4 y su repetición
a cámara lenta en la figura 8.5) los dos impulsos desplazan la cuerda hacia arriba,
mientras que en el segundo vídeo (el de la figura 8.6) el impulso de la izquierda la
desplaza hacia arriba y el impulso de la derecha la desplaza hacia abajo. Por ello, en el
primer caso las dos perturbaciones interfieren constructivamente, mientras que en el
segundo lo hacen destructivamente. Los impulsos son similares a los que hemos visto
en el vídeo anterior, es decir, tienen forma de campana de Gauss, y en la simulación
ralentizada del vídeo también duran 0,6 segundos. La duración de los dos vídeos es
de 20 segundos, y corresponden a las primeras 50 milésimas de segundo del movi-
miento de la cuerda real. Para facilitar la distinción de cada una de las perturbaciones,
ahora la amplitud de cada uno de los impulsos es diferente: el impulso izquierdo es
de 1 mm y la del derecho es de 0,7 mm.
Empezaremos observando cómo se producen las interferencias constructivas.
160
Figura 8.4: Vídeo que simula la interferencia constructiva de dos impulsos que viajan a lo largo de
una cuerda.
En este vídeo podemos ver que las perturbaciones provocadas en la cuerda por el
desplazamiento hacia arriba de ambos soportes viajan por la parte superior en sentidos
opuestos, se superponen cuando se cruzan, continúan su camino sin alterarse y se
reflejan al llegar a los extremos fijos, viajando entonces ambas por la parte de abajo.
Para apreciar con detalle lo que sucede es necesario reconocer primero cada una de
las dos perturbaciones por separado. Puede servirnos de ayuda ralentizar la velocidad
del reproductor, tal como ocurre en el vídeo de la figura 8.5, que es una repetición a
cámara lenta de los momentos iniciales del vídeo de la figura 8.4.
Figura 8.5: Momentos iniciales del vídeo de la figura 8.4 ralentizado cinco veces.
161
Este vídeo auxiliar está ralentizado cinco veces respecto al anterior, lo que significa
que la perturbación que vemos viaja 2.000 veces más despacio que la de la cuerda real.
Ahora podemos observar con más facilidad que cada una de las dos perturbaciones,
cuando no se solapa con la otra, mantiene la amplitud con la que ha sido generada:
la que procede de la izquierda es siempre de 1 mm y la que procede de la derecha es
siempre de 0,7 mm. Vemos también que la perturbación más amplia, la que procede
de la izquierda, circula de izquierda a derecha cuando va por la franja superior y
de derecha a izquierda cuando va por la inferior, mientras que la perturbación más
pequeña, la que procede de la derecha, circula de derecha a izquierda cuando viaja
por la franja inferior y de izquierda a derecha cuando lo hace por la franja superior.
Dicho de otra forma, la perturbación mayor sigue siempre el sentido de las agujas
del reloj y la menor el sentido contrario al de las agujas del reloj.
Una vez que hemos identificado ambas perturbaciones, podemos observar que cuan-
do se cruzan el desplazamiento que sufre cada punto de la cuerda es la suma de
los desplazamientos que hubiera provocado en ella cada una de las perturbacio-
nes por separado, es decir, las dos perturbaciones se superponen linealmente.
Como ambas perturbaciones viajan siempre por la misma franja del espacio, las dos
por arriba o las dos por abajo, interfieren entre sí de manera constructiva. Y puesto
que las dos perturbaciones han comenzado a la vez y se propagan a la misma velo-
cidad, necesariamente se cruzan en la mitad de su camino, en el punto que está a
0,5 m, y es en ese punto donde la perturbación resultante alcanza su desplazamiento
máximo. Dado que la amplitud de la perturbación iniciada en el soporte izquierdo
es de 1 mm y la provocada por el soporte derecho es de 0,7 mm, la amplitud máxima
de la perturbación resultante es de 1,7 mm, que corresponde a un desplazamiento as-
cendente de la cuerda cuando las perturbaciones se encuentran en la franja superior
o a un desplazamiento descendente cuando se encuentran en la franja inferior. Una
vez superado su solapamiento cada una de las perturbaciones sigue su camino con-
servando su individualidad. Hemos podido observar que, como consecuencia de la
elasticidad, la perturbación se sigue transmitiendo a través de las fuerzas que ejercen
unas bolitas sobre las siguientes, por lo que, cuando cesa la coincidencia de ambas
perturbaciones, cada una sigue su camino.
Veamos ahora el vídeo en el que podemos observar cómo se producen las interfe-
rencias destructivas.
162
Figura 8.6: Vídeo que simula la interferencia destructiva de dos impulsos que viajan a lo largo de
una cuerda.
Este vídeo solo se diferencia del de la figura 8.4 en que ahora los dos impulsos se
dan en sentidos verticales opuestos: mientras que el impulso del soporte izquierdo
desplaza la cuerda hacia arriba de su posición de equilibrio, el del soporte derecho
la desplaza hacia abajo. Esto hace que las perturbaciones no solo viajen en sentidos
opuestos a lo largo de la cuerda, sino que los desplazamientos verticales provocados
por las perturbaciones siempre sean opuestos. Podemos observar que ambas pertur-
baciones se desplazan ahora en el sentido de las agujas del reloj, pero que cuando
una se propaga por la franja superior, la otra lo hace por la inferior, y viceversa. Por
eso, cuando ambas se cruzan en el punto central de la cuerda, el desplazamiento que
sufre ésta es la diferencia de las amplitudes de ambas perturbaciones. Podemos apre-
ciar que cuando la superposición de las dos perturbaciones coincide plenamente, el
desplazamiento del punto central de la cuerda es de 0,3 mm (1 – 0,7 = 0,3), hacia
arriba o hacia abajo en función de la franja por la que circulen las perturbaciones.
También ahora vemos que, una vez que ha concluido el cruce, cada perturbación
sigue su camino sin haber sufrido ninguna alteración, hasta reflejarse en el extremo
correspondiente.
163
8.5. Formación de ondas estacionarias sobre una cuerda
Una vez que hemos estudiado la propagación, la reflexión y la superposición de las

perturbaciones que viajan sobre una cuerda fija, estamos en condiciones de com-
prender cómo y en qué circunstancias se crean las ondas estacionarias. Y puesto que
los sonidos musicales son el resultado de un conjunto armónico de ondas estaciona-
rias, entender cómo se producen estas ondas nos permitirá conocer verdaderamente
qué es el sonido musical.
Un movimiento ondulatorio transmite una perturbación de un lugar a otro del es-

pacio, es decir, por naturaleza es viajero. Ahora bien, cuando una onda sinusoidal
queda atrapada en algún cuerpo o en alguna región del espacio —como puede ser la
cuerda de una guitarra o la columna de aire de una flauta—, las sucesivas interferen-
cias de la onda con su reflejo pueden hacer que su carácter viajero quede disimulado
y parezca que la onda se hubiera detenido. En ese momento, el cuerpo o el volumen
de aire de la región del espacio en el que la onda ha quedado encerrada comienza a
oscilar y la onda viajera se transforma en onda estacionaria.
A continuación vamos examinar, mediante varios vídeos que he fabricado para ello,
cómo surgen las ondas estacionarias en la cuerda que nos está sirviendo de modelo.
Dado que las ondas estacionarias son el resultado de la superposición de las sucesi-
vas reflexiones de una onda sinusoidal, vamos a introducir en la cuerda oscilaciones
sinusoidales, en lugar del impulso gaussiano que hemos utilizado en los vídeos an-
teriores. Para ello, supondremos que mediante un artilugio mecánico obligamos al
soporte que sujeta el extremo izquierdo de la cuerda a realizar un Movimiento Ar-
mónico Simple (MAS).
Nuestro objetivo va a ser comprobar que, cuando se introduce una oscilación

sinusoidal en una cuerda concreta —definida por su longitud y por la velocidad
con la que se propagan en ella las perturbaciones transversales—, sólo se produci-
rán ondas estacionarias si la longitud de la onda creada coincide con el doble
de la longitud de la cuerda o si es una parte entera de esta medida. O dicho
de otra manera, se generarán ondas estacionarias cuando dentro de la longitud de
la cuerda quepan exactamente un número entero de semiondas sinusoidales. En los
vídeos de este apartado podremos observar que esto solamente sucede cuando en el
164
tiempo que tarda en completarse una oscilación sinusoidal, la onda recorre exacta-
mente el camino de ida y vuelta a lo largo de la cuerda o una parte entera de este
camino. Veremos, así mismo, que las frecuencias de las ondas estacionarias que se
pueden producir en una cuerda dada siguen la serie armónica, pues todas ellas
son múltiplos de la frecuencia fundamental, que es la frecuencia de la onda
estacionaria cuya longitud es el doble de la longitud de la cuerda.
Recordemos que la cuerda ideal sobre la que estamos haciendo la simulación mide
un metro de longitud y que la velocidad con la que se propaga por ella cualquier
perturbación transversal es de 400 m/s. Por ello, en los vídeos ralentizados 400 ve-
ces, la velocidad de la propagación de la onda que observaremos será de 1 m/s, y la
duración de 20 segundos corresponderá a las primeras 50 milésimas de segundo de
la vibración real. En los vídeos ralentizados 2.000 veces, la velocidad de propagación
será de 0,2 m/s y la duración de 30 segundos representará las primeras 15 milési-
mas de segundo del movimiento real de la cuerda. En todos ellos la amplitud de las
oscilaciones sinusoidales introducidas es de 1 mm.
8.5.1. Reflexión de una onda sinusoidal cuya longitud no es una parte entera
del doble de la longitud de la cuerda
Pero antes de estudiar las ondas estacionarias vamos a examinar cómo se produce la
reflexión de una onda sinusoidal en un extremo fijo de la cuerda cuando la longitud
de la onda introducida no es una parte entera del doble de la longitud de la cuerda.
Como lo que nos interesa ahora es ver lo que sucede al solaparse la onda incidente
con la reflejada, elegiremos una onda cuya longitud sea menor que la longitud de la
cuerda. De esta manera, podremos apreciar por separado los momentos en los que se
produce el solapamiento de las dos ondas (la incidente y la reflejada) y los momentos
en los que solo está presente una de ellas. Por ello, he elegido una onda cuya longitud
es de 0,6 metros, la misma que la del impulso gaussiano de los apartados anteriores.
El periodo de la oscilación introducida tendrá que ser, por lo tanto, de 1,5 ms. En
efecto, dado que la velocidad de propagación de las perturbaciones transversales en
nuestra cuerda es de 400 m/s, cuando la oscilación del soporte termine, la onda habrá
recorrido 0,6 m (0,0015 x 440 = 0,6). Aunque no sea relevante en este caso, este
165
periodo corresponde, redondeando a décimas de hercio, a una frecuencia de 666,7
Hz.
Así pues, he confeccionado un vídeo en el que se simula el comportamiento de nues-

tra cuerda ideal cuando introducimos en ella esta única oscilación sinusoidal de 1,5
ms de periodo. Puesto que este vídeo está ralentizado 400 veces, la duración de la
oscilación inicial que observaremos en él será de 0,6 segundos.
Figura 8.7: Vídeo que simula ralentizada 400 veces la propagación a lo largo de una cuerda de
una perturbación sinusoidal cuya longitud de onda es inferior a la longitud de la cuerda y no es una
parte entera del doble de esta longitud.
En el vídeo vemos que una perturbación en forma de onda sinusoidal que ha sido
generada por el desplazamiento vertical del soporte izquierdo recorre ininterrum-
pidamente la longitud de la cuerda, reflejándose de forma invertida cada vez que
alcanza uno de los extremos fijos. A diferencia de los vídeos anteriores, ahora nos
sorprende el carácter artificial del movimiento que realiza la cuerda. Ello se debe a la
introducción repentina de una única oscilación sinusoidal y a su cese instantáneo, sin
transición alguna, ni al comienzo ni al final. Aunque he procurado dotar de la mayor
verosimilitud posible al movimiento de la cuerda, no podemos olvidar que estamos
ante una simulación de carácter didáctico, en la que es necesario aislar el fenómeno
que nos interesa estudiar, aun a consta de una apariencia artificiosa.
166
Distinguimos en el vídeo dos situaciones claramente diferenciadas: los momentos en
los que la onda va y viene por el medio de la cuerda y los momentos en los que esa
onda se deforma, dando lugar a una fugaz semionda, cuando se refleja en los soportes
de los extremos. Respecto a los primeros, no hay nada que no hayamos visto antes.
Observamos cómo la oscilación provocada por el movimiento armónico simple que
ha realizado el soporte, se dibuja en la cuerda en forma de onda sinusoidal. Si pen-
samos en los tiempos en los que suceden los acontecimientos en el vídeo, podemos
verificar también que la longitud de la onda introducida es de 0,6 metros. Puesto que
la velocidad con la que se propagan las perturbaciones en la cuerda del vídeo es de 1
m/s, en los 0,6 segundos que ha tardado la oscilación en completarse, la onda intro-
ducida habrá recorrido 0,6 m. En efecto, si detenemos el vídeo en cualquier instante
en el que la onda se encuentre en una posición intermedia, podremos comprobar
que su longitud es de 0,6 metros.
Como lo que nos interesa ahora en particular es estudiar lo que sucede en los mo-
mentos en los que se produce la reflexión de la onda en cada uno de los soportes
fijos en los que termina la cuerda, he fabricado un vídeo auxiliar con el movimiento
de la cuerda ralentizado 5 veces más que en el vídeo anterior. En él se representan
también las dos cuerdas imaginarias que hemos visto en el vídeo de la figura 8.3, pues
nos sirven para interpretar la reflexión como la superposición de dos ondas virtuales,
la incidente y la reflejada, que viajarían por ellas.
Figura 8.8: Vídeo que simula ralentizada 2.000 veces la propagación a lo largo de una cuerda de
una perturbación sinusoidal cuya longitud de onda es inferior a la longitud de la cuerda y no es una
parte entera del doble de esta longitud, con el añadido de dos cuerdas virtuales que ilustran lo que
sucede en la reflexión.
167
Igual que en el vídeo anterior, vemos que sobre la cuerda real —representada por las
bolitas unidas por muellecillos— se desplaza una onda sinusoidal que se refleja cada
vez que alcanza uno de los extremos fijos. Vemos también dos cuerdas virtuales que
no están sujetas a ningún soporte y que, como en el vídeo de la figura 8.3, debemos
imaginar prolongándose por ambos lados a través de un espacio imaginario que no
está representado en este vídeo. Por la cuerda amarilla viaja, de izquierda a derecha,
la perturbación original en los primeros segundos del vídeo, y luego los sucesivos
reflejos que se producen en el soporte izquierdo (esto es, las ondas sinusoidales pro-
venientes del otro lado del hipotético espejo situado a la izquierda de la cuerda). Por
la cuerda turquesa viajan, de derecha a izquierda, las ondulaciones reflejadas en el
soporte derecho (es decir, las ondas que llegan desde el espacio imaginario de la de-
recha), las cuales son del mismo periodo, amplitud y longitud de onda que las de la
cuerda amarilla, pero invertidas. Ya he explicado, a propósito del vídeo de la figura
8.3, la razón por la que la suma de los desplazamientos de las cuerdas auxiliares en los
puntos extremos fijos es siempre cero.
Ahora vamos a prestar atención a lo que sucede cuando se produce la superposición

entre la onda incidente y la reflejada en los extremos fijos de la cuerda. Si nos fija-
mos en el soporte de la derecha, vemos que en el momento en el que la onda que
viaja por la cuerda amarilla comienza a atravesar el soporte, también lo hace la onda
turquesa que, invertida, proviene del otro lado del supuesto espejo. Como una onda
es la inversa de la otra y ambas viajan a la misma velocidad en sentidos opuestos,
en el momento en el que ambas están a la mitad del cruce, las dos, que en ese mo-
mento tienen la forma de una semionda sinusoidal inferior, coinciden exactamente.
Lo mismo sucede en el soporte derecho, con la única diferencia de que, en ese caso,
las semiondas que coinciden son las superiores. En ambos momentos, vemos que la
cuerda adquiere su desplazamiento máximo, hacia abajo o hacia arriba, respectiva-
mente.
Veamos una instantánea de este último vídeo que representa un momento inmedia-
tamente anterior a producirse la coincidencia exacta de las dos ondas virtuales cuando
se cruzan en el soporte derecho (si fuera en el momento exacto no podríamos dis-
tinguir las dos cuerdas virtuales, pues coincidirían exactamente).
168
Figura 8.9: Instantánea del vídeo de la figura 8.8 en el momento anterior a producirse la coincidencia
entre la semionda incidente y la reflejada.
En la figura podemos observar que en el momento de la coincidencia, tanto la onda

incidente como la reflejada tienen la forma de una semionda sinusoidal inferior. Te-
niendo en cuenta que la suma de dos ondas sinusoidales de la misma fase es también
una onda sinusoidal de la misma fase cuya amplitud es la suma de las amplitudes de las
dos ondas componentes, la cuerda real adquiere también la forma de una semionda
sinusoidal de la misma fase, cuya amplitud es el doble de la de las ondas virtuales. En
la gráfica vemos que la semionda formada en la cuerda real, la de las bolitas, tiene una
amplitud de 2 mm, el doble de la que tiene la onda cuando no está solapada.
Resumiendo, mediante los vídeos de las figuras 8.7 y 8.8 hemos podido observar
que las semiondas creadas en la cuerda real en cada reflexión duran solamente
un instante, pues a continuación esa semionda fugaz se diluye y se dibuja de
nuevo en la cuerda la forma de la onda completa. Así pues, la onda sigue siendo
viajera, pues en esta cuerda la oscilación introducida no ha generado una onda
estacionaria.
169
8.5.2. Generación de una onda estacionaria en el modo fundamental de vi-
bración
A continuación examinaremos lo que sucede al introducir en la cuerda, mediante

el desplazamiento vertical del soporte izquierdo, una oscilación de un periodo tal
que sea capaz de generar en ella una onda sinusoidal de longitud doble de lo que
mide la cuerda. Veremos que cuando la onda termine de realizar por primera
vez su recorrido de ida y vuelta a lo largo de la cuerda, su carácter viajero
quedará enmascarado y la cuerda entera comenzará a oscilar de forma unitaria,
realizando un movimiento armónico simple de la misma frecuencia que la de
la oscilación inicial que la ha generado. Cuando esto ocurre decimos que se ha
producido una onda estacionaria en el modo fundamental de vibración o primer
modo.
Para generar una onda estacionaria de estas características en la cuerda que nos sirve
de modelo (que, recordemos, mide 1 metro y tiene una velocidad de propagación de
400 m/s), la longitud de la onda sinusoidal que viaje por ella deberá tener 2 metros
y, por lo tanto, el periodo de la oscilación inicial que deberemos introducir tendrá
que ser de 5 milésimas de segundo. En efecto, en 5 ms la onda habrá recorrido los 2
metros que mide el camino de ida y vuelta a lo largo de la cuerda (440 x 0,005 = 2).
La frecuencia de la oscilación será, pues, de 200 Hz (1/0,005 = 200).
Como en los casos anteriores, he fabricado un vídeo que reproduce, ralentizado 400
veces, el movimiento de la cuerda en estas condiciones. El periodo de la oscilación
inicial que observaremos en el vídeo será, por lo tanto, de 2 segundos y su frecuencia
de 0,5 Hz. La velocidad de propagación que veremos será de 1 m/s.
170
una perturbación sinusoidal cuya longitud de onda es el doble de la longitud de la cuerda.
Al igual que en el vídeo de la figura 8.7, como consecuencia de la superposición

de la onda con su reflejo, se crea en la cuerda una semionda sinusoidal inferior. La
diferencia reside en que ahora la semionda abarca la cuerda entera y en que la cuerda
conserva la forma de semionda durante toda la duración del vídeo, alternándose entre
semionda inferior y semionda superior. Aparentemente ya no se transmite ninguna
perturbación por la cuerda; en su lugar, oscila la cuerda en su conjunto como un
todo, repitiendo toda ella el movimiento oscilatorio que ha sido introducido por el
soporte. La onda ha dejado de viajar a lo largo de la cuerda y se ha transformado en
una onda estacionaria. La frecuencia con la que oscila la cuerda es la misma que la
de la oscilación que la ha generado, en nuestro vídeo, que está ralentizado 400 veces,
es 0,5 Hz. En efecto, podemos observar que cada 2 segundos la cuerda realiza una
oscilación completa.
Vemos también que, una vez formada la onda estacionaria, cada punto de la cuerda
oscila de forma sinusoidal, en fase con todos los demás, con una amplitud que es
siempre la misma para cada punto y que depende únicamente de su posición en
la cuerda. Observamos que los puntos extremos permanecen fijos y que el punto
situado en la mitad de la cuerda es el que alcanza la mayor amplitud.
La pregunta que tenemos que responder ahora es: ¿Por qué se ha producido esto?
Para entender con más detalle lo que ocurre vamos a ver un vídeo que describe,
cinco veces más despacio que el vídeo anterior, los momentos iniciales en los que se
171
crea la onda estacionaria. En él aparecen las cuerdas virtuales que hemos visto antes
y que nos van a ayudar a entender cómo las constantes interferencias entre las ondas
reflejadas en ambos extremos fijos dan lugar a la onda estacionaria.
Figura 8.11: Vídeo que simula ralentizada 2.000 veces la propagación a lo largo de una cuerda
de una perturbación sinusoidal cuya longitud de onda es el doble de la longitud de la cuerda, con el
añadido de dos cuerdas virtuales que ilustran lo que sucede en la reflexión.
Con ayuda de las cuerdas virtuales auxiliares, en el vídeo podemos ver que lo que está
sucediendo por debajo de esa apariencia de estabilidad es que los sucesivos reflejos
de la onda viajera están interfiriendo entre sí, dando lugar a la formación de esa
onda que parece haberse detenido. En el vídeo vemos que, como consecuencia de los
sucesivos reflejos, la onda sinusoidal amarilla viaja ininterrumpidamente de izquierda
a derecha, y la turquesa de derecha a izquierda.
En los momentos iniciales del vídeo, podemos apreciar que cuando la onda incidente,
la de color amarillo, alcanza el soporte derecho, comienza a surgir invertida la onda
reflejada, la de color turquesa. Como he explicado a propósito del vídeo de la figura
8.8, cuando ambas ondas imaginarias completan la mitad de su recorrido, coinciden
plenamente y la cuerda real, la de las bolitas, adquiere la forma de una semionda
sinusoidal inferior. Dado que, en este caso, la longitud de la onda es de 2 metros, la
semionda abarca la longitud entera de la cuerda y, por lo tanto, se termina de formar
en el instante exacto en el que el soporte izquierdo ha completado su oscilación. Esta
coincidencia —que se produce como consecuencia de que el periodo de la oscilación
172
introducida y la velocidad de propagación de la cuerda dan lugar a una onda de
longitud doble que la de la cuerda— es la causa de que la cuerda comience a oscilar
de forma unitaria y se cree una onda estacionaria en el primer modo de vibración.
Veamos en la figura de abajo el momento inmediatamente anterior a la formación
de esta semionda sinusoidal.
Figura 8.12: Instantánea del vídeo de la figura 8.11 en el momento anterior a producirse la coinci-
dencia entre la semionda incidente y la reflejada.
Vemos que la cuerda entera está a punto de adquirir la forma de una semionda sinu-
soidal y que, al coincidir las dos ondas virtuales, su amplitud alcanza el valor máximo,
2 mm.
Tenemos que entender ahora por qué esta forma que adquiere la cuerda no se diluye,
como en el caso del vídeo de la figura 8.8, sino que la ondulación de la cuerda va
modificando su amplitud y alternando su forma entre una semionda inferior y una
semionda superior.
Para ello, tenemos que tener presente que la suma de dos ondas sinusoidales de la
misma longitud de onda es otra onda sinusoidal de esa misma longitud, cuya ampli-
tud depende de la diferencia de fase entre las dos ondas componentes. Al viajar las
dos ondas en dirección opuesta, el desplazamiento hacia la derecha de la onda que va
173
por la cuerda amarilla es compensado por el desplazamiento hacia la izquierda de la
onda turquesa, por lo que la cuerda real, la de las bolitas, siempre conserva la misma
fase, manteniendo, por lo tanto, la forma de una semionda sinusoidal. Puesto que las
dos ondas auxiliares viajan a la misma velocidad en direcciones opuestas, siempre se
cruzan en el medio, pasando de coincidir plenamente, cuando ambas cuerdas virtua-
les forman una semionda inferior o superior, a oponerse por completo, dando lugar
a que la cuerda adquiera, en el instante en el que pasa por la posición de equilibrio,
la forma rectilínea.
Dicho de otra manera, las cuerdas auxiliares pasan continuamente de estar en fase
a estar en oposición de fase. Pero siempre los adelantos de una se compensan con
los retrasos de la otra, por lo que la resultante, la de la cuerda real, es siempre una
semionda inferior o una semionda superior, según sea la zona en la que coincidan
las ondas virtuales. Los desfases entre las ondas virtuales se traducen en diferencias
de amplitud de la onda resultante: cuando ambas están en fase —es decir, cuando
coinciden— la amplitud es máxima, como hemos visto en la figura 8.12; conforme
se desfasan, yendo una hacia la derecha y la otra hacia la izquierda, la amplitud de la
cuerda real disminuye; y cuando llegan a estar en oposición de fase, la amplitud se
anula y en ese instante la cuerda recobra su forma rectilínea, como se puede ver en
la figura de abajo.
Figura 8.13: Instantánea del vídeo de la figura 8.11 en el momento anterior a producirse la oposición
entre la semionda incidente y la reflejada.
174
Por otra parte, dado que el desplazamiento de cualquier punto de la cuerda real es
la suma de los desplazamientos de los puntos correspondientes de la onda incidente
y la reflejada, en toda onda estacionaria hay puntos cuyo desplazamiento es siempre
nulo y otros cuyo desplazamiento alcanza el valor máximo. Los puntos que son fijos
se denominan nodos, y en este modo fundamental de vibración son sólo los puntos
extremos de la cuerda. Los puntos que oscilan con una amplitud máxima se denomi-
nan vientres o antinodos, y en este modo, sólo lo es el punto medio, aquél en el que
siempre se cruzan las dos ondas virtuales. La amplitud con la que oscila este punto es
el doble de la amplitud de la oscilación introducida, en este caso podemos ver que es
de 2 mm.
Así pues, el modo primero de vibración se caracteriza porque la cuerda entera

oscila de forma unitaria. En consecuencia, tiene un solo vientre en el punto
central de la cuerda y dos nodos que están situados en los puntos extremos.
La frecuencia de este primer modo de vibración es la que corresponde a una
longitud de onda doble de la longitud de la cuerda. En nuestra cuerda ideal, so-
bre la que estamos realizando la simulación, la frecuencia de este primer modo de
vibración es de 200 Hz.
8.5.3. Generación de ondas estacionarias en los modos de vibración armó-

nicos
Ahora vamos a comprobar que también se producen ondas estacionarias en nues-

tra cuerda cuando la oscilación que introducimos al desplazar el soporte izquierdo
da lugar a una onda cuya longitud es una parte entera del doble de la longitud de
la cuerda. O, dicho de otra manera, cuando introducimos oscilaciones sinusoidales
cuyo periodo es tal que, al reflejarse la perturbación en los extremos fijos de la cuer-
da, se crean un número entero de semiondas. Para que este requisito se cumpla, el
periodo de las oscilaciones iniciales tendrá que ser la mitad, la tercera parte, la cuarta
parte o cualquier parte entera del periodo que ha producido la onda estacionaria en el
modo de vibración fundamental. Por ello, la frecuencia de estas oscilaciones iniciales
—que será la misma con la que oscilará la cuerda cuando se formen en ella las ondas
estacionarias— tendrá que ser el doble, el triple, el cuádruple o cualquier otro múlti-
175
plo entero de la frecuencia fundamental de vibración. Ello explica que estos modos
naturales de vibración se denominen armónicos.
Vamos a detenernos a continuación en observar cómo se produce el segundo modo

de vibración y luego generalizaremos los conceptos aprendidos al resto de los modos
armónicos.
Para lograr que nuestra cuerda ideal se ponga a vibrar en el segundo modo de vi-
bración, la longitud de la onda que deberemos generar tendrá que ser de 1 metro.
Por ello, el periodo con el que deberá oscilar el soporte izquierdo para introducir la
perturbación tendrá que ser de 2,5 ms. En efecto, dado que la velocidad de la cuerda
es de 400 m/s, en 2,5 ms la onda habrá recorrido 1 metro (400 x 0,0025 = 1). La
frecuencia de la oscilación inicial será, por lo tanto, de 400 Hz. Tenemos que tener
en cuenta también que, para que se produzca el solapamiento de la onda incidente
con la reflejada en el segundo modo de vibración, deberemos introducir en la cuerda
dos oscilaciones completas.
He fabricado un vídeo que simula el comportamiento de nuestra cuerda ideal cuando

se introducen en ella dos oscilaciones sinusoidales de ese periodo de 2,5 ms. También
ahora el movimiento de la cuerda está ralentizado 400 veces, con lo cual el periodo
de la oscilación que observaremos será de 1 segundo y su frecuencia, por lo tanto, de
1 Hz.
una perturbación sinusoidal cuya longitud de onda es la misma que la longitud de la cuerda.
176
En el vídeo podemos observar que en el mismo instante en el que el soporte izquier-
do ha terminado de realizar las dos oscilaciones y se ha quedado fijo, en la cuerda se
han formado dos semiondas, una inferior y otra superior, es decir, se ha creado una
onda sinusoidal entera. De modo similar a lo que hemos visto en el caso de la onda
estacionaria en el modo fundamental de vibración, a partir de ese momento desapa-
rece el carácter viajero de la onda y la cuerda comienza a oscilar. La diferencia reside
en que ahora oscila como si estuviera dividida en dos partes. La forma que adquiere
la cuerda en su oscilación es la de una onda completa.
Ahora hay un nuevo punto fijo, un nodo, que está en el medio de la cuerda (con lo
que en total hay tres nodos), y dos puntos de desplazamiento máximo, dos antinodos
o vientres, que están en la mitad de cada semionda, uno a 0,25 m y el otro a 0,75
m.
La frecuencia con la que vemos oscilar la cuerda en este vídeo es el doble de la que
tenía en el anterior: ahora es de 1 Hz, que corresponde, en la cuerda de la realidad,
a 400 Hz. Esta frecuencia es la misma que la de las oscilaciones iniciales que han
generado la onda estacionaria.
Dado que en el modo segundo de vibración la cuerda adquiere la forma de una

onda sinusoidal completa, podremos apreciar más claramente cómo surge una onda
estacionaria. Para verlo con más detalle he fabricado un vídeo con los momentos
iniciales del movimiento de la cuerda, ralentizados 5 veces respecto al vídeo anterior
o, lo que es lo mismo, 2.000 veces respecto al movimiento de la cuerda real. Este vídeo
corresponde a las primeras 15 milésimas de segundo del movimiento de la cuerda
real. También ahora la cuerda real, representada por las bolitas, va acompañada de
las cuerdas virtuales auxiliares, la amarilla y la azul turquesa.
177
Figura 8.15: Vídeo que simula ralentizada 2.000 veces la propagación a lo largo de una cuerda de
una perturbación sinusoidal cuya longitud de onda es la misma que la longitud de la cuerda, con el
añadido de dos cuerdas virtuales que ilustran lo que sucede en la reflexión.
Puesto que ahora la longitud de la onda es la misma que la de la cuerda, podemos

observar que justamente cuando la perturbación inicial —que viaja de izquierda a
derecha por la cuerda auxiliar amarilla— alcanza el soporte derecho, se termina de
formar en la cuerda una onda sinusoidal completa. Luego, justo cuando empieza a
surgir en la cuerda la segunda ondulación sinusoidal desde el soporte izquierdo, esa
primera perturbación se refleja en el soporte derecho y regresa invertida, de derecha
a izquierda, por la cuerda virtual turquesa. Podemos ver después que, en el instante
en el que la primera onda ha terminado de recorrer el camino de ida y vuelta a lo
largo de la cuerda y ha alcanzado de nuevo el soporte izquierdo, la segunda onda ha
llegado al soporte derecho. En ese mismo instante, la onda incidente y la reflejada
coinciden plenamente y la cuerda real dibuja la forma entera de una onda o, lo que es
lo mismo, la de dos semiondas opuestas consecutivas. En la figura de abajo se muestra
el instante previo a esta coincidencia.
178
Figura 8.16: Instantánea del vídeo de la figura 8.15 en el momento anterior a producirse la coinci-
dencia entre la onda incidente y la reflejada.
En la figura podemos apreciar que en ese instante las cuerdas virtuales prácticamente
coinciden, con lo que, al sumarse los desplazamientos de ambas, el desplazamiento
vertical de cada uno de los puntos de la cuerda real alcanza su valor máximo, dando
como resultado una onda sinusoidal cuya amplitud es el doble de la amplitud de la
oscilación introducida, es decir, 2 mm.
Si volvemos al vídeo de la figura 8.15, podemos fijarnos en que, a partir del momen-
to en el que la cuerda adquiere la forma de una onda completa, el desplazamiento
hacia la derecha de la onda virtual incidente —la que viaja por la cuerda amarilla—
es compensado por el desplazamiento hacia la izquierda de la onda virtual reflejada
—la que viaja por la cuerda turquesa—, de modo que desde ese momento la cuerda,
que parece estar dividida en dos partes, oscila de forma estable, como si ya no se
propagara ninguna perturbación por ella.
Atendamos ahora a lo que ocurre cuando la cuerda oscila. Nos damos cuenta de que
pasa por dos situaciones extremas. Una es el momento en el que las cuerdas auxiliares
coinciden completamente, con lo que la ondulación de la cuerda real alcanza su
máxima amplitud, como hemos visto en la figura 8.16; otra es el momento en el
que las cuerdas virtuales están en oposición de fase, con lo que los desplazamientos
179
de todos los puntos de la cuerda se anulan y ésta pasa por su posición de equilibrio,
como podemos ver en la figura de abajo.
Figura 8.17: Instantánea del vídeo de la figura 8.15 en el momento anterior a producirse la oposición
entre la onda incidente y la reflejada.
En el vídeo de la figura 8.15 podemos apreciar que, como consecuencia también de

que ambas ondas virtuales se desplazan a la misma velocidad en sentidos opuestos,
se cruzan siempre en los mismos puntos y se oponen siempre en los mismos puntos.
Dado que el desplazamiento de cualquier punto de la cuerda real es la suma de los
desplazamientos de los puntos correspondientes de las cuerdas virtuales, los puntos en
los que éstas se cruzan oscilan con la máxima amplitud y son los vientres o antinodos
de la onda estacionaria, mientras que los puntos en los que siempre se oponen per-
manecen fijos y constituyen los nodos. En la figura 8.17 podemos ver que las ondas
virtuales se cruzan en 0,25 m y 0,75 m, que corresponden a los vientres de la onda
real que hemos visto en el vídeo, y se oponen en 0 m, 0,5 m y 1 m, que corresponden
a los nodos de la onda real.
Podemos generalizar las ideas que hemos visto respecto al primero y segundo modo
de vibración a cualquier caso en el que la frecuencia de las oscilaciones iniciales sea
múltiplo de la frecuencia del modo fundamental. En cualquiera de esos modos de
180
resonancia armónicos, la longitud de la onda generada por la oscilación inicial será
necesariamente una parte entera del doble de la longitud de la cuerda (que, recor-
demos, coincide con la longitud de la onda en el modo de resonancia fundamental),
de forma que la cuerda entera oscilará dividida en tantas partes como semiondas se
puedan formar en ella.
En el vídeo de abajo se simula la generación de una onda estacionaria en el tercer

modo de vibración. El periodo de las oscilaciones introducidas tendrá que ser, en este
caso, la tercera parte del periodo necesario para producir la onda estacionaria en el
modo fundamental, es decir, 5/3 ms. Por ello, la frecuencia correspondiente será el
triple de la frecuencia fundamental, esto es, 600 Hz, si bien, al estar el vídeo ralen-
tizado 400 veces, la frecuencia que observaremos en él será de 1,5 Hz. La longitud
de la onda será también la tercera parte del doble de la longitud de la cuerda, esto
es, 2/3 m, es decir, redondeando a milímetros, 0,667 m. Para que se solapen com-
pletamente la onda introducida con su reflejo necesitaremos ahora tres oscilaciones
iniciales.
una perturbación sinusoidal cuya longitud de onda es la tercera parte del doble de la longitud de la
cuerda.
Podemos observar que, al terminar de completarse las tres oscilaciones iniciales del
soporte, la cuerda comienza a vibrar sin que parezca que se propague ya ninguna
perturbación por ella. En este caso la cuerda adquiere la forma de tres semiondas si-
181
nusoidales, consecutivas y opuestas, que oscilan al ritmo de la frecuencia introducida.
Vemos que en este modo estacionario de vibración se forman 4 nodos —en los pun-
tos 0, 0,3333, 0,6666 y 1—, que dividen la cuerda en tres partes, y tres vientres entre
los nodos. Puesto que la frecuencia que resulta es el triple de la del modo primero de
vibración, cuando es excitado este modo, producirá el tercer armónico.
Algo parecido podríamos hacer para generar el cuarto modo de vibración, con la
diferencia de que deberíamos introducir cuatro oscilaciones. En ese caso el periodo
de la oscilación introducida deberá ser la cuarta parte del periodo fundamental y su
frecuencia, cuádruple, es decir, deberá tener un periodo de 1,25 ms y, por lo tanto,
una frecuencia de 800 Hz. Ello dará lugar a una longitud de onda de 0,5 m. Veámoslo
en un nuevo vídeo.
una perturbación sinusoidal cuya longitud de onda es la mitad de la longitud de la cuerda.
La frecuencia representada en el vídeo es de 2 Hz, pues el movimiento de la cuerda

está ralentizado 400 veces respecto a la vibración real que está simulando. Podemos
observar que en las ondas estacionarias que se forman en el cuarto modo de vibración
hay 5 nodos —en los puntos 0, 0,25, 0,5, 0,75 y 1—, que dividen la cuerda en cuatro
semiondas, y cuatro vientres entre los nodos. Así pues, la frecuencia de 800 Hz, que es
cuatro veces la del modo primero de vibración de esta cuerda, corresponde al cuarto
armónico.
182
Y algo similar podríamos observar en los restantes modos de vibración. Su número,
en principio, sería infinito. En la realidad, sin embargo, la pérdida de elasticidad de la
cuerda para longitudes de onda pequeñas hace que el número de modos armónicos
de vibración sea limitado.
De los vídeos que hemos visto en este apartado dedicado a la formación de ondas
estacionarias podemos sacar la conclusión de que la cuerda fija en sus extremos
tiene la propiedad de crear ondas estacionarias a frecuencias que son múltiplos
enteros de una frecuencia fundamental determinada, es decir, en modos de
vibración armónicos. La frecuencia fundamental depende tanto de la velocidad de
propagación de la perturbación a lo largo de esa cuerda, como de la longitud de ésta.
El periodo de la oscilación que da lugar a la frecuencia fundamental coincide con
el tiempo que tarda la perturbación en realizar el camino de ida y vuelta a lo largo
de la cuerda. Y también se crean ondas estacionarias cuando se introducen 2, 3, 4 o
cualquier número entero de oscilaciones en ese tiempo que tarda la perturbación en
ir y volver. Eso quiere decir que la cuerda tiene unos modos naturales de vibración,
los cuales son también llamados modos de resonancia. A continuación veremos por
qué se llaman así y lo que sucede cuando son excitados.
8.6. La resonancia
Cualquier músico ha sufrido alguna vez la desagradable experiencia de que algún

objeto de su entorno empezaba a emitir un sonido cuando daba una determinada
nota con su instrumento, sin que le resultara nada sencillo determinar su proceden-
cia. Al cabo, se ha encontrado con un cenicero metálico, una lámpara de cristal o un
objeto cualquiera que estaba vibrando. Ocurría simplemente que el objeto en cues-
tión resonaba con la nota musical que estaba emitiendo el instrumento: la vibración
producida por esa nota tenía un componente frecuencial que coincidía con alguna
de las frecuencias naturales de vibración del objeto, de modo que éste se ponía a
resonar.
La resonancia se produce porque un cuerpo que vibra excita a otro que es capaz
de vibrar. Un cuerpo entra en resonancia cuando alguna de las frecuencias del
sistema excitador coincide con alguna de las frecuencias naturales de vibra-
183
ción que ese cuerpo posee, de modo que la perturbación no se limita a pasar a
través de él, sino que se retroalimenta positivamente, dando lugar a una onda
estacionaria cuya amplitud se va incrementando con el paso del tiempo. La
resonancia despierta los modos de vibración que por naturaleza posee cada objeto y
por eso a estos modos normales o naturales de vibración se les llama también modos
de resonancia.
Un ejemplo tomado de la vida cotidiana que nos puede servir para comprender el
fenómeno de la resonancia es el de un columpio. Pensemos que tenemos a un niño
columpiándose y queremos que cada vez gane más altura y que el columpio se ba-
lancee más y más. El columpio, al igual que cualquier péndulo, tiene una frecuencia
natural de oscilación, la cual depende de su longitud. Si empujamos el columpio de
forma periódica, haciendo que nuestros impulsos se produzcan siempre en el mis-
mo estado de la oscilación, el columpio irá ganando en altura; si, por el contrario,
impulsamos el columpio cuando se nos ocurra, con total independencia del estado
de oscilación, no incrementaremos la amplitud de sus oscilaciones, sino que proba-
blemente lo frenaremos. En definitiva, si impulsamos el columpio siempre con la
misma frecuencia y ésta coincide con la frecuencia natural de oscilación de ese co-
lumpio concreto (por ejemplo, si lo impulsamos siempre cuando pasa lo más próximo
al suelo), el columpio irá acumulando esa energía y progresivamente la amplitud de
sus oscilaciones aumentará.
Examinemos ahora cómo se produce la resonancia en la cuerda que estamos utili-

zando para nuestras simulaciones. Recordemos que mide 1 m de longitud, que está
fija en sus extremos y que tiene, por razón de su masa y de la tensión a la que está
sometida, una velocidad de propagación de las perturbaciones transversales de 400
m/s. Como consecuencia de ello, tal como hemos visto en el apartado anterior, en
nuestra cuerda se puedan crear ondas estacionarias en frecuencias que sean múltiplos
enteros de 200 Hz. Y esto quiere decir que cuando la cuerda entre en contacto con
una vibración en alguna de estas frecuencias, se pondrá en resonancia con ella y em-
pezará a vibrar por simpatía: con una frecuencia de 200 Hz dará el primer modo de
resonancia o fundamental; con una de 400 Hz, el segundo modo de resonancia; con
600 Hz, el tercero, y así sucesivamente. Así pues, si en nuestra simulación hacemos
que la frecuencia con la que oscila el soporte que introduce la perturbación coincida
184
con una de esas frecuencias naturales de vibración, la cuerda se pondrá a vibrar en
resonancia.
A diferencia de los casos anteriores, ahora vamos a introducir en la cuerda oscilaciones

de modo continuo, unas oscilaciones de amplitud muy pequeña, de 0,1 mm, pero
que se mantienen durante cierto periodo de tiempo, exactamente durante 50 ms. Lo
que nos interesa es comprobar cómo la amplitud de la oscilación que se genera en la
cuerda va creciendo rápidamente a medida que pasa el tiempo.
Empezaremos viendo lo que ocurre cuando el soporte oscila durante 50 ms a una

frecuencia de 200 Hz, es decir, la frecuencia del modo fundamental o primero de
resonancia de nuestra cuerda. En el vídeo de abajo, que está ralentizado 400 veces,
la frecuencia será de 0,5 Hz, con lo que podremos observar una oscilación completa
cada 2 segundos.
Figura 8.20: Vídeo que simula la creación por resonancia de una onda estacionaria en el primer
modo de vibración.
Vemos que enseguida se crea una onda estacionaria en el primer modo de resonancia,
por lo que la cuerda entera oscila de manera unitaria. Pero vemos también, y esto
es lo más importante, que la amplitud de la oscilación crece de manera muy rápida,
de tal forma que cuando el soporte se detiene al concluir los primeros 50 ms de la
realidad (o los primeros 20 segundos del vídeo), la amplitud de la oscilación de la
cuerda ha alcanzado ya 2 mm. Es decir, han bastado 50 ms de oscilación del soporte
185
para multiplicar la amplitud de esa oscilación inicial por 20 veces. Sucede que el
movimiento del soporte se acopla con las sucesivas reflexiones de la cuerda, de tal
modo que la energía se acumula y eso hace crecer la oscilación de la cuerda, de
modo semejante a lo que ocurre en el columpio.
Ahora examinaremos lo que sucede cuando el soporte oscila con otra de las frecuen-
cias de resonancia naturales de nuestra cuerda, en este caso 400 Hz, que corresponde
al segundo modo de resonancia. En el vídeo, ralentizado 400 veces, la frecuencia será
de 1 Hz.
Figura 8.21: Vídeo que simula la creación por resonancia de una onda estacionaria en el segundo
modo de vibración.
Vemos que en este caso se crea también una onda estacionaria, ahora en el modo
segundo. En efecto, la cuerda oscila dividida por la mitad en dos partes. Cuando el
soporte deja de moverse el punto medio permanece ya estable y se crea en él un nodo.
También ahora podemos apreciar que la mínima amplitud con la que oscila el soporte
es capaz de provocar una gran respuesta en la oscilación de la cuerda. Comprobamos,
pues, que la cuerda resuena también a la frecuencia de 400 Hz.
Para experimentar que la resonancia se produce solo cuando la oscilación que intro-
ducimos tiene una frecuencia que coincide con alguno de los modos de resonancia
naturales de nuestra cuerda, vamos a ver lo que sucede cuando forzamos a la cuerda
a vibrar a una frecuencia alejada de cualquiera de esos modos. En concreto, vamos a
186
forzar a la cuerda mediante una oscilación constante del soporte izquierdo a 285 Hz
de frecuencia. En el vídeo, al estar ralentizado 400 veces, la frecuencia del soporte
será aproximadamente de 0,7 Hz.
Figura 8.22: Vídeo que muestra que no hay resonancia si la frecuencia de la oscilación introducida
no coincide con ningún modo natural de vibración de la cuerda.
La duración del vídeo es de 33 segundos, que corresponden aproximadamente a 82

milésimas de segundo del movimiento real de la cuerda. A pesar de que durante todo
este tiempo el soporte izquierdo se mantiene oscilando, vemos que no es capaz de
generar en la cuerda una onda estacionaria. El soporte fuerza a vibrar a la cuerda a
la misma frecuencia con la que oscila, 285 Hz en la realidad y 0,7 Hz en el vídeo,
pero, como esta frecuencia no corresponde a ninguna de las frecuencias naturales
de resonancia de la cuerda, la oscilación del soporte no se acopla con la onda que se
transmite a lo largo de la cuerda y no genera ninguna onda estacionaria. Además, la
amplitud con la que oscila la cuerda forzada por el soporte es, por ello mismo, muy
pequeña.
En resumen, cuando un cuerpo vibra siempre lo hace a la misma frecuencia que posee
aquello que lo fuerza a vibrar. La diferencia es que si esa frecuencia coincide con
alguna que posee el cuerpo receptor por su propia naturaleza, esa fuerza se transmite
muy eficazmente, acoplándose y amplificándose, mientras que si no se produce esa
coincidencia, la eficacia es mucho menor.
187
La resonancia se produce siempre en un contexto de oscilaciones forzadas. La re-
sonancia implica dos partes. Por un lado, la parte activa: un cuerpo o sistema que
vibra y que con sus vibraciones excita o impulsa a otro. Por otro, la parte pasiva:
un cuerpo o sistema que, por su propia constitución, posee una o varias frecuencias
naturales de vibración. Al poner en relación estas dos partes, siempre el resultado será
que la frecuencia de la vibración del cuerpo o sistema pasivo será la misma que la del
sistema impulsor o activo, con independencia de cuál fuera su frecuencia natural de
vibración. Ahora bien, cuando la frecuencia del sistema impulsor se aproxima mu-
cho a una de las frecuencias naturales del sistema pasivo, la facilidad con la que la
energía del sistema impulsor se transmite al sistema pasivo hace que la amplitud de
las vibraciones de este sistema pasivo crezca de forma extraordinaria.
Como conclusión podemos decir, que, en líneas generales, cuando coincide la fre-
cuencia de la fuerza excitante y la frecuencia natural del sistema pasivo, se
produce un cambio cualitativo importante. La resonancia nos muestra como
una fuerza en sí misma pequeña puede crear un efecto grande. Este efecto será
más evidente conforme las fuerzas de fricción o cualquier otra que se oponga al mo-
vimiento sean menores. En el caso de nuestra cuerda ideal en la que hemos descartado
cualquier fuerza de amortiguación este crecimiento es máximo.
8.7. Generación del sonido armónico
Una vez que hemos visto que la cuerda, por sus propias características físicas, posee
unos modos naturales de vibración que son armónicos y que estos modos resuenan
cuando coinciden con alguna o algunas de las frecuencias que están presentes en la
perturbación que la excita, estamos en condiciones de entender en qué consiste y
cómo se produce la vibración armónica.
Habitualmente una cuerda, como cualquier otro cuerpo capaz de vibrar, vibra si-
multáneamente en varios modos de resonancia. Esto da lugar a que el movimiento
de la cuerda evolucione de una forma aparentemente compleja.
Vamos a comenzar observando un caso sencillo: el movimiento a cámara lenta que

realiza la cuerda de nuestra simulación cuando vibra simultáneamente en los dos pri-
meros modos de resonancia. Para ello, he fabricado un vídeo en el que el movimiento
188
del soporte que provoca la vibración de la cuerda es una oscilación armónica de la
misma frecuencia que la frecuencia natural de vibración de la cuerda, y consta de los
dos primeros armónicos. La frecuencia del primer componente es 200 Hz y la del
segundo componente es 400 Hz. La amplitud de ambos componentes es la misma y
está ajustada para que la amplitud máxima de la onda cuando quede resonando sea
de 2 mm.
Figura 8.23: Vídeo que simula la vibración de una cuerda en los dos primeros modos de resonancia.
En el vídeo, que está ralentizado 400 veces respecto al movimiento real de nuestra
cuerda, podemos observar cómo se superponen los dos primeros modos de vibración.
Al entrar en resonancia por la acción del soporte, el movimiento de la cuerda va in-
crementando rápidamente su amplitud. Cuando el soporte se detiene, lo cual ocurre
en el segundo 20 del vídeo o en el 50 ms de la realidad, y dado que no hemos teni-
do en cuenta ninguna fuerza de amortiguación, la amplitud de la onda permanece
estable durante el resto del vídeo.
Vemos que el conjunto de la cuerda oscila arriba y abajo una vez cada 2 segundos,
como corresponde a la frecuencia fundamental. Esto lo podemos ver mejor si nos
fijamos en el punto central de la cuerda, el que está en 0,5 m: podemos apreciar en el
vídeo que este punto oscila arriba y abajo haciendo un Movimiento Armónico Sim-
ple (MAS) con la frecuencia del primer modo de resonancia de nuestra cuerda, que
189
coincide con la frecuencia fundamental de la oscilación del soporte que está intro-
duciendo la perturbación, es decir, 0,5 Hz en el vídeo o 200 Hz en la realidad.
Pero, a la vez, observamos que la cuerda se divide por el medio en dos partes iguales
y que cada una de estas partes oscila, de forma complementaria una de la otra, a una
frecuencia doble de la que tiene el conjunto de la cuerda, es decir, a 400 Hz en la
realidad o a 1 Hz en el vídeo. Este movimiento es similar al que tendría la cuerda si so-
lo se hubiera introducido en ella el segundo modo de resonancia y pivotara en torno
al punto central (como podemos ver en la figura 8.21). Pero este punto central en el
modo segundo sería un nodo y, por lo tanto, permanecería inmóvil. La diferencia
reside en que ahora este punto central oscila también arriba y abajo, en cuanto que
es el punto de máxima amplitud, el vientre, del primer modo de resonancia.
En este caso sencillo en el que se combinan solamente los dos primeros modos de
resonancia, nos resulta fácil apreciar que el movimiento total de la cuerda es el resul-
tado de la composición de estos dos movimientos, pero a medida que el número de
los componentes que vibran aumenta, la vibración de la cuerda se hace más y más
compleja, hasta un punto en el que ya no es posible discernirlos ni siquiera en un
vídeo ralentizado.
Por otra parte, hay que tener en cuenta que en nuestra simulación solamente hemos
contemplado el caso de que la excitación que genera la onda sobre la cuerda se realice
a través de uno de los extremos fijos de la cuerda. Pero la cuerda de un instrumento
musical real puede ser excitada de múltiples maneras, bien por un golpe —tal como
el que realiza el macillo en el piano—, bien al ser pulsada —como en el caso de la
guitarra o del clavecín— o bien al ser frotada —como ocurre en el violín—. El lugar
en el que se produce la excitación de la cuerda también es relevante para la sonoridad
que se obtiene, pues, dependiendo de la posiciones en las que se produce el estímulo
y de las intensidades de éste, se potenciarán o se atenuarán unos u otros modos de
resonancia de la cuerda, con lo que se despertarán en mayor o menor medida unos
u otros armónicos.
Veamos ahora un vídeo que simula de una forma más completa el movimiento de
una cuerda real cuando produce un sonido armónico. En él se observa la vibración
de nuestra cuerda cuando es excitada por una perturbación constituida por un con-
junto numeroso de componentes, alguno de los cuales coinciden con sus modos de
190
resonancia, mientras que otros están alejados. La cuerda amplifica solamente aquellas
frecuencias que coinciden o están muy próximas a sus modos de resonancia y deja
pasar sin amplificar aquellas otras que están alejadas. De esta manera, como las fre-
cuencias naturales de la cuerda son armónicas, la vibración resultante será también
armónica, dando lugar a una nota musical. La frecuencia de esta nota es de 200 Hz,
la frecuencia fundamental que por naturaleza tiene la cuerda de nuestra simulación.
A fin de facilitar la observación en el vídeo, he diseñado el movimiento del sopor-
te para que la cuerda responda de forma significativa a los ocho primeros modos
de resonancia y, además, para que los componentes de más frecuencia disminuyan
progresivamente su amplitud.
Figura 8.24: Vídeo que simula la vibración de una cuerda en múltiples modos de resonancia.
Al principio del vídeo observamos una vibración de poca amplitud y más bien de
carácter aleatorio, pero rápidamente va adquiriendo periodicidad y ganando en am-
plitud. Sucede simplemente que aquellos componentes que están presentes en la os-
cilación del soporte, pero que no corresponden a ningún modo de vibración natural
de nuestra cuerda, no son amplificados, permaneciendo siempre en su bajo nivel ini-
cial, mientras que los componentes que corresponden a las frecuencias naturales de
la cuerda resuenan y son amplificados. El resultado es que la cuerda vibra de una
manera compleja, como consecuencia de la combinación de sus modos naturales de
vibración, pero de una forma periódica, con lo que produce una vibración armóni-
ca.
191
En efecto, el movimiento que observamos en el vídeo se aproxima bastante al que
podría ser el movimiento de una cuerda real. Al ser el movimiento de la cuerda
el resultado de múltiples modos de vibración, la apariencia que observamos es un
movimiento complejo en el que es casi imposible reconocer individualmente cada
uno de los modos de vibración. Aun con todo, podemos apreciar que se trata de una
vibración armónica, como podemos reconocer si nos fijamos en la clara periodicidad
que se manifiesta cuando el soporte queda ya inmóvil. Podemos fijarnos en que cada
dos segundos se repite el mismo movimiento, lo que supone una frecuencia de 0,5
Hz, que multiplicado por las 400 veces que está ralentizado el vídeo, nos da los 200
Hz de frecuencia que hemos atribuido a nuestra cuerda.
Así pues, mediante este vídeo hemos podido hacernos una idea intuitiva de que una
cuerda tensada selecciona de modo natural aquellas perturbaciones que coin-
ciden con sus modos naturales de vibración, actuando como si se tratara de un
filtro, de modo que, ante una perturbación compleja, reacciona positivamen-
te y se acopla bien sólo en aquellas frecuencias que coinciden con sus modos
naturales de vibración.
8.8. Conclusión
A lo largo de este capítulo hemos estudiado que el sonido armónico o musical se

produce cuando un cuerpo cuyos modos naturales de vibración son múltiplos enteros
de una frecuencia fundamental es excitado por una fuerza vibratoria que contiene
algunas de esas frecuencias o todas ellas, con las que entra en resonancia y se generan
ondas estacionarias.
192
Capítulo 9
Envolventes de amplitud y de frecuencia
9.1. Introducción
En el capítulo dedicado al sonido armónico hacíamos abstracción de los cambios a

lo largo del tiempo que se pueden producir en la amplitud y en la frecuencia de cada
uno de los componentes armónicos, estudiando el sonido musical como si se tratara
de un fenómeno totalmente estable. Pero la realidad es que los sonidos musicales no
suelen permanecer estables, sino que van evolucionando durante su duración.
La evolución de los parámetros de amplitud y de frecuencia de los componentes

simples que constituyen los sonidos musicales da lugar a ciertos rasgos acústicos que
caracterizan la sonoridad de las notas musicales que escuchamos. Esos rasgos nos pro-
porcionan información sobre la fuente sonora —es decir, sobre el instrumento del que
se trata— y también sobre las acciones que realiza el intérprete con el instrumento.
Debido a esto último, los rasgos tímbricos que se van creando por la modificación
de la amplitud y de la frecuencia de la nota a lo largo de su duración encierran una
parte muy importante de la fuerza emotiva que es capaz de transmitir el cantante o
el instrumentista con su interpretación.
Las formas que adquieren la evolución de la amplitud y de la frecuencia a lo

largo del tiempo de duración de una nota reciben respectivamente el nombre
de envolvente de amplitud y envolvente de frecuencia. Junto a la cualidad so-
nora derivada del diferente peso de cada uno de los componentes que constituyen
193
el sonido armónico y también de las marcas acústicas que resultan de la transición
entre una nota y la siguiente, las envolventes de frecuencia y de amplitud definen el
timbre de las notas musicales que escuchamos.
En el caso de la amplitud, no solo interviene la envolvente general —es decir, la

forma que describe la evolución temporal de la amplitud del sonido armónico en
su conjunto—, sino también las envolventes de cada uno de sus componentes sim-
ples. Efectivamente, la evolución de la amplitud de cada uno de los componentes
que constituyen un sonido armónico puede tener su ritmo propio, de modo que
unos pueden estar adelantados o retrasados respecto a otros, o incluso unos pueden
crecer mientras otros decrecen. Estas diferencias van a dar lugar a marcas tímbricas
distintas.
En el caso de la frecuencia, sin embargo, más allá de sutilezas que escapan al objetivo
de este curso, todos los componentes armónicos de una nota evolucionan de la misma
manera, con lo que la forma de la envolvente de frecuencia general coincide con la
de cada uno de ellos.
Aunque voy a dedicar un capitulo a estudiar el timbre de los sonidos producidos por
los instrumentos musicales y por la voz humana, es de interés experimentar primero,
mediante ejemplos sonoros de laboratorio, cómo son los rasgos acústicos elementales
derivados de la evolución de la frecuencia y de la amplitud de los diferentes com-
ponentes armónicos, lo que nos va a permitir apreciar la importancia que tienen las
envolventes de amplitud y de frecuencia en la caracterización tímbrica de los sonidos
musicales.
Pare ello he confeccionado varios vídeos con sonidos de laboratorio creados con
Matlab especialmente diseñados para experimentar cómo afecta a nuestra percepción
sonora la envolvente de amplitud y la envolvente de frecuencia. En la parte superior
de cada uno de estos vídeos se representa, como un osciloscopio virtual, la forma de
la vibración en tiempo real, mientras que en la parte inferior se muestra una gráfica
con la envolvente de amplitud o la envolvente de frecuencia. En la parte inferior,
la barra azul que se va deslizando señala el punto de la envolvente del sonido que
estamos oyendo en ese instante.
En los ejemplos de este capítulo he pretendido dejar aislado el rasgo sonoro que
nos interesa experimentar en cada caso. Por eso en cada vídeo los sonidos han sido
194
generados a propósito para que sólo se diferencien en el rasgo específico que debemos
observar.
9.2. Envolvente de amplitud general
Empezaremos atendiendo a la evolución de la amplitud del sonido armónico en su

conjunto, con independencia de los desfases y de los cambios de forma que se pue-
dan producir en la evolución de la amplitud de cada uno de sus componentes par-
ciales.
La envolvente de amplitud general es la gráfica que describe cómo la amplitud

total de un sonido cambia a lo largo del tiempo, desde el momento de su emi-
sión hasta que desaparece completamente. Por eso, la envolvente de amplitud
global describe, entre otras cosas, si el ataque es rápido o lento, si el sonido se man-
tiene durante un tiempo o si comienza enseguida su extinción, y si esta extinción es
abrupta o el sonido se va amortiguando poco a poco.
Puesto que el caso más sencillo de un sonido armónico es un sonido simple, donde
la envolvente de amplitud global necesariamente coincide con la del único com-
ponente que lo constituye, en primer lugar vamos a observar cómo influye en la
caracterización tímbrica de un sonido simple la forma que adquiere la evolución de
su amplitud, es decir, su envolvente de amplitud general.
He fabricado un vídeo en el que suena dos veces la misma nota generada en el la-
boratorio, un la3 a 220 Hz constituido por un solo componente. La diferencia entre
ambos sonidos simples reside solamente en la forma en la que evoluciona la amplitud
a lo largo de su duración: la envolvente del primer sonido es similar a la que posee
una nota musical real producida mediante una cuerda pulsada con la mano o con
una púa; la envolvente del segundo sonido, sin embargo, se asemeja a la de una no-
ta de flauta mantenida durante unos pocos segundos. He procurado que el pico de
amplitud sea el mismo en ambos casos para que la única diferencia entre ellos resida
en la envolvente de amplitud.
En la parte superior del vídeo aparece la forma de la vibración a medida que va

sonando. En la parte inferior se representa en color verde la señal de audio completa
195
de los dos sonidos y en color amarillo su envolvente de amplitud. La señal de audio
tiene el aspecto de una mancha continua debido a que el número de muestras que se
representan en este reducido espacio es superior a 300.000. La barra azul señala en
cada instante el punto de la envolvente que corresponde a la señal de audio que está
sonando y que se ve representada en la parte superior.
Figura 9.1: Vídeo que muestra las diferencias tímbricas a las que dan lugar dos envolventes de
amplitud distintas sobre el mismo sonido simple.
Podemos observar que la gráfica amarilla, la que representa la evolución de la am-

plitud, parece perfilar la mitad superior de la señal de audio, como si la envolviera.
En efecto, si bien la relación de envoltura solo es rigurosamente cierta para la evo-
lución de la amplitud de sonidos simples, el nombre de “envolvente” ha pasado a
designar también la evolución de la amplitud de cualquier tipo de sonido, e incluso
la evolución de la frecuencia, donde en realidad no se produce ninguna relación de
envoltura, como veremos enseguida.
En el primer ejemplo vemos que el ataque es muy rápido. En efecto, si detenemos

el vídeo en el momento preciso en el que se inicia el sonido, comprobamos que
tarda sólo 5 milésimas de segundo en alcanzar su amplitud máxima, y que a partir
de ahí comienza inmediatamente a decaer de forma exponencial, hasta extinguirse
lentamente. Como es propio de la amortiguación exponencial, la tasa de caída en
196
cada instante es directamente proporcional al valor de la amplitud en ese momento:
cuando la amplitud es mayor, la tasa de caída es mayor; cuando la amplitud es menor,
la tasa de caída es menor. O dicho de otra manera, conforme más amplitud tiene el
sonido, más rápidamente decae y conforme la amplitud se hace menor, lo hace más
lentamente. En realidad, esta amortiguación exponencial es la forma natural en la
que se extingue toda perturbación abandonada a sus propias fuerzas.
El sonido que escuchamos en este primer ejemplo nos recuerda al de una cuerda
pulsada: tenemos la sensación de que se trata de un sonido producido por algo que
ha sido pulsado, o activado de una manera similar, y que la propia dinámica del
instrumento ha dejado que se extinga libremente. Esta sensación se debe a que re-
conocemos que ha recibido al inicio una energía puntual por parte del ejecutante y
que la propia constitución del instrumento la ha ido disipando hasta su extinción, sin
que haya habido más contribuciones de energía por parte del instrumentista. En este
caso la información que ha aportado el intérprete se ha concentrado en el ataque,
mientras que el resto de la envolvente sólo nos ilustra sobre las características propias
del instrumento.
En el segundo ejemplo podemos distinguir con claridad las cuatro etapas que con-
vencionalmente se diferencian en la envolvente de amplitud: ataque, decli-
ve, mantenimiento y extinción (si bien esta clasificación en etapas no deja de ser
una simplificación de tipo práctico utilizada en los antiguos sintetizadores de soni-
do).
Podemos apreciar en este caso que el ataque es muy lento, pues dura medio segundo
(aproximadamente desde 3,6 s hasta 4,1 s) y que tiene la forma de una especie de “ese”
inclinada hacia la derecha. En efecto, el ataque comienza muy lentamente, luego
se apresura y finalmente se ralentiza de nuevo hasta alcanzar el punto de máxima
amplitud.
Una vez terminado el ataque, la amplitud comienza a decaer un poco hasta estabili-
zarse en torno al segundo 5. Esta etapa de declive recibe también el nombre de caída
o primera caída y es el resultado de que a veces tras el ataque de la nota se produce
una cierta relajación que conduce a la etapa de mantenimiento.
La etapa de mantenimiento, que también se llama “etapa de sostenimiento”, comien-

za en el segundo 5. Ahora el sonido se mantiene en una amplitud aproximada de 0,2.
197
En este ejemplo el sonido mantiene la amplitud estable, pero también podría haber-
se producido un trémolo, es decir, una oscilación de la amplitud en torno al valor
medio del mantenimiento.
Por último, se inicia la etapa de extinción del sonido, que en este caso se prolonga
durante bastante tiempo, desde aproximadamente 6,6 s hasta 7,4 s. La duración de esta
última etapa puede depender no sólo del instrumento o de la voluntad del ejecutante
—quien puede prolongar la duración de la nota amortiguándola poco a poco si el
instrumento lo permite—, sino también del entorno sonoro en el que se emite la nota.
Por ejemplo, si la nota se emite en una sala cerrada grande, cuyas paredes reflejan
una parte importante del sonido que reciben, se producirá una reverberación que
prolongará considerablemente esta etapa de extinción.
El sonido de este segundo ejemplo nos recuerda al de una nota de flauta, una nota
que el intérprete ha atacado con delicadeza y que luego se ha esforzado en mantener
estable durante toda su duración. La prolongación de la etapa de extinción nos hace
imaginar una sala grande y vacía con mucha reverberación.
Con estos dos ejemplos hemos podido ver que los rasgos acústicos derivados de la
evolución de la amplitud global de un sonido armónico contribuyen a caracterizar
la cualidad sonora que escuchamos. Si reconocemos un determinado rasgo tímbri-
co y lo asociamos a un instrumento o a una acción del intérprete es porque nuestro
sistema auditivo está entrenado para detectar en los sonidos del entorno toda la infor-
mación útil que podamos extraer y que nos permita identificarlos. Por eso, cuando
la evolución de la amplitud sigue la ley natural de extinción exponencial, como en
el primer sonido del vídeo, reconocemos, sin ser conscientes de ello, que la fuente
sonora no ha sido modificada durante su emisión, y esa información es percibida co-
mo una característica diferencial de ese sonido. Cuando, por el contrario, el sonido
mantiene un cierto nivel de amplitud durante buena parte de su duración, como es el
caso del segundo ejemplo, interpretamos que la fuente sonora está siendo alimentada
constantemente con energía. Y en función de las variaciones de la fase de mante-
nimiento nos hemos acostumbrado a distinguir si es el resultado de la intervención
del ejecutante o si viene dado por la dinámica propia del instrumento. Así mismo,
la forma de la extinción y su duración nos aporta información sobre la acción del
intérprete y sobre el entorno espacial en el que ese sonido se encuentra.
198
Cualquier forma de la envolvente que no responda a la dinámica propia del compor-
tamiento físico esperable nos habla de una intervención por parte del intérprete. Por
poner un ejemplo, nuestro sistema perceptivo distingue entre el sonido producido
por un órgano de iglesia y el producido por una flauta, con independencia del color
—es decir, del número y peso de los armónicos—, simplemente por las variaciones
que, por mínimas que sean, acompañarán siempre al sonido de la flauta. Así, en el
segundo ejemplo, la suavidad del ataque con esa forma de ese y la ligera primera
caída son suficientes para atribuir a ese sonido una voluntad humana, y por eso lo
relacionamos con el sonido de una flauta en la que el intérprete ha podido modificar
la evolución de la amplitud. Aunque se trata de un sonido generado artificialmente,
nunca lo confundiríamos con otro que simulara el producido por el tubo de un ór-
gano de iglesia. En realidad, si en lugar de haber sido la envolvente de amplitud tan
esquemática, sus etapas de declive y de mantenimiento hubieran presentado algunas
inflexiones, nos hubiera recordado más al sonido producido por una flauta real.
9.3. Envolventes de amplitud parciales
Durante la emisión de un sonido musical no solamente puede cambiar la amplitud

global, como hemos visto en el apartado anterior, sino que también puede modifi-
carse el peso relativo que cada componente aporta al conjunto, con la consecuente
alteración de la cualidad sonora. A continuación vamos a experimentar cómo afectan
al timbre los desfases en la envolvente de amplitud entre los distintos componentes.
Comprobaremos también que los cambios en la forma de las envolventes de amplitud
de los distintos componentes de un sonido musical pueden ser consecuencia tanto de
la propia constitución acústica del instrumento, como de las acciones del intérprete
mediante las cuales consigue su especial expresividad.
La propia constitución acústica de algunos instrumentos hace que los componentes

armónicos se amortigüen de manera desfasada. En general, los armónicos superiores
tienden a extinguirse antes que los inferiores. En algunos instrumentos, sin embargo,
el desfase afecta al ataque, como es el caso de los instrumentos de metal, donde los
armónicos superiores tienden a retrasarse. Estos desfases constituyen una marca tím-
199
brica que caracteriza los sonidos y contribuye a la identificación de la fuente sonora,
es decir, ayudan a reconocer el instrumento.
Así mismo, en la voz y en otros instrumentos, el intérprete puede modificar durante

la emisión del sonido la importancia relativa de sus componentes armónicos y, con
ello, su cualidad sonora. Por ejemplo, en el caso del violín puede cambiar la posición
del arco, su velocidad o la presión que ejerce sobre la cuerda, alterando la cualidad
sonora de la nota que está emitiendo. Por todo ello las envolventes de amplitud
de los componentes parciales no siguen necesariamente el mismo patrón, sino
que se puede dar la circunstancia de que el aumento de amplitud de un armó-
nico superior pueda coincidir con el decremento de un armónico inferior, o
viceversa.
Para experimentar cómo afecta al timbre las relaciones entre las envolventes de am-
plitud de los diferentes componentes de un sonido musical, he fabricado tres vídeos
en los que se ejemplariza tres situaciones características. El ejemplo del primer ví-
deo muestra lo que ocurre cuando se desfasa la extinción de los componentes; el
del segundo, lo que sucede cuando hay un retraso progresivo en el ataque; y el ter-
cero, cómo se modifica la cualidad sonora a lo largo de la emisión de un sonido a
consecuencia del cambio en el peso relativo entre los componentes. La nota es en
todos los casos un la3 a 220 Hz, constituido por los cuatro primeros componentes
armónicos.
El primer vídeo presenta el caso en el que la extinción de los componentes no se

produce de manera homogénea, sino que se apaga antes conforme más agudo es el
componente.
200
Figura 9.2: Vídeo que muestra la influencia en el timbre del desfase en la extinción de los compo-
nentes de un sonido.
En este vídeo observamos dos repeticiones de la nota la3 a 220 Hz, pero si prestamos
atención advertimos que su sonoridad es claramente diferente. En ambos casos el nú-
mero de armónicos y su amplitud máxima es la misma: el primer armónico, el de 220
Hz, tiene una amplitud máxima de 0,24; el segundo, el de 440 Hz, de 0,21; el tercero,
el de 660 Hz, de 0,18; y el cuarto, el de 880 Hz, de 0,15. La única diferencia entre
ambos sonidos es que en el primero la velocidad con la que se amortiguan los cuatro
componentes es similar, mientras que en el segundo la extinción de cada armónico
sigue un ritmo diferente, de modo que los armónicos superiores se extinguen más
rápidamente que los inferiores.
En la primera emisión de la nota apreciamos que durante toda su duración la cualidad

del sonido es la misma. En la parte inferior podemos observar que el peso relativo
de los diferentes armónicos no varía sustancialmente. Podemos apreciar también en
el osciloscopio que la forma de la vibración no cambia a lo largo de todo el sonido,
aunque su amplitud vaya disminuyendo progresivamente.
En la segunda emisión de la nota, por el contrario, si realizamos una escucha atenta

nos damos cuenta de que la cualidad sonora va cambiando a lo largo de la duración.
Comienza con una sonoridad plena, resultado de que los cuatro componentes que
forman la nota tienen un peso similar, pero luego va perdiendo cuerpo hasta que la
nota se transforma en un sonido simple. Esta evolución de la cualidad es percibida por
201
nuestro oído como un rasgo característico del timbre de esa nota, algo que la hace
diferente de la anterior. En el osciloscopio se puede observar también que la forma de
la vibración cambia a largo de su duración. En efecto, al principio de la nota la forma
de la vibración es compleja, pero luego, conforme la amplitud se va atenuando, su
forma se va simplificando progresivamente, hasta llegar a una sinusoide pura.
El segundo vídeo muestra un caso en el que se produce un retraso de los componentes

superiores en el momento del ataque:
Figura 9.3: Vídeo que muestra la influencia en el timbre del desfase en el ataque de los componentes
de un sonido.
Ahora también se repite dos veces la misma nota, el la3 a 220 Hz constituido por
los cuatro primeros componentes. La amplitud máxima en ambos casos es la misma:
0,24 en el primer armónico, el de 220 Hz; 0,18 en el segundo, el de 440 Hz; 0,12 en
el tercero, el de 660 Hz; y 0,08 en el cuarto, el de 880 Hz.
Como podemos apreciar en las gráficas de las envolventes que aparecen en la parte
inferior del vídeo, la única diferencia ente los dos sonidos reside en que en la segunda
repetición de la nota los armónicos se retrasan progresivamente en el momento del
ataque, de modo que los armónicos superiores alcanzan su máximo más tarde que
los inferiores. Este retraso provoca un cambio en la cualidad del sonido debido al
202
diferente peso relativo que adquieren los componentes a lo largo del breve intervalo
de tiempo que dura el ataque.
Si nos fijamos en el área del osciloscopio, podremos observar que durante la emi-
sión del primer sonido no cambia la forma de la vibración, mientras que el ataque
del segundo se inicia con una vibración puramente sinusoidal que rápidamente se
transforma en una forma más compleja, similar a la del primer sonido.
Aunque reconocemos que se trata de la misma nota, si escuchamos con atención per-
cibiremos una diferencia apreciable en el timbre de ambos sonidos. Nuestro sistema
perceptivo ha reconocido en el segundo sonido un cambio rápido en la cualidad so-
nora que nos recuerda el efecto “wah” de una trompeta al destapar la sordina o el de
un pedal “wah wah” de guitarra eléctrica. Así pues, percibimos el retraso en el ataque
de los armónicos superiores como un rasgo tímbrico peculiar que diferencia ambos
sonidos, que son por lo demás idénticos.
El tercer vídeo muestra el caso de un sonido en el que la amplitud de los armónicos

superiores durante la etapa de mantenimiento sigue una evolución opuesta a la del
fundamental. Aunque en los sonidos reales de los instrumentos y de las voces es-
tos cambios acostumbran a ir unidos a modificaciones en la intensidad sonora, para
aislar el rasgo tímbrico que se deriva de la diferente evolución de los componentes
parciales he procurado mantener constante la amplitud global durante la etapa de
mantenimiento.
Figura 9.4: Vídeo que muestra la influencia en el timbre de las modificaciones en el peso de los
componentes de un sonido durante su etapa de mantenimiento.
203
En este vídeo escuchamos una sola nota, la misma que en los vídeos anteriores, un la3
a 220 Hz constituido por los cuatro primeros armónicos. En la parte inferior del vídeo
podemos observar que las envolventes de amplitud de los tres armónicos superiores
tienen una forma opuesta a la del componente fundamental. Vemos que durante la
etapa de mantenimiento el componente fundamental decae progresivamente desde
su valor máximo, alcanzado tras el ataque, hasta llegar a su valor mínimo, lo que
sucede en torno a la mitad de la duración del sonido, para desde allí volver a crecer
y alcanzar de nuevo su valor máximo antes de iniciar la extinción. Sin embargo,
las envolventes de amplitud de los restantes armónicos realizan el camino inverso:
crecen hasta llegar a un máximo hacia la mitad del sonido y a partir de allí decrecen.
En este recorrido vemos que el segundo y el tercer armónico llegan a superar al
primero, e incluso que el tercer armónico supera al segundo.
Estos cambios hacen que el peso relativo de cada componente en el conjunto se mo-
difique a lo largo de la emisión de la nota, con la correspondiente modificación en su
cualidad sonora. En efecto, percibimos que estos cambios durante la etapa de man-
tenimiento dan lugar a una modificación gradual y constante de la cualidad sonora:
en la parte inicial y final de esta etapa el peso del sonido recae mayoritariamente
en el componente fundamental, lo que proporciona al sonido una cualidad sólida;
progresivamente los armónicos superiores van adquiriendo mayor importancia en
detrimento del fundamental, lo que proporciona al sonido una cualidad cada vez
más hueca e incluso nasal, cuando predomina el tercer armónico, cosa que sucede
hacia la mitad de la duración del sonido.
Los casos que hemos examinado en estos tres vídeos son solamente una muestra de
laboratorio de los rasgos acústicos que se derivan de las diferencias entre las envolven-
tes de amplitud parciales. Estas diferencias provocan que la cualidad sonora de una
nota cambie a lo largo de su duración y estos cambios son habitualmente percibidos
como un rasgo tímbrico.
9.4. Envolvente de frecuencia
A continuación vamos a experimentar cómo las modificaciones de la frecuencia de

una nota musical durante el tiempo que dura su emisión afectan al timbre.
204
Aunque, como hemos visto, lo que define una nota musical es la permanencia de
una frecuencia estable durante un periodo de tiempo lo suficientemente grande co-
mo para que podamos reconocer una determinada altura tonal, lo cierto es que en la
voz y en algunos instrumentos musicales esa permanencia puede ir adornada con os-
cilaciones en torno a su valor medio o con inflexiones expresivas que pueden incluso
recorrer momentáneamente las frecuencias de otras notas vecinas.
El hecho de que sean posibles esas modificaciones frecuenciales durante la emisión de

una nota, constituye ya un rasgo sonoro característico de un grupo de instrumentos,
los llamados instrumentos de afinación libre —como es el violín—, un rasgo que los
diferencia de aquellos otros cuya frecuencia se mantiene totalmente estable a lo largo
de toda la duración de la nota, los instrumentos de afinación fija, como por ejemplo, el
piano. Incluso la mayor o menor libertad en la modificación de la frecuencia también
constituye un rasgo tímbrico. Así, por ejemplo, mientras el violín puede modificar
libremente la frecuencia de una nota sin interrumpir su emisión —hasta el extremo de
que la transición entre las notas puede realizarse de forma continua, sin necesidad de
una nueva emisión—, la flauta o el saxofón solamente pueden modificar ligeramente
la frecuencia durante la misma emisión de la nota. Así pues, se puede decir que la
modificación de la frecuencia en los instrumentos de afinación libre constituye
un elemento expresivo de primer orden a disposición del intérprete.
Para experimentar los rasgos acústicos que se derivan de los cambios en la frecuencia
de una nota a lo largo de su duración he fabricado dos vídeos. De manera semejante
a los vídeos anteriores, en cada uno de ellos en la parte de arriba se presenta la forma
de la vibración, a modo de osciloscopio, y en la parte inferior las correspondientes
envolventes de frecuencia. En ambos vídeos la nota que escuchamos sigue siendo un
la3 con una frecuencia de 220 Hz. En el primer vídeo se presenta el caso de un sonido
simple y en el segundo el de una nota formada por los tres primeros armónicos.
Con la finalidad de aislar los rasgos tímbricos específicos que se originan por la evo-
lución de la frecuencia, empezaremos examinando una nota musical constituida por
un solo componente. En el vídeo que presento a continuación podemos escuchar
tres sonidos simples que dan la misma nota, donde la única diferencia que hay entre
ellos reside en la envolvente de frecuencia.
205
Figura 9.5: Vídeo que muestra la influencia en el timbre de la envolvente de frecuencia en el caso
de un sonido simple.
El primer sonido nos sirve de referencia para facilitar la comparación. Durante su

emisión la frecuencia de la nota permanece totalmente estable y, en consecuencia, la
envolvente de frecuencia que se presenta en la parte de abajo es una línea horizon-
tal.
En el segundo sonido vemos que la frecuencia de la nota oscila en torno a su valor

medio, 220 Hz, dando lugar a un efecto sonoro denominado vibrato. Podemos apre-
ciar que este vibrato tiene su propia frecuencia de oscilación (no confundirla con la
frecuencia de la nota), que en este caso es de aproximadamente 4 oscilaciones por
segundo. También podemos observar la profundidad del vibrato, es decir, lo que se
aleja en su oscilación de la frecuencia media de la nota. En este caso, como es habitual
en la realidad, la profundidad del vibrato varía a lo largo de la duración de la nota. La
profundidad máxima de este vibrato es aproximadamente de 8 Hz, lo cual, para una
frecuencia media de 220 Hz, corresponde a un intervalo de unos 60 cents.
En el tercer sonido escuchamos una inflexión importante de la nota, similar a la que

podemos oír en una guitarra eléctrica cuando se sobretensa momentáneamente una
cuerda, bien con el dedo o con ayuda de una palanca destinada a tal fin, para lograr
mayor expresividad.
206
Así pues, hemos podido apreciar mediante este vídeo que las variaciones en la fre-
cuencia de una nota a lo largo de su emisión producen efectos acústicos que contri-
buyen a caracterizar el timbre de un instrumento y que proporcionan al sonido una
particular carga emotiva.
Para ver cómo se comporta la envolvente de frecuencia de cada uno de los compo-
nentes de un sonido armónico compuesto he confeccionado un vídeo que presenta
el vibrato de una nota formada por los tres primeros armónicos. El objetivo de es-
te vídeo es mostrar que la evolución de la frecuencia en los distintos componentes
presenta la misma forma, si bien sus valores están escalados.
Figura 9.6: Vídeo que muestra la influencia en el timbre de la envolvente de frecuencia en el caso
de un sonido compuesto.
Las dos repeticiones de la misma nota se diferencian sólo por la envolvente de fre-
cuencia. El primer sonido sirve también ahora de referencia para permitirnos la com-
paración. Se trata de un sonido en el que no ha habido modificación de la frecuencia
a lo largo de su emisión y por eso en la parte inferior, donde aparecen las envolventes
de frecuencia de los tres componentes, solamente se dibujan tres líneas horizontales
igualmente espaciadas.
El segundo sonido tiene un vibrato similar al del primer vídeo. Vemos que, como en
el anterior sonido, la frecuencia del segundo armónico es doble que la del primero
207
y la del tercero, triple. Dado que en las notas musicales los componentes, salvo lige-
ras matizaciones, son armónicos, sus envolventes de frecuencia mantienen la misma
forma y sólo se diferencian en el escalado correspondiente a su número armónico.
Así, en este caso, como la profundidad del vibrato del primer armónico es de 8 Hz,
la del segundo armónico es de 16 Hz y la del tercero de 24 Hz.
9.5. Conclusión
A lo largo de este capítulo hemos podido comprobar la influencia de la envolven-

te de frecuencia y de la envolvente de amplitud, tanto la general como la de cada
componente, en la cualidad tímbrica de las notas musicales. Estas envolventes cons-
tituyen una parte importante de la caracterización de los instrumentos musicales y
sirven también como vehículo expresivo de las intenciones del intérprete.
208
Capítulo 10
Análisis espectral de los sonidos

musicales
10.1. Introducción
En los capítulos anteriores hemos visto mediante el osciloscopio virtual distintos

ejemplos de señales de audio, es decir, de la forma que adquiere la vibración sonora a
lo largo del tiempo. Estas señales nos han ayudado a distinguir los rasgos caracterís-
ticos de los sonidos musicales y la manera en la que nosotros los percibimos. Hemos
podido comprobar que, en líneas generales, nuestra sensación auditiva no es capaz de
seguir el rápido movimiento de la vibración sonora, sino que atiende principalmente
a los parámetros de frecuencia y amplitud de los componentes que forman el sonido
musical.
En efecto, como veremos más adelante, nuestra percepción descompone el movi-

miento vibratorio que llega a nuestro oído, de modo que obtiene la frecuencia y la
amplitud de sus componentes sinusoidales. Por eso, para estudiar la realidad musi-
cal de una forma completa necesitamos una herramienta de análisis que nos permita
descomponer los sonidos en sus componentes sinusoidales y extraer sus parámetros
de frecuencia y amplitud (salvo circunstancias excepcionales, podemos ignorar la
fase inicial). Nos interesa pasar de una representación de la vibración en su desa-
rrollo temporal a una representación de la vibración en función de la amplitud de
209
los componentes que la constituyen o, dicho en términos más técnicos, pasar de la
representación en el dominio del tiempo a la representación en el dominio de la
frecuencia. Esta tarea se realiza mediante las técnicas de análisis espectral, llamado
también análisis frecuencial. En este capítulo me propongo explicar qué es el análisis
espectral del sonido, en particular, en el caso del sonido musical.
Hoy en día disponemos de algoritmos numéricos muy potentes que nos permiten
realizar el análisis de los sonidos y extraer la frecuencia y la amplitud de cada com-
ponente simple, los cuales pueden ser realizados con facilidad en un ordenador. La
Fast Fourier Transform (FFT) es capaz de descomponer un fragmento de señal en sus
componentes sinusoidales con gran eficacia. Pero me ha parecido que explicar en
qué consiste la Transformada de Fourier se alejaba del propósito de este curso. En su
lugar, creo que es más intuitivo, y no menos correcto, explicar el análisis frecuencial
utilizando el fenómeno de la resonancia. De hecho, hasta el desarrollo de las técni-
cas digitales los analizadores de espectro tradicionales consistían en una batería de
circuitos resonadores que medían la amplitud de cada componente presente en la
señal.
Por otra parte, explicar el procedimiento del análisis frecuencial a partir del fenó-
meno de la resonancia tiene la ventaja, a mi juicio, de que es más fácil de asimilar
para un lector sin conocimientos físicos ni matemáticos. Además, puesto que nuestro
sistema auditivo procede de una manera similar, este punto de vista nos va a permitir
entender mejor la forma en la que percibimos las frecuencias de los componentes que
constituyen los sonidos, la cual se produce por la localización de sus resonancias en
los diferentes puntos de la membrana basilar situada en nuestro oído interno.
El análisis espectral se utiliza habitualmente para sonidos o fragmentos musicales que

constan de múltiples componentes, por lo que es necesario conocer hasta qué pun-
to va a ser capaz de distinguirlos y localizarlos con precisión en el caso de que esos
componentes tengan frecuencias próximas. Veremos a lo largo de este capítulo que la
capacidad de resolución del análisis espectral está indisolublemente ligada a la dura-
ción del fragmento analizado, de modo que si queremos un análisis preciso y exacto
deberemos elegir una duración larga. El problema surge porque, en general, a menos
que lo que se pretenda sea obtener una especie de valor promediado útil en algunas
circunstancias, es necesario que los parámetros de los componentes permanezcan es-
tables durante el tiempo en el que se efectúa el análisis. Pero en el caso de los sonidos
210
musicales reales, aunque son mucho más estables que los del habla, generalmente la
estabilidad no se mantiene más allá de unos 50 milisegundos, por lo que, salvo cir-
cunstancias excepcionales, la longitud del fragmento no debe ser mucho mayor que
esa cantidad, de forma que podamos considerar, aunque sólo sea de forma aproxima-
da, que los parámetros han permanecido constantes durante el intervalo de tiempo
analizado.
En este capítulo veremos, en primer lugar, en qué consiste el análisis espectral y có-
mo se puede realizar mediante el fenómeno de la resonancia. Después estudiaremos
la cuestión esencial de los límites de su capacidad de resolución. A continuación ve-
remos cómo mediante el espectrograma es posible obtener una representación de la
evolución de los distintos componentes simples a lo largo del tiempo. Por último,
para ejemplarizar las ideas expuestas y para preparar la utilización de esta nueva he-
rramienta en el estudio de los sonidos reales, presentaré los espectrogramas de varios
sonidos característicos.
10.2. Un modelo ideal de analizador espectral mediante reso-

nancias
Imaginemos que disponemos de un piano ideal en el que las cuerdas vibran con to-
da facilidad, pues no hay apagadores. Además, las cuerdas de este piano imaginario
sólo tendrían un modo de vibración, el modo fundamental, es decir, sólo resonarían
cuando la frecuencia que las excitara coincidiera con su frecuencia natural o estuviera
próxima a ella. Las cuerdas de este piano imaginario, en lugar de estar espaciadas si-
guiendo la escala cromática, estarían separadas de hercio en hercio (aunque también
podrían haber estado separadas de décima de hercio en décima de hercio o de cual-
quier otra forma). Evidentemente este piano imaginario poseería miles de cuerdas,
tantas como quisiéramos. Lo que acabo de describir será nuestro analizador espectral
ideal.
Delante de este piano haremos sonar, imaginariamente claro está, los sonidos que
vayamos a analizar y luego mediremos la amplitud con la que vibra cada una de las
211
cuerdas que se han quedado resonando, representando los resultados en una gráfi-
ca.
En las gráficas de componentes frecuenciales que presentaré a partir de ahora consi-

deraremos que cada uno de los pequeños “palitos” que las constituyen corresponde
a una cuerda de nuestro piano imaginario. La altura que alcance cada uno de esos
palitos reflejará la amplitud relativa con la que se ha quedado resonando la cuerda
correspondiente, en una escala que va del 0 al 1. He asociado, de manera similar a
las gráficas del capítulo 7, un color a cada amplitud, dentro de una escala que se co-
rresponde con la de los colores por los que pasa el hierro al calentarse: el cero será el
negro absoluto; los valores próximos a cero serán de un rojo muy oscuro; progre-
sivamente, conforme los valores se incrementen, el rojo pasará a ser más brillante;
luego el rojo se transformará en amarillo; y finalmente, a medida que los valores se
van aproximando al 1, el amarillo se irá aclarando hasta llegar al blanco absoluto, que
representará el valor máximo, el 1.
Supongamos que delante de nuestro imaginario piano hacemos sonar durante un

segundo de duración un sonido simple de 220 Hz, un la3 formado por un único
componente. La elección de un segundo no ha sido algo casual, pues, como veremos
en el apartado siguiente, la duración del fragmento sonoro puede condicionar en
determinadas circunstancias la fiabilidad del análisis. La duración temporal que se
elige recibe habitualmente el nombre de “ventana de observación” o “ventana de
análisis”.
Ahora nos interesa comprobar cómo responde este analizador de espectro ideal al
sonido propuesto y averiguar si localiza bien la frecuencia. La gráfica de abajo re-
presenta las amplitudes de las cuerdas que quedarán resonando en el piano ideal. He
limitado la gráfica a la representación de los primeros 1.000 Hz.
212
Figura 10.1: Gráfica del análisis frecuencial de un sonido simple de 1 segundo.
Observamos en esta gráfica un pico muy destacado pintado de un color amarillo

muy luminoso, próximo al blanco, situado a la derecha de la cuadrícula que señala
los 200 Hz. Este pico correspondería a la cuerda del piano imaginario que se ha
quedado resonando con más fuerza y, en principio, coincidiría con el componente
sinusoidal que, como ya sabemos, constituye el sonido que estamos analizando. El
valor absoluto de su amplitud no nos interesa ahora, pues este parámetro sólo es
pertinente cuando hay más de un componente, pues permite comparar las diferentes
amplitudes.
Veamos un detalle de la zona que rodea a este componente, algo así como si hicié-
ramos un zoom positivo sobre la gráfica.
213
Figura 10.2: Detalle de la gráfica del análisis frecuencial de un sonido simple de 1 segundo.
Ahora distinguimos con claridad la representación de cada una de las cuerdas del
piano que han quedado resonando. Apreciamos que la cuerda que resuena con más
fuerza es la de 220 Hz. Pero, como podemos observar en la gráfica, al estar las cuerdas
de este piano separadas de hercio en hercio, en realidad solo podemos saber que la
frecuencia del componente del sonido analizado habrá sido mayor que 219,5 Hz y
menor que 220,5. En efecto, el margen de precisión de nuestro piano analizador de
espectro es de un hercio, aunque nada nos habría impedido añadir en medio muchas
más cuerdas a este piano imaginario y obtener la precisión que deseáramos.
Así pues, de este análisis se desprende que el componente presente en el sonido que
estamos analizando se corresponde con el pico destacado en la gráfica de las
amplitudes de las cuerdas resonantes. Pero eso no es todo. También observamos
que, en menor medida, algunas de las cuerdas laterales han obtenido cierta amplitud.
Esto parece intuitivamente coherente, pues el efecto de la resonancia también hace
vibrar las cuerdas cuya frecuencia es muy próxima a la del componente del sonido
que estamos analizando.
Cada una de las cuerdas de este hipotético piano resonará cuando en el sonido que
queramos analizar esté presente un componente sinusoidal muy próximo a su fre-
cuencia natural de vibración. En este caso la cuerda que resonará con más fuerza será
aquella que tenga una frecuencia natural lo más cercana a 220 Hz; pero las cuerdas
próximas, como es fácil de intuir, también resonarán, aunque sea en menor medida.
214
Estas cuerdas vibrarán también a la frecuencia de ese componente, en este caso, a
220 Hz, con independencia de la frecuencia exacta a la que cada una de ellas esté
afinada. La amplitud con la que vibren las cuerdas irá incrementándose conforme su
frecuencia natural sea más cercana a la del componente. Por eso en las gráficas nos
encontramos con que no aparece sólo un palito en la frecuencia de los 220 Hz, sino
que a ambos lados hay otras cuerdas/frecuencias que van decrementando su amplitud
a medida que su frecuencia natural de vibración se aleja de la que está sonando. No
obstante, en principio, esto no parece alterar la fiabilidad del resultado.
10.3. Relación entre duración temporal y resolución frecuen-

cial
Ahora bien, la pregunta es: ¿Siempre esto es así? ¿Todo resulta tan fácil? ¿Dispone-
mos, o mejor dicho, dispone la naturaleza de un medio tan sencillo para determinar
con precisión los componentes sinusoidales presentes en cualquier fragmento sono-
ro? La respuesta, desafortunadamente, es que no. Voy a realizar ahora el análisis del
mismo sonido de un solo componente de 220 Hz, pero acortando la duración del
fragmento a analizar: ahora haré sonar delante de nuestro piano imaginario sólo 50
milésimas de segundo (es decir, la ventana de análisis será de 0,05 s). Veamos lo que
ocurre en la gráfica de abajo.
Figura 10.3: Gráfica del análisis frecuencial de un sonido simple de 50 milisegundos.
215
Ahora observaremos un detalle de la zona entre 160 Hz y 280 Hz.
Figura 10.4: Detalle de la gráfica del análisis frecuencial de un sonido simple de 50 milisegundos.
Comprobamos ahora que, al reducir la cantidad de tiempo de la señal analizada, el

número y la importancia de las cuerdas laterales afectadas ha sido mucho mayor que
cuando analizábamos un segundo entero. Esto responde también a una cierta idea
intuitiva sobre la resonancia, pues todos hemos podido comprobar que el efecto de
la resonancia se aprecia más fácilmente cuando la señal que excita dura más tiempo.
Por lo tanto, vemos que la duración de la vibración analizada determina el número
de cuerdas próximas afectadas por la resonancia. Dicho de otra manera, el efecto
de la resonancia es más picudo conforme la duración del sonido que la provoca es
mayor.
Si se trata, como en este caso, de analizar un componente aislado no se plantea nin-

gún problema. Pero, ¿qué hubiera ocurrido si hubiéramos querido analizar una señal
con dos componentes que estuvieran próximos? Vamos a comprobarlo en los dos
ejemplos siguientes.
En el primero voy a analizar una señal formada por dos componentes sinusoidales
de la misma amplitud. La frecuencia del primero, igual que antes, es de 220 Hz (la3 ),
y la del segundo, de 233 Hz (sib3 ). La ventana de análisis (la duración del fragmento
216
analizado) será, como en el ejemplo anterior, de sólo 50 ms. Realicemos el análisis y
veamos los resultados.
Figura 10.5: Gráfica del análisis frecuencial de dos sonidos simples muy próximos de 50 milise-
gundos.
Comprobamos que el análisis efectuado con este tamaño de ventana ha sido inca-
paz de distinguir los dos componentes, el de 220 Hz y el de 233 Hz, que sabemos
que existen en la señal a analizar, y que, en su lugar, ha salido un solo componente
cuya frecuencia es la media aritmética de los otros dos, 226,5 Hz. Ciertamente, si
hubiéramos podido analizar un segundo entero de duración no habríamos tenido
ningún problema para distinguir nítidamente los dos componentes. En la siguiente
gráfica podemos ver el resultado de realizar el mismo análisis durante un segundo de
duración.
217
Figura 10.6: Gráfica del análisis frecuencial de dos sonidos simples muy próximos de 1 segundo.
En efecto, aquí los dos componentes han sido resueltos y además con toda la precisión
que había requerido al análisis.
Veamos ahora otro ejemplo de dos componentes un poco más separados. Vamos a
analizar una señal constituida por un componente de 220 Hz (la3 ) y otro de 262 (do4 ).
La duración del análisis va a ser también de 50 ms.
Figura 10.7: Gráfica del análisis frecuencial de dos sonidos simples de 50 milisegundos.
218
En este caso el análisis sí que ha sido capaz de distinguir los dos componentes. Ahora
bien, si nos fijamos en la localización de los picos máximos vemos que el componente
de 220 Hz ha sido desplazado a 232 Hz y el de 262 Hz a 250 Hz. Es decir, observamos
que la presencia de un componente próximo altera de manera notable la fiabilidad
del resultado obtenido.
Resumiendo, nos encontramos con que al reducir el tamaño de la ventana de

análisis disminuye su capacidad para discernir componentes distintos y la pre-
cisión con la que puede determinar su frecuencia. Este problema plantea una
cuestión esencial: si queremos obtener una buena resolución en frecuencia necesita-
mos una duración temporal larga. Pero la realidad es que el sonido musical va evolu-
cionando con el tiempo y los parámetros de sus componentes solamente permanecen
relativamente estables durante un tiempo pequeño, unas cincuenta milésimas de se-
gundo.
Así pues, a la hora de efectuar un análisis frecuencial de un fragmento musical siem-

pre hemos de buscar una opción de compromiso. Podremos utilizar una ventana de
mayor duración, pero en ese caso tendremos que asumir que lo que obtendremos
en el análisis será una especie de promediado de la evolución de los acontecimientos
sonoros que se hayan producido en ese tiempo. Podremos elegir una ventana de cor-
ta duración para garantizar que el fragmento analizado sea suficientemente estable,
pero en ese caso deberemos asumir que si coinciden componentes próximos puede
que el análisis no sea capaz de distinguirlos o al menos que pierda precisión en su
localización.
10.4. El espectrograma
Como he dicho ya, los parámetros de los componentes sonoros en los sonidos reales
no suelen permanecer estables, sino que evolucionan a lo largo de su duración. Por
ello, para analizar un fragmento sonoro nos interesará muchas veces obtener una re-
presentación que muestre la evolución de los valores de amplitud y de frecuen-
cia de cada componente durante el tiempo que dura el sonido. Habitualmente
esta representación recibe el nombre de espectrograma.
219
Un espectrograma no es otra cosa que una forma de representar gráficamente los
sucesivos y solapados análisis frecuenciales que se pueden hacer a lo largo de un so-
nido o de un fragmento de una interpretación. Esta forma de representación guarda
mayor afinidad con la manera en la que nosotros oímos que la representación de la
señal de audio que hemos visto en el osciloscopio.
En los vídeos en los que se simulaba un osciloscopio y en las gráficas en las que se
mostraba el desplazamiento de la vibración en relación al tiempo hemos tenido una
representación puramente temporal del hecho físico de la vibración. Acabamos de
ver también en qué consiste una representación puramente frecuencial, donde no
importa cuándo se han producido los componentes sonoros, sino sólo su frecuen-
cia y su amplitud relativa. Ahora bien, ninguna de estas dos formas coincide con la
manera en la que oímos. Oímos frecuencias, pero oímos frecuencias que cambian
en el tiempo, bien porque unas dejan de sonar y surgen otras, bien porque las que
estaban sonando evolucionan en amplitud, o bien porque desparecen y surgen otras
frecuencias. No obstante, en lo que concierne al sonido musical, hay cierto margen
de tiempo en el que las cosas, salvo momentos especiales de transición, parecen cam-
biar poco, es decir, hay momentos en el que se puede considerar que la vibración
es casi estable, pues los componentes y sus parámetros no han sufrido grandes cam-
bios. Como he dicho al principio de este capítulo, el tamaño que se suele considerar
adecuado para este intervalo temporal viene a ser de unas 50 milésimas de segundo.
Si cada 50 ms se va haciendo un análisis que va progresivamente desplazándose en
el tiempo y solapándose, la evolución de los parámetros será más fiable y responderá
más a la realidad que si se hace un análisis en intervalos más grandes o más peque-
ños.
Mediante el vídeo que pongo a continuación voy a explicar más detenidamente có-
mo podemos obtener un espectrograma. Voy a utilizar para este ejemplo los primeros
compases del adagio de la Sonata para violín solo de J. S. Bach (BWV 1001). Para fa-
cilitar la presentación, he limitado la banda de los componentes a los primeros 2.000
Hz. Veamos primero el vídeo.
220
Figura 10.8: Vídeo que muestra la obtención de un espectrograma.
Recomiendo ir parando el vídeo en el momento que se considere oportuno para en-

tender mejor lo que sucede. Encontraremos una imagen similar a la siguiente.
Figura 10.9: Instantánea del vídeo de la figura 10.8.
221
En el panel de la izquierda tenemos la representación temporal de la vibración a mo-
do de osciloscopio, es decir, la forma de la vibración a lo largo del tiempo. Al estar en
la figura 10.9 la imagen detenida, he podido añadir la localización temporal precisa:
el fragmento de señal analizado en este cuadro del vídeo corresponde al intervalo
de tiempo transcurrido entre el segundo 10,360 y el 10,410. En total son las 50 mi-
lésimas de segundo que constituyen la duración de los fragmentos que analizamos.
Podemos observar que en esta ocasión la forma de la vibración ha permanecido casi
prácticamente estable durante ese intervalo de tiempo. Sin embargo, si hubiéramos
detenido el vídeo en algún otro momento, especialmente en el ataque de alguna
nota, nos hubiéramos encontrado con una situación más inestable.
En el panel de la derecha tenemos la representación frecuencial, es decir, los compo-

nentes que constituyen la señal que estamos viendo en el panel de la izquierda. Esta
representación sigue los mismos criterios que acabamos de ver en los apartados an-
teriores, es decir, muestra el análisis frecuencial. He aumentado proporcionalmente
la amplitud para que en el espectrograma inferior resaltaran más los componentes
pequeños. En esta ocasión vemos que aparecen destacados 6 picos que correspon-
den a los 6 primeros armónicos de la nota re4 , cuya frecuencias son, redondeando
en hercios: 294,7 Hz, 587,4 Hz, 881,1 Hz, 1174,8 Hz, 1.468,5 Hz, 1.762,2 Hz. Las
amplitudes están también acompañadas de una escala de colores, como la que he des-
crito antes. El componente primero se ve claramente destacado y el pico presenta un
color amarillo luminoso que se aproxima ya al blanco. Los componentes segundo y
el tercero tienen también una amplitud considerable y su color es un rojo brillan-
te, siendo ligeramente mayor el tercero que el segundo. Los componentes cuarto,
quinto y sexto van progresivamente perdiendo amplitud y sus colores van siendo
cada vez más oscuros. A lo largo del vídeo podemos ver como esta gráfica va evo-
lucionando siguiendo los cambios en el sonido. Dicho de otra manera, conforme el
sonido va pasando por el panel izquierdo, la representación frecuencial de la derecha
se va actualizando.
En el panel de abajo vemos cómo se va construyendo el espectrograma del frag-

mento. Si nuestro reproductor de vídeo nos permite avanzar de cuadro en cuadro
veremos que en cada cuadro tenemos un desplazamiento de la señal hacia la izquierda
en la ventana temporal del panel de la izquierda, una actualización de su represen-
tación frecuencial en el panel de la derecha y, por último, una nueva columna de
222
píxeles en el panel inferior. Esa nueva columna de píxeles presenta los valores fre-
cuenciales correspondientes al análisis frecuencial del cuadro que estamos analizando,
utilizando simplemente los mismos colores que hemos obtenido en la representación
frecuencial, de tal forma que aquí prescindimos de la longitud del componente y la
representamos únicamente por el color. Así por ejemplo, si en el visor de imágenes
con el que estamos examinando esta gráfica hacemos un zoom considerable, hasta el
extremo de poder ver píxeles aislados, y nos fijamos únicamente en la última colum-
na de píxeles del espectrograma que estamos construyendo y que hemos detenido,
veremos que los picos que hemos visto en el panel de las frecuencias se corresponden,
con sus mismos colores, con los píxeles que vemos destacados en esta último columna
de la imagen. Tal vez el componente más agudo nos aparezca un poco desvaído, pe-
ro aun con todo nos resultará fácil ver cómo esta columna de píxeles se corresponde
y representa la amplitud de cada componente frecuencial analizado en el panel de la
derecha.
Esta forma de representación nos permite dejar un rastro de lo que hemos visto que
ha ido sucediendo a lo largo del tiempo en el panel de las frecuencias. De este modo
tenemos una representación frecuencial actualizada con el paso del tiempo. Y esto es
ya similar a la manera en la que nosotros oímos y a la que en la realidad se producen
la mayor parte de los acontecimientos sonoros. Así pues, el espectrograma es la forma
de representación más idónea del sonido de un fragmento musical.
10.5. Interpretación de los espectrogramas
Voy a presentar a continuación varios espectrogramas para mostrar cómo podemos

interpretar las imágenes que ofrecen. Utilizaré los mismos ejemplos sonoros que he-
mos visto en anteriores capítulos, lo cual nos permitirá comparar la información que
nos proporciona el espectrograma con la que obteníamos en el osciloscopio. He con-
feccionado mediante Matlab varios vídeos para facilitar el seguimiento del sonido en
el espectrograma. La imagen del vídeo muestra el espectrograma del fragmento com-
pleto, mientras la línea verde vertical se va desplazando marcando el instante que está
sonando. Todos los espectrogramas presentan sólo los primeros 4.000 Hz.
223
10.5.1. Espectrograma de sonidos armónicos estables
Comenzaré con el espectrograma que corresponde al vídeo de la figura 7.4 del ca-
pítulo 7, donde se muestra cómo la incorporación de los sucesivos componentes
armónicos aproxima la forma de la vibración a la de un diente de sierra y cómo re-
percute esta incorporación en la cualidad sonora. En este ejemplo suena ocho veces la
misma nota, un la3 a 220 Hz. Empieza sonando el componente fundamental aislado,
un sonido simple de 220 Hz, y luego se van incorporando sucesivamente todos los
componentes de la serie armónica, hasta llegar al octavo armónico.
Figura 10.10: Vídeo con el espectrograma de la generación de una señal en diente de sierra a partir
de los componentes consecutivos de la serie armónica.
En este espectrograma podemos observar que cada componente aparece representa-

do por una línea horizontal, lo que indica que la frecuencia de todos ellos permanece
constante durante la emisión de cada nota. Así mismo, por el color podemos apre-
ciar que la amplitud de cada componente es la misma en todas las repeticiones de la
nota en las que está presente, y también que la amplitud de los componentes que van
apareciendo es progresivamente menor. Así vemos que el primer armónico o fun-
damental presenta la mayor amplitud, pues su color es casi blanco, que el color con
el que está representado el segundo armónico es amarillo dorado y que los siguientes
son rojos cada vez más oscuros.
224
Podemos ver también en el espectrograma con total claridad la estructura armónica
que forman el conjunto de los componentes de la nota, pues todos ellos están sepa-
rados entre sí por la misma distancia, una distancia que coincide con la frecuencia
del primer componente.
10.5.2. Espectrograma de sonidos armónicos cuyos componentes cambian

de amplitud
Veamos ahora cómo queda reflejado en un espectrograma la evolución en amplitud

de los componentes armónicos de un sonido. He elegido tres sonidos cuya forma de
vibración ya habíamos examinado en el capítulo 9, cuando estudiábamos las envol-
ventes de amplitud. En todos los ejemplos los sonidos están formados por los cuatro
primeros armónicos y su frecuencia fundamental es 220 Hz, correspondiente a la
nota la3 . En el primer caso se produce un retraso en el momento del ataque de los
componentes superiores (figura 9.3 del capítulo 9); en el segundo hay cambios en
las amplitudes respectivas de cada componente durante el mantenimiento del sonido
(figura 9.4 del capítulo 9); y en el tercero ocurre que los componentes superiores se
extinguen mucho más rápidamente que los inferiores (figura 9.2 del capítulo 9).
Figura 10.11: Vídeo con el espectrograma de tres sonidos armónicos formados por componentes
cuya amplitud evoluciona de diferentes formas.
225
A diferencia de la representación de la señal en el tiempo que veíamos en el oscilosco-
pio, donde no podíamos distinguir los componentes individuales, este espectrograma
nos muestra de forma clara la evolución de la amplitud de cada componente que for-
ma el sonido. En primer lugar podemos observar que en todos los casos estamos ante
un sonido armónico, pues las distancias entre los componentes son iguales. Por otro
lado, los cambios en el color de cada componente a lo largo de su duración nos in-
dican que ha variado su amplitud. En el espectrograma se puede distinguir también
el carácter más o menos abrupto del ataque y de la extinción de las notas.
Si pasamos a analizar caso por caso, nos encontramos con que en el primer sonido la
amplitud de los componentes superiores es progresivamente menor, pues vemos que
el componente primero es el que presenta mayor luminosidad, mientras que el último
es el más oscuro. Se aprecia también claramente en el momento del ataque un retraso
de los sucesivos componentes, siendo el fundamental el primero que entra. Por el
contrario, vemos que en la extinción del sonido todos los componentes se apagan
simultáneamente (si bien los componentes de mayor amplitud parecen prolongarse
un poco más, esto se debe solamente a que los colores más oscuros se funden antes con
el negro). Vemos también que las líneas que representan los componentes cambian
de color durante la parte inicial del sonido, aproximadamente en la primera décima
de segundo, desde un rojo muy oscuro que se funde casi con el negro del fondo,
hasta llegar al color que mantendrán durante la mayor parte de la emisión. Esto es
indicativo de que el ataque de la nota ha sido más bien suave, tal como apreciamos
al oírla. Así mismo, en la etapa final de la nota vemos que los componentes van
perdiendo luminosidad, lo que hace que parezca que se vayan adelgazando. Esto
corresponde a la extinción suave que oímos.
En el segundo sonido los ataques de los componentes son simultáneos y menos sua-
ves que en el primero, como podemos observar en el hecho de que se alcanza más
rápidamente el color que mantendrá cada componente durante la emisión. Así mis-
mo, vemos que la forma en la que se extinguen es similar a la del sonido primero.
Los cambios de color que observamos durante su etapa intermedia nos indican que
la amplitud de los componentes superiores, en especial el segundo y el tercero, se va
haciendo progresivamente mayor, hasta superar, aproximadamente a la mitad de la
duración del sonido, a la del fundamental; luego vemos que se invierte la tendencia
y se recupera la situación inicial. Esto coincide con el cambio de cualidad sonora que
226
apreciamos: el sonido comienza con un carácter más bien suave, va ganando cuerpo
y un poco de aspereza, y finalmente retorna a la suavidad.
En el tercer caso, como en el primero, la representación de los componentes es pro-

gresivamente más oscura, lo que nos indica que su amplitud es menor conforme
mayor es su frecuencia. Cada uno de los componentes tiene mayor intensidad lu-
mínica al inicio de la emisión de la nota y luego se oscurece hasta casi desaparecer.
Podemos ver en el espectrograma que los cuatro componentes han surgido a la vez.
Por el contrario, la extinción se ha realizado de forma claramente desfasada, de tal
modo que al final sólo queda sonando el componente fundamental, como podemos
ver por la desaparición de las líneas que representan cada componente en el espec-
trograma. Si nos fijamos un poco más, vemos que el ataque abrupto que oímos se
traduce en una línea vertical en el espectrograma, que se extiende por arriba y por
abajo de la posición del respectivo componente y que luego, en forma de una especie
de embudo, va a desembocar en la línea que le corresponde por su frecuencia. Esto
se debe a que el ataque abrupto es similar al ruido, es decir, contiene una banda muy
amplia de frecuencias. Podemos ver que la inestabilidad inicial es ruidosa y pasa cierto
tiempo hasta que el sonido alcanza la estabilidad. Cuando veamos sonidos reales, los
ataques abruptos vendrán caracterizados por esa forma de embudo que desemboca
en la zona más luminosa del componente.
10.5.3. Espectrograma de sonidos cuyos componentes modifican su frecuen-

cia
A continuación vamos a ver un conjunto de casos en los que podremos apreciar

cómo se observa la evolución de la frecuencia en un espectrograma. Los sonidos son
los mismos que los que utilicé en el capítulo 9 al explicar la envolvente de frecuencia.
Los tres primeros sonidos corresponden a la figura 9.5 y los otros dos a la figura
9.6.
227
Figura 10.12: Vídeo con el espectrograma de varios sonidos cuya frecuencia evoluciona de diferentes
formas.
Al igual que en los ejemplos anteriores y a diferencia de la representación de la señal

en el tiempo, el espectrograma nos permite apreciar la evolución de cada compo-
nente por separado.
En el primer caso observamos un componente aislado que mantiene constante su

frecuencia, como podemos ver por su horizontalidad. En el segundo, vemos unas
oscilaciones que reflejan perfectamente el vibrato que oímos. En él podemos apreciar
que la profundidad del vibrato aumenta y luego disminuye, pues las ondulaciones se
hacen más pronunciadas y luego menos, aunque vemos también que el ritmo de las
oscilaciones —es decir, la frecuencia del vibrato— permanece constante. En el tercer
sonido apreciamos un incremento significativo de la frecuencia tras el ataque, que
luego baja de nuevo hasta alcanzar el nivel correspondiente en el que ya se mantie-
ne horizontal. En el cuarto caso tenemos un sonido formado por tres componentes
armónicos que mantienen su frecuencia constante, como podemos apreciar en su
horizontalidad. Y en el quinto, vemos los mismo tres componentes anteriores, pero
ahora con un vibrato similar al del segundo sonido. En él podemos apreciar que las
ondulaciones del segundo componente son el doble de profundas que las del primero
y que las del tercero son el triple que las del primero, como era lógico de esperar,
pues los sonidos siguen siendo armónicos durante el vibrato.
228
10.5.4. Espectrograma de ruido blanco y sonido simple
Una vez visto cómo se pueden observar en un espectrograma los componentes y la

respectiva evolución de sus parámetros de frecuencia y amplitud, vamos a examinar
un elemento que también está presente de una u otra manera en los sonidos musicales:
el ruido. Para ver cómo aparece representado el ruido en un espectrograma y cómo
se distingue inmediatamente de un sonido musical voy a utilizar el ejemplo de la
figura 3.1 del capítulo 3, donde veíamos la representación en el osciloscopio del ruido
blanco, aquél que contiene todas las frecuencias del espectro, y de su opuesto, un
sonido simple.
Figura 10.13: Vídeo con un espectrograma de ruido blanco y de un sonido simple.
La representación espectral del ruido blanco es el granulado de la izquierda, mien-

tras que la línea blanca de la derecha corresponde al sonido simple. Si hubiéramos
extendido la representación del espectrograma más allá de los 4.000 Hz hubiéramos
seguido observando ese mismo granulado en toda la franja audible. Idealmente un
ruido blanco contiene todas las frecuencias con la misma amplitud, por lo que de-
beríamos haber visto, en lugar de este granulado, un rectángulo plano de un color
uniforme. Pero la aleatoriedad absoluta sólo es posible en la idealidad. Para ello de-
beríamos haber dispuesto de una duración infinita y haber tenido una garantía total
229
de que los números que hemos obtenido para generar el ruido blanco fueran perfec-
tamente aleatorios, no pseudo-aleatorios, como los que hemos utilizado. Así mismo,
cuando observamos el componente aislado, un sonido simple, deberíamos haber vis-
to una línea infinitamente fina, la correspondiente solamente a esa precisa frecuencia.
Sin embargo, en los espectrogramas siempre vemos para cada componente una línea
con un cierto grosor. Estas son las aproximaciones con las que vamos a ver las señales
en los espectrogramas que realicemos habitualmente.
10.5.5. Espectrograma de ruido de tráfico y de habla
Quiero ahora presentar un ejemplo en el que se toman dos situaciones de la vida

real en las que no hay sonido musical. Ambos ejemplos corresponden también al
capítulo 3: el primero consiste en la primera parte de la figura 3.4, que contiene
ruido de tráfico en un día de lluvia, y el segundo en la primera parte de la figura 3.10
en el que una locutora de radio dice unas pocas palabras.
Figura 10.14: Vídeo con un espectrograma de ruido de tráfico y de una locutora de radio.
En la primera parte vemos con claridad el ruido blanco producido por la lluvia, que
cubre todo el espectro de frecuencias de una manera homogénea. En la parte de abajo
del espectro vemos una forma granulada, correspondiente también a ruido, pero que
230
se sitúa en una zona de más bajas frecuencias. Es el ruido propio del tráfico. Vemos
también como el motor de un coche, al acelerar, se refleja en la aparición de unos
componentes que suben rápidamente su frecuencia. Y oímos en medio de ese ruido
un sonido armónico, la bocina de un coche, como se puede apreciar con claridad
por la distribución vertical de componentes igualmente espaciados que se observan
en torno al segundo nueve y con menos claridad un poco antes del segundo 4.
En la segunda parte del espectrograma, cuando oímos hablar a la locutora, vemos una
alternancia entre breves fragmentos de sonidos armónicos y un granulado organiza-
do en barras verticales. Es la alternancia entre ruido y sonido armónico característica
del habla, simplificando un poco, la alternancia entre consonantes y vocales. Vemos
también que las vocales cambian de frecuencia siguiendo unos esquemas ascenden-
tes y descendentes dentro de unos pequeños márgenes. Estos esquemas son los que
constituyen la entonación del habla.
10.6. Conclusión
En este capítulo hemos estudiado cómo se puede descomponer una vibración cual-
quiera en la suma de los componentes sinusoidales que la constituyen, cada uno con
su propia frecuencia y amplitud. Al hacer esto hemos obtenido una representación
frecuencial del sonido analizado. Así mismo, dado que habitualmente los parámetros
de los componentes armónicos que constituyen el sonido musical cambian a lo largo
del tiempo, hemos visto que el espectrograma es una forma adecuada de representar
esta evolución, pues muestra para cada instante la frecuencia y la amplitud de los
componentes que forman el sonido.
231
Capítulo 11
El timbre
11.1. Introducción
El sonido de los instrumentos musicales, entre los que hay que incluir el de la voz
humana en el canto, es una realidad acústica mucho más compleja que el sonido ge-
nerado artificialmente que hemos utilizado en la mayor parte de los ejemplos de los
capítulos anteriores. El sonido habitual que oímos en las notas que forman una pieza
musical interpretada por instrumentos acústicos posee unas cualidades que le pro-
porcionan, por así decir, un grosor y una textura que lo hacen rico y variado, tiene
“algo” que percibimos como vivo y de lo que suelen carecer los sonidos artificiales.
Estas cualidades son las que dotan a cada sonido musical de una individualidad, una
individualidad que va a conservar incluso cuando se mezcle con otros sonidos, como
ocurre, por ejemplo, en los acordes dados en el mismo instrumento o cuando la mis-
ma nota es emitida simultáneamente por dos instrumentos distintos. Este conjunto
de cualidades sonoras constituyen lo que llamamos el timbre del sonido.
La palabra “timbre” se suele usar en sentido estricto para designar los rasgos especí-
ficos que caracterizan los sonidos propios de uno u otro instrumento. Así, se habla
del timbre del violín, del clarinete, del piano, etc. Sin embargo, el término “timbre”
también puede ser utilizado para nombrar el conjunto de marcas diferenciadoras que
individualizan el sonido de cada nota musical concreta, al margen de su altura tonal o
de su volumen sonoro. Estas marcas tímbricas no sólo diferencian un sonido de otro
232
dentro del mismo instrumento, sino que hacen que una misma nota dada en el mis-
mo instrumento posea una cualidad sonora particular dependiendo del “toque” del
intérprete, el cual puede hacer incluso que suene de diferente modo en los distintos
momentos de su interpretación.
La palabra “timbre” significa precisamente esto: sello. Podemos considerar, así pues,
que el timbre es el sello propio que posee cada sonido, bien sea por su perte-
nencia a un tipo de instrumentos o a un instrumento concreto, o bien incluso
por la acción intencionada del instrumentista. En este último sentido decimos
que el instrumentista “timbra” de una u otra manera cada uno de los sonidos que
ejecuta, dotándolos de unas marcas específicas que forman parte del sello de su in-
terpretación.
En líneas generales, podemos decir que los sonidos producidos por la práctica totali-
dad de los instrumentos musicales son el resultado de la interacción de dos sistemas:
uno, la fuente de excitación sonora, aquellos mecanismos mediante los cuales se pro-
voca y se mantiene la vibración, como son, por ejemplo, las cuerdas en el piano; otro,
las estructuras que actúan de resonadores y que modifican la composición del sonido
emitido por la fuente, como es, por ejemplo, la caja de resonancia. Las posibilidades
de acción sobre cada uno de estos sistemas que ofrece cada instrumento al intérprete
completan su caracterización tímbrica, como ocurre, por ejemplo, con el vibrato en
los instrumentos de afinación libre. Estas posibilidades son los recursos expresivos
con los que cuenta el intérprete para transmitir su idea musical.
Pero no todos los instrumentos permiten al intérprete las mismas posibilidades. En

unos casos puede modificar los parámetros acústicos a lo largo de la emisión de un
sonido, como ocurre en la voz humana, el más versátil de los instrumentos, donde el
cantante puede controlar la amplitud y la frecuencia de la fuente sonora (sus cuerdas
vocales), pero también, y especialmente, puede modificar la forma de los resonado-
res (su órgano bucal). Esto último le permite incrementar o disminuir la amplitud
de unos u otros componentes frecuenciales, modificando a su voluntad y de forma
constante la cualidad tímbrica del sonido que está emitiendo. El caso opuesto es el
del clavecinista, por ejemplo, quien dispone casi exclusivamente de la posibilidad de
disparar el mecanismo de producción del sonido mediante su acción sobre la tecla,
pero, a partir de ahí, todo lo que sucede en el sonido viene ya determinado por la
233
propia constitución del instrumento, careciendo el intérprete de cualquier medio de
modificación.
Aunque el estudio del timbre no se presta con facilidad a un análisis sistemático, un

conocimiento de las causas que dan lugar a las diferentes marcas y matices tímbricos
que conforman el sonido de los instrumentos es esencial para entender verdadera-
mente en qué consiste el sonido musical, el “material” con el que se construye la mú-
sica. Por otra parte, analizar sonidos reales nos va a ayudar a entender cómo nuestro
sistema perceptivo es capaz de organizar el conjunto sonoro que llega a nuestros oí-
dos y extraer de él las diferentes voces. Y esto es algo que está detrás de todo nuestro
sistema musical.
Para realizar un análisis sistemático del timbre del sonido musical tendríamos que es-
tudiar su “color”, es decir, el número de armónicos y su jerarquía; las envolventes de
amplitud y de frecuencia de cada componente; los formantes, es decir, las resonancias
propias de cada instrumento; los transitorios, es decir, los breves milisegundos que
transcurren hasta que el sonido se estabiliza; la presencia de ruido y sus caracterís-
ticas; la posible existencia de algún componente no armónico; etc. Pero el estudio
sistemático de todos estos factores excedería el propósito de este capítulo, por lo que
me voy a limitar a ofrecer unos cuantos ejemplos ilustrativos que muestran cómo el
sonido conserva la “marca” del instrumento que lo ha producido y la “gestualidad
sonora” que ha realizado el intérprete. A través de estos ejemplos observaremos tam-
bién que nuestra percepción es capaz de detectar esas marcas tímbricas y con ello de
seguir y reconocer, hasta cierto punto, la individualidad de cada sonido en medio de
otros.
Así pues, en este capítulo vamos a adentrarnos en el complejo mundo de la “vida real”
de los sonidos musicales. Comprobaremos que en la mayoría de los sonidos musi-
cales es habitual que cierto componente de ruido acompañe a la parte armónica del
sonido. Veremos, por ejemplo, que cuando un instrumento emite una nota, lo más
común es que los parámetros de cada uno de los componentes simples que la consti-
tuyen evolucionen de diferente modo a lo largo del tiempo de su emisión y que eso
interviene en el timbre del sonido que escuchamos. Además, podremos experimen-
tar que los componentes sinusoidales de los sonidos de algunos instrumentos, como
es el caso del piano, no son estrictamente armónicos, es decir, las frecuencias de sus
componentes no son múltiplos exactos del fundamental.
234
En primer lugar me ocuparé del conjunto de rasgos que pertenecen a lo que habi-
tualmente se denomina el contenido espectral de un sonido y que determinan sus
cualidades sonoras, su color. Puesto que el espectrograma nos ofrece una imagen
bastante completa de la “vida” del sonido musical, utilizaré varios vídeos con espec-
trogramas que nos permitirán observar los rasgos tímbricos que están vinculados a la
estructura y a la evolución individual de los componentes frecuenciales, así como la
posible presencia de ruidos característicos que acompañan a la emisión. En segundo
lugar mostraré la importancia que para la caracterización del timbre tiene la evolu-
ción temporal de los parámetros del sonido en su conjunto, es decir, la envolvente
de amplitud y la envolvente de frecuencia.
11.2. Rasgos tímbricos derivados del contenido espectral
Empezaremos estudiando, a modo de ejemplo, los rasgos más destacados que se pue-
den observar en el contenido espectral de unos cuantos sonidos instrumentales. Se
trata de sonidos de piano, de violín y de clarinete. He procurado elegir ejemplos en
los que sea fácilmente apreciable la relación entre lo que vemos en el espectrograma
y lo que oímos.
El primer ejemplo consiste en dos frases breves formadas por notas salteadas del regis-
tro medio-grave del piano. La segunda frase se repite al final con un toque más suave.
Las notas son: sib2 , mib3 , solb3 ,dob3 ; mib3 , lab3 , dob4 , re3 ; mib3 , lab3 , dob4 , re3 .
El segundo ejemplo pertenece al registro medio-agudo del piano y consiste en una

frase formada principalmente por notas consecutivas: la4 , si4 , do5 , re5 , mi5 , do5 , si4 ,
la4 , fa5 .
Esta frase se repite dos veces, la primera con un toque intermedio y la segunda con
un toque más duro. Tanto en este ejemplo como en el anterior las notas de cada frase
están ligadas y no he utilizado ningún pedal.
El tercer ejemplo consta de una frase de violín y otra de clarinete. La frase de violín
está formada por tres notas: la primera es sol3 , la nota más grave del violín que se
obtiene con la cuarta cuerda al aire; la segunda y la tercera son fa#5 y sol5 , esta últi-
ma ejecutada con vibrato. La frase de clarinete está formada por dos pares de notas
235
ligadas, de las cuales las segundas son el resultado de abrir el portavoz sin modificar
la posición. La primera pareja la forman el re3 , la nota más grave del clarinete en sib
con todos los orificios tapados, y el la4 , la misma posición con el portavoz abierto.
La segunda pareja está compuesta por el mib3 y el sib4 .
Para cada uno de los tres ejemplos presentaré dos vídeos con sus correspondientes
espectrogramas, a fin de mostrar, mediante la modificación de la escala de color, di-
ferentes aspectos de su contenido espectral. En todos los espectrogramas la duración
de la ventana de análisis ha sido de 50 milésimas de segundo, lo que, como vimos,
da como resultado un compromiso aceptable entre la resolución en tiempo y en fre-
cuencia. De esta forma podremos distinguir con suficiente claridad los componentes
que constituyen cada sonido y a la vez seguir su evolución temporal.
En el primero de los dos espectrogramas de cada ejemplo la escala de colores refleja

linealmente las amplitudes de cada componente, desde el negro, que corresponde
al 0, hasta el blanco, que corresponde al 1, con todas las gradaciones intermedias,
como indiqué en el capítulo dedicado al análisis espectral. Dado que, en general, la
amplitud relativa de los componentes muy agudos es muy pequeña, con esta escala
de colores no se observa prácticamente ningún componente más allá de los 5.000
Hz, por lo que he limitado el rango de estos espectrogramas a esta frecuencia.
El segundo espectrograma de cada ejemplo nos va a permitir observar con claridad

los componentes que están en la banda alta de frecuencias. Aunque la amplitud de
estos componentes muy agudos es, en general, muy pequeña, nuestro oído es muy
sensible a su presencia y, si bien su importancia para el reconocimiento de la altura
tonal es escasa, influyen mucho en el color del sonido. Si los componentes que se
encuentran en esas zonas superiores del espectro no fueran importantes para nuestra
percepción acústica, no tendría sentido que los reproductores de música de calidad
se distinguieran, entre otras cosas, por su capacidad para reproducir con fidelidad
los componentes más agudos. Para hacer visibles estos componentes muy agudos he
modificado la escala de colores, de tal forma que el color blanco representa ahora
cualquier amplitud superior a una centésima, dentro de la escala normalizada del 0
al 1. Al hacerlo así, surgen del fondo oscuro del espectrograma nuevos componentes
que antes estaban fundidos con el color negro. Ahora bien, desaparecen las diferen-
cias entre las amplitudes que se pueden apreciar con la escala de color sin alterar de
los primeros espectrogramas, ya que cualquier valor superior a una centésima queda
236
representado ahora por el color blanco. Esto explica el engrosamiento que se observa
en los componentes más graves. Esta escala de color nos permitirá también apreciar
mejor la presencia de ruido y su influencia en la caracterización de los sonidos mu-
sicales. No obstante, he limitado el rango de estos segundos espectrogramas a los
10.000 Hz, pues, aunque desde el punto de vista de la calidad de la reproducción so-
nora son muy importantes los componentes que están por encima de esta frecuencia,
para nuestro estudio sobre las marcas tímbricas este límite es suficiente.
Veamos, pues, uno detrás de otro los vídeos con los tres ejemplos sonoros y sus co-
rrespondientes espectrogramas. Recomiendo ver y escuchar con detenimiento cada
uno de los vídeos para adquirir familiaridad a la hora de relacionar lo que se ve con
lo que se oye.
237
Figura 11.1: Vídeo con el espectrograma de una melodía de piano en el registro medio-grave.
Figura 11.2: Vídeo con el espectrograma de banda alta de la melodía de piano de la figura 11.1.
238
Figura 11.3: Vídeo con el espectrograma de una melodía de piano en el registro medio-agudo.
Figura 11.4: Vídeo con el espectrograma de banda alta de la melodía de piano de la figura 11.3.
239
Figura 11.5: Vídeo con el espectrograma de unas notas de violín y clarinete.
Figura 11.6: Vídeo con el espectrograma de banda alta de las notas de violín y clarinete de la figura
11.5.
Lo primero que podemos observar es que todos estos espectrogramas son de sonidos
naturales, es decir, de sonidos producidos por instrumentos acústicos, pues podemos
apreciar imperfecciones, ruidos y variaciones que lo hacen rico y “vivo”. Así, en el
espectrograma de banda alta del primer ejemplo, el de la figura 11.2, observamos que
240
aproximadamente en el segundo 12,5 aparece una pequeña franja vertical. Si el vo-
lumen del altavoz de nuestro reproductor es lo suficientemente alto, reconoceremos
en ese momento el ruido que se ha producido al levantar la tecla que ha dado el re3 .
Un poco más adelante (en la penúltima nota, en torno al segundo 16,7, casi al final de
la duración del dob4 ) oímos un pequeño ruido sordo que enmascara momentánea-
mente el sonido de la nota y que se corresponde con una pequeña franja vertical en el
espectrograma. Y al finalizar el pasaje, en la última nota (un poco antes del segundo
18) oímos y vemos en el espectrograma un pequeño chasquido ambiental. Por otra
parte, el granulado que está por debajo de los componentes más graves en todo el
espectrograma coincide con el ruido ambiente de la grabación doméstica.
Ciertamente, en medio del sonido emitido por los instrumentos musicales hay mu-
chas formas de ruido, todas ellas caracterizadas por una acumulación de componen-
tes en una determinada zona del espectro. En el caso del piano, por ejemplo, como
veremos enseguida, determinados tipos de ruido forman parte de su propia caracte-
rización tímbrica.
Con la ayuda de estos ejemplos vamos a examinar a continuación los rasgos tímbricos
a mi juicio más relevantes que se aprecian en el contenido espectral del sonido de
los instrumentos musicales. Estos rasgos son, en parte, resultado de la constitución
de cada instrumento y, en parte, resultado de las acciones del intérprete.
En primer lugar nos ocuparemos de las peculiaridades espectrales que comparten los
sonidos del mismo instrumento, es decir, aquellas características que poseen los so-
nidos del piano por ser de piano, los del violín por ser de violín o los del clarinete por
ser de clarinete. Para no alargar en exceso este capítulo, me centraré en las marcas
específicas del sonido del piano. En segundo lugar estudiaremos las diferencias en
contenido espectral que presentan cada sonido individual del mismo instrumento.
Veremos cómo la cualidad sonora de una nota del piano es diferente de la de otras
notas del mismo piano, igual que cada nota del violín es diferente de otras del mis-
mo violín, y lo mismo en el caso del clarinete. Y en tercer lugar analizaremos las
diferencias en el contenido espectral que son resultado de las acciones intencionadas
que realiza el intérprete al emitir cada nota según sus propósitos expresivos en cada
momento de la interpretación.
241
11.2.1. Rasgos espectrales característicos del tipo de instrumento
Puesto que, como acabo de decir, un estudio detenido válido para cualquier instru-
mento excedería el objetivo de este curso, me ha parecido oportuno elegir como
ejemplo el caso del piano para estudiar sus peculiaridades tímbricas. Empezaremos
analizando cómo quedan reflejadas en los espectrogramas que acabamos de ver las
marcas tímbricas propias de este instrumento, es decir, los rasgos sonoros que nos
permiten reconocer que un determinado sonido ha sido emitido por un piano, y no
por un violín, por un clarinete o por cualquier otro instrumento.
Si comparamos los espectrogramas de los tres instrumentos podemos distinguir las

siguientes características propias de los sonidos del piano:
a) Todos los componentes del piano mantienen una total horizontalidad.

Ciertamente también son horizontales los componentes del sol3 del violín o in-
cluso los del re3 y mib3 del clarinete, aunque, si nos fijamos en el detalle, nos
damos cuenta de que estos últimos son algo menos horizontales. Ahora bien, en
ninguna nota de piano podremos encontrar nunca una oscilación de los com-
ponentes a lo largo de su duración, como ocurre en el caso del sol5 del violín o,
aunque en un grado menor, en el la4 y el sib4 del clarinete. Los componentes del
piano ni siquiera presentan una ligera inflexión, a diferencia de los del violín,
como podemos apreciar en el inicio del fa#5 de este instrumento. En efecto, la
estabilidad de la frecuencia es un rasgo distintivo de los componentes del
sonido de piano.
b) Los componentes de las notas del piano poseen en el espectrograma

cierto aspecto triangular: son más gruesos en el comienzo, donde al poco
de empezar alcanzan su máxima luminosidad, y luego progresivamente
se adelgazan y oscurecen. El grosor con el que empieza cada componente se
debe al ruido inicial producido durante el ataque. El modelo de paso brusco de
ruido a frecuencia estable es común a todas las notas del piano. Esto se aprecia
más claramente en las notas agudas, donde la presencia del ruido es más duradera
y destacable. Esto sucede porque cuando el martillo golpea la cuerda del piano
se produce un ruido inicial que va transformándose en vibración periódica, es
decir, en un conjunto de componentes claramente definidos. Este momento
242
inicial, que se llama “transitorio de ataque”, es especialmente significativo para
definir el timbre del piano, y es ahí, en este momento, donde se concentra la
mayor parte de la información que el pianista puede proporcionar, pues a partir
de entonces es ya la propia constitución del instrumento la que determina la
evolución de los parámetros sonoros, sin que el intérprete pueda hacer nada
para modificarlos.
c) Salvo las excepciones que veremos en el apartado “d”, un rasgo caracterís-

tico de las notas del piano es que sus componentes tienden a desvanecerse
y a perder paulatinamente su brillo. Los espectrogramas de las figuras 11.1 y
11.3 traducen la atenuación progresiva de la intensidad sonora que se produ-
ce tras el momento inicial del ataque de la nota de piano, momento en el que
se acumula toda la aportación de energía que realiza el intérprete y que queda
reflejado en ese punto inicial de fuerte luminosidad que poseen muchos com-
ponentes. A diferencia de los sonidos del piano, los componentes de las notas
del violín y del clarinete, como podemos observar en el espectrograma de la
figura 11.5, pueden disminuir, mantener o incrementar su brillo a lo largo de
su emisión, pues en estos instrumentos la energía sonora se modifica a voluntad
del intérprete, quien ha de aportar energía constantemente para que el sonido
siga produciéndose.
d) En ocasiones los componentes del piano se desvanecen y vuelven a apa-

recer, como podemos apreciar en los armónicos segundo, tercero y cuarto de
la nota dob4 del espectrograma de la figura 11.1, en torno al segundo 9,5, o con
más claridad en muchos componentes de las notas de las figuras 11.2, 11.3 y
11.4. Nada parecido observamos en los espectrogramas del violín o del clari-
nete. Podemos comprobar que el espectrograma refleja lo que el oído percibe
como pequeñas pulsaciones. Estas pulsaciones son el resultado de las interfe-
rencias que se producen por las pequeñísimas desigualdades de frecuencia que
habitualmente hay entre las dos o tres cuerdas unísonas que suenan al pulsar
cada tecla del piano.
e) Los componentes frecuenciales del sonido del piano no son estricta-

mente armónicos. Si bien un sonido musical se caracteriza por ser armónico,
ocurre que en la propia naturaleza de los sonidos de algunos instrumentos co-
mo el piano hay una pequeña inarmonicidad, la cual le otorga precisamente una
243
cualidad sonora característica. La inarmonicidad es una marca tímbrica del
sonido del piano. Aunque no es fácil apreciarla a simple vista en los espectro-
gramas, el oído sí la reconoce enseguida. La inarmonicidad se produce porque
las frecuencias de los sucesivos componentes del piano se apartan cada vez más
de la que les debería corresponder si siguieran estrictamente la serie armónica.
Los armónicos de una nota del piano no son exactamente múltiplos de la fre-
cuencia fundamental, sino que progresivamente se van abriendo: la frecuencia
del segundo armónico, en lugar de ser el doble de la fundamental, puede ser, por
ejemplo, de 2,002 veces esa frecuencia; la del tercero, en lugar de ser exactamen-
te tres veces la del fundamental, puede ser de 3,005 veces; y así sucesivamente,
de modo que la frecuencia del noveno armónico ya será una 9,14 veces la del
fundamental, pues la apertura va aumentando conforme mayor es el número del
armónico.
Podemos observar la inarmonicidad del piano mediante un nuevo ejemplo. Ahora

se trata de la nota sol3 dada por un piano, seguida de esa misma nota emitida por un
violín con la cuerda al aire, de manera que no presenta ningún vibrato ni inestabi-
lidad en su frecuencia. Para este espectrograma he utilizado una ventana de análisis
muy larga, lo que nos va a permitir obtener una resolución en frecuencia muy ele-
vada, pues, lo que nos interesa ahora es atender a las frecuencias de los componentes,
aunque perdamos resolución temporal. He modificado el mapa de color para poder
apreciar los componentes más débiles. Sólo vamos a estudiar lo que ocurre en los
primeros nueve armónicos.
244
Figura 11.7: Vídeo con el espectrograma de ventana muy larga de la nota sol3 dada primero por
un piano y luego por un violín.
En el espectrograma he medido la frecuencia de cada uno de los componentes, tanto

los de la nota de piano como los de la nota de violín. A continuación pongo una
tabla con los valores que he obtenido en ambos instrumentos y, para que sirva de
referencia, las frecuencias que les hubieran correspondido a los componentes si hu-
bieran seguido estrictamente la serie armónica. Hay que tener en cuenta que, como
se trata de sonidos naturales, la afinación de la nota de piano y la de violín no coin-
ciden exactamente, sino que hay una pequeña diferencia de décimas de hercio: el
componente fundamental del piano mide 195,5 Hz y el del violín 195,9 Hz.
245
Piano serie Piano Violín serie Violín
armónica (Hz) medido (Hz) armónica (Hz) medido (Hz)
195,5 x 1 = 195,5 195,5 195,9 x 1 = 195,9 195,9
195,5 x 2 = 391,0 391,3 195,9 x 2 = 391,8 391,8
195,5 x 3 = 586,5 587,5 195,9 x 3 = 587,7 587,7
195,5 x 4 = 782,0 784,4 195,9 x 4 = 783,6 783,6
195,5 x 5 = 977,5 982,1 195,9 x 5 = 979,5 979,5
195,5 x 6 = 1.173,0 1.180,9 195,9 x 6 = 1.175,4 1.175,4
195,5 x 7 = 1.368,5 1.381,4 195,9 x 7 = 1.371,3 1.371,3
195,5 x 8 = 1.564,0 1.583,5 195,9 x 8 = 1.567,2 1.567,2
195,5 x 9 = 1.759,5 1.786,8 195,9 x 9 = 1.763,1 1.763,1
Tabla 11.1: Frecuencias de los componentes de la nota de piano y de la nota de violín.
Si comparamos los valores de las columnas correspondientes a los instrumentos me-

didos con los respectivos valores de referencia según la serie armónica, podemos
verificar que los componentes de la nota de violín son armónicos hasta la décima de
hercio, mientras que los del piano se van apartando cada vez más, de modo que la
diferencia es bastante significativa en los componentes superiores, exactamente de
27,3 hercios en el noveno armónico.
Esta inarmonicidad, que es consecuencia de la rigidez de las cuerdas del piano, da al

instrumento un sonido ligeramente metálico muy característico. La inarmonicidad
del piano provoca también problemas en la afinación y obliga al afinador a estirar
artesanalmente las octavas.
246
11.2.2. Diferencias del contenido espectral entre las distintas notas del mis-
mo instrumento
Las notas de un clarinete suenen todas a clarinete y las de un piano suenen todas a
piano, pero cada instrumento e incluso cada nota del mismo instrumento posee
un color propio, unos matices que le otorgan una sonoridad peculiar.
Como se explica en el capítulo dedicado al sonido armónico, la mayor o menor im-

portancia que posee cada componente dentro del conjunto —es decir, su jerarquía—
determina la cualidad sonora que percibimos, su color. En efecto, el contenido es-
pectral de todas las notas del mismo instrumento no es idéntico. De un ins-
trumento a otro y de una nota a otra cambia la importancia relativa que cada
componente posee respecto al conjunto. Para observar que esto es así volvere-
mos a los tres ejemplos sonoros que he presentado al principio y a sus respectivos
espectrogramas (figuras 11.1 a 11.6). Comprobaremos que el hecho de que varíe
el contenido espectral de una nota a otra dentro del mismo instrumento hace que
cambie su cualidad sonora.
Primero vamos a examinar las diferencias de sonoridad que se producen entre notas
cuya tesitura está alejada y luego las que existen entre notas muy cercanas. Por úl-
timo, comentaré brevemente las causas de estas diferencias entre sonidos del mismo
instrumento.
a) Diferencias tímbricas entre notas pertenecientes a distintos registros del mismo instrumen-
to
Para explicar la influencia del registro tonal en la cualidad tímbrica de las notas emi-
tidas por el mismo instrumento voy mostrar los que ocurre en el piano y en el violín
mediante los ejemplos sonoros de los vídeos que he presentado antes.
Empezaremos estudiando al caso del piano. En los vídeos con los dos ejemplos de
piano (los espectrogramas de las figuras 11.1 a 11.4) podemos apreciar la diferencia
de sonoridad que hay entre las notas del registro medio-grave y las notas del registro
medio-agudo.
247
Atendamos a los espectrogramas de los dos ejemplos de piano en los que la escala
de color no está alterada (los de las figuras 11.1 y 11.3). Podemos apreciar que la
mayor parte de las notas que pertenecen al registro medio-grave (las del primer caso)
presentan abundantes armónicos visibles, diez o incluso más, mientras que en las
notas que pertenecen al registro medio-agudo (las del segundo caso) el número de
armónicos que se pueden distinguir con claridad está en torno a tres o cuatro.
Examinemos ahora los espectrogramas que nos permiten apreciar mejor la banda alta
del espectro de esos dos ejemplos de piano (el de las figuras 11.2 y 11.4). Puesto que
la escala de color ahora representa como blanco todo valor de amplitud superior a
una centésima, vemos que aparecen los componentes de la banda alta, cuya amplitud
es generalmente muy reducida y que no se veían en los espectrogramas anteriores.
Podemos comprobar también ahora que el número de componentes visibles es no-
tablemente mayor en las notas del registro medio-grave (las del espectrograma de la
figura 11.2) que en las del registro medio-agudo (las del espectrograma de la figura
11.4).
En estos dos ejemplos podemos observar que lo que vemos en los espectrogramas
coincide plenamente con lo que oímos en los respectivos vídeos: mientras que las
notas del primer ejemplo suenan más llenas, más redondas, las del segundo tienen
una sonoridad más clara, más perlada. En resumen, podemos concluir que el color
de las notas del piano es muy diferente en el registro medio-grave y en el re-
gistro medio-agudo, a pesar de la proximidad que hay entre ambos registros. Las
diferencias hubieran sido mucho más exageradas si hubiéramos comparado notas del
piano de los registros extremos, el más grave y el más agudo, pero me ha parecido
oportuno situar los ejemplos dentro del rango habitual de la música de piano.
Por otra parte, en estos últimos espectrogramas podemos apreciar que el ruido, que
acompaña el ataque de la nota en todos los sonidos de piano y que es un ele-
mento característico del timbre de este instrumento, no tiene la misma impor-
tancia en las notas agudas que en las graves. Si nos fijamos en el espectrograma
de la figura 11.4 (el del registro medio-agudo del piano) observamos que el inicio de
cada nota va acompañado de una serie de emborronamientos y sombreados de ten-
dencia vertical que se diluyen al cabo de muy poco tiempo y que señalan la presencia
de ruido. Ahora bien, aunque este ruido de ataque se puede observar también en el
espectrograma de banda alta que corresponden al primer ejemplo del piano (el de la
248
figura 11.2), donde se dan notas del registro medio-grave, podemos comprobar que
su incidencia es claramente menor. Esa diferente presencia del ruido de ataque en
ambos registros es también una marca tímbrica que distingue nuestro oído.
Veamos ahora en el caso del violín cómo se aprecian las diferencias tímbricas entre
notas de distintos registros tonales, pero del mismo instrumento. Volvamos a las notas
que suenan en la primera parte del tercer ejemplo que he presentado antes (el que
corresponde a los espectrogramas de las figuras 11.5 y 11.6). Hay una distancia de
casi dos octavas entre la primera y la segunda nota: primero suena la nota más grave
de este instrumento, el sol3 , dado con la cuarta cuerda al aire, y luego el fa#5 seguido
del sol5 , dadas ambas con la primera cuerda presionada con los dedos para acortar su
longitud.
Si analizamos el contenido espectral de la nota sol3 del violín del espectrograma de

la figura 11.5, encontramos que el primer armónico es inapreciable y que el com-
ponente más destacado es el segundo; el tercero, cuarto y quinto armónico tienen
una escasa presencia, mientras que el sexto aparece con claridad; el séptimo, octavo
y noveno armónico casi pasan desapercibidos, pero el décimo y el undécimo se ob-
servan con bastante nitidez. Ahora bien, el contenido armónico de las notas agudas
del violín, el fa#5 y el sol5 , es totalmente distinto: en ambos casos los cuatro primeros
armónicos tienen una presencia destacada, mientras que el quinto y el sexto están
más atenuados.
Comprobamos que la sonoridad de los dos grupos de notas es también muy distinta:
el fa#5 y el sol5 tienen una cualidad sonora brillante, casi hiriente, mientras que el
sonido del sol3 es más cálido y envolvente. Entenderemos mejor la razón de la sono-
ridad agresiva de esas notas del registro agudo si nos fijamos en el otro espectrograma
del mismo ejemplo (el de la figura 11.6). Vemos que en esas notas hay una presencia
destacada de armónicos en toda la banda superior, lo que explica esa sonoridad casi
hiriente.
Así pues, hemos podido experimentar en el caso del piano y del violín que las di-
ferencias en el contenido espectral de notas de diferentes registros dan lugar a
unas marcas tímbricas específicas.
249
b) Diferencias tímbricas entre notas próximas del mismo instrumento
Una vez que hemos examinado la diferente cualidad sonora de notas del mismo ins-
trumento que pertenecen a regiones de la voz alejadas, vamos a ver que también
existen diferencias entre notas que son casi consecutivas. Estas diferencias son más
difíciles de apreciar por el oído y requieren una audición más atenta, capaz de ha-
cer abstracción de la diferente altura tonal para prestar atención exclusivamente a la
cualidad sonora.
Comenzaré con la frase de clarinete que aparece en la segunda parte del tercer ejem-
plo (figuras 11.5 y 11.6). Las notas forman una doble pareja que distan entre sí un
semitono. La primera pareja, el re3 y el la4 , han sido producidas con toda la longitud
del tubo, en el caso del re3 con todos los agujeros tapados y en el caso del la4 conti-
nuando con todos los orificios tapados excepto el portavoz (el orificio cuya apertura
provoca en el clarinete la emisión del tercer armónico, la nota que está a una distan-
cia de octava y quinta). La otra pareja, el mib3 y el sib4 , ha sido producida de forma
similar, pero con el acortamiento del tubo sonoro.
Como ahora pretendo mostrar la diferente cualidad sonora entre notas que están muy
próximas, no voy a analizar las diferencias de sonoridad que existen entre las notas
del registro grave del clarinete —el llamado chalumeau— y las del registro agudo,
el registro clarín que da nombre a este instrumento y que se producen al abrir el
portavoz. Atenderemos al diferente contenido espectral entre notas que pertenecen
al mismo registro, es decir, el re3 y mib3 , por un lado, y el la4 y sib4 , por otro.
Un rasgo característico del sonido del clarinete es la prevalencia de los armónicos

impares. Fijémonos, en primer lugar, en el mib3 , la tercera de las notas emitidas por
el clarinete. En efecto, en el espectrograma se observan casi exclusivamente los ar-
mónicos impares: primero, tercero, quinto, etc, hasta el undécimo, y acaso parece
vislumbrarse un poco el duodécimo. En el caso del re3 , la primera nota, observamos,
así mismo, la prevalencia de los armónicos impares, pero comprobamos que también
hay una cierta presencia de los armónicos pares: el sexto, el octavo, el décimo y el
duodécimo. Como hemos experimentado hasta ahora, estas diferencias en la impor-
tancia de los componentes armónicos deberían ser percibidas por nuestro oído como
diferencias en la cualidad sonora.
250
Para facilitar la apreciación auditiva de estas diferencias, he realizado un nuevo vídeo
con los dos sonidos que quiero comparar, uno a continuación del otro. Para que la
diferente altura tonal no distraiga nuestra atención sobre la cualidad sonora de cada
nota, he bajado artificialmente un semitono la segunda nota, el mib3 , de modo que ha
quedado convertido en un re3 , y así ambas notas tienen la misma altura tonal.
Figura 11.8: Vídeo con el espectrograma de dos notas de clarinete con diferente contenido espectral.
Ahora podemos distinguir bastante bien la diferente cualidad sonora de ambas notas.
En efecto, oímos dos notas de igual altura tonal, pero con distintos matices de color:
mientras la primera tiene un sonido más bien profundo y lleno, la segunda resulta
más áspera.
Si comparamos el contenido espectral de las otras dos notas del clarinete, las del re-
gistro agudo, vemos que en el la4 aparece el segundo armónico, un armónico par
que está ausente en el sib4 . También observamos que el componente más destacado
del la4 es el fundamental, mientras que en el sib4 es el tercer armónico el que tiene
más relevancia. Estas diferencias en el contenido espectral explican las distintas
cualidades sonoras que oímos en dos notas consecutivas.
Veamos por último cómo dos notas próximas de piano tienen una cualidad sonora di-
ferente. Volvamos al vídeo de la figura 11.3, donde se repite una pequeña frase ligada
251
formada por notas predominantemente seguidas. Todas las notas de la primera frase
han sido dadas con el mismo toque, por lo que las diferencias de sonoridad que apre-
ciemos se tienen que deber necesariamente a la propia constitución del instrumento.
Prestemos atención en el espectrograma, por ejemplo, a la jerarquía armónica de las
tres primeras notas: la4 , si4 y do5 . Observamos que en el la4 , aunque en el momento
del ataque el armónico primero es el que tiene una presencia mayor, el que termina
prevaleciendo es el segundo; en el si4 el armónico más importante es el tercero; y en
el do5 el que posee mayor importancia es claramente el primer armónico. Así pues,
la diferente jerarquía en el contenido espectral de estas tres notas es la razón de que
oigamos una cualidad sonora distinta en cada una de ellas.
Esta diferente cualidad sonora de cada una de las notas del mismo piano explica,
por ejemplo, que algunos pianistas que no poseen oído absoluto —es decir, que no
son capaces de identificar una nota aislada de un instrumento cualquiera sin una
referencia previa— puedan reconocer sin ninguna dificultad cualquiera de las notas
del instrumento en el que habitualmente interpretan.
c) Causas de las diferencias tímbricas entre notas del mismo instrumento
El estudio detenido de las causas físicas que explican las diferencias de sonoridad entre
las notas de un instrumento excede el objetivo de este capítulo. Pero si atendemos a
lo que sucede, por ejemplo, en el caso del violín, podemos hacernos una idea, aunque
sea vaga, de las razones de esa peculiaridad tímbrica. Por un lado, todo violinista sabe
que no suena lo mismo una nota tocada en una cuerda que esa misma nota tocada en
otra cuerda del mismo instrumento. Ocurre que cada cuerda del violín vibra de forma
distinta, debido a su grosor, a su constitución material, por estar o no entorchada,
etc. Y esa diferente vibración produce un contenido espectral distinto del de las otras
cuerdas del mismo instrumento y, por lo tanto, una sonoridad particular.
Por otro lado, hay que tener en cuenta que no oímos directamente la vibración de
la cuerda de un violín, la cual solo podría poner en movimiento una pequeñísima
cantidad de aire; lo que realmente oímos son las vibraciones que la cuerda provoca
en la caja de resonancia del instrumento a través del puente, vibraciones que ya son
capaces de mover una cantidad de aire suficiente como para que llegue con claridad
a nuestro oído. Pero esa caja de resonancia tiene sus frecuencias propias de vibración,
252
por lo que resonará más o menos con los diferentes componentes de la cuerda que
vibra, amplificando unos y disminuyendo otros, de manera que transforma el con-
tenido espectral original de la cuerda, alterando su jerarquía y dejando en el sonido
su propia huella. Las resonancias destacadas de la caja constituyen una característica
fundamental de los instrumentos musicales y reciben el nombre de formantes. Igual
que en el caso del habla estos formantes son decisivos a la hora de distinguir las dife-
rentes vocales, en el caso de los instrumentos influyen de una manera muy marcada
en el color de las notas que emiten.
Un ejemplo interesante de la influencia de estos formantes que definen las frecuencias

de resonancia de cada instrumento nos la ofrece el vibrato del violín sobre la nota sol5
en el vídeo de la figura 11.5, en torno al segundo 4. Si observamos el vibrato sobre
el sol5 vemos que, además de la ondulación característica que muestra la variación de
la frecuencia, en la parte más baja del tercer armónico hay como unos puntos de luz
casi blanca. Estos puntos indican que en esos instantes se ha producido una amplitud
máxima en ese componente. Dicho de otra manera, el vibrato no sólo ha ocasionado
una variación de la frecuencia, sino que también ha oscilado el color del sonido, es
decir, la mayor o menor prevalencia de unos u otros componentes.
Esta oscilación de la cualidad sonora que posee el vibrato del violín es un rasgo ca-
racterístico de este instrumento. Si lo comparamos con el vibrato menos profundo
del clarinete que podemos observar también en el mismo espectrograma (o incluso
mejor en el de banda alta de la figura 11.6) sobre las notas la4 , en torno al segundo
8, y sib4 , en torno al segundo 13, vemos que en el clarinete no hay cambio de co-
lor, sino que la cualidad sonora se mantiene igual a lo largo de toda la emisión de
la nota y solo oscila la altura tonal. La explicación física de este rasgo característico
del violín reside en las propiedades de su caja de resonancia, que responde de di-
ferente manera a componentes frecuenciales muy próximos. En este caso, el tercer
armónico resuena mucho más cuando el vibrato está en la parte baja de su oscila-
ción, debido a que en ese instante su frecuencia coincidirá con la frecuencia de una
de las múltiples resonancias naturales de la caja del violín. En consecuencia, el tercer
armónico adquiere en esos momentos una función predominante en la jerarquía de
los componentes.
253
11.2.3. Modificación del contenido espectral por la acción del intérprete
Una vez entendido que cada instrumento, por sus propias características físicas, im-
prime su personalidad en el contenido espectral de los sonidos que produce y, por
lo tanto, posee su propia cualidad tímbrica, vamos a atender ahora a las huellas que
las acciones del intérprete dejan en la jerarquía espectral de los componentes de cada
nota, las cuales se traducen en su particular cualidad sonora.
Una parte importante de la formación de un instrumentista consiste en aprender

a “fabricar el sonido”. Esto es evidente en el caso de un intérprete de violín, pues
pueden pasar años hasta que un violinista consiga obtener un sonido aceptable, pero
también es válido en el caso del piano. A pesar de que el sonido del piano parezca
estar fabricado de antemano y de que aparentemente el pianista solo deba bajar la
tecla, basta escuchar unas pocas notas para distinguir si han sido ejecutadas por un
intérprete formado o por un estudiante que está empezando. En efecto, pequeñísimas
diferencias en la velocidad de bajada de la tecla —es decir, en el “toque”— se traducen
en claras diferencias en la sonoridad y en el color del sonido que se obtiene.
Comencemos observando la relación entre el toque del instrumentista y la mayor o

menor presencia de armónicos superiores. Volvamos sobre las frases de piano de los
dos primeros ejemplos (figuras 11.1 a 11.4). Fijémonos en primer lugar en el segundo
ejemplo, el de los vídeos de las figuras 11.3 y 11.4. Apreciamos la diferente cualidad
sonora de las notas de la primera frase, que han sido dadas con un toque intermedio
y natural, y las de la segunda, donde la misma secuencia de notas se repite con un
toque más duro y enérgico.
Esa diferencia en la cualidad sonora queda reflejada en el contenido espectral que

vemos, sobre todo en la figura 11.4, donde la escala de color ha sido preparada para
observar la banda alta. El toque más duro de la segunda repetición se ha traducido en
una mayor presencia y relevancia de los armónicos superiores. En efecto, en el piano
un ataque más duro produce una nota con mayor volumen sonoro, pero también
con un contenido más rico en armónicos superiores. Estos armónicos superiores son
los que le proporcionan al sonido un color brillante e incisivo.
Escuchemos ahora el primer ejemplo, el de las figuras 11.1 y 11.2. Como hemos visto
ya, está formado por tres breves frases, cada una de cuatro notas. La tercera frase es
254
una repetición de la segunda, pero ejecutada con un toque más delicado. Fijémonos
en la diferencia de contenido espectral entre ambas. Tanto en el vídeo de la escala de
color completa (figura 11.1), como el de la escala de color modificada para resaltar la
banda alta (figura 11.2), comprobamos que hay bastante diferencia en el número y
la importancia de los armónicos superiores: en la segunda repetición, la que tiene el
toque más delicado, el número de armónicos superiores visibles es menor que en la
primera y predominan muchos más los armónicos inferiores. Esta hace que el sonido
de esta frase sea mucho más dulce.
A diferencia del ejemplo de piano anterior, donde todas las notas de la misma frase
habían sido ejecutados con un toque homogéneo, aquí cada nota ha tenido su pro-
pio toque. El intérprete ha pretendido dar a cada una de ellas un significado propio,
una personalidad, como si cada una tuviera que decir algo distinto sólo ya con su
sonido. Por no alargar en exceso el comentario, me voy a centrar en una nota que
adquiere especial singularidad, el dob4 , en la segunda ejecución, pasado ligeramente
el segundo 16. La cualidad sonora de esta nota es distinta de todas las demás. Su soni-
do es destacadamente suave y conciso. Si observamos el espectrograma en las figuras
11.1 y 11.2 vemos que el primer armónico presenta aquí una relevancia mucho más
destacada que en el resto de las notas que la rodean. La interacción entre el instru-
mento y el toque del pianista ha dejado su marca en esa importancia casi absoluta del
componente fundamental.
Mediante estos ejemplos hemos podido comprobar que el toque del pianista, es
decir, la mayor o menor velocidad con la que baja la tecla, repercute en el
contenido espectral y, por lo tanto, en el color del sonido que obtiene. Con-
forme más duro es el ataque, mayor es el contenido de armónicos superiores
que despierta.
Esto que hemos visto en el caso del piano es común a la mayor parte de los ins-
trumentos, así como a la voz humana. Una persona gritando producirá un mayor
volumen sonoro, pero todos podemos distinguir que una persona está gritando aun-
que el volumen que oigamos sea muy bajo. Ello se debe a que la cualidad del sonido,
el contenido armónico, es diferente: un incremento en el volumen va asociado a
un incremento en el número e importancia de los armónicos superiores.
255
En el ejemplo de violín de las figuras 11.5 y 11.6 hemos visto que la diferente so-
noridad que oímos entre el sol3 , por un lado, y el fa#5 y sol5 , por otro, se debe a la
diferencia entre las cuerdas y al hecho de haber sido tocadas al aire o pulsadas con el
dedo. Pero otra parte importante de la cualidad sonora peculiar de cada una de estas
notas viene dada por la mayor presión o velocidad con la que el arco ha frotado la
cuerda en las notas superiores. Dicho de otra forma, el alto contenido armónico en
la zona superior del espectro es consecuencia de esa mayor energía del arco que ha
empleado el violinista.
Por otra parte, en algunos instrumentos el intérprete puede modificar el contenido

espectral durante la emisión del sonido. El violinista y el clarinetista, por ejemplo, tie-
nen que aportar energía constantemente para mantener el sonido, por lo que pueden
cambiar el volumen sonoro a voluntad. Así mismo, dentro de unos márgenes limita-
dos por la naturaleza del instrumento, pueden también alterar su contenido espectral
a lo largo del tiempo que dura la emisión de la nota. Por poner un ejemplo sencillo,
en la segunda parte de los vídeos y espectrogramas de las figuras 11.5 y 11.6 podemos
apreciar que cuando el clarinetista apaga lentamente la segunda nota de cada pareja,
el la4 y el sib4 , se produce una desaparición progresiva de los armónicos superiores.
El clarinete sigue, así pues, también la norma general de que el incremento en el
volumen va unido a un incremento en el número y prevalencia de los armónicos
superiores, y viceversa, como ocurre en este ejemplo.
Realmente cuando escuchamos un sonido nuestra imaginación tiende a reconstruir

la acción que lo ha producido. Ésta es precisamente una de las formas en las que se
transmite la información emotiva del intérprete. Sin necesidad de verlo tocar, noso-
tros, al oír su música, imaginamos el “gesto” que está haciendo en el instrumento.
Por ejemplo, en el teclado de un piano “oímos-vemos” al intérprete acariciando las
teclas en los pasajes delicados, golpeando sin piedad en los fortísimos-staccato, pasando
con ligereza en los pasajes pianos y ligados, etc. Esta gestualidad nos llega a través
de las “marcas” de los sonidos. Entre esas marcas está habitualmente el hecho de que
el número de armónicos superiores crezca en función de la energía con la que se ha
atacado la tecla, ataque y energía que cambian constantemente a lo largo de una in-
terpretación. Hablando en general, el número y la importancia de los armónicos no
es una característica fija propia del sonido de un instrumento, ni siquiera de la misma
256
nota del mismo instrumento, sino que en buena medida depende de la voluntad del
intérprete.
11.3. Rasgos tímbricos dependientes de la evolución de los pa-

rámetros del sonido
A continuación vamos a examinar los rasgos tímbricos derivados de la modificación

de los parámetros de amplitud y frecuencia a lo largo del tiempo de emisión de la nota
o, dicho de otra manera, vamos a analizar cómo las envolventes, tanto de amplitud
como de frecuencia, afectan a la caracterización tímbrica de los sonidos musicales, en
particular los sonidos emitidos por instrumentos acústicos y por la voz humana.
11.3.1. Marcas tímbricas y envolvente de amplitud
La evolución de la amplitud del sonido en su conjunto tiene especial interés para ca-
racterizar el timbre de cada sonido. Para tener una aproximación a la evolución de la
amplitud he elegido un fragmento de la señal de audio de una determinada duración
y he calculado el valor medio de su amplitud. La reiteración de este procedimiento,
desplazando suavemente esta ventana de observación a lo largo de la duración de to-
da la nota, nos proporciona una aproximación a la envolvente de amplitud. Como en
el caso del espectrograma, también ahora en función de la duración de la ventana de
observación elegida obtendremos resultados diferentes: si se elige una ventana muy
corta obtendremos una evolución de la amplitud muy accidentada, llena de altera-
ciones, mientras que si se elige una ventana muy larga, la gráfica será más suave, pero
el seguimiento temporal de la evolución de la amplitud será menos preciso. En los
siguientes ejemplos he optado por hacer un seguimiento intermedio de la evolución
temporal, por lo que he elegido para la ventana de observación una duración de 30
milésimas de segundo.
Debajo presento dos gráficas en las que se muestra la envolvente de amplitud de las
notas sol3 dadas, respectivamente, por el piano y el violín, las mismas que he utilizado
257
en el vídeo de la figura 11.7. Junto a la envolvente se muestra también la forma de la
señal en el tiempo.
Figura 11.9: Envolvente de amplitud de una nota de piano.
Figura 11.10: Envolvente de amplitud de una nota de violín.
258
En ambas figuras vemos que en un tono azul grisáceo, que se funde casi con el azul del
fondo de la gráfica, se ha trazado la señal de audio, es decir, la forma de la vibración de
ese sonido. En esta ocasión la representación de la señal de audio no permite apreciar
los detalles de la vibración, como sucedía en las representaciones de los osciloscopios
simulados que hemos visto en los capítulos anteriores, sino que es el resultado de
haber hecho un gran zoom negativo sobre ella, como si observáramos la señal desde
muy lejos. Se ha perdido todo el detalle y solamente se aprecia el aspecto global de
la evolución de la amplitud, que es precisamente lo que nos interesa ahora.
La línea que se destaca en amarillo representa la envolvente de amplitud, la evolución

de la amplitud a lo largo del tiempo. Podemos comprobar que, en líneas generales,
la gráfica de la envolvente sigue bastante de cerca la forma de la señal de audio com-
primida, como si quisiera envolverla. Si escuchamos con atención las notas del vídeo
de la figura 11.7 mientras vemos estas gráficas de sus envolventes de amplitud, reco-
noceremos con facilidad que reflejan lo que oímos.
En las dos gráficas observamos al principio y al final unas pequeñísimas oscilaciones

de la línea amarilla, que corresponden al ruido de ambiente presente en el lugar en el
que se han hecho las grabaciones (ambas han sido grabaciones domésticas realizadas
con un micrófono de nivel medio del tipo USB para ordenador).
Fijémonos primero en la gráfica de la envolvente del piano (figura 11.9). Podríamos

distinguir tres partes en esta gráfica amarilla. La primera parte, que corresponde al
ataque inicial, tiene un carácter muy abrupto, pues crece bruscamente desde el inicio
de la nota hasta el pico máximo, que en esta gráfica se sitúa aproximadamente en el
segundo 1,3. Ahora bien, su crecimiento no es uniforme. Comienza con una línea
casi vertical que se queda en torno a un valor de 0,18, sin llegar todavía a su valor
máximo, una línea que refleja un cambio casi instantáneo y que se corresponde con
el ruido inicial que acompaña al ataque en la nota de piano, como hemos visto al
analizar el contenido espectral. Luego la gráfica sigue todavía creciendo de forma
rápida, pero ya no tan abrupta, hasta alcanzar en el segundo 1,3 el pico máximo, es
decir, una amplitud de aproximadamente 0,34. La segunda parte de la gráfica co-
mienza en este pico máximo, cuando se inicia un declive con bastante pendiente,
y dura aproximadamente hasta el segundo 2. Y en la tercera parte, que comienza
en este segundo 2, la gráfica continúa descendiendo, pero ahora de una forma mu-
cho más lenta y mantenida, hasta que se produce el levantamiento de la tecla, lo que
259
ocurre poco antes del segundo 5. Esta evolución de la envolvente de amplitud es ca-
racterística de las notas del piano. En esencia consiste en un ataque muy rápido y una
doble amortiguación, la primera relativamente rápida y la segunda muy prolongada
y sostenida.
Si comparamos la gráfica de la envolvente de amplitud del piano con la de la en-

volvente de la nota de violín (figura 11.10) nos damos cuenta de que las diferencias
son muy grandes. El ataque es ahora suave y va creciendo poco a poco; las formas
generales son poco marcadas y más bien redondeadas; la evolución de la amplitud
general se aproxima aquí a una forma circular; y, lo que viene a ser el rasgo más
característico de la envolvente de amplitud del violín, la línea general de la evolu-
ción está constantemente llena de alteraciones, que se corresponden con apreciables
oscilaciones en el volumen sonoro de la nota, resultado de la variación de la presión
del arco sobre la cuerda.
Pero creo que conviene insistir un poco más en la importancia que tiene para nues-
tra percepción de la cualidad tímbrica de un sonido su envolvente de amplitud. En
efecto, si modificamos artificialmente la evolución de la amplitud general de un so-
nido, el cambio en el timbre que percibiremos será enorme. Voy a poner un ejemplo
muy sencillo que servirá para comprobar la decisiva influencia que posee la evolu-
ción de la amplitud general en la determinación del timbre. Este ejemplo, de paso,
nos ayudará también a entender cómo nuestra percepción auditiva está configurada
para colaborar con el resto de los sistemas sensoriales en la tarea de captar la evolución
de la realidad externa. He grabado una pequeña frase de piano con ocho notas que
alternan los valores de blancas y negras formando un ritmo troqueo constante. Las
notas son las siguientes: re4 , do4 , mi4 , fa4 , sol4 , la4 , re4 , la3 . Con ayuda de un editor
de audio he copiado la señal y la he pegado a continuación, pero ahora invirtiendo
el orden temporal, es decir, haciendo que la señal vaya de atrás a adelante, con lo
que el resultado que he obtenido ha sido una señal formada por dos partes iguales
simétricas.
260
Figura 11.11: Vídeo con el espectrograma de una melodía de piano y su retrogradación.
Como se puede comprobar en el vídeo, las dos partes son totalmente idénticas, a
excepción de que la segunda es una repetición de la primera, pero en el orden inverso.
Esto resulta también claro si nos fijamos en el orden y en el ritmo de las notas. El ritmo
en la segunda parte es una sucesión de yambos, es decir, de negras y blancas. Las notas
son las mismas que las de la primera parte, pero en orden inverso: la3 , re4 , la4 , sol4 , fa4 ,
mi4 , do4 , re4 . El número de componentes armónicos de cada nota y su importancia
relativa tiene que ser, por lo tanto, el mismo y, sin embargo, el sonido es totalmente
distinto. Cuando escuchamos la segunda parte del vídeo nunca pensaríamos que está
sonando un piano. Tal vez, si acaso, una armónica o algún instrumento similar. Para
facilitar este efecto he elegido a propósito una frase musical que al ser oída en orden
inverso tenga un cierto aire de melodía de película del oeste. Pongo a continuación
la gráfica de las correspondientes envolventes de amplitud.
261
Figura 11.12: Envolvente de amplitud de las melodías, directa y retrógrada, del vídeo de la figura
11.11.
La gráfica de las envolventes explica lo que ha sucedido. Efectivamente, el piano

es un instrumento de percusión, por lo que el ataque es muy rápido y la amplitud
comienza a decrementarse casi inmediatamente después del inicio. Nadie espera que
una nota de piano suba de volumen a lo largo de su emisión, sino que lo que se espera
es que se vaya poco a poco apagando. Por el contrario, en la segunda parte del vídeo,
al escuchar unas notas que van aumentando su intensidad, hemos imaginado que
han sido emitidas por un instrumento cuyos sonidos son capaces de recibir energía
después del ataque y, por eso, de aumentar su amplitud con el paso del tiempo, como
ocurre, por ejemplo, con la armónica, en la que el instrumentista puede incrementar
la intensidad del soplo durante la emisión de las notas e interrumpirlo bruscamente
entre nota y nota. Por ello, al invertir el orden temporal de la señal se ha invertido la
evolución de la amplitud y el sonido ha dejado de sonar como un piano, pues nunca
la amplitud del sonido de una nota del piano evolucionaría así. Esa “deducción” de
nuestro cerebro es lo que ha modificado tan rotundamente nuestra percepción del
sonido.
262
11.3.2. Marcas tímbricas y envolvente de frecuencia
Como ya he comentado al estudiar los rasgos tímbricos que dependen del contenido
espectral, la evolución de la frecuencia es una marca tímbrica muy significativa. De
hecho, establece la diferencia entre instrumentos de afinación libre, cuya envolvente
de frecuencia sigue las intenciones del intérprete, e instrumentos de afinación fija,
cuya envolvente de frecuencia es, en general, una línea horizontal. Así mismo, el
rango de variación de la envolvente de frecuencia en los instrumentos de afinación
libre es muy distinto. Por ejemplo, el violín permite con facilidad portamentos que
pueden unir notas muy alejadas, lo que puede dar lugar a envolventes de frecuencia
muy extendidas, mientras que las variaciones de frecuencia que permite una flauta
durante un soplo mantenido son más bien pequeñas y, por lo tanto, su envolvente
de frecuencia es bastante reducida.
Por otra parte, los instrumentos de afinación libre permiten que el intérprete fabri-
que su propio vibrato, un recurso que constituye una parte muy importante en la
caracterización de su “sonido”. La diferente profundidad y ritmo del vibrato vienen
a ser como una especie de sello de marca del instrumentista, que dibuja su “firma” en
la envolvente de frecuencia.
A modo de ejemplo, voy a comentar cómo la ejecución de una nota de violín dada
con vibrato queda reflejada en su envolvente de frecuencia. Se trata de la nota sol5 del
vídeo de la figura 11.5. Es muy sencillo obtener una representación de la envolvente
de frecuencia a partir del espectrograma. Puesto que en un sonido armónico la fre-
cuencia de todos los componentes evoluciona en paralelo, basta con determinar en el
componente fundamental (o en cualquier otro que nos interese, pero dividiendo su
valor por el número de armónico del que se trate) la frecuencia que ha alcanzado la
máxima amplitud en cada momento (es decir, la frecuencia del pixel más luminoso)
y representar este dato en una nueva gráfica.
263
Figura 11.13: Envolvente de frecuencia de una nota de violín con vibrato.
Al reducir la representación de las frecuencias al estrecho margen de la zona en la

que se mueve la nota de violín sol5 (en este caso de 776 Hz a 796 Hz), se obtiene
mayor claridad. Para evitar que la observación de esta gráfica nos cause una impresión
equivocada, debemos tener en cuenta que la variación de la frecuencia a lo largo de
los 1,7 segundos aproximados que dura la nota no llega a los 20 Hz y que en su mayor
parte no sobrepasa los 14 Hz. En realidad este movimiento que constituye el vibrato
es muy sutil y se mueve en la esfera de la microtonalidad.
Observamos que el valor medio de la nota se mantiene en torno a 789 Hz. Sin em-
bargo, la frecuencia esperada en función de la afinación de la nota anterior, que es
prácticamente la temperada, debería haber sido de 784 Hz. Así pues, este aparente
valor medio de la nota en el que se realiza el vibrato está aproximadamente 11 centé-
simas de semitono por encima. El vibrato permite una mayor flexibilidad en la afina-
ción, pues sus oscilaciones camuflan cualquier posible batido o interferencia y hace,
además, que sea más difícil percibir cualquier desafinación. Ello permite al intérprete
elegir una frecuencia más alta con una finalidad expresiva sin ningún problema. La
profundidad del vibrato es variada. En esta gráfica el caso más extremo corresponde
264
a la oscilación que se produce entre el segundo 0,9 y el 1 y tiene una profundidad
que va desde 795 Hz a 782 Hz, o sea, unas 28 centésimas de semitono.
Esta gráfica nos muestra con precisión que el violinista toma la nota desde muy abajo,
en 777 Hz aproximadamente, luego sube hasta prácticamente rozar los 796 Hz y a
partir de ahí comienza a realizar unas oscilaciones centradas aproximadamente en
torno a 789 Hz, hasta llegar al final de la nota, cuando de nuevo desciende también
en frecuencia. Este tomar desde abajo, subir y mantenerse y volver de nuevo a caer
al final es un patrón muy característico para notas mantenidas con vibrato en violín.
Podemos ver también en la gráfica que la distancia temporal entre las oscilaciones es
aproximadamente de 2 décimas de segundo, lo que se corresponde con 5 oscilaciones
por segundo, que es también un ritmo de oscilación muy habitual en la realización
del vibrato de violín.
Para acabar, solo quiero apuntar que la evolución de la frecuencia, al margen de dejar
una marca clara del tipo de instrumento del que se trata, es también un medio muy
eficaz para transmitir mediante el propio sonido la gestualidad del intérprete. Y en
gran medida es a través de esa gestualidad como el intérprete comunica a quien le
escucha una parte importante de su emotividad.
11.4. Conclusión
El timbre del sonido es como su sello particular. En este capítulo hemos podido
observar que el conjunto de marcas tímbricas dejan su huella principalmente en el
contenido espectral de cada sonido musical y en sus envolventes de frecuencia y am-
plitud. Estas marcas diferencian la sonoridad característica de un tipo de instrumento
de la de otro, la de cada instrumento particular, la de las distintas notas que emite cada
instrumento, la propia de cada instrumentista e incluso la que posee la misma no-
ta emitida en el mismo instrumento por el mismo instrumentista en los diferentes
momentos de su interpretación.
265
Capítulo 12
Fisiología de la audición
12.1. Introducción
El sonido no es solamente un acontecimiento físico, una vibración mecánica, sino

también un fenómeno psíquico: la imagen que la vibración acústica produce en nues-
tra mente. Esa imagen está condicionada por las características de nuestro receptor,
el oído. Por ello, para entender la manera en la que escuchamos el sonido musical
es necesario conocer cómo es y cómo funciona el oído humano, pues es en el oído
donde se transforma la vibración mecánica que llega del exterior en un conjunto de
impulsos nerviosos que posteriormente serán enviados al cerebro, donde se elaborará
nuestra imagen acústica.
En este capítulo vamos a estudiar la morfología y la función de cada una de las partes
del oído: las zonas que recogen la vibración sonora del exterior, las que adecúan su
presión a los fluidos del oído interno y las que realizan el análisis frecuencial extra-
yendo los diferentes componentes de la vibración y transformándolos en impulsos
eléctricos que llegarán al cerebro mediante el nervio auditivo. Empezaremos con una
visión general de la anatomía del oído humano y luego nos detendremos en estudiar
cómo es y cómo se comporta la cóclea.
266
12.2. El oído humano
Nuestro oído está formado por tres partes anatómica y funcionalmente diferentes:
el oído externo, el oído medio y el oído interno. Veamos un dibujo esquemático de
las partes del oído. Es una adaptación de la Figura 1 del capítulo 2 de “Structure and
function” del curso Hearing, en Open Learn (The Open University).
Figura 12.1: Sección transversal del oído.
En la figura vemos las tres partes del oído:
a) El oído externo
En el oído externo el pabellón auditivo concentra, a modo de trompa, las on-

das sonoras del exterior y las encauza a través del canal auditivo externo hasta
el tímpano, la membrana que separa el oído externo del oído medio. El canal
auditivo externo mide aproximadamente 25 mm de longitud y 7 mm de diámetro.
267
La membrana timpánica tiene una forma ligeramente cónica y se mueve hacia den-
tro y hacia fuera siguiendo las variaciones de la presión del aire que constituyen la
vibración sonora y que le llegan por el canal auditivo.
b) El oído medio
El oído medio es una cámara llena de aire en cuyo interior se halla una cadena de
huesecillos u osículos, llamados por su forma martillo, yunque y estribo, que sirven
para transmitir las vibraciones sonoras desde la membrana timpánica hasta el oído
interno. Para lograrlo, el mango del martillo está unido al tímpano, mientras que la
base del estribo está en contacto con la membrana de la ventana oval, a través de
la cual penetran las vibraciones sonoras en la cóclea, que es la parte del oído interno
dedicada a la audición.
La principal función del oído medio es posibilitar el incremento de presión

necesario para que la energía de la vibración sonora del aire exterior se trans-
mita eficazmente a los fluidos acuosos que llenan el oído interno. En efecto,
puesto que el agua tiene mayor impedancia acústica que el aire (es decir, presenta
mucha más resistencia a la transmisión de la vibración), si no hubiera un mecanismo
que aumentara la presión de las vibraciones, una gran parte de la energía sonora sería
absorbida o reflejada por los fluidos acuosos de la cóclea, tal como sucede si tratamos
de hablar a una persona que está sumergida en el agua.
Este incremento de la presión se logra principalmente porque la superficie del tím-

pano que vibra (la membrana que está en contacto con el aire exterior) es unas 17
veces mayor que la superficie de la membrana de la ventana oval (la que está en con-
tacto con el líquido acuoso que hay en el interior de la cóclea). De esta manera se
consigue un aumento de presión de unas 17 veces. Además, la acción de palanca que
ejerce la cadena de huesecillos del oído medio también contribuye al incremento de
presión. En su posición habitual, los osículos pueden aumentar 1,3 veces aproxima-
damente la presión que llega hasta la ventana oval. Así pues, la acción combinada de
ambos mecanismos puede lograr un aumento de presión de unas 22 veces, con lo
que la membrana de la ventana oval va a ser ya capaz de transmitir de forma eficaz
la vibración sonora a los líquidos que están en el interior de la cóclea.
268
Otra función muy importante del oído medio es la protección del delicado oído
interno frente a sobrepresiones que podrían dañarlo. Cuando la intensidad sonora
excede los niveles de tolerancia se activa un mecanismo reflejo mediante el cual dos
pequeños músculos que actúan sobre el martillo y sobre el estribo (no incluidos en
el dibujo) pueden bloquear la articulación de los osículos, limitando en gran medida
la transmisión de las vibraciones.
El oído medio comunica con el exterior a través de la trompa de Eustaquio, un con-

ducto de unos 4 mm de longitud que termina en la región nasofaríngea. La trompa
de Eustaquio, que habitualmente está cerrada, se abre con la deglución y con el bos-
tezo. Tiene la finalidad de igualar la presión de aire del oído medio con la del exterior
y así permitir que el tímpano pueda vibrar libremente en su posición idónea.
c) El oído interno
El oído interno, también llamado laberinto, está formado por una estructura ósea
hueca situada en el hueso temporal y consta de diferentes partes delimitadas por con-
figuraciones óseas y membranosas. Su interior está lleno de dos líquidos acuosos: la
perilinfa en las zonas exteriores, que están en contacto con el hueso; y la endolinfa en
las interiores, rodeadas por membranas. Mientras que la composición de la perilinfa
es similar a la de otros fluidos extracelulares del cuerpo humano, como el líquido ce-
falorraquídeo, la endolinfa es una sustancia específica del oído interno y se caracteriza
por contener una cantidad muy elevada de iones positivos de potasio (K+).
El oído interno cumple dos funciones. Por un lado, sirve para contribuir al mante-
nimiento del equilibrio corporal, lo cual se realiza mediante el sistema vestibular o
laberinto posterior, que está formado por el vestíbulo y los tres canales semicircula-
res. Por otro lado, y en lo que a la actividad acústica se refiere, el oído interno sirve
para transformar las vibraciones mecánicas que provienen del oído medio en
impulsos eléctricos, lo que se produce en el laberinto anterior, llamado por su
forma cóclea o caracol. Ambas tareas son llevadas a cabo por células sensoriales pi-
losas capaces de trasformar los movimientos mecánicos en variaciones de la tensión
eléctrica, las cuales son codificadas y transmitidas al cerebro por los nervios vestibular
y coclear respectivamente. Estos dos nervios se juntan inmediatamente después del
269
oído y forman el nervio vestibulococlear, también llamado VIII par craneal, el cual
conduce la información procedente del oído interno al cerebro.
Puesto que en este capítulo nos estamos ocupando de la fisiología de la audición,

dejaremos de lado lo que concierne al sistema vestibular, el encargado del equilibrio,
para dedicarnos a la parte del oído interno en el que se producen los fenómenos
relacionados con la audición, es decir, a la cóclea.
Pero antes de examinar con más detalle la estructura de la cóclea, veamos un vídeo
didáctico que nos explica muy bien el mecanismo mediante el cual las ondas sonoras
procedentes del exterior son transmitidas por las distintas partes del oído y transfor-
madas en impulsos eléctricos, fenómeno que se denomina “transducción auditiva”.
El vídeo Auditory Transduction ha sido creado por Brandon Pletsch y los subtítulos
en español se deben a Hermes Carreño y Oscar Guillermo.
Figura 12.2: Vídeo que muestra un panorama general de la audición.
270
12.3. La cóclea
La cóclea es la parte del oído interno donde se transforma la información au-

ditiva que contiene la vibración sonora en impulsos nerviosos. En primer lugar,
la cóclea actúa como un analizador mecánico de frecuencias, descomponiendo me-
diante resonancias la forma de la vibración sonora en sus componentes sinusoidales;
en segundo lugar, transforma esa información frecuencial en señales eléctricas; y,
finalmente, codifica todo ese conjunto de datos en impulsos nerviosos que son trans-
mitidos al cerebro.
Para estudiar cómo está constituida la cóclea voy a ir presentando una serie de ilustra-
ciones en las que podremos observarla desde diferentes perspectivas. En ellas iremos
avanzando desde una visión general a otra cada vez más detallada. En todas las ilus-
traciones he utilizado los mismos colores para representar las distintas partes de la
cóclea: en color beige están las partes óseas; en color rojizo, las membranosas; en
color amarillo, las nerviosas; en azul, las áreas ocupadas por la perilinfa; y en verde,
las ocupadas por la endolinfa.
12.3.1. Descripción general de la cóclea
La cóclea está formada por un armazón óseo herméticamente cerrado, lleno

de fluidos acuosos, que contiene en su interior diversas membranas, células
sensoriales y fibras nerviosas. La cóclea comunica con el oído medio a través de
dos orificios cerrados por sendas membranas (figura 12.1): la ventana oval, mediante
la cual el estribo provoca las variaciones de presión en los fluidos que llenan los canales
del interior de la cóclea; y la ventana redonda, mediante la cual se compensan las
variaciones de presión que han sido introducidas por el estribo.
Veamos dos ilustraciones que presentan el aspecto general de la cóclea. Están basadas
en dibujos antiguos, aunque he coloreado cada zona siguiendo los criterios que acabo
de mencionar.
271
Figura 12.3: Ilustración del aspecto general de la cóclea.
La ilustración de la izquierda representa la parte ósea de la cóclea. Consiste en una

especie de cilindro hueco de aproximadamente 2 mm de diámetro que se enrolla
sobre sí mismo de manera helicoidal unas dos veces y media en torno a un eje óseo
llamado modiolo. Su aspecto recuerda al de la concha de un pequeño caracol (la
palabra cóclea procede del término griego kochlías, caracol). La cóclea está incrustada
en el hueso temporal. Su anchura en la base es de algo menos de 1 cm y su altura, desde
la base hasta el ápex, es de unos 5 mm. La longitud de la cóclea humana desenrollada
es de aproximadamente 35 mm. Esta ilustración incluye también la lámina espiral
que divide, sin llegar a cerrarlo, el interior de la cóclea en dos conductos principales,
el superior y el inferior.
En la ilustración de la derecha se representa lo que veríamos si hubiéramos retirado

la pared exterior de la cóclea. Ahora podemos distinguir el modiolo, que forma la
pared interna de la cóclea; la lámina espiral, que surge del modiolo; la membrana
basilar, que completa la división principal del interior de la cóclea; y el borde del
ligamento espiral, en color naranja, mediante el cual la membrana basilar queda
sujeta a la pared exterior de la cóclea.
La membrana basilar sigue todo el recorrido espiral de la cóclea, pero no es igual a

lo largo de toda su longitud, sino que es más estrecha en la parte basal —donde mide
aproximadamente 0,1 mm de ancho— y más ancha en la parte apical —donde mide
unos 0,5 mm. Conforme la membrana basilar gana en anchura, la lámina espiral va
272
haciéndose más estrecha. Además, la membrana basilar es unas 100 veces más rígida
en la parte basal que en la apical. El ligamento espiral que sujeta la membrana basilar
a la pared externa de la cóclea contribuye a proporcionarle la tensión adecuada que
debe tener en cada punto de su longitud.
La división del interior de la cóclea en dos canales principales, llenos de fluidos acuo-
sos y separados por una membrana elástica cuya rigidez varía a lo largo de su longi-
tud, explica el comportamiento de la cóclea como analizador mecánico de espectro.
Como veremos más adelante, la diferente elasticidad de la membrana basilar en cada
punto de su longitud otorga a cada localización espacial una frecuencia natural de re-
sonancia. De esta manera, la membrana basilar resuena en diferentes localizaciones en
función de los componentes sinusoidales que están presentes en la vibración sonora
que recibe: los componentes graves generan resonancias en la zona de la membrana
basilar situada en la parte apical de la cóclea, mientras que los agudos resuenan en la
zona basal. Esta propiedad de la membrana basilar se denomina tonotopía (del griego
tónos, altura tonal, y tópos, lugar, espacio).
12.3.2. Estructura interna de la cóclea
Pero para poder realizar las tareas de transducción mecano-eléctrica y de codificación

neuronal la cóclea necesita tener una estructura más compleja. Veamos ahora un
esquema del oído en el que se representa un corte longitudinal de la cóclea como si
estuviera desenrollada.
Figura 12.4: Ilustración de un corte longitudinal de la cóclea desenrollada.
273
La novedad más destacada que observamos en este dibujo respecto a los anteriores
es que ahora en el interior de la cóclea vemos tres canales bien diferenciados. En
realidad, el canal superior de la cóclea está subdividido en dos canales inde-
pendientes: el canal o rampa vestibular y el canal medio o canal coclear.Esta
división del canal superior en dos canales se realiza mediante una membrana muy
fina, de unos 12 micrómetros de grosor, llamada membrana de Reissner. Vemos
también que la membrana basilar recorre casi toda la longitud de la cóclea, hasta
llegar a la zona apical, donde existe una abertura, llamada helicotrema, que comu-
nica el canal vestibular con el canal inferior. El canal inferior recibe también el
nombre de canal o rampa timpánica.
Como se puede ver en la ilustración, los tres canales del interior de la cóclea están
llenos de dos tipos de fluidos acuosos de diferentes características electroquímicas: la
perilinfa, señalada en color azul, y la endolinfa, en color verde. El canal vestibular
y el canal timpánico, contienen perilinfa, mientras que el canal medio tiene en
su interior endolinfa, el líquido específico del oído interno, caracterizado por ser
muy rico en iones positivos de potasio (K+).
El canal vestibular comienza en el vestíbulo del oído interno, desde donde comunica
con el oído medio a través de la membrana de la ventana oval. Puesto que la venta-
na oval está en contacto directo con la base del estribo del oído medio, cuando éste
hace oscilar la membrana de la ventana oval, las vibraciones mecánicas ocasionadas
por los cambios de presión del aire debidos al sonido son transmitidas inmediata-
mente a la perilinfa del canal vestibular. Y estas vibraciones son comunicadas, casi
instantáneamente, al canal timpánico a través de la membrana basilar.
El canal timpánico se comunica con el oído medio a través de la ventana redonda,

un orificio en el hueso de la cóclea cerrado por una membrana. A diferencia de la
ventana oval, esta membrana es pasiva y solamente sirve para compensar los aumen-
tos y disminuciones de la presión que se producen en el interior de la cóclea como
consecuencia de la oscilación de la membrana de la ventana oval, variaciones que
llegan al canal timpánico mediante la deformación de la membrana basilar. Cuan-
do la membrana oval penetra en el interior del canal vestibular, la membrana de la
ventana redonda se abomba hacia afuera, es decir, hacia el espacio del oído medio;
por el contrario, cuando la membrana oval retrocede, la membrana de la ventana
redonda penetra en el canal timpánico de la cóclea. Si no existiera esta ventana re-
274
donda, los fluidos acuosos del interior de la cóclea, al ser incompresibles, no podrían
vibrar.
El canal medio o conducto coclear es un contenedor de endolinfa. A pesar de la finura

de la membrana de Reissner, su impermeabilidad impide a la endolinfa mezclarse con
la perilinfa del canal vestibular. Por su diferente constitución electroquímica, entre
la endolinfa y la perilinfa existe una diferencia de potencial de unos 80 mV, y gracias
a esa diferencia de potencial la cóclea puede realizar la transducción de las señales
mecánicas en señales eléctricas, como veremos más adelante.
Hay que tener en cuenta, por otra parte que, debido a su finura, la membrana de
Reissner no supone obstáculo alguno a la vibración de los fluidos. De esta forma, en
lo que concierne a la función de la cóclea como analizador mecánico de espectro, el
canal vestibular y el canal medio se comportan como si se tratara de un solo canal, el
canal superior del dibujo de la izquierda de la figura 12.3.
En la figura 12.4 podemos ver también, ligeramente dibujadas, las fibras nerviosas que
salen de la cóclea y que forman el nervio coclear. Este nervio será el encargado de
llevar al cerebro la información auditiva convertida ya en impulsos nerviosos.
Pero para apreciar mejor cómo se organizan estas estructuras nerviosas, es oportuno
observar el interior de la cóclea desde otra perspectiva. Veamos una ilustración que
representa las dos vueltas y medio de la cóclea cortada transversalmente. En ella, para
mostrar las estructuras nerviosas, se ha prescindido de la pared ósea interior y de la
lámina espiral. Los autores son Guy Rebillard y Rémy Pujol y la ilustración procede
de Voyage au centre de l’audition.
275
Figura 12.5: Ilustración de un corte transversal de la cóclea.
Podemos distinguir en cada vuelta de la cóclea los tres canales que hay en su interior
—el canal vestibular, el canal medio y el canal timpánico—, cada uno de ellos pintado
en el color que representa el fluido acuoso que contiene. Pero lo más interesante de
esta ilustración es que nos permite apreciar cómo es el ganglio espiral, el cual se
forma de la reunión de las fibras nerviosas que se conectan al epitelio sensorial de la
membrana basilar, el llamado órgano de Corti. Vemos que el ganglio espiral recorre
prácticamente toda la longitud de la cóclea y también que de él surge el haz nervioso
que forma el nervio coclear.
Y para concluir el estudio de la organización interna de la cóclea, examinemos sus

partes con un poco más de detalle. Veamos un dibujo esquemático de las áreas que se
podrían distinguir en un corte transversal de una sola vuelta de la cóclea. Está basada
en un dibujo muy difundido en internet. Lo he modificado para hacer coincidir los
colores con los del resto de las ilustraciones de la cóclea y, sobre todo, para delimitar
276
con precisión las zonas ocupadas por la endolinfa de aquellas otras ocupadas por la
perilinfa, particularmente en la zona inferior del canal medio.
Figura 12.6: Ilustración de un corte transversal de una vuelta de la cóclea.
En la figura reconocemos las partes de la cóclea que hemos visto en los dibujos ante-
riores, si bien ahora, al ser representadas desde otra perspectiva, podemos apreciarlas
mejor. Así, reconocemos la cóclea ósea, con la pared exterior, el modiolo y la lámina
espiral que sale de él; la membrana basilar, de la cual ahora podemos ver con claridad
que completa la división del interior del cilindro coclear en los dos canales princi-
pales; los tres canales llenos de líquido del interior de la cóclea, el canal vestibular,
el canal medio y el canal timpánico; el ligamento espiral, que sujeta la membrana
basilar a la pared exterior de la cóclea; y el ganglio espiral, situado en el interior del
modiolo, que va a converger en el nervio coclear.
Pero además, esta ilustración nos muestra otras estructuras que hasta ahora o no ha-
bían sido representadas o no lo habían sido con suficiente claridad. Vemos la estría
vascular, el epitelio que recubre el ligamento espiral y que cierra el recinto del canal
medio por la parte externa, encargándose de dotar de abundantes iones positivos de
potasio a la endolinfa de ese canal. También podemos ver con claridad el epitelio
sensorial situado sobre la membrana basilar, el órgano de Corti, en el que pode-
277
mos identificar las células pilosas externas e internas, así como los espacios llenos de
perilinfa que hay entre ellas. Así mismo, ahora está dibujada la membrana tecto-
rial, una estructura gelatinosa contra la que chocan las vellosidades las células pilosas
del órgano de Corti. Y, finalmente, podemos apreciar las terminaciones nerviosas
que conectan las células sensoriales del órgano de Corti y que forman el ganglio
espiral.
Por otra parte, este dibujo es muy útil para determinar con precisión qué zonas del
interior de la cóclea están ocupadas por perilinfa y cuáles otras están ocupadas por la
endolinfa. En efecto, ahora podemos apreciar con más exactitud los límites del canal
medio, en el que está encerrado el fluido endolinfático, lo cual es muy importante
para entender cómo se realiza la transducción mecano-eléctrica.
Podemos distinguir sin dificultad los límites del canal medio por la zona superior
y por la exterior: por un lado, la membrana de Reissner separa por arriba el canal
medio del canal vestibular y, por el otro, la estría vascular delimita el canal medio
por la zona exterior de la cóclea.
Y ahora podemos delimitar con más claridad los bordes inferiores del canal medio, en
la zona donde está ubicada la membrana basilar y el órgano de Corti. En el dibujo este
límite inferior aparece delineado en color rojo. En líneas generales, se puede decir
que ese límite está formado por la parte superior del epitelio sensorial que recubre la
membrana basilar. Pero, si nos fijamos un poco, podemos apreciar que no es todo el
epitelio sensorial, sino que las vellosidades de las células sensitivas del órgano de Corti
están dentro del canal medio y, por lo tanto, están bañadas en endolinfa, mientras
que el cuerpo de esas células ya permanece fuera del canal medio, en contacto directo
o indirecto con la perilinfa que proviene del canal timpánico. Pero esto lo veremos
con más detalle a continuación, al estudiar el órgano de Corti.
12.3.3. El órgano de Corti
El órgano de Corti es un epitelio sensorial que está situado sobre la membrana basilar
a lo largo de todo su recorrido, por lo que vibra solidariamente con ella. El órgano
de Corti es el encargado de transformar los movimientos vibratorios resonantes de
la membrana basilar en variaciones de la tensión eléctrica, las cuales posteriormente
278
serán codificadas por las neuronas del ganglio espiral y convertidas en impulsos ner-
viosos. Para entender cómo se produce la transducción mecano-eléctrica es conve-
niente estudiar antes, con un poco de detenimiento, cómo está organizado el órgano
de Corti.
Veamos una ilustración de un pequeño segmento del órgano de Corti, creada por
Robert Jackler y Christine Gralapp, que se encuentra en la página Ear Anatomy,
Stanford School of Medicine. He cambiado algunos colores para adecuarlos a los ilus-
traciones anteriores.
Figura 12.7: Ilustración de un segmento del órgano de Corti.
A la izquierda del dibujo tendríamos el modiolo, como podemos deducir por la pre-
sencia del ganglio espiral, mientras que a la derecha se encontraría la pared exterior
de la cóclea.
En el órgano de Corti hay dos tipos de células: las células sensitivas, llamadas por
su aspecto células pilosas, y otros tipos de células que les sirven de aislamiento, de
soporte y de relleno.
279
Las células pilosas son las células mediante las cuales propiamente se realiza la
transducción mecano-eléctrica. En todo el epitelio sensorial hay unas 15.000 o
16.000 células pilosas. La longitud media de estas células es de unos 50 micrómetros.
Su diámetro es inferior a los 10 micrómetros. De la membrana de la parte superior
de cada una de las células pilosas salen una especie de vellosidades rígidas, llamados
estereocilios. En cada célula pilosa hay aproximadamente un centenar de estereoci-
lios, unidos entre sí y agrupados en un ramillete. Los estereocilios de cada ramillete
tienen distinta longitud (los más largos miden unos 6 micrómetros) y están ordena-
dos por su altura, de tal modo que el estereocilio más largo está hacia el exterior de
la cóclea y los más cortos hacia el interior.
Por su forma y su función se distinguen dos tipos de células pilosas: las células pilosas
internas, más próximas a la pared interna de la cóclea, y las células pilosas externas,
más próximas a la pared externa.
Las células pilosas internas son células exclusivamente sensoriales. Tienen una forma
bulbosa, similar a la de una pera, y se disponen en una sola hilera. En total hay unas
3.500 células pilosas internas dispuestas a lo largo de la membrana basilar. Su tamaño
no presenta muchas variaciones. Están rodeadas por otras células no sensoriales que
les sirven de soporte y de aislamiento. Hacia la parte exterior se encuentran las células
pilares que forman el túnel de Corti, un hueco que está lleno de perilinfa.
Por su parte, las células pilosas externas tienen un cuerpo cilíndrico. Se agrupan en
filas de tres o de cuatro células y también se disponen en hileras. Hay unas 12.000
células pilosas externas, distribuidas a lo largo de la membrana basilar. Las células
pilosas externas están ancladas en otras células que las soportan. Entre ellas hay espa-
cios llenos de perilinfa, los llamados espacios de Nuel. La altura de las células pilosas
externas varía de la zona basal a la apical de la cóclea: en la zona basal miden unos 30
micrómetros, mientras que en la apical llegan a tener hasta los 70 micrómetros.
La característica de las células pilosas externas es que son células contráctiles: no sola-
mente captan mediante sus estereocilios el estímulo mecánico que reciben, sino que
también reaccionan, acortándose o alargándose, en respuesta al estímulo recibido,
de modo que retroalimentan el movimiento mecánico de la membrana basilar en
la localización exacta en la que se hallan. Con ello logran que la resonancia en ese
punto sea más acentuada.
280
Tanto en las células pilosas externas como en las internas, los estereocilios están se-
parados del cuerpo de la célula a la que pertenecen por una especie de pletina. Esta
pletina está unida estrechamente a la superficie de las células que bordean cada célula
sensorial y que la aíslan de sus vecinas. Mediante esa estrecha unión se crea una lámina
impermeabilizadora capaz de cerrar el canal medio por su parte inferior, impidiendo
a la endolinfa de ese conducto mezclarse con la perilinfa que llena las lagunas que
existen entre las células del órgano de Corti, es decir, el túnel de Corti y los espacios
de Nuel. De estas manera, mientras que los estereocilios de cada célula pilosa
están dentro del canal medio y están bañados por el líquido endolinfático de
éste, el cuerpo de la célula está en contacto directo o indirecto con la perilinfa
que procede del canal timpánico.
Como veremos cuando estudiemos la transducción mecano-eléctrica, esta lámina

impermeable hace que los iones positivos de Potasio (k+) que abundan en la endo-
linfa solamente puedan pasar al otro lado a través del cuerpo de las células pilosas.
La flexión de los estereocilios al chocar contra la membrana tectorial, como conse-
cuencia de la vibración de la membrana basilar, abrirá o cerrará los canales iónicos,
permitiendo o impidiendo el establecimiento de una corriente eléctrica entre la en-
dolinfa y la perilinfa.
Para hacernos una idea de la disposición de los estereocilios de las células pilosas
internas y externas, veamos una fotografía realizada con microscopio electrónico de
la parte superior del órgano de Corti, en la que se ha retirado la membrana tectorial.
Está obtenida de la galería de imágenes de Yale Medical Cell Biology.
281
Figura 12.8: Fotografía de las células pilosas del órgano de Corti vistas desde arriba.
Vemos la parte superior de las células pilosas y de las células de soporte, así como
la película impermeabilizadora que forman. Observamos que los estereocilios de las
células sensoriales internas están dispuestos casi en hilera. Y también que los este-
reocilios de las células externas tienen una forma casi de uve doble. Aunque ni en
esta fotografía ni en la ilustración anterior están representados, los estereocilios es-
tán unidos entre sí por unos enlaces flexibles situados aproximadamente en el medio
de su longitud, mediante los cuales están agrupados unos con otros formando un
ramillete.
Además, los estereocilios poseen en su extremo superior unas pequeñas aberturas

cuya puerta, por así decir, está unida mediante un microfilamento proteínico, el tip
link, al estereocilio contiguo más alto. Estas aberturas son los canales iónicos y se
abren o se cierran en función de la mayor o menor separación de los estereocilios
según el momento de la oscilación, permitiendo o impidiendo el paso de los iones
positivos al interior del cuerpo celular.
282
Figura 12.9: Ilustración de la apertura y cierre de los canales iónicos de los estereocilios.
Se podría considerar que las células pilosas son los micrófonos de nuestro sistema au-
ditivo. De algún modo, podríamos decir que nuestro membrana basilar está equipada
con unos 15.000 micrófonos colocados sobre ella, capaces de recoger y transformar
en señales eléctricas las vibraciones de cada una de las localizaciones de esta mem-
brana. Las células pilosas internas están dispuestas de tal modo que forman algo así
como una hilera de 3.500 micrófonos situados sobre la membrana basilar y son la
principal y más directa fuente de información del movimiento de oscilación de cada
zona de esta membrana. Teniendo en cuenta que la longitud media de la membra-
na basilar es de 35 mm, la separación entre las células pilosas internas es de unas 10
micras, una separación ligeramente superior al diámetro de cada célula. Así pues, po-
dríamos decir que cada 10 micras una célula sensorial recoge, a modo de micrófono,
el movimiento resonante de esa zona de la membrana basilar.
283
12.3.4. El ganglio espiral
Para terminar la descripción de la cóclea, antes de pasar a analizar las funciones que
realiza, nos queda el estudio de su sistema nervioso. El ganglio espiral o coclear re-
corre el interior de la cóclea por un orificio situado dentro del modiolo llamado el
canal de Rosenthal, a la altura de la división creada por la lámina espiral y la mem-
brana basilar, como hemos podido ver en las figuras 11.5, 11.6, y 11.7. El ganglio
espiral es el encargado de codificar las señales eléctricas que provienen de las células
pilosas del órgano de Corti y de regular su actividad. Está formado por los cuerpos
de unas 50.000 neuronas.
Las dendritas de estas neuronas establecen sinapsis con las células pilosas, mientras
que sus axones constituyen el nervio auditivo o coclear. El conjunto de dendritas y
axones forman las fibras nerviosas que comunican el órgano de Corti con los prime-
ros núcleos del cerebro especializados en la audición. Las fibras nerviosas que salen
del ganglio espiral pueden ser imaginadas como líneas de comunicación entre la có-
clea y la parte del cerebro dedicada a procesar la información auditiva. Veamos una
hermosa ilustración, realizada por Andréa Zariwny.
Figura 12.10: Ilustración del ganglio espiral.
284
En esta ilustración podemos apreciar el ganglio coclear, con las dendritas que salen
de él a lo largo de todo su recorrido espiral y los axones que, reunidos en forma de
haz, constituyen el nervio coclear.
Las neuronas aferentes del ganglio espiral codifican las señales eléctricas recibidas
de las células sensoriales del órgano de Corti y transmiten la información hacia los
núcleos auditivos del cerebro, en concreto, hacia el núcleo coclear. Por su parte,
las neuronas eferentes reciben información desde el complejo olivar superior y la
comunican a las células pilosas.
En el ganglio espiral existen dos tipos de neuronas que se diferencian por su mor-
fología y su constitución: las llamadas neuronas cocleares de tipo I, bipolares, ca-
racterizadas por tener una dendrita y un axón, ambos gruesos y mielinizados; y las
neuronas cocleares de tipo II, unipolares, con un axón delgado y sin mielina di-
vidido en dos ramas, una de las cuales cumple la función de dendrita. Debido a ello,
mientras las neuronas de tipo I dan lugar a fibras de conducción rápida, las fibras de
las neuronas de tipo II son más lentas. El 90 % de las neuronas del ganglio espiral son
del tipo I. Las neuronas eferentes son todas del tipo II, pero las aferentes pueden ser
tanto del tipo I como del tipo II.
La inervación de las células pilosas del órgano de Corti es diferente según sean in-
ternas o externas.
Cada célula pilosa interna es inervada por entre 10 y 15 fibras nerviosas aferentes
del tipo I. Además, cada una de estas fibras está conectada solamente con una célula
sensorial interna. De esa manera, para transmitir la información que ha generado,
cada célula sensorial interna dispone de entre 10 ó 15 líneas de comunicación inde-
pendientes y rápidas. Esto explica el gran porcentaje de neuronas del tipo I que hay
en el ganglio espiral.
Por su parte, cada célula pilosa externa se conecta a unas 6 fibras nerviosas aferentes.
Pero la célula tiene que compartir cada fibra con unas 10 ó 20 células pilosas externas
más y, además, las fibras nerviosas aferentes son ahora neuronas del tipo II. Por ello la
información que transmiten las fibras nerviosas que proceden de las células sensoriales
externas es mucho más lenta y mucho menos especializada que la enviada por las
fibras nerviosas que proceden de las células sensoriales internas.
285
Tanto las células pilosas externas como las internas tienen conexiones con neuronas
eferentes, todas ellas del tipo II. En las células pilosas internas la conexión no se es-
tablece directamente con la célula sensorial, sino con alguna fibra nerviosa a la que
está unida. En ese caso la finalidad de estas fibras eferentes parece ser el control de las
sinapsis aferentes. En las células pilosas externas, que son contráctiles, parece que la
función de las neuronas eferentes es el control de su motilidad.
Veamos un sencillo esquema de las conexiones de las células sensoriales del órgano
de Corti con las neuronas del ganglio espiral donde se procesa la información audi-
tiva.
Figura 12.11: Esquema de las conexiones neuronales del órgano de Corti.
286
12.4. La cóclea como analizador mecánico de frecuencias
El análisis espectral es la primera de las tres tareas que debe realizar la cóclea
para transformar en impulsos nerviosos la información sonora contenida en
la vibración mecánica. Para llevar a cabo este trabajo la cóclea cuenta con la mem-
brana basilar y con los fluidos acuosos que llenan sus canales.
Este análisis da lugar a que la información frecuencial que contiene la señal en el

tiempo se traduzca en información espacial, dando como resultado una organización
tonotópica de la membrana basilar. En cierto sentido, el comportamiento de la cóclea
como analizador mecánico de frecuencias se asemeja al del piano imaginario de miles
de cuerdas utilizado para explicar la descomposición espectral en el capítulo “Análisis
espectral de los sonidos musicales”.
En ambos casos, la detección de los componentes frecuenciales que constituyen la vi-

bración sonora se logra mediante un sistema mecánico de resonancias: en el caso del
piano ideal entran en resonancia las cuerdas que están afinadas a la frecuencia de los
componentes sinusoidales presentes en el sonido analizado; en el caso de la cóclea
resuenan aquellas pequeñas secciones de la membrana basilar cuyas frecuen-
cias naturales de vibración coinciden con las de los componentes de la onda
sonora que penetra en el canal vestibular por la ventana oval.
Ahora bien, a diferencia de las cuerdas del piano, la membrana basilar es un continuo.
Su frecuencia de resonancia en cada punto a lo largo de su longitud (la afinación de
ese punto, por decirlo así) depende tanto de la elasticidad de la membrana en esa
localización concreta, como de su distancia respecto a la ventana oval. Así mismo,
las frecuencias de resonancia de la membrana basilar no se distribuyen linealmente
como en nuestro piano ideal, sino logarítmicamente. De hecho, si tomamos como
inicio la zona apical de la membrana basilar, cada 3,5 mm aproximadamente se dobla
la frecuencia, es decir, se aumenta una octava.
12.4.1. Tonotopía de la membrana basilar
La cuestión que hay que explicar ahora es: ¿Cómo es posible que un sistema forma-
do por dos canales llenos de fluido acuoso y separados por una membrana elástica de
287
rigidez variable pueda resonar en diferentes localizaciones en función de los compo-
nentes frecuenciales de la señal de entrada? Recordemos que, en lo que concierne a la
transmisión de la vibración mecánica, el canal vestibular y el canal medio funcionan
como si se tratara de uno solo, ya que la membrana de Reissner, debido a su finu-
ra, no supone obstáculo alguno a la transmisión de las vibraciones entre los fluidos
acuosos.
Mi exposición va a seguir el planteamiento propuesto por Jan Schnupp, Israel Nel-

ken y Andrew King en su libro Auditory Neuroscience, Making Sense of Sound (The
MIT Press, 2011), según el cual la vibración sonora se propaga por el fluido del ca-
nal superior y pasa al canal inferior a través de la membrana basilar justamente en
aquellas localizaciones cuya frecuencia natural de vibración coincide con la de los
componentes frecuenciales presentes en el sonido analizado.
Veamos, así pues, las razones por las que la membrana basilar resuena en distintas
localizaciones según la frecuencia de la vibración que recibe.
Como todo movimiento ondulatorio, la vibración sonora tiende a buscar el camino

más fácil, aquél que presenta un obstáculo menor. En la cóclea, la transmisión de la
onda desde el canal superior al inferior se ve afectada por dos fuerzas cuyos gradientes
van en sentido contrario. Por un lado, la rigidez de la membrana basilar disminuye
conforme se aleja de la ventana oval ofreciendo menos resistencia a la vibración. Por
otro, la inercia de los líquidos que llenan los canales es mayor conforme la zona está
más alejada de la ventana oval, pues la cantidad de líquido que la vibración tendrá
que mover será mayor.
Así mismo, el obstáculo que supone la inercia depende de la frecuencia de la vibra-

ción: cuanto mayor sea la frecuencia, más difícil le resultará a la vibración mover
los líquidos que llenan los canales de la cóclea. Para entender esto último nos basta
recurrir a una sencilla experiencia: si tratamos de desplazar en vaivén el líquido de
una botella a medio llenar comprobaremos que, conforme más rápido lo queramos
hacer oscilar, más nos costará.
Por todo ello, para una frecuencia determinada de la onda vibratoria, el pun-
to en el que la inercia de los fluidos y la rigidez de la membrana basilar se
compensan será el punto en el que ésta se deformará más, oscilando en re-
288
sonancia con esa frecuencia y transmitiendo la vibración al líquido del canal
inferior.
El hecho de que cada componente frecuencial de la vibración encuentre su propio

camino para transmitirse desde el conducto superior al conducto inferior hace que
las ondas sonoras se dispersen, produciéndose la descomposición de la señal en sus
componentes sinusoidales. De este modo se realiza el análisis espectral.
Este fenómeno es similar al que ocurre con un rayo de luz al que se le hace pasar a
través de un prisma de cristal. En ese caso, cuando las ondas lumínicas se dispersan
buscando el camino más eficaz para cada componente frecuencial —es decir, para
cada color— surge el arco iris. En el caso del sonido, la dispersión que se produce en
la cóclea permite que se cree una especie de mapa de frecuencias en la membrana
basilar. Al transmitirse las vibraciones por diferentes zonas de la membrana según su
frecuencia, los componentes sinusoidales que están presentes en la señal sonora que-
dan registrados en diferentes localizaciones espaciales. Esta organización tonotópica
va a estar presente a lo largo de todo el camino que lleva la información sonora al
cerebro.
Para ayudar a entender todo esto de una manera intuitiva, he fabricado un vídeo
en el que se simula el comportamiento de un analizador mecánico de frecuencias
con una estructura parecida a la de la cóclea. Se trata de un cilindro que contiene
en su interior dos canales llenos de líquido, separados por una membrana elástica de
rigidez variable. Ambos canales están comunicados por una abertura que simula el
helicotrema. Los colores con los que está pintada la membrana siguen la escala del
arcoiris, de manera que los rojos representan las zonas que vibran en resonancia con
las frecuencias bajas y los azules las que vibran con las altas. Por la ventana superior,
que se comporta como la ventana oval, penetra la vibración mecánica producida
por la onda sonora. La ventana inferior, que imita la ventana redonda, sirve para
compensar los aumentos y disminuciones de presión que se crean en el interior del
cilindro. El aumento y disminución de la cantidad de partículas que flotan en el
líquido simboliza el aumento y la disminución de la presión de los fluidos.
El vídeo simula cuatro situaciones vibratorias diferentes, cada una de ellas con un
solo componente sinusoidal: la primera es una vibración cuya frecuencia pertenece
a la zona de los infrasonidos, en torno a los 16 Hz; la segunda tiene una frecuencia
289
de 220 Hz, un la3 en la afinación convencional; la frecuencia de la tercera es de 880
Hz, un la5 ; y la de la última, 3.520 Hz, un la7 . El vídeo está ralentizado 440 veces. El
sonido es solamente ilustrativo.
Figura 12.12: Vídeo con una simulación de la resonancia en la cóclea.
En el vídeo podemos observar que las vibraciones que penetran en el cilindro pasan
del canal superior al inferior por una u otra zona en función de su frecuencia, ha-
ciendo resonar la membrana en diferentes localizaciones, a excepción del primer caso
donde la transmisión de la vibración se realiza por la abertura del final que simula el
helicotrema, de modo que la membrana no se ve afectada.
Al estar el vídeo muy ralentizado, podemos apreciar cómo la vibración introducida

a través de la ventana elástica superior se compensa mediante la ventana elástica in-
ferior. Vemos que cada vez que, como consecuencia del movimiento vibratorio, la
ventana superior penetra en el cilindro, el aumento de la presión que se crea en su
interior hace que la ventana inferior se mueva hacia fuera; y, a la inversa, cada vez que
la ventana superior sale hacia fuera, la ventana inferior se mueve hacia dentro.
El inicio del vídeo muestra una situación en la que la frecuencia de la vibración real
estaría por debajo del rango de los sonidos audibles, es decir, sería menor de 20 Hz.
290
Dado que se trata de una frecuencia muy baja, el obstáculo que supone la inercia
del líquido es escaso, por lo que el camino elegido por la vibración para pasar del
conducto superior al inferior es la abertura del final. En esta situación la membrana
no sufre ninguna deformación y, por lo tanto, tampoco hay ninguna percepción de
sonido.
El segundo caso ilustra lo que sucede con una frecuencia vibratoria de 220 Hz. Aho-
ra la inercia del fluido ya supone cierto obstáculo, un obstáculo lo suficientemente
importante como para que la vibración prefiera vencer la rigidez de la membrana
elástica y pasar a través de ella al canal inferior. Esa zona en la que vemos oscilar la
membrana es la que posee una frecuencia natural de resonancia de 220 Hz, resulta-
do de la conjunción de las dos fuerzas que crecen o decrecen en sentido opuesto: la
inercia de los fluidos en esa zona para esa frecuencia y la rigidez de la membrana en
ese punto.
El tercer caso se corresponde con un sonido dos octavas más agudo, de 880 Hz, por lo
que el movimiento oscilatorio que vemos en el vídeo es cuatro veces más rápido que
en el caso anterior. Ahora la oscilación es tan rápida que el obstáculo que presenta la
inercia del líquido es mucho más importante, por lo que a la onda vibratoria le resulta
más eficaz pasar al canal inferior en una localización más próxima a la entrada de la
vibración, pues, a pesar de que en ese punto la membrana presenta ya una resistencia
bastante grande, la cantidad de líquido que debe mover es mucho menor.
El cuarto caso presenta la situación correspondiente a un sonido de 3.520 Hz, es

decir, un sonido cuya frecuencia de vibración es cuatro veces mayor que la del caso
anterior y dieciséis veces mayor que el segundo caso del vídeo. Al ser la vibración
muy rápida, el obstáculo derivado de la inercia de los líquidos es muy grande, por
lo que la onda vibratoria elige un punto donde tiene que mover menos cantidad de
líquido, aunque ahora la resistencia de la membrana sea ya muy grande.
Este vídeo nos ayuda a entender por qué cada localización de la membrana basilar a
lo largo de su longitud posee una frecuencia natural de resonancia, lo cual explica la
capacidad de la cóclea para transformar los componentes sinusoidales presentes en la
vibración en localizaciones espaciales. A esto es a lo que llamamos la tonotopía de la
membrana basilar.
291
12.4.2. Comportamiento de la membrana basilar ante un sonido complejo
Una vez entendido el fenómeno de la resonancia en la membrana basilar, nos intere-

sa examinar cómo vibra esa membrana ante un sonido complejo, es decir, ante un
sonido que consta de varios componentes sinusoidales (recordemos que todo sonido,
sea o no musical, puede ser descompuesto en componentes sinusoidales).
En primer lugar, hay que tener en cuenta que las zonas de la membrana basilar que
resuenen ante los distintos componentes frecuenciales vibrarán siempre —al menos
de forma ideal— con un movimiento armónico simple, oscilando de arriba a abajo
con una amplitud que, en principio, será proporcional a la del componente que la ha
hecho resonar.
Así mismo, como ocurre en el caso de las cuerdas del piano ideal del capítulo “Aná-
lisis espectral de los sonidos musicales”, no solamente resonará el lugar específico de
la membrana basilar cuya frecuencia natural coincida con la del componente pre-
sente en la vibración de entrada, sino también las zonas próximas. Ahora bien, como
sucede en toda vibración provocada, cada una de las localizaciones de la membrana
basilar que entre en resonancia oscilará siempre a la frecuencia del componente que
la hace resonar, con independencia de cuál sea la frecuencia natural de resonancia de
esa localización concreta. Es decir, si en la onda vibratoria está presente, pongamos
por caso, un componente de 220 Hz, resonará la localización de la membrana cuya
frecuencia natural sea de 220 Hz, pero también se verán afectadas y resonarán, aun-
que en menor medida, las localizaciones vecinas, aquellas que posean una frecuencia
natural próxima, por ejemplo, las que estén entre 200 Hz y 240 Hz. Ahora bien, to-
das ellas oscilarán siempre a la frecuencia excitadora —es decir, a 220 Hz— y no a la
suya propia.
Y, finalmente, los oscilaciones sinusoidales de las distintas localizaciones de la mem-

brana que entren en resonancia conservarán también las diferencias de fase relativas
que puedan existir entre los componentes sinusoidales de la onda vibratoria. Así pues,
el análisis espectral que realiza la membrana basilar no sólo conserva la amplitud de
cada componente, sino también sus diferencias de fase. Esto explica que, en la medida
en la que esta información sea recogida y procesada por nuestro cerebro, podamos
ser sensibles a fenómenos tales como los batidos de segundo orden.
292
Para ilustrar la manera en la que vibra la membrana basilar ante un sonido formado
por varios componentes sinusoidales, he creado un vídeo en el que se simula su movi-
miento oscilatorio ante una onda vibratoria que se va haciendo progresivamente más
compleja. Se trata de la nota la3 , de 220 Hz, en la que se van introduciendo nuevos
componentes armónicos, con amplitudes y fases diferentes. El vídeo está ralentizado
y el sonido es solamente ilustrativo.
Figura 12.13: Vídeo que simula la tonotopía de la membrana basilar.
Debemos tener presente que en la realidad los desplazamientos oscilatorios de cada

zona de la membrana basilar son muy pequeños (en un sonido de intensidad media
del orden de nanómetros, es decir, de millonésimas de milímetro). Por ello, en este
vídeo la longitud de la membrana se corresponde con los 35 milímetros que viene
a medir la membrana basilar, mientras que el desplazamiento vertical de cada zona
que resuena representa solamente unos pocos nanómetros.
Podemos ver que cada localización de la membrana oscila de forma sinusoidal. Y

también que lo hace solamente a la frecuencia de los componentes presentes en la
señal de entrada. Apreciamos también que en cada zona de resonancia no oscila so-
lamente un único punto de la membrana —el que tiene la misma frecuencia natural
293
de resonancia que el componente de entrada—, sino que también oscilan, a la misma
frecuencia, los puntos vecinos, creándose pequeños montículos y hondonadas.
Como el vídeo está también ralentizado 440 veces, podemos apreciar que cuando el
componente de 220 Hz, el más grave, hace una oscilación completa han transcurrido
dos segundos, y cuando el siguiente componente, el de 440 Hz, realiza una oscilación
completa ha transcurrido uno, y así sucesivamente.
El principio del vídeo ilustra la vibración de la membrana basilar cuando el sonido

está formado por un solo componente, el de 220 Hz. Luego, al entrar el segundo
componente, el de 440 Hz, la membrana basilar resuena además en una nueva loca-
lización, más próxima a la zona basal, donde oscila con el doble de frecuencia que
en la primera. Y cuando entra el tercer componente se crea una nueva zona de re-
sonancia, aún más próxima a la zona basal, y su frecuencia de oscilación es el triple
de la primera. Lo mismo sucede cuando entran el cuarto y el quinto componente,
cuyas frecuencias de oscilación son cuatro y cinco veces la de la primera.
Por otra parte, en el vídeo podemos observar que las oscilaciones de las diferentes zo-
nas de la membrana basilar conservan la información de la fase relativa que tenían los
componentes que constituyen la onda vibratoria. Si paramos el vídeo en el momento
en el que el componente más grave alcanza su desplazamiento máximo, podremos
apreciar los desfases con los demás componentes. Estos desfases estaban presentes en
la señal de entrada que he fabricado.
12.4.3. Retroalimentación de las células pilosas externas sobre la membrana

basilar
Como se estudia en el capítulo dedicado al análisis espectral, para que un analizador

de frecuencias sea capaz de discriminar componentes próximos presentes en la señal
de entrada, es necesario que la respuesta sea lo suficientemente picuda, es decir, que la
anchura de la banda de frecuencias afectada por el derrame espectral sea pequeña. Sin
embargo, el análisis mecánico que resulta del movimiento resonante de la membrana
basilar está lejos de lograr esa buena respuesta.
294
Pero la cóclea dispone de un sistema de retroalimentación que le permite reducir el
derrame espectral y mejorar significativamente la respuesta puramente mecánica que
le proporciona la simple resonancia de la membrana basilar: el movimiento de las cé-
lulas pilosas externas del órgano de Corti. Como hemos visto, estas células sensoriales
no se limitan a enviar a las terminaciones nerviosas con las que están conectadas in-
formación sobre la zona de la membrana basilar afectada por la resonancia, sino que,
al ser contráctiles, pueden alargarse y encogerse cuando son excitadas por el mo-
vimiento de la membrana basilar o de la membrana tectorial, con las que están en
contacto directo.
En efecto, cuando un ramillete de células pilosas externas son afectadas por

la vibración del punto de la membrana basilar sobre el que se sitúan, chocan
contra la membrana tectorial, de modo que el cuerpo de estas células se contrae
y se dilata, y lo hace siguiendo el ritmo de la oscilación en ese punto. Así, estas
células actúan como pequeños motores que refuerzan el movimiento de la membrana
basilar en un punto, incrementando notablemente la amplitud de la resonancia en
la localización exacta sobre la que se hallan y logrando, por lo tanto, una respuesta
más picuda. Esta función de retroalimentación es particularmente importante en las
señales débiles, donde pueden llegar a multiplicar por 100 veces la amplitud de la
oscilación de un punto de la membrana basilar.
Este mecanismo de retroalimentación explica, por una parte, el importante margen

perceptivo de la intensidad sonora que poseemos (aproximadamente de 120 dB) y,
por otra, que la anchura de la banda de frecuencias en la que dos componentes no
interfieren entre sí sea los suficientemente amplia como para que seamos capaces de
distinguir individualmente seis o siete armónicos de un sonido compuesto (recor-
demos que los armónicos superiores, aunque no sean individualizables por nuestra
percepción, contribuyen también a la cualidad del sonido).
12.5. Transducción mecano-eléctrica en la cóclea
A continuación vamos a estudiar cómo los movimientos oscilatorios de cada una de

las posiciones de la membrana basilar se transforman en variaciones de la tensión
eléctrica, las cuales reproducen analógicamente esas oscilaciones.
295
Esta transformación se realiza gracias a dos tareas complementarias que llevan a cabo
las células sensoriales del órgano de Corti: en primer lugar, se produce una transfor-
mación exclusivamente mecánica, mediante la cual los movimientos ascendentes y
descendentes de una localización concreta de la membrana basilar se convierten en
movimientos transversales de los estereocilios de las células pilosas que están sobre
ella; en segundo lugar, se origina la transformación eléctrica propiamente dicha, me-
diante la cual los movimientos de izquierda y derecha de los estereocilios sirven para
modular la corriente que circula a través del cuerpo de las células sensoriales.
La primera parte, la conversión de los desplazamientos verticales de la mem-

brana basilar en movimientos transversales de los estereocilios, se produce co-
mo consecuencia de la fuerza ejercida sobre ellos por la membrana tectorial.
Esta membrana pivota ligeramente arriba y abajo, pero su pivote es independiente
de la membrana basilar, de modo que cuando ésta asciende, la membrana tectorial
crea una fuerza de cizalladura sobre los estereocilios que los obliga a inclinarse hacia
el lado externo de la cóclea —es decir, hacia el estereocilio más alto—, mientras que
cuando la membrana basilar desciende, los hace inclinarse hacia el lado interno. Vea-
mos un diagrama esquemático de este movimiento en una imagen obtenida del curso
Hearing en OpenLearn Works, de la que solamente he traducido los nombres.
Figura 12.14: Esquema del movimiento de cizalladura de los estereocilios.
296
El dibujo presenta las tres situaciones características del movimiento derivado de las
fuerzas de cizalladura en una sola célula pilosa.
En la posición de equilibrio (b), vemos que la zona de la membrana basilar donde

se encuentra la célula sensorial mantiene su horizontalidad y que los estereocilios de
esa célula están en vertical.
Cuando esa zona de la membrana basilar asciende (a), desplazándose hacia el canal
vestibular, los estereocilios empujan hacia arriba la membrana tectorial, que, al pivo-
tar ligeramente en el sentido contrario al de las agujas del reloj, se desplaza un poco
también hacia arriba, con lo que provoca una fuerza de cizalladura sobre los estereo-
cilios que los hace inclinarse en el sentido del estereocilio más alto, es decir, hacia
el exterior de la cóclea (en el dibujo hacia la derecha). Aunque en el esquema no se
puede apreciar, hay que pensar que, al inclinarse en este sentido los estereocilios, se
separan ligeramente unos de otros, de modo que los filamentos que unen la puerta
del canal iónico de cada uno de ellos con su correspondiente estereocilio adyacente
se abre más.
Cuando esa zona de la membrana basilar desciende (c), la membrana tectorial pi-
vota ligeramente en el sentido de las agujas del reloj, desplazándose hacia abajo, de
modo que ahora la fuerza de cizalladura sobre los estereocilios se produce en sentido
inverso, es decir, hacia el interior de la cóclea (en el dibujo hacia la izquierda). En-
tonces los estereocilios se juntan unos con otros, cerrándose las puertas de los canales
iónicos.
Así pues, estas deflecciones de los estereocilios siguen el ritmo y la amplitud de los
movimientos oscilatorios de la membrana basilar donde se asientan. Hay que tener
en cuenta que, conforme mayor sea la amplitud del movimiento de ascenso o des-
censo de una determinada localización de la membrana basilar, mayor será también
la amplitud del movimiento transversal de los estereocilios. Por otra parte, aunque
este desplazamiento de los estereocilios es muy pequeño (en un sonido muy intenso
el desplazamiento máximo en la parte superior del estereocilio más alto es del or-
den 100 nm), basta que se desplacen menos de un nanómetro para que percibamos
sonido.
La segunda parte, la transformación eléctrica a partir del movimiento trans-

versal de los estereocilios, es posible gracias a la diferencia de potencial (de
297
unos 80 mV) que existe entre el líquido endolinfático del canal medio, muy
rico en iones positivos de potasio (K+), y el líquido perilinfático del canal tim-
pánico, cuyo contenido en iones positivos de potasio es muy escaso. Debido a
que los estereocilios de las células pilosas están dentro de la endolinfa, mientras que
el cuerpo de estas células está en contacto directo o indirecto con la perilinfa y, al
ser totalmente impermeable la lámina que separa ambos líquidos, la única forma en
la que se puede establecer una corriente eléctrica entre estos fluidos es a través del
interior de las células sensoriales, cuyos canales iónicos abiertos en sus estereocilios
permiten que penetre un mayor o menor número de iones positivos.
En efecto, los iones positivos de la endolinfa son atraídos por la mayor negatividad
del cuerpo de las células pilosas. Cuando el cuerpo celular recibe estos iones se posi-
tiviza y, en consecuencia, los iones positivos son atraídos por las cargas negativas del
líquido semejante a la perilinfa que llena las lagunas del órgano de Corti. Finalmen-
te, los iones positivos son asimilados por la perilinfa del canal timpánico, debido a la
permeabilidad de la membrana basilar al paso de los iones. Y mientras tanto, la estría
vascular se encarga de suministrar constantemente nuevos iones positivos de potasio
a la endolinfa, reponiendo los que va perdiendo.
Pero esa corriente eléctrica no es constante, sino que varía según el movimiento de los
estereocilios de las células sensoriales. El movimiento de vaivén de los estereocilios,
producido como consecuencia de la oscilación de la localización de la membrana
basilar donde se encuentra la célula sensorial, abre más o menos los canales iónicos,
como acabamos de ver, modulando de ese modo el paso de la corriente desde la
endolinfa a la perilinfa.
Cuando esa localización de la membrana basilar está en una posición de equilibrio

y los estereocilios están en vertical, el flujo de iones de potasio que penetra a través
de sus canales iónicos es reducido, con lo que la corriente eléctrica que atraviese el
cuerpo de la célula será moderada. Cuando esa zona asciende hacia el canal vestibu-
lar, abriéndose más los canales iónicos en los estereocilios, penetran por ellos muchos
más iones de potasio positivos, aumentando la corriente eléctrica. Y, por el contra-
rio, cuando esa zona de la membrana basilar se desplaza hacia abajo y se tienden a
cerrar los canales iónicos, penetran por ellos una cantidad más reducida de iones po-
sitivos, quedando entonces el flujo de la corriente muy atenuado. De este modo, el
298
movimiento transversal de carácter mecánico de los estereocilios se transforma en
variaciones de la corriente eléctrica.
Así pues, el resultado de la transducción mecano-eléctrica es que las variaciones

de la corriente eléctrica que atraviesa el cuerpo de cada célula sensorial son
capaces de reproducir de manera analógica los movimientos oscilatorios de la
membrana basilar en la posición en la que se encuentra la célula. La vibración
de ese punto es transformada en una señal eléctrica analógica, de manera similar
a lo que hace un micrófono respecto a las variaciones de la presión del aire en el
lugar en el que está situado. Finalmente, conviene insistir en que el movimiento de
la oscilación de los estereocilios que va a dar lugar a las oscilaciones de la tensión
eléctrica ya no reproduce la forma de la onda vibratoria que ha llegado a la cóclea a
través del estribo, la cual es una señal en el tiempo, sino la forma de la oscilación que
resuena en cada localización de la membrana basilar. Idealmente esta forma es una
señal sinusoidal, con sus propios parámetros de frecuencia, amplitud y fase, resultado
de la descomposición de la señal en el tiempo que ha realizado la membrana basilar
para ese componente concreto.
12.6. Codificación de la información sonora en impulsos eléctri-

cos
A continuación vamos a estudiar cómo el conjunto de señales analógicas que nos

proporcionan las células sensoriales son codificadas por las neuronas y transforma-
das en impulsos nerviosos. Gracias a esta codificación nuestro cerebro extraerá e in-
terpretará la información pertinente a nuestra audición, es decir, los componentes
frecuenciales que están presentes en la vibración de entrada y su correspondiente
amplitud, e incluso la fase relativa entre ellos.
Podríamos pensar que, de algún modo, la codificación que realizan las neuronas en
el ganglio espiral supone la transformación de una información analógica en una
información de tipo digital. Mientras las variaciones de la corriente eléctrica que pasa
a través de las células sensoriales del órgano de Corti reproducen analógicamente las
oscilaciones de la zona de la membrana basilar correspondiente, las neuronas del
299
sistema auditivo se comportan, como todas las demás neuronas, de una manera que
podríamos calificar de discontinua o digital. En efecto, las neuronas siempre siguen
la ley de todo o nada, es decir, disparan un impulso o no lo disparan.
Los medios de los que dispone cada una de las neuronas del sistema auditivo para co-
dificar la información que proporcionan las células sensoriales y transmitirla a otras
neuronas ubicadas en sus respectivos centros de proceso son básicamente dos: el nú-
mero de veces que cada neurona se excita por segundo, es decir, su tasa de disparos;
y el momento preciso en el que lo hace, es decir, la circunstancia concreta en la que
dispara el impulso, como por ejemplo, cuando la oscilación de la corriente eléctrica
en la célula sensorial con la que está conectada alcanza un máximo.
Junto a estos medios individuales, hay otro muy importante en el que están impli-
cadas todo el conjunto de neuronas que se comunican con las células sensoriales del
órgano de Corti: la disposición tonotópica de las neuronas del sistema auditivo. En
efecto, estas neuronas mantienen a lo largo de su recorrido, hasta llegar a la capa
exterior del cortex auditivo, la organización tonotópica que posee la membrana ba-
silar. Dicho de otra manera, cada neurona va asociada a una determinada frecuencia
de resonancia de la membrana basilar y esta asociación se mantiene de neurona en
neurona, dando lugar a una especie de mapa de frecuencias en la zona del cerebro
especializada en la audición.
Puesto que cada célula pilosa interna transmite su información a unas 10 o 12 fibras
nerviosas aferentes que son exclusivas para esa célula concreta, la tonotopía por sí
sola podría explicar nuestra capacidad para apreciar los componentes frecuenciales.
Teniendo en cuenta que el rango de frecuencias que distinguimos los humanos va
desde 20 Hz a 20.000 Hz (es decir, prácticamente 10 octavas ó 120 semitonos) y pues-
to que contamos con una hilera de aproximadamente 3.500 células pilosas internas,
podemos deducir que la separación interválica entre las células sensoriales internas
se corresponde aproximadamente a unas tres centésimas de semitono (120/3500 =
0,0343). Este margen viene a coincidir con las mediciones psicoacústicas sobre nues-
tra capacidad para apreciar las diferencias mínimas entre intervalos sucesivos.
Además, la información sobre la frecuencia también lleva consigo la información

sobre la amplitud. Una parte importante de esas 10 ó 12 neuronas que hacen sinapsis
con cada célula pilosa interna transmiten la información de la amplitud mediante
300
su tasa de disparos. Cuando la amplitud de la oscilación eléctrica en el cuerpo de la
célula sensorial es grande, el número de disparos por segundo de cada neurona es
elevado, mientras que si la amplitud es pequeña hay un reducido número de disparos
por segundo (el número máximo de disparos que es capaz de efectuar una neurona
está en torno a los 500 disparos por segundo). Así mismo, el número de neuronas
pertenecientes a cada célula sensorial que resultan activadas es mayor cuanto mayor
sea la amplitud de la oscilación eléctrica.
La combinación de estos dos medios, tonotopía y tasa de disparos de las neu-

ronas, pueden constituir los mecanismos básicos por los que se codifica la fre-
cuencia y la amplitud. Sin embargo, no son suficientes para explicar fenómenos
psicoacústicos, tales como la detección de la fase relativa entre los componentes, co-
mo ocurre, por ejemplo, cuando oímos los batidos de segundo orden.
El elevado número de conexiones neuronales por cada célula sensorial interna invita
a pensar que pudieran existir otros mecanismos complementarios que refuercen y
precisen esa codificación. Por un lado, parece ser que alguna de las neuronas a las
que están conectadas las células pilosas están especializadas en dispararse cuando la
oscilación eléctrica de la célula pasa por un máximo. Y esto, en principio, ocurre de
forma periódica, pues cada célula que transmite la resonancia de la membrana basilar
debe oscilar con un movimiento armónico simple. Esto implica que si la frecuencia
de oscilación eléctrica es baja, la neurona tendrá tiempo para rearmarse y disparará
un impulso por cada máximo, pero si la frecuencia de la oscilación es alta, no podrá
rearmarse y disparará cada dos, cada tres o cada más máximos. El resultado será un
tren de impulsos que, aunque tenga lagunas, será predominantemente periódico.
Estas lagunas podrán ser completadas por otras neuronas de esa célula especializadas
en este mecanismo, actuando en su conjunto como si estuvieran jugando un partido
de voleibol.
Así pues, el disparo de estas neuronas no tendría que ver con la amplitud, sino con
la fase de la oscilación, es decir, con un estado de la oscilación, el punto en el que
se alcanza el máximo. Este mecanismo, que se denomina bloqueo de fase, ser-
viría para reforzar la codificación de la frecuencia y también para trasmitir la
información de fase relativa entre los componentes de una señal.
301
Hay que tener en cuenta que, aunque como consecuencia del derrame espectral las
células pilosas internas vecinas también oscilarán, lo harán no a su frecuencia natural
de resonancia, sino a la del componente frecuencial presente en la señal de entrada.
Por ello, el tren de impulsos enviado por las neuronas vecinas especializadas en este
mecanismo de bloqueo de fase tendrá siempre la misma frecuencia, lo que explicaría,
entre otras cosas, la percepción de los batidos de segundo orden.
Por otra parte, en lo que concierne a la codificación de la amplitud, contamos con

dos medios complementarios. El primero es la mayor o menor extensión de la
zona afectada por el derrame espectral, es decir, el número de células vecinas
estimuladas por la presencia de un determinado componente frecuencial pre-
sente en la señal de entrada. Conforme mayor sea la amplitud del componente,
mayor número de células vecinas se verán afectadas. El segundo es que la infor-
mación que transmite la neurona aferente conectada a un pequeño grupo de
células pilosas externas contribuye a codificar la mayor o menor amplitud de la
pequeña zona en la que están ubicadas. Dado que estas células pilosas externas son
las encargadas de retroalimentar los movimientos resonantes de la membrana basilar,
la mayor o menor tasa de disparos de la neurona a la que están conectadas contribuirá
a informar sobre la mayor o menor amplitud de la oscilación en esa zona.
Así pues, la forma en la que se realiza la codificación de la información auditiva expli-

ca que, a pesar de que nuestra audición es esencialmente frecuencial (es decir, procede
del análisis espectral realizado mecánicamente por la membrana basilar), haya tanta
coincidencia, como hemos podido comprobar en otros capítulos, entre lo que vemos
en la forma temporal de la vibración sonora y el sonido que percibimos.
Todo este conjunto de mecanismos neuronales que sirven para codificar las señales
analógicas provenientes de las células pilosas del órgano de Corti suministran la base
sobre la cual se realizan complejos algoritmos de procesamiento de la información
auditiva, a lo largo de los diversos centros cerebrales por los que atraviesa. Pero el
funcionamiento preciso de todo ello no es todavía suficientemente conocido y se
escapa del objetivo de este capítulo.
302
12.7. Conclusión
Podemos concluir que nuestra percepción del sonido se fundamenta en el análisis

frecuencial que se realiza en la membrana basilar en el interior de la cóclea. La evi-
dente afinidad entre la forma de la vibración y nuestra percepción auditiva se debe a
que el analizador mecánico de la cóclea conserva una gran parte de la información
que se encuentra en la señal en el tiempo, pues no sólo recoge y transmite la am-
plitud de cada componente presente en la señal, sino que también atiende en cierta
medida a la fase. La gran densidad de información frecuencial que llega a nuestro ce-
rebro le permite recuperar una parte importante del contenido temporal de la señal
sonora.
303
Capítulo 13
Psicoacústica musical
13.1. Introducción
A pesar de que la información musical llega hasta nuestros oídos totalmente mezclada
en la vibración mecánica sobre la que viaja, nuestro sistema auditivo es capaz de
determinar los sonidos musicales que contiene. De la misma manera que en la visión
tenemos la capacidad de distinguir la figura del fondo e individualizar los múltiples
objetos que ocupan la escena visual, en la percepción auditiva podemos aislar cada
una de las entidades sonoras del entorno acústico en el que están inmersas, así como
recuperar la unidad de los sonidos musicales dados por la voz o los instrumentos, los
cuales, debido a la propia fisiología de nuestro oído, han sido previamente divididos
en sus componentes frecuenciales.
Este capítulo estudia la capacidad de nuestra percepción para reconocer objetos mu-
sicales en un contexto sonoro y para reconstruir su unidad. Si bien en cierta medida
esta capacidad está condicionada por las características fisiológicas de nuestra audi-
ción, el proceso mediante el cual percibimos el sonido musical es de orden superior.
En efecto, nuestra percepción musical es el resultado de la manera en la que nues-
tro cerebro procesa los impulsos nerviosos producidos por la cóclea al codificar la
vibración sonora. A día de hoy sólo tenemos ideas de carácter muy general sobre
el proceso que realizan los diferentes núcleos cerebrales relacionados con la audi-
ción. Pero, aunque conociéramos con detenimiento los mecanismos neurológicos
304
mediante los cuales se procesa la información acústica en el cerebro, lo que nos in-
teresaría siempre conocer es la imagen psicoacústica que construimos a partir de esa
información.
Examinaremos, en primer lugar, las limitaciones para la percepción del objeto sono-
ro que vienen dadas por la fisiología de nuestro oído, tales como las que afectan a la
identificación de un sonido simple en un ambiente ruidoso o, dicho de otra mane-
ra, el enmascaramiento al que da lugar la coexistencia de diversos componentes en
zonas próximas del espectro. En segundo lugar, veremos que nuestra capacidad para
recuperar la unidad del objeto sonoro musical viene dada por nuestra predisposición
natural para el reconocimiento del patrón armónico. Y en tercer lugar estudiaremos
cómo el reconocimiento de un patrón armónico, o de una estructura que lo recuer-
de, explica la percepción de la consonancia entre sonidos armónicos compuestos y
cómo también en las consonancias musicales podemos seguir percibiendo la indivi-
dualidad de cada uno de los sonidos que forman parte de la mezcla gracias a nuestra
capacidad para detectar las marcas tímbricas que los individualizan.
Vamos a dejar al margen las cuestiones relacionadas con la percepción de la espacia-

lidad y con todo lo que se deriva del hecho de que tengamos dos oídos. La capacidad
de nuestro sistema auditivo para localizar la procedencia de la fuente sonora es un
tema de interés para la tecnología musical, en especial para lograr una reproducción
sonora que nos devuelva el sonido de la forma más natural posible. Pero, dado que
esta cuestión no es determinante para comprender los fundamentos psicoacústicos
del lenguaje musical, vamos a prescindir en este capítulo de ella.
Finalmente, hay que tener en cuenta que la capacidad de reconocimiento del sonido
musical depende, en buena medida, del entrenamiento del oyente, es decir, de su
mayor o menor dedicación a la música.
13.2. Limitaciones en la percepción del objeto sonoro debidas

a la fisiología del oído
Debido a la constitución de nuestro sistema auditivo, la presencia de otros compo-

nentes frecuenciales en zonas del espectro próximas al sonido que tratamos de perci-
305
bir nos dificulta o incluso nos impide su reconocimiento. Como ya pudimos ver en
el capítulo dedicado a la interferencia entre sonidos simples, nuestro oído requiere
que exista cierta separación entre los componentes frecuenciales para poder
distinguir nítidamente los sonidos. La anchura de la banda crítica es la distan-
cia mínima que sirve de límite para que dos componentes sinusoidales puedan
ser distinguidos con claridad. Esta distancia mínima está en relación directa con
el hecho de que la resonancia de la membrana basilar en un punto afecta también
a los puntos que están próximos, tal como hemos visto en el capítulo dedicado a la
fisiología de la audición.
Para permitir experimentar este fenómeno voy a presentar, a modo de ejemplo, un

vídeo con el caso más sencillo de distinción de fondo y figura en el paisaje sonoro: la
percepción de un sonido simple en un entorno ruidoso. Ahora nos interesa solamente
comprobar que la percepción de un sonido simple con una determinada intensidad
mantenida se facilita de forma significativa cuando se encuentra en una zona libre de
otros componentes. Este caso, realizado con sonidos de laboratorio, nos servirá para
entender la manera en la que nuestra percepción está condicionada por la fisiología
de nuestro oído. Para evitar que los otros componentes puedan provocar efectos
de batidos e interferencias que obstaculizarían nuestra percepción del fenómeno, he
elegido como elemento perturbador una banda de ruido. En este ejemplo el fondo
consiste precisamente en esta banda de ruido, mientras que la figura está formada por
dos sonidos simples que a lo largo de todo el vídeo mantienen la misma amplitud y,
por lo tanto, la misma intensidad. Se trata de un la4 (440 Hz) cuya amplitud es de
0,005 (en unidades arbitrarias normalizadas como siempre entre 0 y 1) y de un la6
(1.760 Hz) cuya amplitud es de 0,3. La diferencia entre la intensidad de ambas señales
es de 36 dB. La banda de ruido se extiende durante los seis primeros segundos unos
1.000 Hz arriba y abajo del componente agudo. A partir del segundo 6 se abre un
hueco en esta banda de ruido que va progresivamente separándose del componente
agudo.
Al disminuir la anchura de banda del ruido, disminuye también su intensidad. Si el

objetivo de este vídeo fuera ser utilizado como un test para ver en qué condiciones es
posible identificar un componente —es decir, medir la anchura de la banda crítica—,
la intensidad del ruido debería haberse mantenido constante, aunque disminuyera la
anchura de su banda. Pero nuestro objetivo ahora es simplemente ilustrar la diferencia
306
entre la percepción que se produce en una banda ocupada y en otra sin ocupar. Que
la intensidad del ruido no se adapte a la disminución de su anchura de banda nos
facilita esta tarea.
Figura 13.1: Vídeo que permite experimentar la percepción de sonidos simples en presencia de ruido.
Durante los primeros 6 segundos del vídeo podemos comprobar que el componente
de 440 Hz (la nota la4 que en el espectrograma corresponde a la línea horizontal infe-
rior que casi no se ve) se oye con toda claridad, acompañada de un ruido de carácter
más agudo; sin embargo, no somos capaces de oír el componente de 1.760 Hz, a
pesar de que en el espectrograma lo podemos ver sin dificultad en medio de la banda
ruidosa. A partir del segundo 6 el carácter del ruido va cambiando: en el espectro-
grama vemos que en medio del ruido va abriéndose un hueco que se va ensanchando
progresivamente para dejar libre las bandas próximas al componente de 1.760 Hz.
Por ello el componente de 440 Hz siguen oyéndose con el mismo volumen sonoro
que antes, pero hasta pasado el segundo 10 no empezamos a percibir ligeramente
el componente agudo de 1.760 Hz, el corrrespondiente a la nota la6 (dependiendo
del volumen de nuestro reproductor y de la atención que prestemos a su aparición
podemos oírlo un poco antes o un poco después). Nuestra percepción del compo-
nente agudo llega a ser cada vez más clara, hasta que, en un momento determinado,
307
ya no cambia y al final percibimos con claridad los dos componentes individuales,
manteniendo cada uno de ellos su propio volumen sonoro. Este efecto se aprecia
más claramente conforme va disminuyendo la intensidad del ruido y reduciéndose
la anchura de su banda.
Este fenómeno psicoacústico del enmascaramiento es utilizado por los compresores

de sonido para disminuir la codificación necesaria en función de nuestras capacidades
para distinguir los componentes próximos.
13.3. El reconocimiento del patrón armónico
En la naturaleza hay muchos sonidos que surgen en condiciones estacionarias, por

ejemplo, las cuerdas que vibran, las columnas de aire que resuenan en cavidades, los
ruidos emitidos por muchos animales, el viento que silba en las grutas, etc. Por ello
el sonido armónico es tan abundante en la naturaleza. Entre los humanos, el sonido
armónico no sólo constituye el material con el que se construye la música, sino que
también sirve de soporte para la articulación del lenguaje hablado, como es el caso
de las vocales. Esta familiaridad con un entorno sonoro armónico explica de algún
modo nuestra predisposición natural para reconocerlo.
A nuestro cerebro llega, a través del nervio auditivo, la descomposición espectral de

la vibración mecánica que ha realizado el oído interno y es nuestro cerebro el que
lleva a cabo la tarea de reunir todos esos componentes dispersos para recuperar la
unidad del objeto sonoro armónico. En nuestra mente se realizan una serie de pro-
cesos psicoacústicos encaminados al reconocimiento del patrón armónico de cada
objeto musical mediante el cual agrupamos los componentes e identificamos las no-
tas. Hay que tener en cuenta que identificar una nota musical, o el intervalo que
forma con otra, no significa darle un nombre concreto; es un proceso inconsciente
para la mayor parte de las personas, pero que nos permite entender y recordar una
melodía. Por ejemplo, si se cambia una nota por otra en una canción conocida casi
todos los oyentes se darán cuenta; y eso ocurrirá con independencia de que sepan o
no música, ni de que sean capaces o no de nombrar la nota o las notas que esperaban
escuchar.
308
La identificación de un sonido armónico no se debe a que percibamos su perio-
dicidad en la forma de la vibración resultante, sino a que la estructura de sus
componentes frecuenciales se corresponde con una estructura armónica. Así
pues, el reconocimiento del patrón armónico se produce por los intentos de nuestro
sistema perceptivo por organizar en estructuras armónicas todo el material sonoro
que recibe.
En líneas generales, el reconocimiento del patrón armónico obedece a las leyes de la

Gestalt en su aplicación al material sonoro. Vamos a ver a continuación que La ley
de la completitud de la figura explica cómo reconstruimos un patrón armónico en un
sonido en el que hay muchos huecos dentro de la serie armónica. Voy a presentar
dos vídeos que nos van a permitir observar la manera en la que nuestra percepción
auditiva organiza el material sonoro según la serie armónica, completando los huecos
que el sonido musical pudiera tener. En el primero mostraré cómo reconocemos
una nota musical en un sonido en el que faltan un buen número de los primeros
componentes. En el segundo veremos que seguimos identificando la misma nota
incluso cuando se le quitan sus primeros armónicos.
En el primer vídeo tenemos el espectrograma de la nota más grave de un sonido

de piano, el la0 , cuya frecuencia es de 27,5 Hz. El sonido procede de una graba-
ción doméstica realizada con un piano vertical, donde el número e importancia de
los componentes graves es considerablemente menor que en un piano de gran cola.
El espectrograma ha sido realizado con una ventana de larga duración (0,2 segun-
dos), pues aquí nos interesa observar la frecuencia de los componentes, más que su
evolución temporal.
309
Figura 13.2: Vídeo con el espectrograma de la nota la0 de un piano.
Todos reconoceríamos aquí un la0 , la nota más grave del piano, con lo que, en princi-
pio, deberíamos ver en el espectrograma su primer armónico, es decir, el componente
de 27,5 Hz. Sin embargo, el armónico más grave que aparece en el espectrograma
es el cuarto, con una frecuencia de 110 Hz; luego el quinto, el sexto y el séptimo,
separados aproximadamente por una distancia de 27,5 Hz. El octavo armónico no
está, pero desde el noveno hasta el decimosexto vemos que son todos consecutivos.
Si seguimos hacia la parte alta del espectro observamos una considerable cantidad de
componentes armónicos, todos ellos separados entre sí, salvo en los casos en los que
hay huecos, por una distancia de 27,5 Hz o un poco más (hay que tener en cuenta
que la ligera inarmonicidad del piano hace que se vayan separando progresivamente).
En cuanto a la energía que aporta cada armónico al sonido y que afecta a su timbre,
podemos apreciar que el duodécimo es el que tiene mayor amplitud y, por lo tanto,
mayor intensidad.
Ahora bien, a pesar de las importantes lagunas en la estructura armónica de esta nota
la0 e incluso de la ausencia de los primeros armónicos, nuestro sistema perceptivo ha
apreciado varios rasgos que le han ayudado en la tarea de su reconstrucción y en la
recuperación de la unidad de esa nota la0 . Ha reconocido que la distancia que más
abunda entre los diferentes componentes es de unos 27,5 Hz. También ha apreciado
los rasgos comunes que hay entre los componentes de la nota la0 : coincidencia en el
310
tiempo del ataque, forma similar en el ataque, horizontalidad, atenuación exponen-
cial, etc. Y a partir de todo ello ha reconocido que todos esos componentes forman
parte de la nota de piano la0 , con independencia de que sepamos nombrarla o no.
Gracias a esta capacidad de nuestra percepción auditiva podemos oír las notas graves
de cualquier obra musical en un reproductor de música de no muy buena calidad, a
pesar de que, en líneas generales, éstos no acostumbran a reproducir frecuencias más
bajas de 50 Hz.
En el segundo vídeo he elegido un ejemplo diferente. Empezamos oyendo la nota

la2 del piano (110 Hz), pero en los sucesivos ataques le he ido quitando de forma ar-
tificial diferentes componentes de la estructura armónica. La duración de la ventana
de análisis ha sido en esta ocasión 0,08 segundos, pues he pensado que, al estar los
componentes más separados, esta duración era ya suficiente para apreciar con clari-
dad la estructura armónica (insisto en que ahora nos interesa ver los componentes
frecuenciales de la estructura, no su evolución temporal).
Figura 13.3: Vídeo con el espectrograma de la nota la2 de un piano a la que se le quitan progresi-
vamente sucesivos armónicos.
Podemos comprobar que, aunque vayan cambiando las cualidades sonoras de la nota,
en las tres ocasiones escuchamos un la2 . En el primer caso, tenemos la nota emiti-
311
da por el piano sin modificación alguna. La estructura armónica está completa: se
aprecian claramente los primeros doce armónicos, se insinúan el decimotercero y el
decimocuarto, y el decimoquinto aparece con claridad, aunque de forma intermi-
tente. En el segundo caso he eliminado el primero y el segundo armónico, pero los
cambios producidos en el sonido han sido escasos: una cierta pérdida de graves en
la cualidad sonora que solamente será apreciada en un reproductor con suficiente
calidad. En el tercer caso he eliminado los cinco primeros armónicos. Apreciamos
ahora que el cambio en la cualidad sonora ha sido muy importante, casi no parece
una nota de piano, pero la identificación de la altura tonal de la nota como un la2 no
ha sufrido en absoluto.
Así pues, con estos dos ejemplos hemos podido experimentar cómo actúa nuestra
percepción auditiva para reconocer la estructura del objeto, incluso cuando la serie
armónica presenta numerosas lagunas, e identificar de esta manera las notas musica-
les.
13.4. Percepción de la consonancia entre sonidos musicales
El concepto de consonancia del que voy a ocuparme a continuación no tiene na-

da que ver con la consonancia entendida como eufonía, es decir, con el hecho de
que dos o más sonidos emitidos simultáneamente nos suenen mejor o peor. Hay
disonancias claramente eufónicas. Por poner un ejemplo, en mi opinión, el acorde
de séptima disminuida suena deliciosamente bien y es un auténtico paradigma de
la disonancia. Por otra parte, no voy a tratar aquí de las convenciones que en ca-
da momento histórico del desarrollo de nuestro lenguaje musical han considerado
consonantes o disonantes determinados intervalos musicales, o unas u otras agrupa-
ciones de sonidos. Por ejemplo, en unos contextos armónicos el intervalo de cuarta
es tratado como disonante y exige resolución, mientras que en otros es considerado
como consonante.
Aquí vamos a atender a los fundamentos acústicos y psicoacústicos de la consonan-

cia entre sonidos musicales, es decir, tanto lo que concierne a su propia constitución
física como a las características de nuestra percepción musical que permiten que reco-
nozcamos la consonancia, con total independencia de los criterios estéticos de cada
312
época o de las apreciaciones subjetivas de un número mayor o menor de oyentes.
Nos interesa ahora atender a los sonidos reales, es decir, a sonidos individualizados
complejos y distintos, tal como surgen de la voz y de los instrumentos, cada uno con
su propia marca tímbrica.
Cuando dos notas suenan a la vez puede ocurrir, o bien que permanezcan indepen-
dientes una de la otra, o bien que se acoplen y produzcan una mezcla consonante.
En el capítulo 6 vimos que la consonancia entre sonidos simples se debe a que la
mezcla resultante tiene una periodicidad que nuestro sistema auditivo es capaz de
reconocer y que esa periodicidad viene dada por la conmensurabilidad próxima en-
tre sus frecuencias. Pero en la mayor parte de las ocasiones los sonidos musicales son
compuestos, es decir, están formados por un buen número de componentes cuyas
frecuencias forman entre sí una estructura armónica. En estos casos, la percepción
de la consonancia está en relación directa con la posibilidad de organizar los com-
ponentes de la mezcla resultante en una nueva estructura armónica más o menos
completa. Dicho de otra manera, la combinación de los componentes de los sonidos
musicales que intervienen en la mezcla ha de formar una estructura lo suficiente-
mente armónica como para que nuestra mente sea capaz de reconocerla, completan-
do los elementos que faltan si es necesario. Cuando eso sucede nosotros percibimos
la mezcla resultante como una entidad musical a la que llamamos consonancia. En
este sentido podemos decir que la consonancia se produce cuando al mezclar-
se dos o más sonidos musicales se crea una nueva estructura armónica o casi
armónica.
Pero la mezcla consonante no es una combinación de componentes simples en la

que cada uno de ellos se disuelve y desaparece, como hemos visto que ocurre cuando
se combinan componentes sinusoidales para formar el sonido armónico compuesto.
Las marcas tímbricas que caracterizan a cada sonido impiden que la mezcla se com-
porte como una mera suma de componentes sinusoidales que daría lugar a un nuevo
y único sonido. Por el contrario, cuando se unen sonidos consonantes, cada uno de
ellos sigue estando presente en el sonido resultante, de modo que, si prestamos aten-
ción, podemos seguir distinguiendo cada uno de los sonidos que se mezclan. Salvo
cuando los intérpretes pretenden anular las individualidades y fundirlas en una masa
coral, como ocurre con las diferentes secciones de cuerda de una orquesta, el timbre
313
de cada sonido de algún modo permanece y deja su huella en la textura de la mezcla
consonante.
En realidad, éste es el sentido preciso del concepto de “armonía”, concepto que se

fundamenta en la consonancia natural y que tanto ha influido en el pensamiento de
Occidente. La armonía es la buena mezcla, la mezcla hecha de tal modo que resulta
una nueva entidad más rica y compleja, un conjunto bien trabado, pero un conjunto
en el que las partes no se disuelven, sino que siguen manteniendo su individuali-
dad.
Para comprender en qué consiste la consonancia entendida como mezcla, así como
para observar los diversos tipos de consonancias naturales, voy a presentar varios ví-
deos en los que los sonidos van acompañados de su correspondiente espectrograma.
En los ejemplos suena primero cada una de las dos notas por separado y luego el soni-
do resultante de su “emisión simultánea”. Esta “emisón simultánea” ha sido simulada
mezclando las dos notas con ayuda de un editor de sonido, con la finalidad de que
las notas presentes en la combinación sean exactamente las mismas que las que han
sido emitidas por separado.
13.4.1. Consonancia y disonancia
En primer lugar voy explicar la diferencia entre consonancia y disonancia, para lo

que voy a poner un ejemplo de cada una de ellas. Como consonancia he elegido
el unísono, la más perfecta de las consonancias, y como disonancia, una séptima
menor. En ambos casos he combinado la misma nota de piano, el sol3 , con otra nota
de violín; en el ejemplo de la consonancia, con otro sol3 , y en el de la disonancia,
con un fa4 .
Comencemos con el ejemplo de la consonancia.
314
Figura 13.4: Vídeo con el espectrograma de una nota de piano y otra de violín al unísono.
Oigamos cómo suenan y paremos luego el vídeo en cualquier momento para ver
el espectrograma. La columna izquierda del espectrograma corresponde al sol3 del
piano, la columna del medio al sol3 del violín y la de la derecha a la emisión simultá-
nea de ambas notas. En el espectrograma observamos que el número y la estructura
de los componentes frecuenciales de las dos notas simultáneas (los armónicos de la
columna de la derecha) vienen a ser el resultado de la combinación de los compo-
nentes de las dos notas emitidas por separado (los de las columnas de la izquierda y
del medio). Enseguida entendemos por qué las dos notas se han mezclado tan bien.
En efecto, comprobamos que ambas notas comparten un buen número de sus com-
ponentes frecuenciales, lo que era de esperar al tratarse de un unísono. Observamos,
además, que la combinación resultante también posee un patrón armónico. En una
primera ojeada, y especialmente si atendemos solo a los siete primeros componentes,
podríamos pensar que estamos ante un único sonido individual, pues en la estructura
frecuencial no encontramos nada de particular diferente de la que posee un úni-
co sonido armónico compuesto. La capacidad de nuestra percepción musical para
reconocer el patrón armónico ha funcionado también aquí: ha reunificado los com-
ponentes frecuenciales y ha reconstruido una nueva unidad.
Ahora bien, la cosa no es tan sencilla. Con esto queda explicada solamente la parte
unitaria de la mezcla consonante, el hecho de que estos sonidos se mezclen bien y
315
den como resultado una nueva unidad; pero nos falta entender por qué en la mezcla
se sigue reconociendo el sonido de las dos notas, la de piano y la de violín, es decir,
por qué, a pesar de esa buena mezcla, se conservan los elementos individuales. En
efecto, si volvemos a escuchar el ejemplo, nos damos cuenta de que en la emisión
simultánea también podemos seguir oyendo con claridad cada una de las dos notas:
en función de sus propias dinámicas hay momentos en los que el piano se destaca más
(como por ejemplo, en el ataque) y hay otros en los que es el violín el que domina
(como sucede cuando el volumen de la nota de violín se mantiene elevado mientras
la nota de piano se encuentra ya muy amortiguada).
Tendremos que fijarnos con más detenimiento en el espectrograma para entender

por qué se siguen oyendo las dos notas individuales. En muchos componentes de
la columna de la derecha (la de las dos notas simultáneas) reconocemos las mismas
marcas tímbricas específicas del piano o del violín que están en los respectivos com-
ponentes de las notas dadas por separado (las columnas izquierda y central). Por ejem-
plo, vemos que ese punto luminoso que destaca en el primer componente de la nota
de piano sola o esa línea vertical que señala el ruido inicial del ataque aparecen de
nuevo en los componentes del sonido mezclado; y también que ese dibujo de la nota
de violín solo, que indica que se está manteniendo la amplitud sin amortiguación, se
repite en los componentes de las dos notas mezcladas, igual que se repite el elevado
número de componentes armónicos superiores y su permanencia en el tiempo. Po-
demos concluir, así pues, que en la mezcla consonante se conservan buena parte de
los rasgos tímbricos de cada uno de los sonidos individuales que la componen, lo que
explica que percibamos una nota de piano y otra de violín dadas simultáneamente y
no un único sonido con otro timbre diferente.
Pero hay también otros elementos que se pueden observar en la mezcla y que no
están en los sonidos individuales. Podríamos decir que son algo así como los efectos
colaterales de la mezcla. En el armónico sexto y en otros superiores podemos observar
unas discontinuidades —que en el oído se traducen en la percepción de pequeños
batidos—, las cuales son el resultado de la inarmonicidad de los componentes del
piano interactuando con la armonicidad casi total de los componentes de violín. En
efecto, la progresiva “desafinación” de los componentes superiores del piano choca
con la afinación casi perfecta del violín y provoca esas interferencias. Este abrirse de
los componentes frecuenciales de las notas del piano, que contribuye a mantener la
316
individualidad de cada una de las notas emitidas, llega a plasmarse en los armónicos
superiores en las dos líneas distintas y próximas que se aprecian en la columna derecha
del espectrograma.
Así pues, hasta aquí hemos podido comprobar que la consonancia consiste en la com-
binación de dos condiciones aparentemente opuestas. Por un lado, la posibilidad de
que dos sonidos distintos emitidos simultáneamente sean reconocidos como uno so-
lo: al compartir un buen número de componentes frecuenciales y al poseer un patrón
armónico, el resultado de la combinación de dos sonidos consonantes es una nueva
entidad sonora unitaria. Y, por otro, la pervivencia en la mezcla, en esa nueva en-
tidad sonora que ha surgido, de ciertos rasgos propios de cada uno de los sonidos
individuales, lo que impiden la disolución total de las partes. Todo esto explica que
haya instrumentos que se amalgamen más o menos, que empasten entre sí mejor o
peor. Y también que la combinación de piano y violín, en la que se mantiene muy
bien la individualidad de los sonidos, haya obtenido un amplio reconocimiento en
la literatura musical clásica.
Veamos el caso opuesto, aquél en el que las notas no se mezclan y se produce la

disonancia. Utilizo la misma combinación de piano y violín.
Figura 13.5: Vídeo con el espectrograma de una nota de piano y otra de violín formando un intervalo
de séptima menor.
317
Comprobamos en el espectrograma que ambos sonidos no comparten apenas mate-
rial sonoro. Además, ahora no se puede distinguir en el sonido compuesto un único
patrón armónico. Por el contrario, en este sencillo caso es perfectamente posible re-
conocer los dos patrones armónicos de cada nota por separado. Los dos sonidos se
producen simultáneamente, pero sus componentes no se mezclan prácticamente na-
da. Si comparamos las columas de la izquierda (la nota del piano) y del medio (la nota
de violín) con la columna de la derecha del espectrograma (las dos notas simultáneas)
podemos apreciar con claridad a qué instrumento pertenece cada componente de es-
ta última columna. Tenemos en este caso dos notas que suenan perfectamente bien
al ser emitidas simultáneamente, pero que no son para nada consonantes, pues no se
han mezclado en absoluto.
En resumen, la consonancia supone la mezcla de dos o más sonidos, mientras que en

la disonancia existe solamente una reunión simultánea, pues los sonidos permanecen
sin mezclarse. Para que exista consonancia se han de producir dos condiciones: 1) que
los dos sonidos compartan buena parte de su material sonoro, es decir, que tengan
en común la mayor parte de sus componentes; 2) que la mezcla resultante guarde un
patrón armónico.
Pero la consonancia es una categoría relativa: unas mezclas son más consonantes
que otras. Existe, por decirlo de algún modo, una cierta degradación en los niveles
de consonancia, una creciente imperfección de la mezcla, desde el unísono hasta la
disonancia. Conforme las dos notas compartan mayor número de componentes y
conforme el patrón armónico del sonido resultante sea más completo, sin huecos en
su estructura, mayor será el grado de su consonancia. Lo que hace que dos notas sean
más o menos consonantes es el grado de conmensurabilidad entre sus frecuencias:
cuanto más próxima, más consonante es la mezcla. La progresión es la siguiente:
unísono 1:1 (igual); octava 2:1 (doble); octava y quinta 3:1 (triple); doble octava 4:1
(cuádruple); quinta 3:2 (sesquiáltera); y cuarta 4:3 (sesquitercia). Más allá de estas ra-
zones la consonacia desaparece. Los nombres de los intervalos consonantes proceden
de su orden en la escala de referencia que fue ya formulada por los teóricos musicales
griegos.
318
13.4.2. Consonancia de octava, de quinta y de cuarta
Veamos ahora algunas situaciones en las que las mezclas de dos sonidos, aun siendo
consonantes, no son tan perfectas como el unísono. Me voy a limitar a analizar los
intervalos consonantes que no superan el marco de la octava. Estos son, en orden
de mayor a menor grado de integración de sus sonidos, los siguientes: la octava, la
quinta y la cuarta. La frecuencia de una nota que está a una octava superior es el
doble de la frecuencia de la nota inferior; la de una quinta es 3:2 veces la de la nota
inferior, y la de la cuarta es de 4:3.
Comienzo con el intervalo de octava. Veamos, así pues, un ejemplo en el que he

juntado la nota sol3 del violín anterior y la nota sol4 dada ahora por un clarinete en
sib. Las notas no están perfectamente afinadas. La frecuencia de la nota de violín es de
195,9 Hz y la de la nota de clarinete es de 394,5 Hz. Por eso el primer armónico de la
nota de clarinete (394,5 Hz) está ligeramente más alto que el segundo armónico de
la nota de violín (195,9 x 2 = 391,8 Hz). Pero estas diferencias no son significativas y
lo que nos interesa es experimentar lo que ocurre cuando se mezclan sonidos reales,
como sucede de ordinario en la música, no situaciones teóricas de laboratorio.
Figura 13.6: Vídeo con el espectrograma de una nota de violín y otra de clarinete formando un
intervalo de octava.
319
Los componentes de una nota que está a un intervalo de octava superior tienen to-
dos la frecuencia doble del componente equivalente de la nota que está una octava
baja. Lo podemos verificar fácilmente al observar la estructura de los componen-
tes correspondiente a la nota de clarinete emitida sola. Recordemos también que el
sonido del clarinete se caracteriza, en general, por el predominio de los armónicos
impares, como también podemos observar en este espectrograma. No obstante, en la
estructura de los componentes correspondiente a las dos notas emitidas simultánea-
mente también vemos con claridad la presencia de un patrón armónico. En principio
podríamos decir que se trata de un solo sonido armónico. El primer armónico pasa
casi totalmente desapercibido, pues también pasa desapercibido en la nota aislada de
violín y el clarinete no puede añadir nada, ya que su espectro no forma parte de la
composición de esa nota que está a octava superior. Pero el resto de los componentes
sí están presentes, con mayor o menor importancia. Esa estructura armónica hace
que nuestra percepción reconozca allí una unidad sonora, un sonido armónico. El
grado de integración de los componentes es también muy elevado, casi equiparable
al del unísono. Y también observamos ahora la permanencia de las marcas tímbri-
cas individuales de cada uno de los sonidos. Así, por ejemplo, podemos fijarnos en
el predominio de los componentes impares, propio de la sonoridad del clarinete, o
en la riqueza de los armónicos superiores característica de la nota de violín. Por otra
parte, surgen también una serie de fenómenos nuevos resultantes de la mezcla, como
la aparición de esas intermitencias en numerosos componentes que son el resultado
de las ligeras diferencias en afinación entre los dos instrumentos, como hemos visto
al estudiar los batidos. Resumiendo, podemos decir aquí algo muy similar a lo que
dijimos acerca del unísono: se reconoce claramente un patrón armónico que explica
la fusión y se mantienen a la vez ciertas peculiaridades tímbricas que justifican la per-
manencia de la individualidad de cada uno de los sonidos constitutivos de la mezcla.
La relación de octava —es decir, la relación 2 a 1, que es una conmensurabilidad muy
cercana— da lugar a un intervalo claramente consonante.
Veamos ahora lo que sucede en el caso de intervalos cuya conmensurabilidad no es

ya tan inmediata. Los ejemplos que voy a presentar a continuación tienen como ca-
racterística común que los sonidos que constituyen el intervalo consonante proceden
del mismo instrumento, un piano. En el primer ejemplo examinaremos lo que sucede
en un intervalo de quinta, donde la relación entre sus frecuencias es de 3:2 (relación
320
sesquiáltera); y en el segundo ejemplo analizaremos cómo se comporta un intervalo
de cuarta, cuyas frecuencias están en la relación 4:3 (sesquitercia). Para facilitar la
observación he elegido unas notas del registro medio-agudo, donde el número de
componentes por nota es ya relativamente bajo.
Figura 13.7: Vídeo con el espectrograma de dos notas de piano formando un intervalo de quinta.
En el espectrograma podemos comprobar que tres componentes de la nota la4 , en la

columna de la izquierda, se corresponden con dos componentes de la nota mi5 , en
la columna del medio. En efecto, la frecuencia del componente fundamental de la
nota mi5 (659,3 Hz) está casi en una relación de 3 a 2 respecto a a la frecuencia fun-
damental de la nota la4 (440 Hz). En el sonido resultante de la mezcla, en la columna
de la derecha, es posible percibir una cierta aproximación a un patrón armónico, si
bien imperfecto. Este patrón armónico tendría como fundamental un supuesto pri-
mer armónico, cuya frecuencia sería la mitad de la del primer armónico de la nota
la4 y la tercera parte de la de la nota mi5 , pues el componente fundamental del so-
nido mezclado habrá de ser el máximo común divisor de los fundamentales de las
dos notas que han intervenido en la mezcla (es decir, con independencia del mar-
gen debido al temperamento, 220 Hz). En la descomposición espectral del sonido
mezclado —el de columna derecha— no aparece como es lógico ese supuesto primer
321
armónico, pero podemos deducirlo de la estructura armónica, en la cual podemos
observar que los componentes se corresponden con los de las notas sin mezclar: el
segundo armónico coincide con el primer armónico de la nota aislada la4 ; el tercer
armónico es el mismo que el primer armónico de la nota mi5 ; el cuarto armónico es el
segundo armónico de la nota la4 ; el quinto armónico está ausente, ya que no podría
corresponder a ningún componente armónico de ninguno de los dos sonidos aisla-
dos; el sexto armónico es el resultado de la aportación de ambos sonidos originales (el
tercer armónico de la4 y el segundo de mi5 ); y así sucesivamente. Es decir, es posible
detectar un cierto patrón armónico, pero lleno de huecos. Si a esta deficiencia en la
estructura armónica del sonido mezclado unimos la fuerte pervivencia de las marcas
individuales de cada uno de los sonidos emitidos (entre otras, el ataque individual,
claramente destacado, de cada uno de las notas aisladas que queda reflejado en las
correspondientes marcas luminosas iniciales), el resultado es la prevalencia de la per-
cepción individualizada de los sonidos. En efecto, en el vídeo podemos apreciar que
las notas se mezclan, pero su integración sonora es mucho menor que la de la con-
sonancia de octava. Ello se debe, sobre todo, a que la estructura armónica está llena
de huecos. Las marcas tímbricas individuales, al pertenecer al mismo instrumento e
incluso al mismo registro y estar dadas con el mismo tipo de ataque, son menores,
pero son lo suficientemente significativas como para mantener la individualidad de
los sonidos. Hay que añadir también una circunstancia que pertenece a nuestro sis-
tema cognitivo: sabemos cómo suena una nota aislada de piano, por lo que ese doble
ataque que oímos en el sonido mezclado no nos confunde, sino que percibimos dos
sonidos emitidos simultáneamente y no uno solo.
Algo similar, pero con un menor grado de integración todavía, ocurre en el caso de
la consonancia de cuarta, aquella que se establece entre dos sonidos cuyas frecuencias
están en una relación 4:3.
322
Figura 13.8: Vídeo con el espectrograma de dos notas de piano formando un intervalo de cuarta.
Ahora podemos apreciar en el espectrograma que por cada cuatro componentes de

la nota la4 hay tres de la nota re5 . En el sonido resultante de la emisión simultánea
de las dos notas es más difícil distinguir un único patrón armónico. Tendríamos que
suponer la existencia de un componente fundamental que fuera la tercera parte del
componente primero de la nota la4 y la cuarta parte del componente primero de
la nota re5 . Esa supuesta estructura armónica del sonido mezclado tendría el primer
y segundo armónico ausentes; el tercero y el cuarto corresponderían al primero y
segundo de los respectivos sonidos aislados; necesariamente el quinto, séptimo, un-
décimo y duodécimo componentes estarían ausentes. Podemos darnos cuenta de que
si bien aun es posible distinguir un cierto patrón integrador, su debilidad es mani-
fiesta, dado el número y relevancia de sus lagunas. Así mismo, las marcas individuales
de cada sonido perviven claramente. El resultado es que nosotros oímos un sonido
compuesto, que en cierto modo parece mezclarse algo, pero en el que predomina por
completo la individualidad de los componentes. Pienso que, en lo que concierne a la
reunión de solamente dos sonidos simultáneos, el límite perceptivo de la mezcla está
en la relación de conmensurabilidad 4:3, la del intervalo de cuarta, pues incluso aquí
es dudosa la plena integración de dos sonidos en uno solo. Esta carácter ambiguo de
la cuarta explica que haya sido considerada como consonancia o como disonancia en
función de otras categorías propias de cada idioma musical.
323
Como conclusión podríamos decir que para que se produzca la consonancia es nece-
sario el reconocimiento de un patrón armónico en el sonido resultante de la mezcla,
el mismo que constituye necesariamente todo sonido musical, todo sonido que tiene
una frecuencia determinada y que es percibido por nuestro sistema cognitivo como
una nota. De ese modo percibiremos la mezcla como una unidad. Nuestro cerebro ha
“aprendido” a reconocer el patrón de la serie armónica (de uno u otro modo, ya sea
porque la serie armónica está presente en todos los ámbitos de la naturaleza, ya por-
que culturalmente estamos desde nada más nacer inmersos en la música que ha sido
compuesta mediante la serie armónica). Por lo tanto, hay una tendencia a entender
como unificador todo aquello que tenga que ver con ese patrón de la serie armónica.
La percepción de una mezcla de sonidos consonantes se asemeja hasta cierto punto
a la percepción unitaria de un solo sonido armónico compuesto de componenetes
frecuenciales, pues, en tanto que se mezclan bien, percibimos como unidades aque-
llos sonidos cuyas frecuencias son múltiples o conmensurables próximas. Pero, a la
vez, en la percepción de la consonancia hay un reconocimiento de la individualidad
de cada sonido, de cada voz, que la diferencia de la percepción de un sonido com-
puesto, donde no se aprecia ninguna parte constituyente. Si ese reconocimiento de
la individualidad no se produce estaremos más próximos a hablar de un sonido coral,
es decir, de un conjunto de sonidos individuales fundidos en una sola voz, la voz del
coro.
13.5. Conclusión
En este capítulo hemos estudiado cómo percibimos el sonido musical en un en-

torno acústico, identificándolo por sus marcas tímbricas y reconstruyendo su patrón
armónico, con los límites que nuestro sistema auditivo tiene para distinguir com-
ponentes próximos. Así mismo hemos podido experimentar que reconocemos dos
sonidos musicales como consonantes cuando su estructura armónica posee suficien-
tes elementos en común como para que nuestra percepción auditiva sea capaz de
percibir una nueva estructura lo suficientemente armónica, a la vez que seguimos
reconociendo su individualidad gracias a sus marcas tímbricas.
324
Capítulo 14
La voz musical
14.1. Introducción
La tarea de la percepción musical no acaba con la identificación de los sonidos, sino

que exige también la asignación de cada uno de ellos a un sujeto, a una voz. En efec-
to, la música requiere la organización en voces de todo el material sonoro. Para ello
se sirve tanto de las marcas tímbricas que cada sonido posee, como de las leyes sin-
tácticas del lenguaje musical, que son las que establecen los criterios de continuidad.
Esta es la razón por la que para los antiguos teóricos musicales la voz era la primera
categoría musical, de tal modo que los sonidos eran definidos a continuación como
las partes más pequeñas de la voz musical. En ese mismo sentido, este capítulo pre-
tende servir de puente entre la acústica y la teoría musical, cerrando, por un lado, el
conjunto de nociones acerca del sonido que, a mi juicio, debería conocer un músico,
e iniciando, por otro, el primer tema propiamente musical, la naturaleza específica
de la voz musical y su origen en la prosodia del habla.
La voz musical se diferencia de la del habla en que mantiene las alturas tonales durante
el tiempo suficiente como para que seamos capaces de percibir las notas y, en lugar
de discurrir de forma continua, va a saltos a través de intervalos. A lo largo de este
capítulo voy a mostrar que nuestro lenguaje musical es el resultado de la aplicación
de números al movimiento continuo de la voz del habla, o dicho de otra manera, que
la voz musical se origina a partir de la discretización de la prosodia del habla.
325
Para ilustrar el concepto de voz musical y para poder entender con claridad en qué
sentido la música surge al establecer números sobre el movimiento de la voz, he ele-
gido cuatro ejemplos que, debido a las características del instrumento y de la inter-
pretación, muestran una progresión clara desde el movimiento totalmente continuo
de la voz en el habla (ejemplo 1) hasta la estabilidad de las alturas tonales en el piano
(ejemplo 4).
Por otra parte, para permitir apreciar cómo es la voz en cada caso he realizado me-
diante Matlab un tipo de representación gráfica que dibuja el movimiento de la voz,
a la que podríamos llamar “melograma” (del griego mélos, melodía, y grámma, dibu-
jo), y que atiende especialmente a nuestra cognición musical. Si el espectrograma se
asemeja a la manera en la que nuestro sistema auditivo descompone el sonido, co-
mo hemos visto en el capítulo dedicado a la fisiología de la audición, esta forma de
representación va a integrar de nuevo el objeto musical armónico y va a mostrar la
evolución de sus parámetros a lo largo del tiempo.
Como en el espectrograma, también en el melograma la coordenada horizontal re-

presentará el tiempo, la vertical la frecuencia (traducida ahora a altura tonal y por
ello expresada en cents) y la escala de color la mayor o menor intensidad, ahora vista
como volumen sonoro. La transformación en altura tonal y en volumen sonoro de
la frecuencia y la intensidad utilizará la escala logarítmica que vimos en el capítulo
5. Tomaré como punto de partida la nota la0 a la que asignaré 0 cents y desde allí el
número de cents irá incrementándose. Así, por ejemplo, 1.200 cents corresponderá
a la1 , 2.400 a la2 , y así sucesivamente. Para mayor claridad, a la izquierda del número
de cents figurará el nombre de la nota correspondiente en nuestra escala temperada.
Respecto al volumen sonoro será el resultado de la traducción de la intensidad so-
nora a decibelios, expresados utilizando la misma escala de color, habitual ya en los
espectrogramas.
Tenemos también que tener presente que el melograma sólo representa aquellos mo-
mentos en los que la voz está constituida por sonidos armónicos, es decir, en los
que es posible definir una frecuencia y en consecuencia percibimos una altura tonal,
mientras que aquellas partes en las que domina el ruido no están representadas, co-
mo es el caso de la mayoría de las consonantes o el del ataque inicial de las notas de
piano.
326
14.2. El concepto de voz musical
Dos son las razones que justifican que el concepto de voz sea el fundamento de
nuestra teoría musical. La primera y más importante es que el discurrir de la voz, y
no los sonidos aislados, es la realidad más inmediata con la que nos encontramos en la
música. La segunda es que el modelo sobre el que se ha construido nuestro lenguaje
musical es la voz humana en el habla. En nuestra música hablamos de voz o voces
para referirnos a las diferentes estructuras melódicas que conviven en el desarrollo de
una pieza musical, pero que mantienen su identidad y su sentido. Y se llaman voz o
voces precisamente porque su referencia es la voz humana en el habla, con toda su
expresividad, emotividad y matices retóricos.
En efecto, la asignación de voces es la forma inicial en la que organizamos el

material sonoro con la finalidad de hacerlo inteligible. Por naturaleza nuestra
percepción busca siempre distinguir voces en medio del fondo sonoro, de la misma
manera que busca figuras en las imágenes visuales. Es la manera de poner orden en el
complejo sonoro que llega a nuestros oídos, de darle forma y dotarlo de significación.
Si prestamos atención al ruido de tráfico de una carretera, por ejemplo, lo primero
que nos surgen son “voces” en medio del ruido: la “voz” de la motocicleta, la “voz”
del camión, etc. Organizamos cualquier material sonoro diverso en voces, es decir,
en protagonistas, en “personajes”.
Encontramos, así pues, que la voz lleva asociada la idea de identidad, la de indivi-
dualidad. La voz posee una marca, un distintivo, lo que hoy llamamos, precisamente
por eso, un timbre, algo que le da una personalidad propia capaz de ser distinguida
en medio de otras voces o de un ruido confuso. La palabra “voz” nos trae a la mente
que hay un sujeto que está detrás, que hay un “alguien” que dice algo o, en música,
que canta algo. Entre todas las informaciones que transmite la voz, hay una de espe-
cial relevancia: es su propio auto-identificador. La voz está diciendo constantemente
“quién es”, y esto lo hace de múltiples maneras, de las cuales el timbre es quizás la más
evidente. Por ejemplo, la voz del contralto puede ascender por encima de la del tiple
y la del tiple, obviamente, descender por debajo de la del contralto, pero la voz del
contralto seguirá siendo la del contralto y la del tiple la del tiple y el oyente no tiene
ningún problema, incluso aunque se mezclen unas con otras, en reconocer cada una
de esas voces.
327
En medio de una partitura, con sonidos simultáneos que suben y bajan y se entre-
lazan en todas las direcciones, podemos distinguir el desarrollo de cada una de las
voces. No en vano “cantar las voces” es uno de los objetivos más importantes de to-
do instrumentista, muchas veces lo que diferencia al buen intérprete del mediocre.
Por ejemplo, cualquiera que está aprendiendo a tocar el piano lo primero con lo que
se encuentra es con la dificultad de dar las notas. Solo más tarde esas notas pasan a
formar parte de “ideas musicales”, y todavía mucho más tarde, y después de mucho
esfuerzo, surge en él la capacidad de entender y de contar la multiplicidad de “ideas”
que laten en medio de la maraña de una partitura compleja y que se ponen de ma-
nifiesto en el juego de las diferentes voces. En efecto, estas ideas habitan la partitura
de mil formas: unas veces en las voces intermedias, donde pasan casi desapercibi-
das; otras, perfiladas por notas que a veces están distanciadas entre sí por compases
enteros; otras entre los extremos de los arpegios que acompañan muchas veces a las
melodías; etc. Entonces es cuando la partitura comienza a tomar vida y deja de ser
una amalgama de sonidos incomprensibles y mecánicamente ejecutados, para pasar
a ser un conjunto de voces trabadas en el que cada una cumple su función y dice sus
ideas. Esto, que puede parecer propio solo de los instrumentos capaces de dar notas
simultáneas como el piano, se da también en instrumentos tan aparentemente poco
dotados para la polifonía como el violín. ¡Cuántas veces hemos oído alabar la inter-
pretación de un violinista diciendo que parecía un dueto! ¿Cómo podemos oír en
un simple violín una fuga a tres voces? La música es cosa de voces y la tarea del ins-
trumentista es “decir” las voces y expresar mediante ellas emociones y sentimientos.
Algo parecido podríamos haber dicho del que aprende a escuchar música, porque
aprender a escuchar música no es otra cosa que aprender a oír voces y a distinguir las
ideas musicales que ellas van diciendo. Así es como cobra su pleno sentido la emoción
de la música.
Dejando ya los aspectos cognitivos que justifican el carácter primigenio del concepto
de voz en música, pasaré ahora a explicar en qué sentido digo que la voz humana ha
sido el modelo sobre el que se ha construido nuestro sistema musical. La voz ha sido
nuestra principal herramienta de comunicación con el mundo, en un proceso evo-
lutivo que probablemente ha ido desde los primeros gruñidos, gritos y demás ruidos
inarticulados, hasta las construcciones más elaboradas del habla y de la música.
328
En el habla la voz ha codificado principalmente tipos de ruidos distintos (las diferen-
tes consonantes) y posiciones distintas de resonancias del órgano vocal (las diferentes
vocales). Mediante combinaciones de ambos elementos hemos ido adquiriendo la
capacidad de nombrar las cosas y de contar nuestras experiencias. Por ejemplo, si
decimos la frase “quiero esto”, estamos utilizando el ruido “k” para empezar, luego el
ruido “r”, después la especie de silbido “s”, y por último el ruido “t”. Para ayudarnos
a articular estos ruidos, especialmente aquellos de muy corta duración, nos servimos
de unos sonidos vocálicos, los cuales, a diferencia de los ruidos de las consonantes, sí
poseen una altura tonal y tienen una duración suficiente. No obstante, no diferen-
ciamos estos sonidos vocálicos por su altura tonal, sino por la manera en la que los
hacemos resonar variando la posición de nuestro aparato fonador. En este ejemplo
hemos utilizado tres conjuntos de resonancias vocálicas distintas: las propias de la
“i”, las de la “e” y las de la “o”. No es posible explicar aquí qué son las resonancias
específicas de cada vocal, ni cómo son ni en qué consisten las articulaciones de los
sonidos que constituyen la cadena hablada; ahora nos interesa atender sólo a aquellos
aspectos del habla que van a tener mayor repercusión en la música, en concreto, la
altura tonal de los sonidos vocálicos.
Así pues, la voz hablada no consta sólo de ruidos, sino también de sonidos vocálicos
que, aunque se distinguen por la forma de su resonancia (los denominados formantes
propios de cada vocal) poseen una altura tonal. Pero en el habla la altura tonal en la
mayoría de las lenguas no está prácticamente codificada y no lleva, por lo tanto, una
parte importante de significación léxica. Aunque sí posee otra función muy impor-
tante: la altura tonal es la que organiza las palabras y las frases y, sobre todo, permite
unir a la expresión de los conceptos los matices emotivos del hablante. La altura tonal,
junto con la intensidad sonora y la duración temporal de las sílabas, constituyen los
aspectos más importantes de lo que en general se denomina prosodia del habla.
En el caso de la música occidental el modelo sobre el que se ha construido el lenguaje

musical ha sido la voz humana en el habla. Con esto no quiero decir que todo len-
guaje musical tenga que surgir necesariamente ligado al habla, sino sólo que nuestro
sistema musical lo ha hecho así: ha nacido en íntima relación con los aspectos pro-
sódicos del griego antiguo, tanto en lo que concierne a las alturas tonales como a las
duraciones. Los elementos de nuestro lenguaje musical (sonidos, intervalos, escalas,
tiempos, compases) son el resultado de una abstracción de los aspectos prosódicos de
329
la voz hablada, es decir, de aquellos aspectos que, como su nombre indica, son afines
al canto (“prosodia” viene de ōdē, canto), los cuales son precisamente los que llevan
en mayor medida la significación emotiva. Esta abstracción ha consistido en fijar nu-
méricamente las alturas tonales y las duraciones, y en establecer entre ellas un sistema
de proporciones. Con independencia de su evolución histórica, esta abstracción es
un proceso lógico que ha dado lugar a un sistema de codificaciones capaz de expresar
y transmitir una significación emotiva. Así pues, la voz musical, a diferencia de
la voz del habla, es el resultado de la codificación de las alturas tonales de los
sonidos y de sus duraciones.
14.3. El movimiento de la voz en el recitado de la primera estrofa

de la Oda a la flor de Gnido de Garcilaso de la Vega
Comencemos examinando cómo es el movimiento de la voz en el habla. Veámoslo

en la declamación de la primera estrofa del poema de Garcilaso de la Vega, Oda a la
flor de Gnido. He elegido este poema como homenaje al instrumento sobre el que se
basó la construcción de nuestro sistema musical, la lira. Garcilaso, además, es de los
primeros poetas castellanos que vuelven su mirada al mundo antiguo, como queda
reflejado claramente en el poema, y es el inventor de esta estrofa, la lira, en la que
se combinan los versos endecasílabos, muy ligados al habla natural, con los de siete
sílabas. Los versos son:
Si de mi baja lira
tanto pudiese el son que en un momento
aplacase la ira
del animoso viento
y la furia del mar y el movimiento,
Veamos en primer lugar un vídeo con el espectrograma del recitado de la estrofa

entera.
330
Figura 14.1: Vídeo con el espectrograma de la primera estrofa de la Oda a la flor de Gnido de
Garcilaso de la Vega.
La declamación es más lenta que lo habitual en un poema y las pausas entre versos son
también muy exageradas, pues he pretendido principalmente mostrar con claridad
cómo discurre el movimiento de la voz hablada. Pero hemos de tener en cuenta que
la prosodia de la voz recitada ya tiene algo de musical: las palabras del poema han
sido elegidas por el poeta teniendo en cuenta su sonoridad, su entonación y el ritmo
que se deriva de la ordenación de los acentos (por eso se valora la musicalidad de
una poesía). Así mismo, en un poema la rima establece la periodicidad del verso, sin
necesidad de interrumpir de una manera tan grande como se ha hecho aquí la cadena
hablada. Nada de esto se produce en el habla ordinaria, por lo que si hubiera elegido
un fragmento del habla común, este tipo de formas que aquí apreciamos con claridad
quedarían algo desdibujadas.
En el espectrograma vemos claramente separados los cinco versos de la estrofa y

podemos distinguir también las diferentes sílabas, tal como han sido pronunciadas.
Si nos fijamos, por ejemplo, en el primer armónico, en el componente más grave,
podemos también hacernos una idea aproximada del movimiento de la voz.
Pero un espectrograma no es la forma de representación idónea para el movimien-

to de la voz, pues contiene mucha información que nos complica su observación.
Ciertamente podemos apreciar que hay una relación clara entre lo que vemos y lo
331
que oímos, pero a la hora de recuperar el mensaje sonoro nuestro cerebro da un pa-
so más que no está recogido en el espectrograma. Como hemos visto en el módulo
acerca de la percepción del sonido musical, nuestra mente integra el conjunto de
armónicos para recuperar la unidad del sonido y seguir la evolución en el tiempo
de los parámetros de ese sonido. Por eso nos viene muy bien utilizar el melograma,
una forma de representación gráfica más apropiada para el movimiento de la voz,
que reproduzca, aunque sea de manera aproximada, la evolución de los parámetros
sonoros que realiza el intérprete y su recuperación por parte de nuestro cerebro. En
el vídeo que presento a continuación se muestra el melograma del primer verso de
este recitado. Al tratarse de un fragmento de escasa duración podemos apreciar con
claridad los detalles del movimiento de la voz. Recordemos que los huecos de la grá-
fica se corresponden con los sonidos consonánticos que carecen de una altura tonal
definida.
Figura 14.2: Vídeo con el melograma de la recitación del primer verso de la Oda a la flor de Gnido
de Garcilaso de la Vega.
Pasemos ahora a analizar las características del movimiento de la voz en el habla que
se pueden observar en el espectrograma y en el melograma del recitado de estos
versos de Garcilaso, atendiendo especialmente a aquellas que poseen cierta validez
general.
332
La primera y más destacada es la continuidad del movimiento de la voz en el
habla. Si nos pidieran que a partir de estas gráficas precisáramos las notas que se han
dado y cuándo, veríamos que esto es algo realmente imposible, pues la voz sube y
baja continuamente sin detenerse nunca en ninguna altura determinada. Y eso que
estamos ante un recitado, que si fuera en el habla cotidiana esta continuidad sería
todavía más exagerada.
Por otra parte, el rango tonal del movimiento de la voz en el habla es reducido.
En los vídeos vemos que incluso tratándose de un poema recitado, el rango total de
la voz en el habla no excede de una octava. La altura tonal más aguda corresponde
a la sílaba “fu” de “furia”, que vendría a ser un re3 , y la más grave a la sílaba “ra”
de “lira”, que en su punto más grave sería un re2 . Desde la perspectiva musical nos
interesa este dato porque es otro elemento a tener en cuenta a la hora de justificar
la importancia del intervalo de octava y, especialmente, la importancia de las formas
escalares de octava. Sin embargo, si atendemos solamente a cada sintagma, que en
este caso coincide con cada verso (a excepción del segundo verso donde hay dos
sintagmas), vemos que el rango es más reducido, situándose en torno a una cuarta o
una quinta aproximadamente.
Así mismo, observamos que cada sintagma se encuentra definido prosódicamen-

te por una fórmula cadencial descendente, es decir, la voz puede iniciarse en el
punto más grave o en el medio, sube o baja, pero siempre termina en el punto más
grave, habiendo abarcado un intervalo aproximado de cuarta o quinta. El modelo
de cadencia descendente en torno a un intervalo de cuarta o quinta es de especial
importancia, como se puede ver en el estudio de la teoría musical, para entender la
construcción de nuestro sistema musical. El último verso, sin embargo, parece ser una
excepción a este modelo. Encontramos que allí no se produce esta fórmula caden-
cial, sino que, por el contrario, la prosodia termina arriba. Esta ausencia de fórmula
cadencial nos informa de que el sentido de la frase queda abierto, que la prosodia exi-
ge una continuación. En efecto, la estrofa entera constituye el antecedente de una
oración condicional que va a reposar dos estrofas más allá.
Observamos también que, en general, el acento supone una elevación de la altura

tonal respecto a la sílaba siguiente, junto a un incremento de la intensidad y una
mayor duración de la sílaba. En castellano el acento es significativo a la hora de
distinguir entre palabras distintas (por ejemplo, “público”, “publico” y “publicó”).
333
Pero este acento se encuentra siempre supeditado e integrado dentro de la fórmula
cadencial que organiza los sintagmas.
14.4. El movimiento de la voz en los compases iniciales del La-

mento de Ariadna de Monteverdi
El siguiente ejemplo lo constituyen los seis primeros compases del Lamento de Ariad-
na de Claudio Monteverdi, compositor representativo de la nueva corriente musical
que en la frontera de los siglos XVI y XVII intenta recuperar la música griega an-
tigua y, en especial, el teatro musical griego. Podemos observar los rasgos de este
intento en el carácter homófono de esta nueva forma de hacer música, caracterizada
por una voz sola acompañada de un bajo continuo que lleva el soporte armónico y
por el cromatismo intenso que intenta imitar los géneros cromático y enarmónico
que se atribuían a la tragedia griega. La razón principal por la que he elegido este
fragmento es por su proximidad a la prosodia del habla. En efecto, se trata de voz
cantada, pero, al ser un lamento, es casi un recitativo: el tempo es lento, y el ritmo y
la modulación de la voz son muy flexibles. Veamos primero la partitura y luego un
espectrograma del fragmento entero y un melograma en el que podremos apreciar
el detalle del movimiento de la voz de la segunda frase.
Figura 14.3: Partitura de los compases iniciales del Lamento de Ariadna de Monteverdi.
334
Figura 14.4: Vídeo con el espectrograma de los compases iniciales del Lamento de Ariadna de
Monteverdi.
Figura 14.5: Vídeo con el movimiento de la voz de la segunda frase del Lamento de Ariadna de
Monteverdi.
Comenzaré por lo más evidente que podemos ver en ambas representaciones. El re-
gistro en el que se sitúa es mucho más alto que el recitado del poema de Garcilaso.
Evidentemente la diferencia de altura tonal entre una voz de hombre y una de mu-
jer es grande, aproximadamente una octava, pero la altura en la que se mueve este
335
lamento es ya muy elevada para una voz hablada. Simplemente, si oyéramos hablar
a alguien con una entonación en este registro nos resultaría como mínimo sorpren-
dente.
Así mismo, el ámbito de esta idea musical es también superior al de la prosodia: a

pesar de su austeridad, aquí recorre la octava entera con agilidad. Por otra parte, los
saltos de altura tonal entre sílabas o palabras son impensables en la prosodia del habla
(entre sib4 y fa4 , entre mi4 y si4 , y entre re5 y fa4 ). Solamente estos rasgos establecerían
ya una diferencia clara entre este pasaje y el de la voz hablada.
Pero vamos ahora ya a lo que más nos interesa, el tipo de movimiento de la voz.
Si nos fijamos en el melograma de la figura 14.5 vemos que la voz sigue teniendo
un cierto carácter continuo, y de hecho no permanece fija prácticamente nunca.
No obstante, hay una considerable diferencia con el movimiento de la voz en la
declamación del poema anterior: en general, la voz tiende a mantener ahora unas
líneas más o menos horizontales. El lenguaje musical ha construido estas “líneas”
y ha definido las alturas tonales precisas sobre las que la voz se ha de mantener, o ha
de girar en torno, durante un espacio de tiempo lo suficientemente prolongado para
ser reconocidas como notas.
En este ejemplo, esta tendencia a la horizontalidad parece clara, hasta el extremo

de que podríamos aventurar en el melograma las notas que constituyen la melodía.
Ahora bien, su altura tonal se modifica a lo largo de la emisión, bien ascendiendo o
descendiendo ligeramente, bien oscilando en torno a un valor medio. En la inter-
pretación de estas notas vemos que, por un lado, la cantante ha tendido a imitar la
continuidad de la prosodia hablada, deslizando la voz, pero, por otro, ha utilizado un
recurso específicamente musical, un vibrato muy rápido y muy amplio.
Resumiendo, en la comparación de este fragmento cantado con la declamación an-

terior, vemos que hay acontecimientos definidos y, en general, separados, que nos
permiten identificar como notas musicales cada una de los dibujos del melograma.
Podemos también establecer un cierto valor medio en la altura tonal de las notas,
pero las libertades expresivas de la interpretación hacen que la determinación precisa
de la altura tonal no sea posible en todos los casos.
336
14.5. El movimiento de la voz en el inicio del Adagio de la So-
nata I para violín solo (BWV 1001) de J. S. Bach
El ejemplo siguiente corresponde al inicio del Adagio de la Sonata I para violín solo de
J. S. Bach, BWV 1001. El violín —y lo mismo podríamos decir de los demás miem-
bros de su familia— es el instrumento que más se asemeja en posibilidades expresivas
a la voz humana. No en vano su desarrollo está muy ligado al estilo homofónico que
triunfa a partir de 1600 (la seconda prattica que he mencionado a propósito del frag-
mento de Monteverdi). En efecto, al carecer de trastes, el violín puede dar cualquier
altura tonal intermedia dentro de su tesitura (la primera dificultad a la que se enfrenta
el violinista es la de afinar bien) y el intérprete puede modificarla con toda libertad
a lo largo de su emisión, deslizando la voz de nota en nota o haciéndola oscilar a
voluntad. También, al igual que en el canto, puede modificar libremente a lo largo
de la emisión la intensidad del sonido e incluso la cualidad sonora, aumentando o
disminuyendo el número de sus armónicos.
Veamos, igual que en el ejemplo anterior, la partitura, un vídeo con el espectrograma

del fragmento entero y otro con el melograma en el que vemos el movimiento de
la voz principal de la primera parte de la frase inicial. Como ahora el espectrogra-
ma es un poco más complicado, me ha parecido oportuno etiquetar las notas de la
melodía.
Figura 14.6: Partitura de la primera frase del Adagio de la Sonata I para violín solo (BWV 1001)
de J. S. Bach.
337
Figura 14.7: Vídeo con el espectrograma de la primera frase del Adagio de la Sonata I para violín
solo (BWV 1001) de J. S. Bach.
Figura 14.8: Vídeo con el melograma que representa el movimiento de la voz del inicio de la
primera frase del Adagio de la Sonata I para violín solo (BWV 1001) de J. S. Bach.
Una comparación superficial de este ejemplo con el anterior nos muestra ahora una
definición más clara de las alturas tonales y de las duraciones. Así mismo, salvo
alguna pequeña excepción en notas muy rápidas y seguidas, el movimiento de la
voz es interválico, es decir, la voz va a saltos. La voz se establece con claridad en una
338
altura tonal determinada y procede a intervalos, de modo que resulta imperceptible
la transición de una altura a otra, a excepción de la bordadura sib4 -la4 -sib4 donde la
ejecución es ligada. En este ejemplo estaríamos ya mucho más cerca de poder definir
unas alturas tonales relativamente estables. Esto no se puede atribuir a un rasgo espe-
cífico del instrumento, sino que ha sido la partitura elegida la que ha condicionado
una interpretación más definida en las altura tonales. En lo que concierne a la dura-
ción de las notas, vemos también que mantienen un claro patrón de espaciamiento,
es decir, una cierta regularidad rítmica. El hecho de que en el espectrograma algunas
notas a veces parezcan superponerse a las siguientes es debido a la resonancia de la
sala o, en su caso, a la posible reverberación añadida en la grabación.
No obstante, un examen más minucioso del espectrograma y del melograma nos

permite observar varias características que contravienen esa aparente regularidad y
que recuerdan al ejemplo anterior. En primer lugar, la altura de las notas que lle-
van el mismo nombre no siempre es exactamente la misma. En ocasiones el
instrumentista tiende a aproximarse más a la nota inferior o a la superior, alejándose
de la afinación temperada, para destacar más la atracción de las notas próximas. A
modo de ejemplo, el segundo de los dos fa#4 es casi un cuarto de tono más alto que
el primero, lo que podríamos haber apreciado con más claridad que en el espectro-
grama si hubiera extendido un poco más la duración del movimiento de la voz en el
melograma. Así mismo, en las notas cuya duración es más larga se aprecia con
claridad una oscilación rápida de su altura tonal, que es el resultado del vibrato
producido por el violinista, si bien este vibrato es mucho menos amplio que el que
vimos en algunas notas del Lamento de Ariadna. El vibrato tiene principalmente dos
finalidades: por un lado, dulcifica la aspereza de la cualidad sonora y, por otro, facilita
la afinación, al posibilitar una cierta indeterminación de la altura tonal.
14.6. El movimiento de la voz en el inicio del Nocturno op.9, nº

1 de Fr. Chopin
Como último ejemplo he elegido un pasaje muy cantabile, el inicio del Nocturno op.
9 nº 1 de Fr. Chopin. Presento en primer lugar la partitura y luego el espectrograma
y la representación del movimiento melódico en el melograma.
339
Figura 14.9: Partitura del inicio del Nocturno op. 9 nº 1 de Fr. Chopin.
Figura 14.10: Vídeo con el espectrograma del inicio del Nocturno op. 9 nº 1 de Fr. Chopin.
340
Figura 14.11: Vídeo con el melograma del inicio del Nocturno op. 9 nº 1 de Fr. Chopin.
Las imágenes de ambos vídeos presentan unas características muy distintas de todo
lo que hemos visto hasta ahora. En el espectrograma vemos que predomina la líneas
horizontales, y en el melograma vemos con total claridad un conjunto de líneas ho-
rizontales que precisamente se superponen a la retícula que define las alturas tonales
de nuestras notas del sistema temperado en el diapasón estándar.
Esta horizontalidad en este caso vienen determinada por la naturaleza del instrumen-
to. El piano es un instrumento de afinación fija, en el que el principal parámetro sobre
el que puede actuar el pianista es la velocidad de ataque, es decir, la rapidez con la
que baja la tecla. Una vez que el macillo queda libre de la tecla mediante el meca-
nismo de escape ya no hay posibilidad alguna de modificar el sonido (salvo apagarlo
antes o después al soltar la tecla y liberar el apagador). Por ello, la mayor parte de la
información que el intérprete aporta queda condensada en las milésimas iniciales de
su ataque.
Si en este ejemplo se nos pidiera de nuevo precisar las alturas tonales del movimiento
de la voz utilizando solamente el espectrograma, la respuesta no plantearía ninguna
dificultad. En el caso del espectrograma nos bastaría con trazar líneas horizontales
que pasaran por el medio de cada figura o mancha de luz. En el melograma la res-
puesta sería todavía más evidente. Observamos, además, que, como es lógico, todas
las notas con el mismo nombre están ahora a la misma altura tonal. Efectivamente, las
alturas tonales están ahora totalmente definidas. Así pues, en este ejemplo podríamos
341
asignar un número preciso a cada nota, su altura tonal expresada en cents. De he-
cho, realmente es al revés: es esta posibilidad de tener alturas tonales fijas, expresables
numéricamente, la que nos permite dar nombre a las notas.
Podríamos observar también algunas pequeñas diferencias respecto al modelo ideal

de líneas horizontales. Por ejemplo, las líneas correspondientes a las notas más agudas
parecen estar ligeramente por encima de la retícula que marca la afinación temperada
estándar (con el la4 a 440 Hz). Esto se debe a la inarmonicidad del piano que hace
que la afinación de las notas superiores se vaya estirando un poco. Podríamos también
apreciar algunas ligeras indecisiones en la afinación de algunas notas que parecen in-
cluso oscilar ligeramente. Ello es debido al problema del derrame espectral que unido
al ruido que acompaña el ataque de cada nota provoca una cierta indeterminación en
la precisión del reconocimiento de la frecuencia. Y todavía más, dejando al margen
estas cuestiones, incluso las notas de un piano, en una escala minúscula cierto es, pre-
sentan también una cierta evolución en la frecuencia. Pero no es momento de tratar
estas cuestiones ahora. Lo que nos interesa es que aquí si que vemos ya los elemen-
tos del lenguaje musical: las alturas tonales definidas con claridad que determinan las
notas y que constituyen la referencia que se crea en nuestra mente musical y que nos
permite entender y dar sentido incluso a los movimientos de la voz musicales que se
alejan de este modelo y se acercan más al del habla.
Por otra parte, resulta también claro que aquí nos sería muy fácil especificar con toda
seguridad la duración de cada nota (teniendo en cuenta, claro está, que lo que debe-
mos medir es la distancia entre sucesivos ataques). Ya he explicado en el ejemplo del
violín a qué se debe la superposición de algunas notas en el espectrograma. Aquí, en
este ejemplo, la utilización del pedal hace que las notas tiendan a superponerse más
que en el caso del violín. Pero también podría haber sucedido lo contrario, y la ejecu-
ción de las notas haber sido más picada. Ahora bien, desde el punto de vista métrico
ambas situaciones son irrelevantes: afectan sólo al carácter de las notas, a la expresión,
pero no al ritmo, es decir, no alteran la codificación métrica. Así mismo, resulta aquí
también más clara todavía la existencia de una repetición de determinadas duracio-
nes. Dar un paso más y ver que esas duraciones guardan entre sí las proporciones
sencillas de doble, triple, etc., requeriría simplemente el uso de la regla.
Es importante destacar que en este ejemplo, en el que las altura tonales son claramente
estables y definidas numéricamente, debemos seguir hablando de movimiento de la
342
voz. Aunque sea a saltos, aunque ya estemos muy lejos de los rasgos de la prosodia,
aunque no tengamos la versatilidad de la voz cantada, ni su imitación como hace la
voz en el violín, también aquí hay un movimiento de la voz. El intérprete de piano
tiene que hacer todo lo posible para que el instrumento “cante”. Sin el movimiento
de la voz no existiría música en su sentido pleno, sino solamente una sucesión de
sonidos carentes de significación. El piano es, de algún modo, el instrumento de
referencia de nuestro sistema musical y en ese sentido tiene un papel equivalente al
que tenía la lira en la Antigüedad.
Así pues, si volvemos al ejemplo del recitado del poema, donde la voz discurre sin
solución de continuidad y la comparamos con el movimiento puramente interválico
de la voz en un instrumento de afinación fija como es el piano, podemos ver cómo
nuestro lenguaje musical es el resultado de la cuantificación de la altura tonal y, a
partir de ella, de la duración.
14.7. El “espacio” de la significación musical
Para concluir este capítulo, y con ello este curso, voy hacer ahora una breve refle-
xión sobre lo que hemos observado en todas estas gráficas de los distintos tipos de
movimiento de la voz.
Los melogramas nos han permitido intuir una noción muy próxima a la realidad
sonora: el “espacio musical”, es decir, el “lugar” en el que se produce la significación
de la música. El movimiento de la voz o de las voces discurre a lo largo del tiempo
en un espacio sonoro que va del grave al agudo. Nuestro sistema notacional, nuestra
partitura, representa de algún modo esta noción de espacio musical: el tiempo con la
dimensión horizontal y la altura tonal con la dimensión vertical. Pero lo que tenemos
en una partitura es la “obra musical”, la “idea musical”, una elaboración mental, no es
su realización física, sonora, no es su interpretación. En el melograma, sin embargo,
“vemos” el espacio de la música sonando, interpretada, hecha sonido.
Además, ese espacio musical, tal como queda representado en el melograma, es el es-
pacio de nuestra sensación auditiva, no el del hecho físico, no es la vibración sonora.
La música debe muchas de sus propiedades a la física del sonido, pero su verdade-
ro punto de partida es nuestra sensación, la manera en la que nosotros percibimos
343
los acontecimientos sonoros. El movimiento de la voz que hemos visto en todos los
melogramas es movimiento respecto a nuestra percepción, es decir, es la variación
dentro de una escala temporal adecuada a nuestra percepción de uno de los paráme-
tros característicos del sonido: la frecuencia instantánea. Al margen de que desde el
punto de vista físico el sonido sea movimiento —más exactamente movimien-
to vibratorio—, el movimiento que interesa a la música es el movimiento de la
voz que percibimos, es decir, la variación en el tiempo de su altura tonal.
El melograma nos ha permitido también ilustrar con imágenes el proceso de abstrac-

ción que conduce desde la prosodia de la voz hablada hasta la constitución del sistema
musical. La permanencia de la voz en alturas tonales determinadas permite es-
tablecer medidas y proporciones entre ellas. Estos números son los que codifican
las alturas tonales y determinan un conjunto de intervalos a los que el sistema mu-
sical dará significación, organizando las escalas. El lenguaje musical se crea a partir
del espíritu de la voz humana en el habla, pero adquiere su ordenación precisa —es
decir, se codifica, se hace propiamente “sistema” (escala)— mediante un instrumento
de afinación fija que permite precisar las alturas tonales. En el caso de su creación
histórica, este instrumento fue la lira; hoy es el piano del que podemos considerar,
en este sentido, que la lira fue un antecedente.
Por otra parte, hemos visto en el ejemplo del poema recitado dos características de
la voz hablada que van a tener muchas consecuencias en la creación de nues-
tro sistema musical: una es el reducido ámbito tonal en el que se mueve la
entonación de cada unidad sintagmática en el habla, un ámbito de aproxima-
damente una cuarta o una quinta; otra, la fórmula cadencial descendente con
la que se delimitan estas unidades. Por las noticias que nos han llegado de los teó-
ricos musicales y de los gramáticos antiguos, estas características se daban también
en el griego antiguo, lengua que sirvió de fundamento a la construcción de nuestro
sistema musical. La primera explicará en parte la importancia del tetracordio y de la
consonancia de cuarta en las primeras formas escalares antiguas. La segunda se refle-
jará en el carácter descendente de todas las resoluciones: las cadencias descendentes
van a dominar por completo el lenguaje musical de Occidente hasta la aparición de
los primeros atisbos de la sensible ascendente en la música de los trovadores. Pero las
consecuencias de esta cuestión pertenecen ya al estudio de la teoría musical.
344
Así mismo, estos ejemplos nos han permitido acercarnos mejor a un asunto que tiene
que ver con la interpretación. Consideramos que una cualidad del intérprete es ha-
cer hablar al instrumento. Mediante los melogramas hemos podido comprobar hasta
qué punto esto es literal: hacer hablar al instrumento es acercarse a la prosodia
del habla, es decir, alterar las alturas tonales o las duraciones de las notas que co-
rresponderían al patrón escalar o rítmico, bien a través de inflexiones o desviaciones
de la voz, bien a través de modificaciones de los tiempos (rubato, ritandando, etc.),
para aproximarnos a la naturalidad del movimiento de la voz en el habla, adqui-
riendo mediante este pequeño alejamiento del código musical una alta significación
emotiva.
14.8. Conclusión
Este capítulo ha tratado de mostrar que la música es esencialmente una cuestión de

voz o de voces —entendiendo la palabra voz en su sentido más amplio— y que lo
específico de nuestro lenguaje musical consiste en establecer números y medidas
sobre ese movimiento de la voz. Al hacerlo así, al detenerse la voz durante algún
tiempo en algún lugar del espacio sonoro, en alguna altura tonal concreta, surge el
sonido musical, definido por los antiguos precisamente como la parte más pequeña
de la voz melódica. El estudio de las relaciones entre esos sonidos —tanto las leyes
que rigen su sucesión en cada una de las voces, como las de su reunión simultánea
en los acordes— compete ya al estudio propio de la Teoría Musical.
Como dije al empezar, la finalidad de este curso ha sido proporcionar los fundamen-
tos acústicos y psicoacústicos sobre los que se ha creado nuestro lenguaje musical.
Por ello hemos ido examinando todos los aspectos que conciernen al sonido musical,
desde su constitución física —como un movimiento mecánico que se transmite por
un medio elástico cuyos parámetros frecuenciales cumplen unas características que
las hacen adecuados para ser percibidos por el oído humano—, hasta su cualidad de
ser el primer elemento de la melodía, el que se pone de manifiesto cuando el mo-
vimiento de la voz musical se detiene en un determinado punto del espacio sonoro.
También hemos conocido, aunque haya sido someramente, cómo es y cómo actúa
nuestro sistema auditivo a la hora de reconocer el sonido musical o armónico. Y de
345
paso hemos aprendido a observar unas representaciones gráficas del sonido, el espec-
trograma y el melograma, que pueden ser de gran utilidad al músico y al musicólogo
para realizar el análisis sonoro de una interpretación musical.
Aquí nos quedamos, pues, a las puertas del estudio de la Teoría Musical, que debe dar
cuenta del lenguaje que permite dotar de sentido a los sonidos de la música.
346
Bibliografía
[1] HᴀRᴛᴍᴀNN, WIᴌᴌIᴀᴍ M., Principles of Musical Acoustics, Springer, 2013.
[2] JᴏHNSᴛᴏN, I., Measured Tones: The Interplay of Physics and Music, 3rd Edition,
CRC Press, 2009.
[3] RᴏᴇᴅᴇRᴇR, JᴜᴀN G., The Physics and Psychophysics of Music. An Introduction, 4th
Edition, Springer, 2008.
[4] RᴏSSING, THᴏᴍᴀS D., MᴏᴏRᴇ, F. RIᴄHᴀRᴅ y WHᴇᴇᴌᴇR, Pᴀᴜᴌ A., The Science of
Sound, 3rd Edition, Pearson, 2013.
[5] SᴄHNᴜᴘᴘ, JᴀN, NᴇᴌᴋᴇN, ISRᴀᴇᴌ y KING, ANᴅRᴇᴡ, Auditory Neuroscience: Making
Sense of Sound, The MIT Press, 2011.
347

Acústica Musical

Uploaded by

Document Information

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

Acústica Musical

Uploaded by

Copyright:

Available Formats

Acústica Musical

Luis Colomer Blasco

Este documento esta realizado bajo licencia Creative

Este curso multimedia va acompañado de 141 archivos de vídeo e imágenes. Los

1. El sonido como vibración 1

3. Características de los sonidos musicales 28

5. Altura tonal, intervalos y volumen sonoro 62

6. Mezcla e interferencia de dos sonidos simples 84

7. El sonido armónico 122

8. Ondas estacionarias y resonancia: Generación del sonido armónico 150

9. Envolventes de amplitud y de frecuencia 193

10. Análisis espectral de los sonidos musicales 209

11. El timbre 232

12. Fisiología de la audición 266

13. Psicoacústica musical 304

14. La voz musical 325

Este curso pretende proporcionar al músico y al musicólogo los conocimientos de

Ciertamente, no es necesario conocer nada de acústica para interpretar bien un ins-

La pregunta que podemos hacernos a continuación es la siguiente: ¿Es posible es-

No se trata de realizar cálculos, ni de desarrollar aplicaciones prácticas; el objetivo

Pero querría, antes de comenzar, hacer algunas aclaraciones. La primera se reﬁe-

El sonido como vibración

1.1. ¿Qué es el sonido?

Empecemos conociendo qué es el sonido, cualquier sonido, sea o no musical. La

Así pues, cualquier vibración mecánica, hablando en términos generales, es sonido.

Para obtener una imagen intuitiva de la vibración sonora, podríamos imaginar el

1.2. Simulación de la vibración del aire en un sonido simple

Ya que la propagación de la vibración se realiza de izquierda a derecha, en el vídeo

1.2.1. Propagación de la perturbación a través del aire

Los movimientos de la fuente sonora provocan una cadena de compresiones y ra-

En efecto, distinguimos varias áreas donde los paneles de esferitas progresivamente se

1.2.2. Movimiento individual de oscilación

Además, si observamos con un poco de detenimiento varias esferitas elegidas al azar

Dado que en nuestra simulación hemos elegido un sonido simple, el movimiento de

Para observar con detalle el movimiento de una esferita cualquiera he realizado un

Vemos que la forma de la gráﬁca que dibuja el movimiento de oscilación de cada

1.2.3. De la oscilación individual a la propagación ondulatoria

En términos de nuestra simulación, vamos a estudiar cómo a partir del movimiento

Figura 1.3: Vídeo con el movimiento oscilatorio de una ﬁla de esferitas.

a) En las ondas longitudinales la dirección de propagación es la misma que la de la oscila-

En la realidad, los pequeñísimos desplazamientos del aire, representados por la osci-

En el vídeo observamos que la elasticidad de los muellecillos causa retrasos en la

A su vez, el retraso en la transmisión del movimiento provoca que en unos momentos

Desplazamiento Distancia entre esferitas

Como consecuencia de los desfases debidos a la elasticidad, se produce una cade-

Veamos ahora lo que es especíﬁco de un sonido simple y, en concreto, de la onda

Al margen de las imprecisiones debidas al reducido número de esferitas, este patrón

La longitud de onda es la distancia entre dos puntos equivalentes de la perturbación

De la misma manera, en la vibración real de un sonido simple la longitud de la onda

1.3. Simulación de la vibración del aire en un fragmento sonoro

El carácter sencillo y repetitivo de la vibración en el caso de un sonido simple se

Si nos ﬁjamos en el movimiento de oscilación de la esferita más iluminada, no en-

Pero, lo esencial de todo movimiento ondulatorio se cumple también en el caso de

Y lo que es más importante, aunque el movimiento de oscilación sea complejo, ob-

Así mismo, vemos que también en el caso de un fragmento sonoro complejo, la

Mediante la simulación por ordenador de la vibración sonora en el aire, hemos ex-

2.1. Representación del sonido

Figura 2.1: Un fonógrafo. Dibujo de la época.

Con el desarrollo de la electricidad, las oscilaciones mecánicas de la membrana que

La transformación en números de la vibración sonora permite que el tratamiento del

2.2. Un ejemplo de registro digital

Veamos mediante un ejemplo en qué consiste el registro de la señal de audio digital.

La cápsula de un micrófono de condensador posee una membranita muy ﬁna que

Supongamos que queremos registrar y guardar en un archivo de ordenador los com-