You are on page 1of 49

Tillmann, B., Bharucha, J. J., & Bigand, E. (2000).

Implicit learning of tonality A self-organizing

approach. Psychological Review, 107, 885-913.

Traducción: Santiago J. Moreno y Fernando Anta

Cátedra Psicología Auditiva, Dpto. de Artes, Facultad de Filosofía y Letras, Universidad de Buenos

Aires.

Bibliografía de uso interno.

885

Aprendizaje Implícito de la Tonalidad: un enfoque auto-organizativo

Resumen

La música tonal es un sistema altamente estructurado que está presente de forma ubicua en

nuestro entorno cultural. Demostramos la adquisición de conocimientos implícitos de la

estructura tonal a través de auto-organizaciones neuronales que resultan de la exposición a

combinaciones de tonos simultáneas y secuenciales. En el proceso de aprendizaje, una red con

limitaciones neurales fundamentales internaliza la estructura de relaciones esencial de la música

tonal. Luego de su formación, la red fue ejecutada a través de una gama de experimentos de la

literatura. El modelo da cuenta de una variedad de hallazgos empíricos que tienen que ver con el

procesamiento de sonido, acorde y relaciones clave como juicios de asociación, juicios de

memoria y expectativas. Además ilustra la plausibilidad de la activación como un mecanismo

unificador subyacente a una serie de tareas cognitivas.


Los ambientes naturales contienen sistemas altamente estructurados a los cuales estamos

expuestos en nuestra vida cotidiana. El cerebro humano internaliza estas regularidades por

exposición pasiva, y el conocimiento implícito adquirido influye en la percepción y el

desempeño. Las características del lenguaje y de la música proveen dos ejemplos de sistemas

altamente estructurados que pueden ser aprendidos de forma incidental. En cada caso, hay una

paradoja. Por un lado, una descripción formal exhaustiva de la estructura ha resultado ser muy

dificultosa. Por el otro, hablantes nativos u oyentes no-músicos internalizan las regularidades que

subyacen a las estructuras lingüísticas o musicales con cierta facilidad. Un corpus substancial de

investigaciones se hay enfocado al proceso de aprendizaje del lenguaje, pero muy poco al de la

música. El propósito central de este artículo es el de investigar cómo se puede adquirir y

representar mentalmente el conocimiento implícito de algunas características básicas de la

gramática musical occidental.

Presentamos un modelo conexionista que (a) simula el aprendizaje implícito de estructuras de

alturas en el contexto de la armonía occidental y (b) da cuenta de una gama de hallazgos

empíricos en la percepción musical. El artículo está organizado en cuatro partes. Primero,

sintetizamos las regularidades que subyacen al sistema de música tonal occidental que pueden

ser internalizadas por aprendizaje implícito y hacemos una reseña de los modelos de

presentación del conocimiento tonal existentes. Segundo, proponemos un modelo conexionista

basado en mapas de auto-organización (SOMs), que simulan el aprendizaje de regularidades

tonales por mera exposición. Tercero, presentamos evaluaciones de la red entrenada con tareas

experimentales de percepción tonal. Cuarto, discutimos el modelo propuesto y sus futuros

desarrollos.
APRENDIZAJE IMPLÍCITO DE REGULARIDADES EN LA MÚSICA TONAL OCCIDENTAL

En la adquisición y representación del conocimiento, se distingue lo explícito de lo implícito.

El aprendizaje explícito es la adquisición de conocimiento declarativo. Se piensa que ocurre por

instrucción en base a prueba de hipótesis o reglas. El aprendizaje implícito es la adquisición de

conocimiento de una forma incidental, sin conocimiento completo y verbalizable de lo que se

aprende (Seger, 1994). El aprendizaje implícito es visto como una característica fundamental del

sistema cognitivo, permitiendo la adquisición de información de alta complejidad que no podría

ser obtenida de forma explícita (Reber, 1989). Los procesos de aprendizaje implícito han sido

estudiados en el laboratorio con materiales artificiales basados en regularidades estadísticas. Una

de las situaciones experimentales más recurrentes consiste en presentar a los participantes

secuencias de eventos generados por una gramática artificial. Por ejemplo, una gramática de

estado finito genera complejas cadenas de letras basándose en un conjunto restringido de ellas

(Reber, 1967). Luego de una exposición pasiva a estas cadenas de letras, los participantes fueron

más capaces de diferenciar nuevas cadenas que pertenecían a la gramática original de las que no.

La mayoría de los experimentos fue incapaz de explicar las reglas subyacentes de dicha

gramática

886

de forma verbal (e.g., Altmann, Dienes, & Goode, 1995; Dienes, Broadbent, & Berry, 1991;

Reber 1967, 1989).

Los materiales artificiales son más simples que las secuencias naturales de eventos. Sin

embargo, los mismos principios básicos de aprendizaje pueden servir como modelo para
entender los procesos de aprendizaje implícito en entornos naturales (Winter & Reber, 1994).

Por ejemplo, muchos estudios intentaron emparentar el aprendizaje implícito de gramáticas

artificiales y el aprendizaje de un lenguaje. Saffran, Newport, Aslin, Tunick y Barrueco (1997)

mostraron con secuencias de auditivas que los participantes fueron capaces de usar regularidades

estadísticas como las probabilidades transicionales entre las sílabas. Luego de la presentación de

una secuencia audible similar a una lengua (e.g., bupadapatubitubitu…), niños y adultos

pudieron distinguir palabras propias de la gramática artificial (e.g., bupada, patubi) de

agrupamientos que no eran ‘palabras’ en la gramática. Incluso una pequeña exposición a

lenguajes naturales complejos induce una sensibilidad a limitaciones estructurales: luego de 12

minutos de presentación de un filme de caricaturas narrado por un hablante nativo de Mandarín,

adultos daneses fueron capaces de discriminar entre palabras reales de la lengua mandarín y

pseudo-palabras (Zwisterlood, 1990 en Altmann et. Al., 1995). Resultados posteriores obtenidos

de la sensibilidad de niños hacia regularidades ortográficas (Pacton, Perruchet, Fayol, &

Cleeremans, en prensa) apoya la extensión de las conclusiones sobre aprendizaje implícito

provenientes de la investigación artificial hacia el contexto natural.

Se ha estudiado el aprendizaje implícito con eventos tanto naturales como artificiales en varios

campos. En el campo de la música ha habido pocas investigaciones sobre aprendizaje implícito

con cadenas artificiales de eventos musicales (Bigand, Perruchet, & Boyer, 1998). Sin embargo,

muchos estudios trataron este asunto de forma indirecta con procesamiento musical (ver Dowling

& Harwood, 1986). La gramática musical occidental es más compleja que la gramática de

valores finitos usada en los estudios de aprendizaje implícito. Puede ser pensada como una
gramática con una jerarquía de tres niveles que genera regularidades fuertes en las piezas

musicales. Consideremos, a continuación, las reglas y regularidades más básicas.1

En la música occidental, un grupo restringido de 12 tonos (que refieren a DO, DO#/REb, RE,

RE#/MIb, MI, FA, FA#/SOLb, SOL, SOL#/LAb, LA, LA#/SIb, SI) son combinados de maneras

altamente controladas. Este grupo de 12 tonos es organizado en subgrupos de siete, llamados

escalas diatónicas. Dependiendo del patrón de intervalos que separan a cada uno de estos siete

tonos, las escalas diatónicas pueden ser mayores o menores. Aplicando estos dos tipos de escalas

diatónicas a cada uno de los 12 tonos se distinguen 12 tonalidades mayores y 12 tonalidades

menores. Las notas que constituyen una tonalidad (e.g., SI-DO#-RE#-MI-FA#-SOL#-LA#) son

más propensas a aparecer juntas en melodías occidentales que aquellos tonos que no forman

parte de un mismo grupo tonal (e.g., SI-DO-RE#-MI-FA#-SOL#-LA). Sobre cada uno de los

grados de las escalas pueden ser definidos siete acordes diatónicos de acuerdo a reglas armónicas

específicas. Un acorde es una simultaneidad de tres notas, generalmente caracterizadas como

fundamental, tercera y quinta. En las tonalidades mayores, los acordes construidos en el primer,

cuarto y quinto grado (I, IV y V) son mayores, mientras que aquellos construidos en el segundo,

tercero y sexto son menores (ii, iii, vi). El acorde construido en el séptimo grado es disminuido

(viiº).2 Los acordes constituyen un segundo orden de unidades musicales, y su uso está

fuertemente regulado por la gramática musical occidental. Acordes que pertenecen a la misma

tonalidad son más propensos a aparecer juntos en una pieza musical que aquellos que pertenecen

a tonalidades diferentes.

1
Una descripción completa del sistema musical occidental sobrepasaría la intención de este artículo. El interés de
la sección que sigue es sintetizar las características organizativas que producen las regularidades más relevantes de
las piezas musicales de Occidente.
2
Los acordes mayores consisten de un intervalo de tercera mayor (cuatro semitonos) y una quinta justa (siete
semitonos desde la referencia de la fundamental). En acordes menores la tercera es menor (tres semitonos), y en
acordes disminuidos la tercera es menor y la quinta disminuida (seis semitonos).
La tonalidad define un tercer orden de unidades musicales. Algunas tonalidades comparten

ciertos acordes y notas. Por ejemplo, la tonalidad de DO mayor comparte cuatro acordes y seis

notas con SOL mayor, dos acordes y cinco notas con la de RE mayor y solo una nota con la de

FA# mayor. Las tonalidades que comparten un mayor número de acordes o notas se consideran

armónicamente relacionadas. La fuerza de estas relaciones armónicas depende del número de

notas y acordes compartidos. En la teoría musical las tonalidades se conciben de forma espacial

como un círculo, denominado círculo de quintas (figura 1). El número de pasos que separan dos

tonalidades en este círculo (en la dirección que sea) define su distancia armónica. Estas

distancias inter-tonales constituyen la base de las regularidades fuertes que conforman las piezas

de música occidental. Los cambios en tonalidad suceden de forma más frecuente entre dos

tonalidades fuertemente relacionadas (e.g., entre DO y FA o SOL mayores) que entre aquellas

menos relacionadas (e.g., DO mayor y FA# mayor). La distancia entre tonalidades también está

definidas entre modos mayores y menores. Una tonalidad mayor (e.g., DO mayor) está

armónicamente emparentada con su relativo menor (LA menor) y su paralelo menor (DO

menor). Estas relaciones a varios niveles entre notas y acordes, acordes y tonalidades, y modos

mayores y menores definen un grupo complejo de relaciones posibles entre eventos musicales

(véase Krumhansl, 1990; Lerdahl, 1988), y regulan de forma fuerte las probabilidades de

transición entre eventos musicales a lo largo del desarrollo de la pieza (Francès, 1958; Piston,

1978).

Otra característica importante de la gramática musical occidental es que las notas y acordes

tienen diferentes funciones estructurales dentro de la tonalidad. De acuerdo a Meyer (1956), “en
el modo mayor de la música occidental, la tónica3 es la nota de reposo hacia la cual todas las

demás notas tienden a moverse. En el nivel superior la tercera y la quinta de la escala, aunque

son notas melódicas activas relativas a la tónica, se integran a la tónica como notas estructurales;

y todas las otras notas, sean diatónicas o cromáticas, tienden hacia alguna de ellas” (pp. 214-

215). Estas diferencias en la función musicales crean jerarquías al interior de la tonalidad. Dichas

jerarquías están fuertemente relacionadas con la frecuencia de uso de tonos en las piezas de la

música occidental. Los tonos que se implementan con mayor frecuencia (tónica, quinta, y, en

menor grado, la tercera) son descriptas por la teoría musical como los más importantes en una

tonalidad dada. Desde un punto de vista psicológico, las notas jerárquicamente más importantes

de una tonalidad funcionan como puntos de referencia cognitivos estables (Krumhansl, 1979,

1990) a los que las demás notas están enlazadas (Bharucha, 1984).

Una jerarquía interior a la tonalidad también es visible entre los siete acordes que la conforman

(Bharucha & Krumhansl, 1983; Krumhansl, Bharucha, & Castellano, 1982). Los acordes que se

construyen en el primer, quinto y cuarto grado de la escala (denominados, respectivamente,

tónica, dominante y subdominante) generalmente tienen una función sintáctica más relevante que

aquellos construidos en los restantes grados de la escala. Por ejemplo, un acorde dominante

seguida de un acorde de tónica constituye una cadencia auténtica, que indica fin. En contraste, un

acorde subdominante seguido de uno dominante es una semicadencia, que indica un

887

final temporal. Tanto los teóricos musicales (Deliège, 1984; Schenker, 1979) como los

psicólogos de la música (Sloboda, 1985) consideran que la cadencia auténtica actúa como una

3
La tónica es la nota del primer grado de la escala y la que le da nombre a la misma. Por ejemplo, la tónica de la
tonalidad de DO mayor es la nota DO.
estructura sintáctica básica en la música occidental (véase Deliège, 1984, y Sloboda, 1985, para

un desarrollo más amplio).

Una característica crítica de la música occidental es que las funciones de los eventos musicales

cambian con el contexto tonal. Un acorde de DO mayor funciona como una tónica estable en el

contexto tonal de DO mayor y como una dominante o subdominante en FA mayor y SOL mayor

respectivamente. De forma similar, una secuencia SOL-DO constituye una cadencia auténtica en

el contexto de la tonalidad DO mayor pero no en la tonalidad de SOL mayor. Esta dependencia

contextual es un aspecto fundamental del sistema tonal occidental; entender la función de los

eventos de acuerdo al contexto musical es crucial para comprender la gramática musical.

A pesar de la complejidad del sistema, la sensibilidad a la estructura musical no requiere

aprendizaje explícito. Como los oyentes no instruidos musicalmente son expuestos diariamente a

las regularidades que subyacen a la música de su cultura, adquieren conocimiento implícito de la

misma (Bharucha, 1984; Dowling & Harwood, 1986; Francès, 1958). Este conocimiento

implícito abarca las funciones de las notas y los acordes en una tonalidad (Tillman, Bigand, &

Madurell, 1998), las relaciones entre diferentes tonalidades (Bartlett & Dowling, 1980; Cuddy &
Thompson, 1992a, 1992b; Thompson & Cuddy, 1989), y el cambio en la función de los eventos

que dependen del contexto tonal (Bharucha y Krumhansl, 1983; Bigand, 1993; Bigand, 1997;

Bigand y Pineau, 1997; Krumhansl et al., 1982). La representación internalizada influencia la

memoria musical (Bigand & Pineau, 1996; Cuddy, Cohen, & Mewhort, 1981; Dowling, 1978;

Dowling, 1991), la expectativa musical (Bharucha & Stoecking, 1986, 1987; Cuddy & Lunney,

1995), y la recuperación de eventos musicales perdidos (DeWitt & Samuel, 1990). Los

resultados generalmente revelan una fuerte consistencia para los oyentes con diferentes niveles

de conocimiento musical. Aunque los músicos usualmente demuestran un mejor desempeño que

los no-músicos, sus respuestas en general arrojan los mismos patrones (véase Bigand, Parncutt,

& Lerdahl, 1996; A. Cohen, 1994; Croonen & Houtsma, 1994). Datos de cuestionario también

sugieren que el conocimiento tonal es tácito en ambos grupos de participantes (Holleran, Jones,

& Butler, 1995). Finalmente, los estudios de potenciales eventuales (ERP) añaden evidencia de

que los músicos y no-músicos demuestran similar respuesta electro-fisiológica a cambios sutiles

en las funciones armónicas de un acorde dado (Regnault, Bigand, & Besson, en prensa).

Nuestro objetivo principal en este artículo es investigar como este conocimiento implícito de

las regularidades tonales occidentales puede ser representado y aprendido por exposición pasiva

a eventos musicales. Discutimos que un modelo de conocimiento distribuido ofrece un marco

explicativo posible que da cuenta del aprendizaje en ausencia de una guía explícita y que sugiere

un mecanismo subyacente – activación- que unifica una gama de tareas psicológicas. Debe

tenerse en cuenta que, más allá de las complejas regularidades de la estructura tonal, el sistema

occidental también tiene regularidades temporales complejas definidas por estructuras métricas y

rítmicas. En la cognición musical, el procesamiento de estructuras tonales y temporales ha sido

considerado de forma independiente. Aunque esta independencia metodológica se mantiene


centro de un debate (Boltz, 1999; Jones & Boltz, 1989; Peretz & Kolinsky, 1993), nos

enfocamos en las regularidades tonales solamente y no en las temporales. Sin embargo,

regresaremos a este asunto en la discusión general considerando las posibles extensiones del

modelo conexionista para integrar algunas regularidades temporales de la música occidental.

MODELOS DE REPRESENTACIÓN DE CONOCIMIENTO DISTRIBUIDO

Los modelos conexionistas tienen dos ventajas principales sobre los modelos tradicionales

basados en reglas: (a) Las reglas que gobiernan el dominio no son explícitas sino que surgen de

la satisfacción simultánea de varias restricciones representadas por conexiones individuales, y (b)

estas restricciones pueden ser aprendidas por exposición pasiva. En el campo del aprendizaje de

gramáticas artificiales, una representación del conocimiento de estímulos de entrenamiento

puede emerger de mecanismos de aprendizaje asociativo de modelos conexionistas. Redes de

auto-asociación memorizan estímulos generados por gramáticas artificiales, clasifican nuevos

estímulos, y simulan resultados experimentales incluso mejor que modelos basados en

ejemplares (Dienes, 1992). Este enfoque nos permite interpretar la noción de “conocimiento

abstracto” de una manera diferente a la del conocimiento reglado o de sensibilidad simple a

ejemplos almacenados (Cleeremans, 1994). En el dominio del lenguaje, McClelland y otros

desarrollaron una clase de modelos de redes neurales para la representación del conocimiento.

Estos modelos de activación interactiva de reconocimiento de palabras (McClelland &

Rumelhart, 1981; Rumelhart & McClelland, 1982) y del habla (Elman & McClelland, 1984;

McClelland & Elman, 1986) simulan la interacción entre conocimeinto y percepción sin

almacenar reglas lingüísticas de forma explícita. Tres niveles de unidades representan


características, letras (o fonemas) y palabras. El comportamiento reglado emerge de la

interacción de un grupo de unidades de palabras y unidades de letras (o fonemas).

En el dominio de la música, un número creciente de modelos para redes neurales ha sido

desarrollado durante la última década. Este tipo de modelos se ofrecieron para el aprendizaje de

percepción de altura (Sano & Jenkins, 1991; Taylor & Greenhough, 1994), equivalencia de

octava (Bharucha & Menel, 1996), clasificación de acorde (Laden & Keefe, 1991), y secuencia

melódica (Bharucha & Todd, 1989; Krumhansl, Louhivuiru, Toiviainen, Jârvinen, & Eerola,

1999; Page, 1994). Algunos modelos simulan aspectos más complejos del aprendizaje y la

percepción musical, como la categorización y la memoria de patrones característicos. Gjerdingen

(1990) exponen una red de cuatro niveles basada en la teoría de resonancia adaptada de

Grossberg (1987) en el trabajo temprano de Mozart. La capa de ingreso codifica conceptos

teóricos musicales (como el

888

tritono armónico, la disonancia contrapuntística) y características musicales de bajo nivel (como

el contorno melódico, la altura de la escala mayor diatónica y las unidades de alteración de

sostenido y bemol). Los cuatro niveles incluyen memoria a corto plazo de dinámica (nivel 1) que

conduce a la formación de características estables (nivel 2), y un almacenamiento secundario

temporal (nivel 3) que categoriza en un nivel mayor (nivel 4). El modelo desarrolla memorias de

patrones críticos y deriva categorizaciones comparables con conceptos musicales complejos

(como la combinación de la conducción de voces).

Pocos modelos intentaron formalizar cómo las múltiples relaciones entre los tonos, acordes y

tonalidades pueden ser representadas en un marco único. El modelo de Griffith (1994) simula la
manera en que las tonalidades son inducidas a partir de patrones de altura y cómo las identidades

de alturas abstractas se establecen por el uso de intervalos. Paradigmas supervisados y no-

supervisados se usan en una combinación modular, permitiéndole al modelo usar su propia

información derivada para guiar los procedimientos subsecuentes. El modelo formaliza un

mecanismo inductivo para el aprendizaje de los grados de la tonalidad y la escala a partir de

secuencias melódicas. En general se basa en las relaciones entre altura y tonalidad y no está

diseñado para tener en cuenta las relaciones entre tonos y acordes y entre acordes y tonalidades.

El modelo resultante es comparado con la teoría musical pero no con datos empíricos.

Leman (1995; Leman & Carreras, 1997) simuló el aprendizaje perceptual de los centros tonales

presentando acordes y piezas musicales reales en un marco de dos módulos. En estas

simulaciones, la señal acústica musical se procesa primero en un modelo auditivo, y luego la

información transformada define la entrada para un mapa auto-organizativo. En Leman (1995),

tres modelos auditivos definen tres tipos de vectores de entrada para una variedad de acordes, a

partir de los cuales (vectores) se forma un mapa auto-organizativo. Sea cual fuere el modelo

usado, las unidades en mapa se especializan en la detección de acordes. Luego de su formación,

las activaciones en el mapa que responden a ciertos estímulos reflejan la afinidad armónica entre

los acordes representados y dicho estímulo. Basándose en las regiones activadas que indica el

mapa, los centros tonales pueden inferirse. La red formada se expone a piezas musicales, y los

cambios que se detectan en los centros tonales son comparados con los análisis teóricos de la

música. En Leman y Carreras (1997), la señal de entrada es derivada de patrones de ejecución

neurales que responden a grabaciones reales de piezas de Bach. Un SOM es formado para extraer

las regularidades en dichos patrones. Luego de su formación, los centros tonales que se activan

por el estímulo musical dado se infieren en base a las regiones activadas del mapa. El modelo de
salida del modelo generalmente coincide con la teoría musical y cierta información empírica que

puede ser simulada por el modelo.

Los modelos de Leman (1995) y Leman & Carreras (1997) se enfocan en acordes y en centros

tonales pero no dan cuenta de las relaciones entre nota, acorde y tonalidad. El mayor interés está

en mostrar que las unidades de orden mayor de la música occidental (por ejemplo acordes o

centros tonales) pueden ser aprendidos por exposición pasiva a una entrada (imput) acústica. Los

SOMs extraen las características invariantes de los sonidos musicales que llevan a la formación

de unidades abstractas. En otras palabras, esos modelos formalizan como los procesos de

aprendizaje pueden ser pueden ser impulsados por características psicoacústicas “de abajo hacia

arriba” (bottom-up). Sin embargo, no investigan como el conocimiento adquirido puede, en

cambio, influenciar el procesamiento de eventos musicales, llevando a predicciones que puedan

ser analizadas experimentalmente. El beneficio crucial del aprendizaje es el uso del

conocimiento para reaccionar a los estímulos ambientales de una mejor manera. Las influencias

“arriba-abajo” (top-down) facilitan el procesamiento de los eventos ambientales, como ha sido

mostrado en diferentes dominios de la cognición incluyendo la música. Por ejemplo, una vez que

la tonalidad de un contexto musical es reconocida, las notas que forman parte de esa tonalidad

son percibidas como más estables que otras notas, aunque no hayan estado presente en el

contexto del estímulo (Francès, 1958; Krumhansl, 1990). Un modelo de representación del

conocimiento debe poder dar cuenta de estos efectos “arriba-abajo” y de cómo se combinan con

influencias “abajo-arriba”. En el reconocimiento de palabras, los modelos conexionistas simulan

la influencia del conocimiento mediante la activación interactiva entre unidades de nivel superior

(palabras) y unidades de nivel inferior (letras; McClelland & Rumelhart. 1981). En la música, el
modelo de activación difusiva de Bharucha (1987am 1987b; referido como MUSACT) se basa

en una arquitectura comparable.

En este modelo, un patrón de conexiones constituye una representación de conocimiento de

armonía occidental (Bharucha, 1987, 1994). Las unidades de la red son organizadas en tres capas

correspondientes a notas, acordes y tonalidades (figura 2, arriba). Cada una de las 12 notas es

conectada a tres acordes mayores y tres menores, de los cuales esa nota es un componente. De

forma análoga, cada acorde es conectado a tres unidades de tonalidad mayor que representan

tonalidades de las que ese acorde forma parte. Las reglas de la música occidental no se

almacenan de forma explícita sino que emergen de la activación que reverbera por enlaces entre

unidades de nota, acorde y tonalidad.

Cuando un acorde consistente de tres notas (por ejemplo, DO-MI-SOL) es tocado, las unidades

que representan esas notas son activadas, y la activación de fase es enviada a las unidades de

acorde (ver figura 2, arriba). La unidad de acorde conectada a las tres notas recibe la mayor

activación (en este ejemplo, el acorde de DO mayor). Durante un segundo ciclo (figura 2,
medio), la activación de fase de las unidades de acorde activo se difunden hacia las unidades de

tonalidad.

La activación de fase continúa difundiéndose por la red entre todas las capas hasta que se

alcanza un equilibrio. Los ciclos de activación temprana reflejan influencias “de abajo hacia

arriba”: las unidades de acorde activadas contienen al menos uno de las notas que componen el

acorde estímulo. Por ejemplo, después de un acorde de DO mayor, la unidad de acorde MI va a

ser más activada que la unidad de acorde RE porque comparte una nota con el acorde estímulo

(por ejemplo, la nota MI). Es importante indicar que la unidad de acorde de MI mayor es más
activada que la unidad de acorde de RE mayor, aunque el acorde de DO mayor y el de MI mayor

están armónicamente menos relacionados en teoría (no son tonalidades emparentadas) que los

acordes de DO y RE mayores (perteneciendo ambos a la clave de SOL mayor). De forma similar,

las unidades de tonalidad son activadas si tienen un acorde activo como miembro (figura 3,

izquierda). Durante los ciclos de reverberación de la activación inicial al equilibro, los patrones

de activación cambian de forma cualitativa. En equilibrio, el estado e la red incorpora las

influencias de procesos “de arriba abajo” y refleja las jerarquías de la teoría occidental. La

activación tiende a decrecer con el incremento de la distancia armónica entre acordes en el

círculo de quintas. Estas influencias “de arriba abajo” son claramente ilustradas por las unidades

de acorde de RE y MI mayores. En equilibrio, la unidad de acorde RE recibe una activación

mayor que la unidad de acorde de MI. De forma similar, la activación de unidades de tonalidad

decrece de forma monotónica con el incremento de la distancia armónica entre tonalidades

mayores alrededor del círculo de quintas (ver figura 3, derecha).

Para secuencia de acordes, la activación que resulta de cada acorde es acumulada. Después del

desplazamiento de un evento, la activación comienza a decaer exponencialmente con el tiempo.


Si se produce otro evento antes de que la activación haya decaído notablemente, la activación de

fase resultante de ese evento es agregada a la activación residual del evento previo, creando así

un patrón de activación que puede ser influenciado por una secuencia de eventos entera, con peso

en lo reciente. En otras palabras, la activación de una unidad i en la red es función no solo del

evento e reciente sino también del evento previo, e – 1, la activación de e – 1 siendo esa misma

una función del evento e – 2 y así. La activación total de la unidad i (una nota, un acorde o una

tonalidad) luego de un evento e es una función aditiva de tres cantidades: (a) activación “de

abajo hacia arriba” causada por el estímulo de forma directa (por ejemplo, las notas), (b) la

activación indirecta

890

recibida de otras unidades en respuesta al evento e (por ejemplo, la activación de fase que se

disemina en el sistema), y (c) la activación que decae causada por eventos previos e – 1 (siendo

una función del evento w – 2 y así).

(…)

MUSACT es una simplificación idealizada de aspectos de la gramática de la música

occidental porque no incorpora unidades para tonalidades menores y otros tipos de acordes que

pueden ocurrir en la música occidental (por ejemplo, acordes disminuidos). Otra simplificación

es la codificación de clases de altura absolutas en la capa de entrada (input) y la representación

de unidades de acordes independientes de la posición relativa de las notas componentes. A pesar

de estas simplificaciones, el modelo provee un marco relevante para entender como el

conocimiento musical puede ser representado mentalmente y como este conocimiento, una vez
que es activado por el contexto musical, puede influir el procesamiento de estructuras tonales

(Bharucha, 1987b).

Un apoyo para el modelo MUSACT proviene de los estudios empíricos usando un paradigma

de primado4 armónico. La justificación de estos estudios es que un acorde previo prima (primes)

acordes armónicamente relacionados de forma que su procesamiento es acelerado. El grado en

que un acorde está primado por un contexto es una función de la activación de la unidad que

representa este acorde en el modelo. Cuanto más una unidad de acorde se activa, más el acorde

está primado (primed). Para probar esta hipótesis, Bharucha y Stoecking (1986, 1987) pidieron a

los participantes que decidan lo más rápido que puedan si un acorde que seguía a un acorde de

primado (prime chord) estaba afinado (in tune; ver también Tekman & Bharucha, 1992). Los

participantes escucharon un acorde de primado (prime chord) seguido por un acorde relacionado

armónicamente cercano o lejano.

(…)

891

El patrón de activación, entonces, copia la performance humana y da cuenta de efectos de

primado (priming effects) de contexto global. Otras investigaciones indican que MUSACT

también da cuenta de efectos de primado en varios niveles del contexto musical global (Bigand

4
Nota del traductor: El efecto de ‘priming’ se refiere a la influencia que tiene un estímulo previo (‘prime’) en el
modo en que se responde a un estímulo posterior (‘target’). Se considera fruto de la incidencia de la memoria
(fundamentalmente implícita y sensorial, o de hasta corto plazo) en la cognición. La idea es que un estímulo (prime)
tiende a predisponer a la persona (no de manera consciente, necesariamente) para el procesamiento de aquellos
estímulos posteriores (target) con los que tiene relación: la facilitación del procesamiento resultante es el fenómeno
mismo de priming. En lengua castellana, los términos priming, prime, y target, han sido traducidos como efecto
deprimado, estímulo primante o facilitador, y estímulo primado u objetivo, respectivamente (e.g., Juncos-Rabadán y
col. 2006: Psicothema); en general, lo mismo se hará aquí.
et al., 1999) o que ocurre cuando tanto el contexto global como el local son manipulados de

forma factorial (Tillman, Bigand & Pineau, 1998).

MUSACT pone en primer plano un asunto crucial de la música occidental: si las relaciones

entre acordes son dadas por similitudes basadas en propiedades acústicas de notas o por un

conocimiento implícito de convenciones culturales y usos (ver Bigand et al., 1996, y Parncutt,

1989). MUSACT desenreda esos dos factores trazando el curso temporal “de abajo hacia arriba”

y las influencias “de arriba hacia abajo”. Se predice que el patrón de activación refleja

influencias “de abajo hacia arriba” en los ciclos de activación temprana, mientras que las

influencias “de arriba hacia abajo” predominan cuando el modelo tiene el tiempo suficiente para

alcanzar el equilibrio.

(…)

UN MODELO QUE APRENDE LA ARMONIA OCCIDENTAL POR AUTO-ORGANIZACIÓN

Principios generales de los SOMs

En los modelos conexionistas, los algoritmos de aprendizaje sin supervisión extraen

regularidades estadísticas y codifican eventos que concurren frecuentemente (Grossbberg, 1970,

1976; Kohonen, 1995; Rumelhart & Zipser, 1985; Von der Malsberg, 1973). Estos algoritmos se

adaptan bien a la percepción musical porque se presume que organización de acordes o

tonalidades suceden sin supervisión. Un algoritmo de aprendizaje sin supervisión es el SOM

propuesto por Kohonen (1995). El mismo crea mapeos topográficos entre los datos de entrada y
las unidades de red neural de un mapa. Para dos patrones de entrada similares, las unidades de

mapa que más responden se encuentran próximas. Esto coincide con los principios de

procesamiento de información cortical, como la formación de órdenes espaciales en áreas de

procesamiento sensorial (por ejemplo, somatosensorio, visión y audición). En el córtex visual

primario, la orientación del estímulo al cual las células responden de mejor forma va cambiando

de forma ordenada a través del contexto: células próximas responden mejor a orientaciones

similares (Hubel & Wiesel, 1962). El córtex auditivo exhibe una organización tonotópica en la

cual las células que mejor respondan a ciertas frecuencias están ordenadas (Brugge & Reale,

1985; Wessigner, Buonocore, Kassmaul, & Mangun, 1997). En el sistema auditivo, la

organización tonotópica puede encontrarse en casi todas las grandes etapas del procesamiento

(por ejemplo, oído interno, nervio auditivo, núcleo coclear, córtex auditivo).

(…)

892

El algoritmo de auto-organización permite la formación de unidades que representan los

eventos que se asocian con frecuencia. En la música, esta asociación consiste en ya sea la

ocurrencia simultánea de notas (que definen un acorde) o la proximidad temporal de los eventos

(como tonos de arpegios de un acorde o los acordes que forman una tonalidad). En el modelo

propuesto, la auto-organización conduce a una codificación jerárquica en la que las notas que

aparecen juntas están representadas por unidades de acordes y, de manera similar, los acordes
que ocurren juntos están representados por unidades de tonalidad. Para modelar la influencia del

conocimiento en la percepción, la estructura de red neuronal resultante de simulaciones de

aprendizaje se utiliza con un mecanismo de difusión de la activación. Después de la presentación

de un estímulo, la activación reverbera entre las tres capas hasta que se alcanza un equilibrio. El

uso de una estructura de red neural como un sistema de reverberación implica dos restricciones.

La primera restricción se ocupa de la simulación de las influencias de arriba hacia abajo y tiene

su origen en los modelos de activación de difusión propuestos anteriormente (es decir, Bharucha,

1987b; McClelland y Rumelhart, 1981). Modelos de tres capas de reconocimiento de palabras

(es decir, las características, las letras, palabras) y de la representación del conocimiento musical

(es decir, tonos, acordes, tonalidades) logran simular influencias de arriba hacia abajo,

favoreciendo la propagación de la activación entre los niveles más altos de representación, a

saber, la segunda y la tercera capas. En el modelo de reconocimiento de palabras, el

procesamiento interactivo sólo se preocupa de los niveles de letra y de palabra, sin

retroalimentación al nivel de funciones. En MUSACT, los pesos de las conexiones entre las

capas de acorde y tonalidad son más fuertes que entre las capas de tono y de acordes,

produciendo una influencia inicial de la entrada (input) de tono, seguido por una fuerte influencia

de las dos capas abstractas y sólo una débil influencia adicional de la capa de tono. Una

restricción similar se implementó en las simulaciones presentadas más adelante.

La segunda restricción resulta de unidades en el SOM que no están especializadas en la

detección de un estímulo después de aprender. Debido a que la reverberación debería ocurrir sólo

entre las unidades especializadas, las conexiones de alimentación en unidades no especializadas

(por ejemplo, unidades que no lo hacen ganar para cualquiera de los patrones de entrenamiento)

se tratan por un mecanismo de poda (pruning). La poda es un procedimiento apoyado por el


principio del desarrollo neural de que las conexiones se debilitan por falta de uso, y se utiliza

generalmente en el aprendizaje supervisado por el decaimiento de peso o su eliminación (weight

decay/elimination; Haykin, 1994; LeCnn, Denker, y Solla, 1990; Setiono, 1997).

Se presentan cuatro simulaciones de aprendizaje respetando ambas restricciones. Todas las

simulaciones se basan en la misma arquitectura de red que aprendió con el algoritmo de auto-

organización. La red fue entrenada, ya sea con el material armónico simple (cf. aprendizaje las

simulaciones con sección de material armónico simple) o secuencias de acordes más realistas (de

simulaciones de aprendizaje con sección de secuencias cortas de acordes). La entrada se define

ya sea por una codificación escasa o un esquema de codificación psicoacústicamente más rica

(entrada escasa de codificación en las simulaciones SIC-1 y la SIC-2 frente a la entrada de

codificación rica en simulaciones RIC-1 y RIC-2). Empezamos por considerar el aprendizaje

basado en el material armónico simple y una entrada escasa codificación.

Simulaciones de aprendizaje con material armónico simple

SIC-1

Arquitectura de la red. Un sistema jerárquico de tres capas se define como sigue: la capa de

entrada constaba de 12 unidades, la segunda capa era un mapa de 36 unidades, y la tercera capa

era un mapa de 16 unidades. Las unidades de entrada estaban afinadas en los 12 tonos de la

escala cromática, representando detectores de clases de altura equivalentes para las distintas

octavas. Las unidades de la primera y segunda capa fueron interconectadas con una matriz de
conexión. Las unidades de la segunda y tercera capas fueron interconectados con una segunda

matriz de conexión. Todas las conexiones

893

fueron bidireccionales, y sus fuerzas fueron iniciadas en valores al azar entre 0 y 1 antes del

aprendizaje.

Codificación de entrada. Durante el entrenamiento, los acordes (consistiendo de tres notas) se

presentaron a la capa de entrada (véase más adelante). En la codificación de entrada ‘escasa’

(sparse), la presencia de tonos se codificó directamente: Una unidad de nota se activaba si la

nota en la que estaba afinada se producía en el estímulo; en caso contrario su nivel de activación

se fijaba en 0. Por convención, las 12 unidades de tono fueron ordenadas de la siguiente manera:

LA – LA# - SI – DO – DO # - RE – RE# - MI – FA – FA# - SOL – SOL#. Los tres tonos que

componen un acorde de DO mayor estuvieron representados por el siguiente vector: {0-0-0-1-0-

0-0-1-0-0-1-0}.

Entrenamiento. La red se le permitió auto-organizarse como se ha indicado anteriormente

(véase ecuaciones 2 y 3). Al inicio de la formación, el radio de vecindad (neighborhood radius)

se establece en 5 y 3.6 para capas de acorde y tonalidad, respectivamente (para ambos mapas se

definió el vecindario por distancia euclídea entre unidades). Durante el entrenamiento, el radio

de vecindad disminuyó hasta alcanzar 0, momento en el que sólo la unidad ganadora aprendía.

La tasa de aprendizaje n se redujo en el curso del aprendizaje. Siempre que el radio de vecindad

disminuía, la tasa de aprendizaje se dividía por dos. En la fase de convergencia (es decir, cuando

sólo la unidad ganadora aprendía), la tasa de aprendizaje disminuía durante el número de ciclos
de formación (un ciclo de entrenamiento consistió de la presentación del grupo entero de

estímulos), c, de esta manera:

n '= l/(c + l/n).

El entrenamiento consistió de dos fases. En la primera fase de entrenamiento, la segunda capa

se formó con grupos de tres notas (por ejemplo, DO – MI - SOL) que corresponden a los 12

acordes mayores y 12 menores de la música occidental. Cada trio de notas se presentó por

separado a la capa de entrada (input). En esta fase, las unidades de la segunda capa aprendieron a

detectar acordes. En la segunda fase de la formación, la tercera capa se formó con 12 juegos de 6

acordes presentados a la capa de nota. Un conjunto de acordes formado por 3 menores y 3

acordes mayores de una tonalidad dada (por ejemplo, los 3 acordes mayores DO, FA y SOL y el

3 acordes menores REm, MIm, y LAm, todas los cuales pertenecen a la tonalidad de DO mayor).

(…)

894

RIC-1

La entrada de escasa codificación (sparse input coding) consideró sólo la presencia de las notas

componentes de los acordes. Sin embargo, cada tono tiene un espectro armónico complejo, lo

que puede influir en la percepción de la armonía (Helmholtz, 1885/1954; Parncutt, 1989;

Terhardt, 1974). En consecuencia, se utilizó un esquema de codificación de entrada más rico en

la siguiente simulación de aprendizaje (RIC-1). Esta codificación, basada en la teoría

psicoacústica de Parncutt (1988), fue utilizada por Leman (1995) en su modelo auditivo simple.

En la teoría de Parncutt, alturas virtuales de subarmónicos se asignan a cada componente de un

sonido complejo, y la frecuencia de los subarmónicos más comúnmente generados determina la


nota percibida. Relaciones armónicas entre dos acordes son estimadas por dos índices basados en

las pistas de altura virtuales: saliencia de tono (intensidad de una señal de tono virtual) y altura

común (número de señales compartidas por dos vectores de tono). Siguiendo a Parncutt (1988) y

Leman (1995), un acorde se codificó como un vector de clases de altura cuyos valores son sumas

ponderadas de los sub-armónicos correspondientes a esas clases de altura. Por ejemplo, un

acorde de DO mayor estuvo representado por el siguiente patrón: {.85-.2-0-1.83-.1-.45-.33-1.1-

.7-.25-1-.33} (que representa las unidades de tono LA – LA# - SI – DO – DO # - RE – RE# - MI

– FA – FA# - SOL – SOL#). Una nueva simulación de aprendizaje, como la que se describió

para la SIC-l, se llevó a cabo de nuevo con esta codificación de entrada más rica.

(…)

895

Simulaciones de aprendizaje con secuencias cortas de acordes

En las simulaciones SIC-1 y RIC-1, el modelo fue expuesto a conjuntos de seis acordes

presentados al azar. Este material puede ser visto como algo artificial por dos razones. En primer

lugar, no se reflejan las probabilidades de transición de acordes en la música occidental. En

segundo lugar, cada uno de los acordes se presentó con igual saliencia. El material usado en las

siguientes simulaciones, SIC-2 y RIC-2, fue más válido ecológicamente para aprender la matriz

de conexión entre unidades de acorde y de tonalidad. Secuencias de acordes cortos se

presentaron a la red, y la activación de las unidades de acordes decayó a medida que los acordes

retrocedieron hacia el pasado, la simulación de una memoria en descomposición.

Las secuencias de los siete acordes se construyeron mediante el cumplimiento de las

progresiones armónicas de raíz (Piston, 1978) y distribuciones de acordes estadística (Budge,


1943). La selección de los acordes se limitaba a la siguiente serie de acordes en tono mayor: I, ii,

iii, IV, V, y vi. Acordes de tónica (I) se producen con más frecuencia que los acordes dominantes

(V), seguido por los acordes de subdominante (IV), y luego vi, y ii, y con menos frecuencia iii.

Diez secuencias se construyeron mediante la selección de acordes al azar utilizando una

distribución de probabilidad sobre la base de las limitaciones anteriores. El último acorde en

cada secuencia era el acorde de tónica de la tonalidad. En consonancia con las convenciones de

la progresión armónica, cada secuencia tonal terminó con una cadencia final de V - I o IV - I.

Estas secuencias fueron transpuestas a los 12 tonalidades mayores, lo que resulta en 120

secuencias de entrenamiento.

Los acordes de una secuencia se presentaron a la capa de entrada, uno por uno. Para cada

acorde de entrada, la activación de la unidad de acorde ganador (contemplados en el índice b) se

almacena en la memoria hasta el final de la secuencia y se redujo en un parámetro de

decaimiento. El patrón de activación decreciente de estos índices b definió la entrada para la

tercera capa. Las simulaciones se realizaron con la codificación de entrada escasa (SIC-2) y la

codificación de entrada rica (RIC-2).

(…)

896

Una comparación de las cuatro simulaciones sugiere que el modelo aprende las diferencias

estructurales de la codificación de entrada (escaso frente a rico), y de los materiales de

aprendizaje (seis acordes por tonalidad frente a secuencias de acordes). La matriz de conexión
entre las capas de tono y de acordes reflejó diferencias como resultado de la codificación de

entrada. La matriz que emitió desde las codificaciones de entrada rica (RIC-1 y RIC-2) fue más

compleja que la emitida desde las codificaciones de entrada escasa (SIC-1 y SIC-2). La matriz de

conexión entre las capas de acorde y las capas de tonalidad reflejó los materiales de aprendizaje.

Después de aprender con juegos de acordes (SIC-1 y RIC-1), todos los vínculos entre los acordes

y las tonalidades tuvieron la misma fuerza, y no se hacía distinción entre los acordes mayores y

menores. Después de aprender con secuencias de acordes (SIC-2 y RIC-2), los vínculos entre los

acordes y las tonalidades variaron en fuerza, lo que refleja la distribución estadística de los

acordes en el corpus. Sin embargo, este mayor nivel de aprendizaje no fue influenciado por la

codificación de entrada.

(…)

897

SIMULACIONES DE DATOS EMPÍRICOS

En la sección anterior, se estableció que la estructura subyacente de la armonía occidental se

puede aprender a través de la mera exposición por una red neural de auto-organización. En esta

sección, se presenta simulaciones que muestran que el modelo aprendido se comporta tanto como

participantes humanos pueden hacer en una serie de experimentos sobre la percepción de la

tonalidad.

(…)

Las simulaciones de secuencias de acordes se presentan en primer lugar porque estos son los

tipos de estímulos con los que la red fue entrenada. Ellos son seguidos por simulaciones sobre las

relaciones percibidas entre tonalidades y entre notas. La mayoría de las simulaciones se


realizaron con las cuatro redes entrenadas previamente descritos. Dada la gran similitud entre

estas redes, los resultados de estas simulaciones no varían cualitativamente como una función de

la red. En aras de la brevedad, sólo simulaciones realizadas con la red SIC-2 se presentan aquí.

Relaciones percibidas entre acordes

Las relaciones percibidas entre los acordes se han estudiado con diferentes paradigmas

experimentales. La siguiente sección presenta simulaciones de datos experimentales que se basan

en juicios de similitud de pares de acordes, actuaciones de memoria y expectativas armónicas.

Clasificaciones de similitud

Rendimiento Humano

En experimentos de calificación de similitud, se les presentó a los oyentes un par de acordes de

destino después (target chords) de un contexto clave dada (Bharucha y Krumhansl, 1983;.

Krumhansl et al, 1982). Los oyentes clasificaron la similitud de los dos acordes de destino en una

escala subjetiva de 7 puntos. Los pares de acordes objetivo eran todas las combinaciones de

pares de los acordes mayores de DO y FA#. El contexto clave fue establecido por un conjunto de

tres acordes que terminan con una cadencia perfecta (IV - V - I). Cinco claves contextuales (DO,

SOL, LA, SI y FA# mayores) fueron manipulados para variar en función de sus distancias de DO

y FA# mayores en el círculo de quintas (ver Figura 1): SOL mayor está a un paso de DO mayor y

cinco de FA# mayor; lo contrario concierne a SI mayor, y LA mayor está tan lejos de DO mayor

como de FA# mayor (tres pasos).


Como se muestra en la Figura 9 (arriba a la izquierda), las calificaciones medias de pares de

acordes en DO mayor fueron los más altos en el contexto tonal de DO mayor. Estos valores

disminuyeron linealmente a medida que la distancia entre el contexto tonal y la tonalidad de DO

mayor aumenta en el círculo de quintas. Un patrón invertido se observó para los pares de acordes

en FA# mayor. Los resultados apoyaron el principio distancia contextual: La similitud percibida

de dos acordes es proporcional a su estabilidad en el contexto tonal.

(…)

898

Simulación

En la simulación, como en el experimento, los cinco contextos tonales (DO, SOL, LA, SI, y

FA# mayores) fueron establecidos por una cadencia IV - V - I. Los pares de acordes objetivo

fueron definidos por todas las combinaciones de los acordes mayores y menores de las
tonalidades mayores de DO y FA#. Las cadencias de tres acordes, más el primer acorde de

destino de cada par se presentaron a la red SIC-2. El nivel de activación de la unidad de

representación del segundo acorde de destino, antes de su ocurrencia, fue tomada como salida

(output). La figura 9 (parte inferior) muestra la activación promedio de unidades que representan

el segundo acorde de destino. Cuando ambos acordes de la pareja vinieron de la tonalidad de DO

mayor, la activación del segundo acorde objetivo era alta en el contexto tonal de DO mayor y

disminuyó linealmente a medida que la distancia entre la tonalidad de contexto y la de DO mayor

fue aumentando en el círculo de quintas. Un patrón invertido se observó para los pares de

acordes en FA# mayor. Así, la red replicó el principio de distancia contextual observado para los

participantes humanos.

(…)

Memoria de reconocimiento

Rendimiento Humano

En los experimentos de memoria de reconocimiento, los participantes estaban obligados a

juzgar si las secuencias estándar y de comparación de siete acordes eran idénticos o no

(Bharucha y Krumhansl, 1983). Se distinguieron ocho condiciones experimentales. En

condiciones 1 a 3, la secuencia de comparación era idéntica a la norma ("misma" condición). En

la condición 1, todos los acordes de la secuencia estándar pertenecían a una misma tonalidad. En

la condición 2, un acorde era no-diatónico (nondiatonic). En la condición 3, ciertos acordes

fueron escogidos al azar de diferentes tonalidades. En las condiciones 4 a 8, las secuencias de

comparación difieren por un acorde de la secuencia estándar ("diferentes" condiciones). Un

acorde diatónico de la secuencia estándar fue sustituido en la secuencia de comparación por un


acorde diatónico (condición 4) o bien un acorde no-diatónico (condición 5). En las condiciones 6

y 7, las secuencias estándar contenían un acorde no-diatónico que fue reemplazado por un acorde

diatónico (condición 6) o bien por otro acorde no-diatónico (condición 7). En la condición 8, las

secuencias estándar contenían un conjunto aleatorio de acordes no diatónicos, y uno de ellos fue

reemplazado por otro acorde elegido al azar.

La figura I0 (arriba) muestra el porcentaje de respuestas correctas para cada condición en el

experimento original (Bharucha y Krumhansl, 1983). Cuando las secuencias estándar y la

comparación eran idénticos, los "mismos" juicios correctos eran más numerosos para la

condición diatónica 1 que para la condición no-diatónica 2 y la aleatoria (random) condición 3.

Este hallazgo ilustra el principio de identidad contextual: El reconocimiento de dos instancias del

mismo evento es más fácil cuando el evento es estable en el contexto tonal. Cuando las

secuencias estándar y de comparación diferían, los juicios “diferentes” correctos fueron

inversamente proporcionales a la estabilidad: menos respuestas correctas se observaron cuando

un acorde de una secuencia diatónica estándar se sustituyó por un acorde perteneciente al

contexto tonal (condición 4). El número de juicios “diferentes” correctos aumentó cuando no

hubo un contexto tonal establecido en la secuencia estándar (condición 8) y cuando un acorde

no-diatónico de la secuencia estándar fue sustituido por otro acorde no-diatónico de la secuencia

de comparación (condición 7). Estos resultados ilustran el principio de distancia contextual:

acordes diatónicos estables en un contexto tonal son más fácilmente confundidos (bajo

rendimiento para condición 4) que los acordes sin un contexto tonal (condición 8) o acordes no-

diatónicos inestables (condición 7).


(…)

899

Simulación

Para cada condición experimental, las simulaciones se llevaron a cabo con una muestra de 18

secuencias tomadas de Bharucha y Krumhansl (1983). En el experimento original, el acorde

objetivo cambiado fue ubicado en posiciones de serie que iban de 2 a 6 en la secuencia. Dado

que no se encontró ninguna interacción de posición de serie, el acorde objetivo fue siempre se

colocado en la cuarta posición de serie para las presentes simulaciones. Para la mitad de los

"diferentes" ensayos, el cuarto acorde de la secuencia estándar era mayor y fue sustituido por un

acorde menor en la secuencia de comparación. Para la otra mitad, el cuarto acorde era menor y

fue sustituido por un acorde mayor.


Las secuencias estándar se presentaron a la red SIC-2 seguidos por los tres primeros acordes de

las secuencias de comparación. La activación se leyó de la unidad de acorde correspondiente al

cuarto acorde de la secuencia de comparación. De acuerdo con el principio de identidad

contextual, los eventos estables son más fácilmente reconocidos como idénticos que los menos

estables. Por lo tanto, la activación en la red debe estar correlacionada positivamente con el

número de las respuestas correctas en las tres "mismas" condiciones experimentales. De acuerdo

con los principios de la distancia contextual y la asimetría contextual, sin embargo, los eventos

estables en un contexto dado son más fácilmente confundibles con eventos presentados

previamente que los menos estables (lo que resulta en un menor rendimiento para eventos

estables en las condiciones "diferentes"), la fuerza de esta confusión que varía en función del

orden temporal del evento (con un evento estable siendo más fácilmente confundido con un

evento inestable que a la inversa). En consecuencia, la activación en la red debe ser

negativamente correlacionada con el número de respuestas correctas en las condiciones

experimentales "diferentes". La red no está capacitada para reconocer las secuencias específicas.

En cambio, los niveles de activación que reflejan la estabilidad tonal del objetivo en el contexto

se basan en los patrones de rendimiento (performance) de los participantes espejo.

La figura 10 (parte inferior) muestra la activación de las unidades de acorde de destino en la

secuencia de comparación. Para las condiciones "iguales", activaciones mayores se observaron

para los objetivos diatónicos (condición 1) que para los objetivos no-diatónicos en contextos

tonales (condición 2) u objetivos en contextos aleatorios (condición 3). El patrón de activación

era conforme con los datos humanos, mostrando un mejor rendimiento de reconocimiento para

eventos estables. Para las condiciones “diferentes”, la activación para los objetivos diatónicos

(condiciones 4 y 6) fue mayor que para los objetivos no-diatónicos (condiciones 7 y 5) u


objetivos al azar (condición 8). Una vez más, estos niveles de activación reflejan resultados

conductuales: en comparación con los acordes objetivo no-diatónicos inestables, los objetivos

diatónicos estables son más fáciles de confundir con otros acordes (diatónicos o no-diatónicos).

(…)

900

Actuación humana en el primado de secuencia de acordes. El primado armónico también ha

sido examinado usando contextos más largos. En un estudio por Bigand y Pineau (1997), el

contexto local que rodea al acorde objetivo se mantuvo constante, pero la función armónica del

objetivo fue manipulada variando el contexto global (ver discusión previa para más detalles). Los

participantes fueron más rápidos y más precisos en su juicio de entonación cuando el acorde

objetivo actuó como un acorde de tónica estable y no como una subdominante menos estable.

Tillmann, Bigand, y Pineau (1998) investigaron la influencia combinada del contexto global y

local. La relación del objetivo con el primado (prime) fue manipulado en un nivel tanto local

como global. Por ejemplo, en la tonalidad de DO mayor, el acorde objetivo estaba relacionado

local y globalmente (GRLR) cuando era un acorde de tónica (DO) y fue precedido por un acorde

dominante (SOL). Se relacionaba a nivel global, pero no a nivel local (GRLU) cuando el acorde

de dominante anterior fue ejecutado un semitono más alto (G#). En este caso, el acorde objetivo

y el anterior no pertenecían a la misma tonalidad. El acorde objetivo no estaba relacionado a

nivel global pero si a nivel local (GULR) solo cuando los primero seis acordes de las secuencias

se adaptaron un semitono arriba (es decir, en la tonalidad de DO# mayor). Aquí la tonalidad de

los seis primeros acordes fue débilmente relacionada con las tonalidades del acorde de destino y

su acorde anterior (es decir, DO y SOL mayores). Por último, el acorde objetivo era no

relacionado a la vez global y local (GULU) cuando los primeros siete acordes fueron
transpuestos un semitono más alto (en la tonalidad de DO# mayor). El desempeño (performance)

de los participantes demostró un fuerte efecto de ambos contextos globales y locales. Se

procesaron acordes objetivo con más precisión y rapidez cuando eran localmente o globalmente

relacionados con el contexto anterior. Además, el efecto de contexto global tendió a ser más

pronunciado a un ritmo rápido que a uno lento.

Simulación. La primera simulación era de los efectos del contexto global reportados por

Bigand y Pineau (1997). Los siete primeros acordes de las 20 secuencias utilizadas en cada

contexto experimental se presentaron a la red SIC-2, y la activación de la unidad de acordes

objetivo se leyó. Como se muestra en la figura 12 (izquierda), la unidad acorde objetivo recibió

la activación más fuerte en el contexto esperado cuando actuó como un acorde de tónica estable

(I) que en el contexto inesperado cuando era un acorde subdominante menos estable (IV). La

segunda simulación era de los efectos combinados de los contextos globales y locales reportados

por Tillmann, Bigand, y Pineau (1998). Las simulaciones se realizaron con los siete primeros

acordes de cada secuencia de dos tempos. Para la condición de tempo rápido, el parámetro t (cf.

ecuación 1) fue puesto en 1 y para la condición lenta en 1.5. Este cambio en t (de 1 a 1.5)

corresponde a la variación porcentual en el tempo de la condición rápida a la lenta. La activación

de la unidad acorde objetivo dependía de si una o dos fuentes de primado estaban presentes

(véase la figura 12, derecha). Fue la más alta para la condición GRLR, porque ambos contextos

estaban relacionados con el acorde de destino. La activación disminuyó por GRLU y GULR,

respectivamente, con un solo contexto relacionado al objetivo. Fue el más bajo para GULU, en el

que el acorde de destino no tenía relación con el contexto anterior. En un tempo lento, los

contextos globales y locales ejercieron efectos más o menos similares. En un tempo rápido, sin

embargo, el contexto global prevaleció fuertemente sobre el contexto local. El patrón de


activación en la red neuronal a nivel global refleja la influencia combinada de contexto global y

local, así como el impacto de tempo de los efectos globales de contexto observados con

participantes humanos (Tillmann, Bigand, y Pineau, 1998).

(…)

901

Percibiendo Tonalidad y Modulación

Cuantificando las distancias entre tonalidades a partir de la Jerarquía Armónica

Datos de humanos

Según Krumhansl (1990), las distancias psicológicas entre tonalidades se pueden derivar de la

jerarquía percibida en notas o acordes inducida a partir de un contexto tonal dado. En un

experimento (Krumhansl, 1990, p. 182), los participantes puntuaban en una escala de 7 puntos
qué tan bien los 12 acordes principales encajaban (o ‘pegaban’) con un contexto tonal mayor

establecido por una secuencia breve. Las jerarquías armónicas encontradas para una tonalidad

dada fueron luego cambiadas (o transpuestas) a las otras 11 tonalidades mayores. Estos 12

perfiles jerárquicos fueron inter-correlacionados. El patrón de correlación (Figura 14) se

aproxima a las distancias que propone la teoría musical que hay entre tonalidades mayores en el

ciclo de quintas.

Simulación

Se realizó una simulación con el mismo contexto en Do mayor del experimento. La activación

de las 12 unidades de acordes mayores de la red definió el perfil de activación específico de la

tonalidad de Do mayor. Para comparar el desempeño de la red con los hallazgos de Krumhansl,

el perfil de activación específico de Do mayor fue transpuesto a las diferentes tónicas de las otras

11 tonalidades mayores, y los 12 perfiles de activación fueron inter-correlacionados. Como se

muestra en la Figura 14, el patrón de correlaciones derivados de la red refleja el ciclo de quintas.

Aunque la curva con picos basada en las puntuaciones de los participantes difirió ligeramente de

la curva suave basada en las activaciones de la red, la correlación entre los datos humanos y el

modelo de la red fue significativa, r(10) = .793, p < .01.

Percibiendo la tonalidad y la modulación

Desempeño Humano

Krumhansl y Kessler (1982, Experimento 2) investigaron cómo los oyentes desarrollan un

sentido de tonalidad y cómo se asimilan modulaciones a nuevas tonalidades. Las secuencias de

acordes usadas en el experimento se mantenían en la misma clave (sin modulación), modulaban


hacia una clave estrechamente relacionada (modulación cercana), o hacia una clave distante

(modulación lejana). La Tabla 2 muestra ejemplos de los tres tipos de secuencias utilizadas. En

las secuencias modulantes, los tres primeros acordes establecían la primera tonalidad con una

cadencia perfecta (V-I). Los tres últimos acordes forman una cadencia perfecta en la nueva

tonalidad ya sea a un paso de distancia (modulación cercana) o a dos pasos

902

(modulación lejana) en el ciclo de quintas de la primera tonalidad. Varios acordes puente

intermedios pertenecientes a ambas tonalidades permitían una modulación suave de una

tonalidad a otra. En la modulación lejana, sólo el quinto acorde de las secuencias era un acorde

pivote. Sin embargo, el quinto y sexto acordes también se podían analizar como pertenecientes a

la tonalidad de Fa mayor, una tonalidad entre Do y Sib mayor en el ciclo de quintas.

Después de cada acorde de la secuencia, los participantes calificaron en una escala subjetiva qué

tan bien cada uno de los 12 tonos de la escala cromática encajaban con el contexto anterior
(puntuaciones de los tonos de prueba). El desarrollo del sentido de tonalidad de los participantes

fue rastreado mediante la correlación de estas clasificaciones de los tonos con el perfil de

jerarquía tonal específico de cada tonalidad. La correlación más fuerte entre las clasificaciones

de los tonos de prueba y un perfil tonal dado indica qué tonalidad se induce en cada punto de la

secuencia de acordes. Rastreando el cambio en las calificaciones de los tonos de prueba se

obtiene la trayectoria de la tonalidad en el transcurso de la secuencia.

[…]

Simulación

Las simulaciones se realizaron con las tres secuencias que se muestran en la Tabla 2 Después de

cada acorde, se leyó el patrón de activación de la capa de la red correspondiente a la tonalidad.

La unidad de tonalidad con la activación máxima en cada punto/acorde de la secuencia se tomó

como la tonalidad más fuertemente inducida en la red en ese momento. La Tabla 2 muestra las

tonalidades inducidas en cada acorde en las tres secuencias.

[…]

903

Relaciones percibidas entre tonos [notas]

Una vez que se establece la tonalidad de un contexto musical, los 12 tonos [notas] de las escalas

cromáticas se perciben en una jerarquía de estabilidad (Cuddy et al, 1981;. Francès, 1958;

Krumhansl, 1979, 1990). En los contextos en tonalidades mayores, la tónica (primer grado de la

escala) es

904

percibida como más estable que la dominante (quinto grado de la escala), la cual a su vez se

percibe como más estable que la mediante (tercer grado). Los tonos de los otros grados de la
escala se perciben como menos estable aún pero más estables que los no-diatónicos. Estos

hallazgos empíricos conducen a una hipótesis difícil para la red actual. Teniendo en cuenta que

los tonos están vinculados a los acordes, que a su vez están vinculados a las tonalidades, la red

puede haber interiorizado algunas de las relaciones occidentales entre los tonos y las tonalidades

a pesar de que nunca fue expuesta a melodías occidentales. Debido a que la activación de la

tonalidad reverbera desde las unidades de cada tonalidad hacia las de cada acorde, y desde las

unidades de acordes hacia las de los tonos, la red potencialmente puede dar cuenta de las

influencias arriba-abajo del contexto tonal en la percepción y la memoria para los tonos

individuales.

Puntuaciones de Tonos de prueba

Datos de humanos

En Krumhansl y Kessler (1982), se presentó a los participantes un contexto tonal seguido por

cada uno de los 12 tonos de la escala cromática como tonos de prueba. Los participantes

puntuaron en una escala de 7 puntos qué tan bien el tono de prueba se ajustaba [o ‘pegaba’] con

el contexto tonal anterior. El contexto tonal fue establecido por una escala ascendente o

descendente, un solo acorde mayor o menor, o una breve secuencia de acordes en una tonalidad

mayor o menor. Las puntuaciones promedio definieron un perfil tonal específico para una

tonalidad dada. Los perfiles de Do mayor y Do menor se muestran en la Figura 15 (abajo). En

ambos casos, los tonos diatónicos siempre implicaron un mejor ajuste con el contexto que los no-

diatónicos. Entre los tonos diatónicos, las puntuaciones más altas se observaron para el tono de

tónica, seguido de los tonos del tercer y quinto grados de la escala, los que unidos a la tónica

forman el acorde tríada de tónica.


Simulación

En las siguientes simulaciones, los tonos de un acorde de Do mayor (que contiene los tonos do,

mi, sol) o un acorde de do menor (que contiene los tonos de do, re#/mib, sol) se presentaron a la

red. [...]. En el equilibrio, los perfiles de activación fásica reflejaron globalmente la estabilidad

relativa de los 12 tonos cromáticos en un contexto tonal dado y se correlacionaron con los

perfiles tonales de Krumhansl, para los contextos tonales mayores, r (10) = 0.89, p <0.01, y para

los menores, r (10) = 0.83, p <0.01.

Algunas diferencias se observan, sin embargo, entre los perfiles de los humanos y los del

modelo. Aunque el modelo infirió claramente cuáles eran los tonos diatónicos restantes a partir

de la entrada de la tríada de tónica, la diferencia en la activación fásica acumulada entre los tonos

de la tríada tónica y los otros tonos diatónicos no fue tan grande como en los datos de humanos,

casi como si el conocimiento cultural aprendido hubiese ejercido una influencia tan fuerte que el

propio estímulo ya no hubiese sido claramente representado como lo que se infiere

específicamente de él. Se ha sugerido que las respuestas de los oyentes en una situación de

‘tonos de prueba’ reflejan no sólo el conocimiento implícito de la jerarquía tonal occidental, sino
también la influencia de la memoria a corto plazo de los tonos que se producen en el contexto

que hace de estímulo (Butler, 1989; Deutsch, 1972). Dado que los participantes pueden haber

sido en parte influenciados por la memoria a corto plazo de los tonos del estímulo, se realizaron

análisis de regresión múltiple para predecir las puntuaciones de los tonos de prueba dadas por los

humanos a partir de la activación fásica y de la activación del estímulo solo (Figura 15, parte

inferior). Una combinación lineal

905

de estos factores proporcionó un buen ajuste para las puntuaciones de los tonos de prueba en las

tonalidades mayores, R = .93, F (2, 9) = 27.39, p <.001, y menores, R = .93, F (2, 9) = 27.10, p

<.001. Esto sugiere que los perfiles tonales de Krumhansl pueden ser reproducidos en la red

mediante una combinación aditiva de la activación fásica que reverbera hasta el equilibrio más la

activación que resulta directamente de los estímulos.

Asimetría percibida entre tonos (notas).

Desempeño Humano

Los tonos estables en un contexto tonal dado actúan como puntos de referencia cognitivos

(Krumhansl, 1979, 1990) a los que los otros tonos menos estables son anclados (Bharucha, 1984,

1996). Los puntos de referencia estables influyen en los juicios/clasificaciones de similitud y en

la memoria/reconocimiento de los tonos, y dan cuenta del principio de asimetría contextual. En

un estudio realizado por Krumhansl (1979, Experimento 1), los participantes calificaron, en una

escala de 1 a 7, la similitud de un par de tonos que se presentaban después de un contexto tonal.

El contexto fue establecido por un acorde de Do mayor, una escala ascendente, o una
descendente. La Tabla 4 muestra los pares de tonos utilizados en el experimento. Los pares de

tonos contenían un tono de la tríada mayor (do, mi, o sol) más otro tono de la escala diatónica, un

tono de la tríada mayor más uno no-diatónico, o un tono no-diatónico más otro tono de la escala

diatónica. El orden temporal de los tonos dentro de los pares se cambió de una presentación a

otra. Las puntuaciones de similitud reflejaron la influencia de las jerarquías tonales: las

puntuaciones fueron más altas cuando el par de tonos terminaba en un tono de la tríada mayor

(C, E, G) que en otro tono de la escala diatónica (D, F, A, B). A su vez fueron mayores cuando el

par terminaba en un tono de la escala diatónica (D, F, A, B) que cuando terminaba un tono no-

diatónico (C #, D#, F#, G#, A#). Por otra parte, las respuestas de los participantes pusieron de

manifiesto la importancia del orden temporal de los tonos. Las calificaciones de similitud fueron

mayores cuando el primer tono en el par era menos estable que el segundo, en comparación con

el orden inverso. La asimetría más fuerte se observó cuando los pares contenían un tono no-

diatónico y uno de la tríada mayor: las puntuaciones de similitud fueron 11,13% superior cuando

el segundo tono pertenecía a la tríada mayor. Una asimetría menor fue encontrada en los pares

hechos de tonos no-diatónicos y diatónicos: las puntuaciones aumentaron 10,79% cuando el par

terminaba en un tono diatónico. La asimetría más pequeña se encontró en los pares hechos con

tonos de la tríada de tónica y tonos diatónicos: las puntuaciones de similitud fueron 7,48%

superior cuando el segundo tono pertenecía a la tríada mayor.

Simulación

En las simulaciones, cada uno de los contextos tonales utilizados en el experimento de

Krumhansl se presentó a la red seguido por el primer tono de los pares experimentales. La

activación fásica recibida por la unidad de tono que representaba el segundo tono del par fue
leída. Los resultados se promediaron a través de los tres contextos (acorde de Do mayor, escala

ascendente, escala descendente). Como se muestra en la Tabla 4, la activación del segundo tono

del par disminuyó a medida que su estabilidad en el contexto tonal disminuyó. Además, la

activación de la capa de tonos reprodujo las asimetrías en los juicios de similitud.

Memoria de melodías

Los aspectos de la percepción y la memoria para los tonos (notas) considerados previamente

sobredeterminan en gran medida la percepción de melodías, la cual involucra muchos factores.

Más allá de la jerarquía tonal, el contorno melódico (i.e., el movimiento ascendente y

descendente de las alturas en una melodía) es una característica fundamental para el

reconocimiento de la melodía. Aunque el presente modelo no incluye/contempla la ‘posición de

la altura’ (‘pitch height’) ni el contorno, el propósito de esta última simulación fue investigar el

grado en que la red puede dar cuenta de los resultados obtenidos en los experimentos con

melodías, tales como los reportados por Dowling (1978).

Desempeño humano
En el experimento de Dowling (1978), los participantes hicieron juicios de iguales/diferentes

para pares de melodías (una melodía estándar seguida de una melodía de comparación). En la

condición de comparación "misma" (en adelante, la condición de "transposición exacta"), la

melodía de comparación se presentaba en una clave diferente a la melodía estándar, pero

conservaba los tamaños de intervalo y el contorno melódico de la estándar. La melodía de

comparación fue así una transposición exacta de la norma. Luego, hubo tres condiciones de

comparación "diferentes". En la primera condición diferente (la condición de "respuesta tonal"),

la melodía de comparación se desplazó hacia el sexto grado de la escala de la norma. Como

consecuencia, la melodía de comparación tenía el mismo contorno melódico que la estándar pero

difería

906

por un intervalo. En la segunda condición "diferente" (la condición "contorno atonal"), la

melodía de comparación tenía el mismo contorno que la estándar, pero estaba compuesta con

intervalos seleccionados al azar. En la tercera condición "diferente" (la condición de "aleatoria"),

la melodía de comparación difería de la estándar tanto en el contorno melódico como en los

intervalos escalísticos utilizados. El desempeño de los oyentes en cada una de las condiciones

"diferentes" se comparó con el de la condición de "transposición exacta". Un análisis del área

bajo la curva característica operativa de la memoria (o curva MOC) mostró que los participantes

se desempañaban en un nivel de ‘chance’ (o ‘azar’) en la condición "respuesta tonal" (las áreas

bajo la curva MOC fueron 0,48 y 0,49 para los oyentes con y sin experiencia, respectivamente).

El desempeño en el reconocimiento se incrementó en los “contornos atonales” (áreas bajo la

curva MOC fueron 0,79 y 0,59 para los oyentes con y sin experiencia, respectivamente). El

desempeño más alto se observó en la condición aleatoria (áreas bajo la curva MOC fueron 0,84 y
0,83 para los oyentes con y sin experiencia, respectivamente). Los resultados sugieren que tanto

la escala musical como el contorno melódico gobiernan los juicios igual/diferente para melodías.

Simulación

Las simulaciones se realizaron con pares de melodías (Dowling, 1978, Figura 3) que constaban

de la melodía estándar seguida por una de las cuatro condiciones experimentales: "transposición

exacta", "respuesta tonal", " contorno atonal" y "aleatoria". La red fue expuesta a la melodía

estándar inmediatamente seguida de la melodía de comparación. Para comparar el desempeño

humano con el de la red, la activación fásica recibida por la capa de tonos en la condición exacta

de transposición (después de la presentación de la melodía estándar y su transposición exacta) se

correlacionó con la activación fásica recibida por la capa de tonos en cada una de las tres

condiciones "diferente". Los valores altos de correlación indicarían que la condición "diferente"

no afecta sustancialmente el estado de la capa de tono en comparación con la condición exacta de

transposición. Así pues, los valores de correlación reflejarían la capacidad de la red para

diferenciar la condición "transposición exacta" de cada una de las condiciones "diferentes". Estos

valores de correlación deben por lo tanto estar inversamente relacionados con el desempeño de

los participantes. Una alta correlación, r (10) = 0.99, se encontró entre transposiciones exactas y

respuestas tonales, lo que sugiere que la red apenas diferencia entre las melodías en estas

condiciones. La correlación disminuyó en las “transposiciones exactas” y “contornos atonales”, r

(10) = 0,27. La correlación más baja se encontró para “transposiciones exactas” y contorno

“aleatorio”, r (10) = 0,16. El rendimiento de la red por lo tanto refleja el rendimiento humano: la

distinción entre la melodía estándar y las melodías de comparación falló cuando se conservaba la

clave y el contorno melódico de la estándar. La diferenciación aumentó cuando la melodía de


comparación compartía el mismo contorno que el estándar, pero estaba hecha de intervalos

seleccionados al azar independientemente de la escala. La diferenciación fue aún más fácil

cuando la melodía de comparación tenía un contorno diferente e intervalos de una escalística

diferente respecto de la estándar. La simulación de red neuronal da cuenta de los efectos de

tonalidad en este experimento de memoria. Su resultado sugiere que los efectos del contorno

melódico observados en el desempeño de los participantes pueden haber tenido algunas

implicaciones tonales que están siendo capturadas por la red.

906

DISCUSIÓN GENERAL

Este estudio investigó el aprendizaje implícito de un sistema altamente estructurado (la música

tonal occidental) al cual estamos frecuentemente expuestos en nuestro entorno natural. En este

sistema, los tonos se agrupan de formas características para formar acordes, y tanto tonos como

acordes conforman tonalidades en marcos temporales más amplios. Tonos y acordes no tienen

significados externos (como las palabras), pero tienen funciones estructurales. Entre los factores

que determinan la función estructural de un tono o un acorde está su estabilidad tonal. La función

estructural es dependiente del contexto. Por ejemplo, la nota DO es una tónica estable dentro del

contexto de la tonalidad de DO mayor, una dominante y mediante menos estables en FA y LAb

mayores respectivamente, un tono inestable en el contexto de REb mayor, y muy inestable en

FA#. De forma similar, las funciones de todos los tonos de la escala cromática y de la totalidad

de escalas mayores y menores (24 en total) cambian en cada contexto tonal distinto. Las

diferentes tonalidades son los bloques más importantes del sistema tonal occidental. Se

relacionan de forma muy específica y definida. Cada una de las 24 tonalidades tiene una relación
de importante cercanía con otras cuatro. Por ejemplo, la tonalidad de DO mayor es muy cercana

a la de SOL y FA mayores (relación de círculo de quintas), a LA menor (relativa mayor-menor)

y DO menor (paralelo mayor-menor). En pocas palabras, la música occidental tonal descansa en

una sofisticada red de relaciones funcionales entre tonos, acordes y tonalidades.

(…)

907

El interés general de este modelo conexionista es proporcionar una descripción formal de la

representación de los conocimientos de la música occidental basada en un proceso de aprendizaje

plausible.

(…)

908

El modelo también da cuenta de la tensión-relajación musical y la expectativa. La organización

de la relación tensión-relajación en la música occidental (ver Lerdahl & Jackendoff, 1983), y su

relación con la expectativa (Lerdahl, 1996), ha recibido algún tipo de atención, pero la mayoría

de los escritos de la estética de la música se centran en la expectativa. Según Meyer (1956,

1973), la expresividad musical deriva de la forma en que la expectativa musical se cumple o no

en el curso de la pieza. El presente marco conexionista establece cómo la relación tensión-

relajación y la expectativa musical pueden derivar del conocimiento abstracto de la armonía

occidental. Las simulaciones representan la influencia de un contexto corto (un acorde) en el

desarrollo de la expectativa armónica (cf. Bharucha y Stoeckig, 1987), así como para el

crecimiento de la expectativa durante una secuencia musical más larga (cf. Bigand et al., 1999).
También proporcionan una posible causa de la influencia mutua de relaciones armónicas

globales y locales en la expectativa armónica (Bigand et al, 1999;. Tillmann, Bigand, y Pineau,

1998), y de la influencia del orden temporal de los acordes dentro de una secuencia de acordes

(Tillmann y Bigand, 1999). Una característica más crítica del modelo es su capacidad para tener

en cuenta la evolución temporal de procesos “de arriba hacia abajo” (top-down) y “de abajo

hacia arriba” (bottom-up) durante la formación de la expectativa. La estructura musical

occidental refleja las influencias tanto de propiedades acústicas de los tonos como de la tradición

cultural en la combinación de alturas en maneras específicas. Las respectivas influencias de los

procesos tanto sensoriales como de conocimiento, por lo tanto han sido un tema de debate en la

psicología de la música (Krumhansl, 1990; Parncutt, 1988), y ambos tienen un rol en el

procesamiento de las señales musicales (Bigand et al., 1996). La cuestión sigue siendo

determinar cuándo cada influencia es la más activa (ver Regnault et al., en prensa).

El modelo actual arroja luz sobre el curso temporal de ambos procesos. Los primeros ciclos de

reverberación reflejan influencias “de abajo hacia arriba”, y sólo las unidades que comparten

sonidos reales se activan. Después de varios ciclos, la activación se propaga a través de la red, y

las influencias “de arriba hacia abajo” de los niveles más altos de representación se vuelven

aparentes. La capa de tonalidad influye en la capa de acorde que a su vez se imprime en la capa

de nota. Los niveles más bajos envían activación de vuelta a los niveles más altos, y el proceso

continúa hasta que se alcanza el equilibrio, por lo que los patrones de activación reflejan las

relaciones tonales y armónicas en el contexto tonal real.

You might also like