Entropiebasiertes Stimmen Von Musikinstrumenten, HINRICHSEN, H., Rev. Bras. Ens. Fis. 34 (2012), 2301-2315

Entropiebasiertes Stimmen von Musikinstrumenten
Haye Hinrichsen
Universitt Wrzburg
Fakultt fr Physik und Astronomie
D-97074 Wrzburg, Germany
E-mail: hinrichsen@physik.uni-wuerzburg.de
Zusammenfassung. Das menschliche Gehr empfindet eine Kombination von Tnen als zueinander passend wenn die entsprechenden Obertonspektren korreliert sind,
wenn also das neuronale Anregungsmuster im Innenohr eine erhhte Ordnung aufweist.
Ausgehend von dieser Hypothese wird vorgeschlagen, dass Musikinstrumente wie z.B.
Klaviere durch Minimierung der Entropie ihrer Fourierspektren gestimmt werden knnen. Diese Methode liefert eine Stimmkurve, die nicht nur die korrekte Spreizung reproduziert, sondern auch hnliche Fluktuationen wie beim Stimmen nach Gehr.
bersetzung des engl. Originalartikels in Rev. Bras. Ens. Fis. 34, 2301 (2012).
1. Einfhrung
Westliche Tonsysteme basieren auf der gleichfrmigen Stimmung, in der sich benachbarte
Halbtne um ein konstantes Frequenzverhltnis von 21/12 unterscheiden [1]. Das
Stimmen von Tasteninstrumenten in gleichfrmiger Stimmung nach Gehr ist eine
anspruchsvolle Aufgabe und wird erreicht durch eine zyklische Iteration ber bestimmte
Intervalle, die systematisch gestaucht oder gestreckt werden. Heutzutage bernehmen
elektronische Stimmgerte diese Aufgabe, die automatisch den angeschlagenen Ton
erkennen, seine Frequenz messen und die Abweichung vom theoretischen Wert der
gleichfrmigen Stimmung anzeigen. Benutzt man allerdings ein solches Gert, um z.B.
ein Klavier exakt in gleichfrmiger Stimmung zu stimmen, wird sich das Instrument
danach verstimmt anhren, obwohl die Frequenz eines jeden Tons exakt eingestellt ist.
Dieser berraschende Effekt wurde zuerst von O. L. Railsback erklrt, der 1938 zeigte,
dass dieser Eindruck durch die Inharmonizitt des Obertonspektrums des Instruments
verursacht wird [2]. Professionelle Klavierstimmer kompensieren diesen Effekt durch
kleine Abweichungen von der gleichtemperierten Stimmung, eine Vorgehensweise,
die man als Spreizung bezeichnet. Die Spreizung hngt vom jeweiligen Grad der
Inharmonizitt ab und kann als eine Stimmkurve dargestellt werden (siehe Abb. 1).
Da sich die Inharmonizitt von Instrument zu Instrument unterscheidet, ist
es uerst schwierig, die korrekte Spreizung durch Berechnung vorherzusagen und
Abbildung 1. Typische Stimmkurve eines Flgels [3]. Die senkrechte Achse gibt an,
wie stark sich jeder Ton vom mathematischen Wert der gleichtemperierten Stimmung
unterscheidet. Die Abweichungen werden, wie in der Stimmpraxis blich, in Cent
angegeben, wobei ein Cent als als 1/100 eines Halbtons definiert ist, was einem
Frequenzverhltnis von 21/1200 1.0005778 entspricht.
in elektronischen Stimmgerten zu implementieren. Bei einigen Gerten lassen

sich je nach Art und Gre des Instruments typische vordefinierte Stimmkurven
auswhlen. Hochwertigere Gerte dagegen messen das individuelle Obertonspektrum
ausgewhlter Tne und berechnen die erforderliche Spreizung durch Korrelation hherer
Harmonischer. Obwohl diese Methode zu brauchbaren Resultaten fhrt und auch
zunehmend von professionellen Klavierstimmern eingesetzt wird, sind dennoch die
meisten Musiker davon berzeugt, dass elektronische Stimmverfahren mit der Arbeit
erfahrener Klavierstimmer nicht konkurrieren knnen. Damit stellt sich die Frage, warum
das Stimmen nach Gehr den elektronischen Verfahren berlegen ist.
Wenn man die Frequenzen eines nach Gehr gestimmten Klaviers misst, stellt man
berrascht fest, dass die Stimmkurve keineswegs glatt ist, vielmehr wird die globale
Spreizkurve durch unregelmige Fluktuationen von Ton zu Ton berlagert (siehe
Abb. 1). Auf den ersten Blick mchte man meinen, dass diese Fluktuationen zufllig
sind und auf die natrliche Ungenauigkeit des menschlichen Gehrs zurckgefhrt
werden knnen. Allerdings weisen die in dieser Arbeit vorgestellten Resultate darauf
hin, dass das Gegenteil der Fall sein knnte, d.h. die Fluktuationen sind vermutlich
nicht rein zufllig, sondern sie reflektieren die spezifischen Unregelmigkeiten im
Obertonspektrum des jeweiligen Instruments und knnten deshalb eine entscheidende
Rolle fr die Qualitt einer Stimmung spielen. Vermutlich kann unser Ohr einen viel
besseren Kompromiss in diesem hochdimensionalen Raum der Obertonspektren finden
als die heute verfgbaren elektronischen Stimmgerte.
Um diese Fluktuationen besser zu verstehen, wird in dieser Arbeit gezeigt,
dass ein Musikinstrument durch Minimierung eines geeigneten Entropiefunktionals

gestimmt werden kann. Diese Hypothese setzt voraus, dass ein komplexer Klangeindruck
als angenehm, harmonisch oder richtig gestimmt empfunden wird, wenn die
resultierende neuronale Anregung im Innenohr geordnet ist, wenn also die ShannonEntropie des Anregungsmusters minimal ist. Die Hoffnung besteht darin, dass solche
eine Entropie-basierte Methode zu einem besseren Kompromiss zwischen der Vielzahl
der miteinander in Schwebung befindlichen Obertne fhren kann als ein bloer Vergleich
ausgewhlter Spektrallinien.
2. Harmonisches Spektrum, Tonleitern und Temperamente
Musikinstrumente produzieren Schallwellen
mit einer groen Anzahl von Fourierkompomenten. Das einfachste Beispiel ist das Spektrum einer schwingenden Saite [5]. Je nach
Anregungsmechanismus findet man sowohl die
Grundschwingung mit der Frequenz f1 als auch
eine groe Anzahl von Obertnen mit den Frequenzen f2 , f3 , . . .. Fr eine ideale (unendlich
dnne) Saite sind die Obertonfrequenzen einfach durch Vielfache der Grundfrequenz gegeben, d.h.
fn = nf1 .
(1)
Abbildung 2.
Oberschwingungen einer Saite [4].
Ein solches linear organisiertes Obertonspektrum bezeichnet man als harmonisch.

Da harmonische Obertonreihen in der Natur allgegenwrtig sind, bevorzugt unser
Gehr Intervalle mit einfachen Frequenzverhltnisssen, da hier die Obertonreihen der
beteiligten Tne teilweise zusammenfallen. Beispiele sind die Oktave (2:1), die Quinte
(3:2) und die Quarte (4:3), die in allen Musikkulturen eine zentrale Rolle spielen. Auf
der anderen Seite sind aber die Noten einer Tonleiter in einem Schema organisiert,
das sich von Oktave zu Oktave wiederholt. Da sich die Frequenz von Oktave zu
Oktave verdoppelt, nimmt die Frequenz also exponentiell von Note zu Note zu. Diese
exponentiell organisierte Struktur einer sich in Oktaven wiederholenden Tonleiter gert
damit zwangslufig in Konflikt mit dem linear organisierten Spektrum der Obertne.
Ein Tonsystem ist gewissermaen ein Kompromiss mit dem man versucht, diese sich
widersprechenden Ordnungsstrukturen miteinander zu vereinen, indem die Frequenzen
der Tne so gewhlt werden, dass mglichst viele der Obertne in den Intervallen
korreliert werden. Wie in Abb. 3 gezeigt wird, gelangt man so auf natrliche Weise
zu der sogenannten heptatonischen (siebentnigen) Tonleiter, die in den meisten
Kulturkreisen verwendet wird. In der westlichen Musik werden die sieben Tne (die
weien Klaviertasten) durch fnf Halbtne (schwarze Klaviertasten) ergnzt, wodurch

die Oktave in zwlf ungefhr gleich groe Intervalle unterteilt wird.
Da die zwlf Tne einen Kompromiss zwischen den arithmetisch geordneten
Obertonreihen und der exponentiell organisierten Tonleiter darstellen, sind die
Intervallgren nicht eindeutig festgelegt, sondern knnen in gewissen Grenzen variiert
werden. Im Lauf der Jahrhunderte hat diese Freiheit zur Entwicklung verschiedener
Stimmschemata, sogenannter Temperamente gefhrt, welche die harmonische Reihe
in unterschiedlichem Mae approximieren. Ein Extremfall ist die sogenannte reine
Stimmung, mit der versucht wird, mglichst viele Obertne exakt zur Deckung zu
bringen und die deshalb ganz und gar auf einfachen rationalen Frequenzverhltnissen
basiert. Wie in Abb. 3b gezeigt wird, stimmt die reine Stimmung weitgehend mit den
Obertnen eines geeignet gewhlten Grundtons berein. Allerdings ist diese Stimmung
nicht quidistant in einer logarithmischen Darstellung, d.h. die sie ist nicht invariant
unter Verschiebungen der Tonart (Transpositionen). Aus diesem Grunde funktioniert
die reine Stimmung nur in der jeweiligen Grundtonart (z.B. C-Dur), whrend sich in
allen anderen Tonarten ein mehr oder weniger verstimmter Eindruck ergibt.
Mit der zunehmenden Komplexitt westlicher Musik und der Entwicklung
anspruchsvoller Tasteninstrumente wie Cembali, Orgeln und Klaviere bentigte
man flexiblere Temperamente, mit denen ein Tonartwechsel mglich wird, ohne
das Instrument erneut umstimmen zu mssen. Auf der Suche nach einem
besseren Kompromiss zwischen Reinheit (rationalen Frequenzverhltnissen) und
Tonartunabhngigkeit (Invarianz unter Transposition) wurden verschiedene Schemata
entwickelt, darunter die berhmte mitteltnige Stimmung der Renaissance und die
wohltemperierte Stimmung der Barockzeit. Seit dem 19. Jahrhundert basiert die
westliche Musik vorwiegend auf der oben erwhnten gleichtemperierten Stimmung, die
vollstndig invariant unter Tonartwechseln ist. In der gleichtemperierten Stimmung
unterscheiden sich die Frequenzen benachbarter Halbtne um den irrationalen Faktor
21/12 , so dass die Spektrallinien der Obertne in einer logarithmischen Darstellung einen
konstanten Abstand haben (siehe Abb. 3c). Allerdings bezahlt man dafr den Preis, dass
sich alle Intervalle mit Ausnahme der Oktave leicht verstimmt anhren, der Grad der
Verstimmung jedoch nicht von der gewhlten Tonart abhngt. Anscheinend hat sich
unsere Zivilisation im Lauf der Zeit daran gewhnt, diese Diskrepanzen zu tolerieren.
3. Inharmonizitt
Das lineare Gesetz fn = nf1 der harmonischen Obertonreihe ist streng genommen nur fr
ideale Oszillatoren gltig, deren Zeitentwicklung durch eine Differentialgleichung zweiter
Ordnung gegeben ist. In realen Musikinstrumenten gibt es jedoch Korrekturen hherer
Ordnung im Kraftgesetz, die zu kleinen Abweichungen im Obertonspektrum fhren. Der
Grad dieser sogenannten Inharmonizitt bestimmt den Charakter des Instruments sowie
einen Groteil der Farbe und Textur seines Klangs.
(a)
(b)
(c)
300
400
440
500
(a)
(b)
(c)
10
20
30
50
100
f [Hz]
200
300
500
Abbildung 3. Harmonische Obertonreihe im Vergleich mit der reinen und der
gleichtemperierten Stimmung in logarithmischer Darstellung. Unterer Teil: (a)

Grundfrequenz f1 = 11 Hz mit der dazugehrigen harmonischen Obertonreihe. (b) Reine Stimmung in C-Dur, die nicht-quidistante Frequenzverhltnissen
besitzt. (c) Gleichtemperierte Stimmung mit quidistanten Frequenzverhltnissen. Der obere Teil der Abbildung zeigt eine Vergrerung der Oktave C4-C5.
Wie man sehen kann, stimmt die heptatonische Tonleiter (die weien Klaviertasten, fette Striche) der reinen Stimmung in (b) exakt mit der Obertonreihe
in (a) berein, whrend die Halbtne (schwarze Tasten, dnne Linien) nicht
bereinstimmen. Im Gegensatz dazu weicht die gleichtemperierte Stimmung (c)
in allen Tnen (mit Ausnahme von A440) von der Obertonreihe (a) ab, aber
dafr ist diese Stimmung in der logarithmischen Darstellung jedoch quidistant
und deshalb invariant unter Verschiebungen (Transposition) der Tonart.
Die Inharmonizitt entsteht dadurch, dass eine Saite ein Mittelding zwischen
einer idealen Saite und einem Stab ist. Eine ideale Saite gehorcht der partiellen
Differentialgleichung y y 00 mit einer linearen Dispersionsrelation f |k|, whrend
die Schwingung eines steifen Stabs durch die Differentialgleichung vierter Ordnung
y y 0000 mit einer quadratischen Dispersionsrelation f k 2 gegeben ist. Daraus folgt,
dass die Steifigkeit einer realen Saite zu einer Korrektur niedrigster Ordnung von der
Form
y y 00 y 0000
f 2 k 2 + k 4
in der Bewegungsgleichung fhrt, so dass das Obertonspektrum der Saite durch
fn n f1 1 + Bn2 ,
n = 1, 2, . . .
(2)
(3)
gegeben ist, wobei f1 die Grundfrequenz und fn die Obertonfrequenzen bezeichnet. Die
10
Inharmonicity B
(a)
Intensity I [arb. units]
-2
10
-3
10
-4
10
-1
(b)
10
-2
10
-3
10
-4
10
-5
10
-6
10
-7
100
1000
f [Hz]
10
200
400
600
f [Hz]
800
1000
Abbildung 4. Links: Inharmonizittskoeffizienten B eines Klaviers. Die
zwei getrennten Abschnitte der Daten entsprechen den diagonal gekreuzten

Sektionen der Saiten. Rechts: Leistungsspektrum des tiefsten Tons eines
Klaviers. Der rote Pfeil markiert die Grundfrequenz von 27.5 Hz. Die blauen
Pfeile weisen auf besonders schwache Obertne hin, die wegen der Position des
Hammers an einem Knoten der entsprechenden Schwingungsmode unterdrckt
sind.
Abbildung 5. Ideales harmonisches Spektrum der Obertonreihe in einer linearen
Darstellung. Die Oktave wird als klanglich angenehm empfunden, weil jeder
zweite Oberton des hheren Tons mit einem Oberton des tieferen Tons exakt
bereinstimmt.
dimensionslose Konstante B ist der sogenannte Inharmonizittskoeffizient, der von physikalischen Parametern wie Lnge, Durchmesser, Spannung und Materialeigenschaften
der Saite abhngt. In einem Flgel bzw. Klavier variiert der Wert von B etwa von 0.0002
im Bass bis zu 0.4 im Diskant (siehe linke Tafel in Abb. 4). Eine starke Inharmonizitt
verursacht einen unangenehmen fremdartigen Klang, wie man ihn von einem Hackbrett
kennt. Ein wesentlicher Aspekt in der Kunst des Klavierbaus ist es, die Inharmonizitt
so gleichmig wie mglich zu halten.
4. Wie Stimmung wahrgenommen wird
Wie bereits eingangs erwhnt wurde, empfindet das menschliche Gehr Intervalle mit
einfachen rationalen Frequenzverhltnissen als angenehm. In diesem Zusammenhang ist
es wichtig zu verstehen, dass das menschliche Ohr berhaupt nicht in der Lage ist, die
Grundtne direkt zu vergleichen, vielmehr erkennt unser Gehr lediglich Koinzidenzen

in den Obertonspektren. Wenn wir z.B. eine Oktave A2-A3 hren, vergleicht unser Ohr
die Obertne 2,4,6,... des tieferen Tons mit den Obertnen 1,2,3... des hheren Tons
und nimmt die Oktave als richtig gestimmt wahr, wenn beide harmonischen Reihen
einrasten (siehe Abb. 5).
Hat man es allerdings mit inharmonischen Korrekturen zu tun, so ist es nicht
mehr mglich, beide Reihen exakt zur Deckung zu bringen. In diesem Fall sucht
unser Ohr nach dem bestmglichen Kompromiss, wobei es die Frequenzdifferenzen
zwischen fast bereinstimmenden Obertnen zu minimieren versucht. Diese kleinen
Differenzen werden als Schwebungen wahrgenommen, d.h. als berlagerung langsamer
Modulationen der Einhllenden mit Frequenzen von einigen Hertz. Ein Klavierstimmer
nimmt diese Modulationen wahr und versucht, sie soweit wie mglich zu minimiren oder
zumindest zu einem guten Kompromiss zu gelangen.
Wie in Abb. 6 beispielhaft gezeigt wird, kann beim Stimmen einer Oktave
ein solcher Kompromiss erzielt werden, indem man die Frequenz des oberen Tons
geringfgig anhebt. Wir empfinden also die Oktave als richtig gestimmt, wenn sie im
mathematischen Sinn leicht verstimmt ist. Diese Korrektur, die sogenannte Spreizung,
spielt eine zentrale Rolle in der Praxis des Stimmens, selbst wenn die Inharmonizitt
des Instruments relativ klein ist.
5. Funktionsweise hochwertiger Stimmgerte
Heutzutage werden auf dem Markt hochpreisige elektronische Systeme angeboten, die
die geeignete Spreizung fr jedes Instrument individuell vorausberechnen knnen. Die
genaue Funktionsweise ist dieser proprietren Systeme ist nicht bekannt, doch geht
man im allgemeinen davon aus, dass bei diesen Verfahren ausgewhlte Obertne zur
Deckung gebracht werden. Dazu werden einige Tne des Instruments aufgenommen und
die entsprechenden Inharmonizittskoeffizienten durch Vermessen der Obertonspektren
bestimmt. Anschlieend wird die Spreizung berechnet, indem man z.B. eine Folge von
Oktaven derart dehnt, dass die vierte Harmonische des niedrigen Tons mit der zweiten
harmonic:
B=0
inharmonic:
B=0.02
A3
A2
A3
A2
A3 (stretched)
110
220
330
440
550
660
770 880
f [Hz]
Abbildung 6. Ausgleich der Inharmonizitt durch das Spreizen von Oktaven
(siehe Text).
Harmonischen des oberen Tons zusammenfllt (4:2-Stimmung).

Mathematisch kann man dieses Verfahren folgendermaen formulieren: Wenn man
(k)
die Tasten des Klaviers mit k = 1 . . . K durchnummeriert und mit fn die n-te
Harmonische der k-ten Saite bezeichnet, erhlt man mit dieser 4:2-Methode K 12
Gleichungen fr die Spreizungen in der Form
(k)
(k+12)
f1
(k)
f1
(k)
r4
(k+12)
(4)
r2
(k)
wobei rnk = fn /f1 das Verhltnis der n-ten Harmonischen in Bezug auf die
Grundfrequenz der Saite ist. Durch Logarithmierung erhlt man so ein System von
(k)
K 12 linearen Gleichungen fr K unbekannte Grundfrequenzen f1 . Die brigen
12 Unbekannten werden durch den Kammerton A440 und die Wahl des jeweiligen
Temperaments bestimmt. Eine gleichtemperierte Stimmung kann man z.B. erzeugen, in
dem man eine quadratische Kostenfunktion fr variierende Frequenzabstnde zwischen
Halbtnen hinzufgt. Durch das Lsen dieser Gleichungen kann man also die gemessenen
Inharmonizitten direkt in eine Stimmkurve bersetzen. Wenn die Inharmonizitt (als
Funktion des Tastenindex) eine stckweise glatte Funktion ist (wie die in Abb. 4 gezeigte
Kurve), wird die Stimmkurve ebenfalls stckweise glatt sein. Ebenso kann man ein 6:3Stimmschema verwenden, das zu einer noch ausgeprgteren Spreizung fhrt. Die Gre
der Spreizung insgesamt ist also nicht strikt festgelegt, sondern vielmehr eine Frage des
musikalischen Geschmacks. Einige Computerprogramme interpolieren sogar zwischen
dem 4:2- und 6:3-Verfahren, um so zu einem akzeptablen Kompromiss zu gelangen.
Indem man also die Spreizung direkt durch Vergleich bestimmter Obertne
berechnet, erhlt man wie bereits erwhnt stckweise glatte Stimmkurven. Menschliche
Klavierstimmer produzieren dagegen Stimmkurven mit ausgeprgten Fluktuationen in
der Spreizkurve, insbesondere im Bass und im Diskant. Die wesentliche Botschaft dieser
Arbeit ist die Vermutung, dass diese Fluktuationen nicht zufllig sind, sondern im
Gegenteil eine wesentliche Rolle fr eine hochqualitative Stimmung spielen.
Die Fluktuationen haben vermutlich verschiedene Grnde. Einerseits ist jede Oberschwingung unterschiedlich stark mit dem Resonator (Klangboden) des Instruments
gekoppelt, was zu kleinen unterschiedlichen Frequenzverschiebungen im Vergleich zu
Gleichung (3) fhren kann. Ein weiterer Grund mag die unterschiedliche Intensitt der
Obertne sein. Wie man auf der rechten Tafel von Abb. 4 erkennen kann, umfasst das
Spektrum einer Klaviersaite eine Vielzahl von Obertnen, wobei benachbarte Obertne in ihrer Intensitt durchaus um mehr als eine Grenordnung schwanken knnen.
Darber hinaus sind bestimmte Obertne (markiert durch die blauen Pfeil in der Abbildung) stark unterdrckt, was man damit erklren kann, dass der Hammer den Knoten
der entsprechenden Vibrationsmode der Saite trifft. Dies alles legt nahe, dass in realen
Situationen der Eindruck einer guten Stimmung nicht nur von den Frequenzen, sondern
auch von den Intensitten der Obertne abhngt.
6. Psychoakustische Aspekte
Da das Stimmen eines Musikinstruments als Suche nach einem Kompromiss fr
mglichst gute bereinstimmung von Obertnen interpretiert werden kann, wird
dieser Vorgang wesentlich von akustischen und psychoakustischen Eigenschaften des
Innenohres abhngig sein. Die Psychoakustik ist ein eigenes Forschungsgebiet (siehe
z.B. [68]) und spielt eine entscheidende Rolle z.B. in der Entwicklung verlustbehafteter
Kompressionsmethoden wie z.B. MP3. Im Folgenden werden hier einige wichtige
Elemente aus diesem Bereich, die zum Verstndnis des Stimmens wichtig sind, skizziert.
Betrachten wir zunchst den Frequenzgang des Ohrs. Ausgangspunkt ist zunchst
eine Schallwelle, also eine zeitabhngige Vernderung des Luftdrucks p(t). Deren
komplexwertige Fouriertransformation ist durch
Z
1
dt e2if t p(t) ,
(5)
p(f ) =
2
gegeben, wobei p(f ) = p (f ) ist. Das entsprechende Leistungsspektrum
I(f ) = |
p(f )2 |
(6)
beschreibt die Energiedichte des Spektrums in Abhngigkeit von der Frequenz f . Als
eine technologisch bliche Gre definiert man den logarithmischen Schalldruck (sound
pressure level SPL)
L(f ) = 10 log10
I(f )
I0
(7)
gemessen in Dezibel (dB), wobei die Intensitt I0 der Hrschwelle entspricht.

Der Schalldruck wird abhngig von der jeweiligen Frequenz mit einer mechanischen Anregung im Innenohr korreliert sein. Da der physikalische bertragungsweg
im Ohr hochgradig komplex ist, approximiert man diesen Zusammenhang blicherweise durch bestimmte empirische Gewichtsfunktionen. Unterhalb von 55 dB wird hufig
die sogenannte A-Gewichtung gem dem internationalen Standard IEC 61672:2003 benutzt, deren Filterfunktion durch
RA (f ) =
122002 f 4
p
(f 2 + 20.62 )(f 2 + 122002 ) (f 2 + 107.72 ) (f 2 + 737.92 )
gegeben ist. Dies definiert den A-gewichteten Schalldruck (SPLA)

LA (f ) = 2.0 + 20 log10 RA (f ) L(f )
(8)
(9)
in Einheiten von A-gewichteten Dezibel (dBA). Dieser gewichtete Schalldruck kann als
ungefhres Ma der in der Cochlea deponierten Energie als Funktion der Frequenz
interpretiert werden.
10
Die Rezeptorzellen im Innenohr konvertieren die deponierte Energie in eine

bestimmte neuronale Aktivitt, welche dann die Wahrnehmung des Klangs in
unserem Gehirn hervorruft. Diese neuronale Informationsverarbeitung ist noch um ein
Vielfaches komplexer und nicht vollstndig verstanden. Aus diesem Grund hat man
ein psychoakustisches Ma fr die subjektiv wahrgenommene Lautstrke eingefhrt,
nmlich die sogenannte Lautheit N (f ), die als empirische Gre gemittelt ber viele
Testpersonen zu verstehen ist. Der Literatur zufolge wird dieser Zusammenhang
nherungsweise durch ein stckweise kombiniertes Exponential- und Potenzgesetz gut
beschrieben:
(
2(LA (f )40)/10
falls LA (f ) > 40dBA
N (f ) =
(10)
2.86
(LA (f )/40)
falls LA (f ) 40dBA
Nicht nur die Empfindlichkeit des Ohres ist frequenzabhngig, sondern auch dessen
Fhigkeit, Tne mit verschiedenen Frequenzen zu unterscheiden. In der Literatur werden
verschiedene Mae fr die Frequenzauflsung diskutiert, wobei der sogenannte kleinste
wahrnehmbare Unterschied (engl. just noticeable difference (jnd)) die Rolle einer
unteren Schranke spielt [6]. Die jnd wird blicherweise durch
(
3 Hz
falls f 500 Hz
f =
(11)
0.006f falls f > 500 Hz
genhert.
7. Entropiebasiertes Stimmverfahren
In diesem Abschnitt wird nun ein entropiebasiertes Stimmverfahren fr Musikinstrumente vorschlagen. Da das Stimmen eines Instruments, wie wir gesehen haben, als Suche
nach dem bestmglichen Kompromiss fr die bereinstimmung von Obertnen verstanden werden kann, liegt die Vermutung nahe, dass ein solcher Kompromiss durch eine
minimale Entropie des Leistungsspektrums charakterisiert wird. Dies ist uerst plausibel, da zwei berlappende Spektrallinien naturgem eine geringere Entropie aufweisen
als zwei getrennte Linien (siehe Abb. 7).
11
Abbildung 7. Shannon-Entropie als Ma fr die bereinstimmung von
Spektrallinien. Die Abbildung zeigt die berlagerung zweier Gaufunktionen,

die zwei Obertne reprsentieren sollen. Wenn die beiden Obertne klar
unterscheidbare
Frequenzen besitzen, nimmt die (kontinuierliche) Entropie
R +
H = f (x) log2 (f (x))dx einen konstanten Wert H 4.094 an. Sobald
es aber zu einer teilweisen berlappung kommt, die fr den Klavierstimmer
als Schwebung hrbar ist, nimmt die Entropie ab und erreicht schlielich ein
Minimum (H 2.094 hier in diesem Beispiel) wenn die beiden Spektrallinien
bereinstimmen.
Um diesen Ansatz zu berprfen,

wurden alle 88 Tne eines nach
Gehr gestimmten Klaviers aufgenommen und deren Leistungsspektren berechnet. Die Spektren wurden dann in einer logarithmisch organisierten Diskretisierung reorganisiert, um so die Frequenzauflsung des Innenohres zu modellieren. Anschlieend wurde die existierende Spreizung entfernt, indem alle Grundfrequenzen auf gleichtemperierte Stimmung zurckgesetzt
Abbildung 8. Monte-Carlo Algorithmus.
wurden. Nach dieser Vorverarbeitung der Daten wurde der folgende in der statistischen Physik gebruchliche Monte-Carlo-Algorithmus ausgefhrt (siehe schematische Darstellung in
Abb. 8, nhere technische Details sind im Anhang zu finden):
Addiere die A-gewichteten Spektren aller 88 Tne und berechne die Entropie.
ndere zufllig die Tonhhe eines zufllig ausgewhlten Tons und berechne die
Entropie erneut.
Wenn die neue Entropie niedriger ist als die vorherige, behalte die nderung
der Tonhhe bei, andernfalls verwerfe die nderung und stelle die ursprngliche
Tonhhe wieder her.
12
Dieser einfache Vorgang wird wiederholt, bis keine weitere Verbesserung erreicht wird,
bis also der Algorithmus ein lokales Minimum der Entropie gefunden hat. Man beachte,
dass durch das Aufaddieren aller 88 Tne die Methode alle Intervalle und Tonlagen
gleichberechtigt behandelt, sich also nicht nur auf das Stimmen ausgewhlter Oktaven
beschrnkt.
8. Diskussion
Abb. 9 zeigt die resultierende Stimmkurve im Vergleich mit dem Resultat einer
Stimmung nach Gehr fr ein Klavier. Wie man sehen kann, wird nicht nur die globale
Spreizkurve in etwa richtig reproduziert, sondern man erhlt auch Fluktuationen, die
in beiden Kurven hochgradig korreliert sind, insbesondere im Bass und im Diskant.
Anscheinend ist die entropiebasierte Methode in der Lage, hnliche Abweichungen von
der durchschnittlichen Spreizung zu produzieren wie bei einer Stimmung nach Gehr.
Dies ist berraschend und noch nicht wirklich verstanden, aber es zeigt, dass diese
Fluktuationen in gewissen Grenzen reproduzierbar sind und deshalb eine wesentliche
Rolle in der Praxis des Stimmens spielen knnten.
Die Implementierung der Methode ist verhltnismig einfach. Die Tne des
Instruments werden aufgenommen, Fourier-transformiert, wie oben beschrieben auf
geeignete Weise gefiltert, logarithmisch diskretisiert, aufaddiert und von deren Summe
schlielich die Entropie bestimmt. Eine explizite Identifizierung der Obertne und eine
Messung der Inharmonizittskoeffizienten ist nicht erforderlich. Vielmehr bercksichtigt
die Methode die Unregelmigkeiten des Instruments automatisch auf implizite Weise.
pitch difference f [cents]
40
20
-20
-40
20
40
60
80
key index k
9. Typisches Resultat des im Abschnitt 6 beschriebenen

Stimmverfahrens (rote Kurve) im Vergleich mit dem Resultat einer Stimmung
nach Gehr (schwarze Kurve).
Abbildung
13
Allerdings ist die hier vorgestellte Methode unausgereift. Sie kann in vielfacher
Weise modifiziert werden und eine systematische Untersuchung steht noch aus. Darber
hinaus wurde die Methode bislang nur mit einem einzigen Instrument getestet. Die
wichtigsten offenen Fragen sind folgende:
Es gibt anscheinend eine groe Anzahl lokaler Minima, so dass der oben skizzierte
zufllig arbeitende Algorithmus zwar hnliche aber nicht reproduzierbare Resultate
liefert.
Die vorgestellten Monte-Carlo-Resultate basieren auf dem A-gewichteten Schalldruck (SPLA) in Gleichung (9). Wenn man anstatt dessen die Lautheit in Gl. (10)
benutzt, erhlt man unsinnig berspreizte Stimmkurven im Bass.
Die Spektren wurden logarithmisch diskretisiert in Einheiten von einem Cent. Dies
modelliert eine Frequenzauflsung von einem Cent, was unter dem (jnd ) liegt. Faltet
man allerdings die Daten mit einer frequenzabhngigen Gaukurve gem dem
erwarteten jnd in Gl. (11) erhlt man keine besseren Resultate.
Fortgeschrittene Monte-Carlo-Methoden z.B. mit adiabatischer Abkhlung wurden
bislang nicht getestet.
Anstatt die Spektren aller 88 Tne aufzuaddieren, kann man versuchen, nur eine
Teilmenge aus Oktaven, Quarten und Quinten aufzuaddieren, womit die Praxis
des Klavierstimmens nach Gehr imitiert wird. Dies destabilisiert die Methode und
zerstrt die gleichtemperierte Grundstimmung. Vermutlich wird durch die Summe
ber alle Tne sichergestellt, dass man in der gleichtemperierten Stimmung bleibt.
Als mgliche technische Realisierung wre es interessant, eine hybride Methode zu
entwickeln, mit der zuerst die glatte Stimmkurve durch Vergleich von Obertnen auf
herkmmliche Weise ermittelt wird und anschlieend die Fluktuationen durch die
hier beschriebene entropische Methode optimiert werden. Damit vermeidet man das
Problem, dass der Algorithmus in falschen lokalen Minima hngen bleibt.
Danksagung
Ich danke der Universidade Federal do Rio Grande do Sul (UFRGS) in Porto Alegre,
Brasilien, wo Teile dieser Arbeit entstanden sind, fr die herzliche Gastfreundschaft.
Diese Arbeit wurde finanziell durch den Deutschen Akademischen Austausch Dienst
(DAAD) im Rahmen des Brasilianisch-deutschen Kooperationsprogramms PROBRAL
untersttzt.
Appendix A. Technische Details
Datenaufnahme und Vorverarbeitung
(i) Zunchst werden alle Tne k = 1 . . . K im WAV-Format einzeln aufgezeichnet.
Die binren PCM-Amplituden werden extrahiert und in eine Folge von
14
(k)
Fliekommazahlen yj R mit j = 0 . . . ST 1 konvertiert, wobei S = 44100

Hz die Abtastrate und T 20s die Aufnahmezeit ist.
(ii) Durch eine schnelle Fouriertransformation (Softwarepaket fftw3) erhlt man die
(k)
Spektren yq C indiziert durch q = 0 . . . Q, wobei Q = ST /2 ist (die andere
Hlfte der Daten ist dazu komplex konjugiert). Die q-te Komponente entspricht der
Frequenz f (q) = q/T .
(k)
(iii) Fr jedes k wird das Spektrum |

yq |2 R+ durch logarithmische Diskretisierung
(k)
neu organisiert. Dazu definiert man ein Array Im R+ entsprechend der
Frequenzen f (m) = 10 2m/1200 Hz, wobei m von Null (10 Hz) bis 12000 (10 kHz)
luft. Sei
Q
X
(k)
q
(A.1)
m,[1200+log2 ( 10T
yq(k) |2 ,
Im :=
)] |
q=0
wobei [] die Rundung auf eine ganze Zahl bezeichnet. In dieser Darstellung unterscheiden sich benachbarte Diskretisierungspositionen um ein Frequenzverhltnis
von einem Cent.
(k)
(iv) Die Intensitten Im werden auf den entsprechenden A-gewichteten Schalldruck

(k)
(SPLA) Lm abgebildet.
(v) Nach dieser Vorverarbeitung der Daten kann die Frequenz eines Tons durch bloe
Verschiebung des Array-Index m m c um c Cent erhht oder erniedrigt
werden. Dadurch ist es mglich, das Instrument virtuell auf dem Computer zu
stimmen. Dazu wird zunchst die in der Aufnahme vorhandene Spreizung entfernt,
indem man die Grundfrequenzen aller Tne auf gleichtemperierte Stimmung, d.h.
(k)
f1 = 440 2(kk0 )/12 Hz zurcksetzt, wobei k0 der Index des Kammertons A440 ist.
Damit werden die Spreizungskorrekturen zunchst entfernt.
Monte-Carlo dynamics
(i) ndere die Frequenz eines zufllig gewhlten Tons zufllig um 1 Cent.
P
(k)
(ii) Berechne die Summe pm = 88
k=1 Lm des A-gewichteten Schalldruck aller Tasten.
P
(iii) Normiere pm derart dass m pm = 1 ist.
P
(iv) Berechne die Shannon-Entropie H = m pm ln pm .
(v) Wenn die Entropie abnimmt, behalte die nderung bei, andernfalls stelle die
ursprngliche Tonhhe wieder her.
Diese Schritte werden wiederholt, bis keine weiteren Tonhhennderungen mehr stattfinden.
15
References
[1] J. G. Roederer, Introduction to the Physics and Psychophysics of Music, Springer, New York
(1973).
[2] O. L. Railsback, Scale Temperament as Applied to Piano Tuning. Journal of the Acoustical Society
of America 9 (3): 274 (1938).
[3] Figure taken from: http://en.wikipedia.org/wiki/File:Railsback2.png (March 2012).
[4] Figure taken from: http://en.wikipedia.org/wiki/File:Harmonic-partials-on-strings (March 2012).
[5] N. H. Fletcher and T. D. Rossing, The Physics of Musical Instruments, Springer, New York (1991).
[6] H. Fastl and E. Zwicker, Psychoacoustics: facts and models, Springer, New York (2007).
[7] C. J. Plack, A. J. Oxenham, and R. F. Richard, eds. Pitch: Neural Coding and Perception. Springer,
New York (2005).
[8] B. C. Moore and B. R. Glasberg, Thresholds for hearing mistuned partials as separate tones in
harmonic complexes. J. Acoust. Soc. Am., 80, 479483 (1986).

Entropiebasiertes Stimmen Von Musikinstrumenten, HINRICHSEN, H., Rev. Bras. Ens. Fis. 34 (2012), 2301-2315

Uploaded by

Document Information

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

Entropiebasiertes Stimmen Von Musikinstrumenten, HINRICHSEN, H., Rev. Bras. Ens. Fis. 34 (2012), 2301-2315

Uploaded by

Copyright:

Available Formats

Entropiebasiertes Stimmen von Musikinstrumenten