Der Zwicker-Ton - Ein PH Anomen Der Auditorischen Informationsverarbeitung

Der Zwicker-Ton Ein Phanomen der auditorischen Informationsverarbeitung
Diplomarbeit von Jan-Moritz Peter Franosch
Der Zwicker-Ton Ein Phnomen der auditorischen a Informationsverarbeitung
Diplomarbeit von Jan-Moritz Peter Franosch
Physik-Department der Technischen Universitat Munchen Institut fur Theoretische Physik Prof. Dr. J. Leo van Hemmen 7. Juli 1998
Vorwort
Diese Arbeit verfolgt folgende Ziele: Sie soll eine kritische Einfhrung in die Psychoakustik geben als Grundu lage fr folgende Kapitel, eigene Arbeiten und leichteres Verstndnis u a der verfgbaren Literatur (Kap. 1). u Uberblick uber das periphere (Kap. 2.1) und zentrale (Kap. 2.2) audi torische System. Genaue Beschreibung und Implementation eines Gehrmodells von der o Cochlea (Kap. 3.1.1) uber die inneren Haarzellen (Kap. 3.1.2) bis zum Hrnerv (Kap. 3.1.3), das nicht allzu viel Rechenzeit erfordert und in o weiteren Projekten wieder verwendet werden kann. Beleuchtung der Auswirkungen lateraler Inhibition in einem einfachen linearen Modell (Kap. 4.2) sowie mittels stochastischer Datenanalyse in einem Modell mit spikenden Neuronen (Kap. 4.3). Vorstellung von verschiedenen neuronalen Modellen zur Erklrung des a Zwicker-Tons (Kap. 6). Im Ggs. zum visuellen System [Buser 1992] scheint beim auditorischen System uber Sinn und Zweck der zahlreichen Verarbeitungsstufen sowie der Kopplungen und Rckkopplungen zwischen diesen nur relativ wenig Konkreu tes bekannt zu sein. Es existieren zwar recht genaue psychoakustische Mo delle [Zwicker 1990, Sottek 1993], die auditorische Wahrnehmungen quantitativ beschreiben, die neurologische Ursache der beschriebenen Phnomene a ist jedoch unklar. Fr das visuelle System verfgen wir uber Begrie (Kante, u u Orientierung, Bewegung, Farbe, stereoskopische Tiefe), die sowohl zur Beschreibung von Wahrnehmungen dienen knnen als auch zur Beschreibung o der Ttigkeit oder des Antwortverhaltens verschieden spezialisierter Neua rone. Auditorische Wahrnehmungen werden durch Begrie wie Lautstrke, a Tonhhe, Rauschen, Tonhhenmodulation und Klang beschrieben. Zur Chao o rakterisierung der Aufgaben von auditorischen Neuronen sind diese jedoch nur teilweise geeignet. Auf Fragen wie Was ist die neuronale Ursache die ser und jener auditorischen Wahrnehmung? oder Wie wird diese und je ne auditorische Wahrnehmung neuronal reprsentiert? wissen wir oft keine a treende Antwort.
VORWORT
Vorliegende Arbeit soll solche Fragen angehen, indem uber neuronale Ver arbeitungsmechanismen nachgedacht wird, die mit den bekannten Beobachtungen vertrglich sind und das psychoakustische Phnomen des Zwickera a Tons erklren. Der Zwicker-Ton kann folgendermaen hervorgerufen werden: a Tiefpassgeltertes weies Rauschen wird abgeschaltet. Nach dem Abschalten hrt die Versuchsperson einen leisen, fast reinen Ton, den Zwicker-Ton. o Da der Zwicker-Ton nach dem Abschalten eines akustischen Stimulus auftritt, bezeichnet man ihn auch als akustischen Nacheekt. Man kann ihn als eine Art akustische Tuschung auassen, da der Zwicker-Ton eine Schalla wahrnehmung ist, die in Wirklichkeit nicht vorhanden ist. Da optische Tuschungen oft Aufschluss uber (neuronale) Verarbeitungsmechanismen der a optischen Signale geben, kann man hoen, dass auch akustische Tuschungen a wertvolle Hinweise uber die Verarbeitung akustischer Stimuli liefern. Jeden falls stellt sich im Laufe der Analyse des Phnomens des Zwicker-Tons in a dieser Arbeit heraus, dass es keine allzu einfache Erklrung dieser Wahra nehmungstuschung gibt. Vermutlich spielen hier mehrere Mechanismen und a Eigenschaften der auditorischen Verarbeitung zusammen: Die periphere Verarbeitung von Schallsignalen bildet die Grundlage fr jegliches Verstndnis u a psychoakustischer Phnomene. Sie wird deshalb ausfhrlich behandelt und a u in Modellen implementiert. In den Modellen zur Erklrung des Zwicker-Tons a spielt laterale Inhibition zwischen den Neuronen einer auditorischen Verarbeitungsstufe eine zentrale Rolle. Ihre Auswirkungen im Hinblick auf ZwickerTon erzeugende Schalle werden deshalb untersucht. Schlielich werden hierauf basierende Modelle zur Erklrung des Zwicker-Tons vorgestellt. a Zum besseren Verstndnis der psychoakustischen Grundlagen dieser Arbeit a kann [Zwicker 1982] herangezogen werden. Als weiterfhrende Literatur zur u Psychoakustik sei [Zwicker 1990] empfohlen. Konkrete Formeln und Modelle gibt das sehr gute Bchlein [Sottek 1993] an, das jedoch weitgehende Kenntu nisse psychoakustischer Grundlagen voraussetzt. Eine kurze Einfhrung in u die Psychoakustik und eine gut verstndliche und ubersichtliche Einfhrung a u in das auditorische System gibt [Yost 1994], auch [Pickles 1982]. Eine detailreiche Darstellung des auditorischen Systems ndet man in [Popper 1992], einen kritischen Uberblick in [Zenner 1994]. Psychoakustische Messungen zum Zwicker-Ton sind umfassend in [Krump 1993] beschrieben und bilden die Grundlage jeglicher in dieser Arbeit entwickelten Modelle. Eine ausfhru liche Beschreibung des verwendeten Spike-Response-Neuronenmodells ndet man in [Gerstner 1993, Domany 1994]. Als Grundlage zur Erstellung eigener Simulationen in C++ unter Linux bzw. Unix empehlt der Autor die Lektre von [Stallman XEmacs 1994, Stroustrup 1991, Loukides 1997, u Stallman XEmacs 1995, Stallman GDB 1995] in etwa dieser Reihenfolge.
A Dieses Dokument wurde mit L TEX 2.0.9 und TEX Version 3.14159 erstellt [Kopka I 1994, Kopka II 1995, Kopka III 1997, Knuth 1993]. Die Bilder wurden mit Hilfe des TEX-Macropakets PiCTeX Version 1.1 bzw. mit XFig 3.1 erstellt. Als Editor dienten Emacs und XEmacs [Stallman XEmacs 1994, Stallman XEmacs 1995].
Folgende Programme wurden zur Programmierung der Simulationen unter dem Betriebssystem Linux bzw. Unix verwendet: GNU C++Compiler gcc 2.7.2.1 und 2.8.1 [Stallman GCC 1995], GNU Debugger
VORWORT
gdb 4.16 [Stallman GDB 1995] und der Parsergenerator GNU Bison 1.25 [Donnelly 1995]. Programmiersprache ist C++ [Stroustrup 1991, C++ 1996] mit STL-Erweiterungen [Glass 1996]. Die Programmdokumentation wurde mit Texinfo Version 3 [Chassell 1996] erstellt. Sie steht in den Formaten GNU-Info, DVI, Postscript, HTML, ASCII sowie als Texinfo-Quellcode zur Verfgung. u Fr analytische Berechnungen und zur Darstellung einiger Graphen war u Maple V, Release 4, hilfreich [Maple 1, Maple 2, Maple 3]. Die Rechtschreibung in diesem Dokument richtet sich nach der ab 1. August 1998 eingefhrten neuen deutschen Rechtschreibung. Zu Rate gezogen wuru de [Duden 1996], sowie die ebenfalls in [Duden 1996] abgedruckte amtliche Neuregelung der deutschen Rechtschreibung.
Inhaltsverzeichnis
1 Psychoakustik 13
1.1 Psychophysik . . . . . . . . . . . . . . . . . . . . . . . . . . . 13 1.2 Lautstrke . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14 a 1.2.1 1.2.2 1.2.3 1.3.1 1.3.2 Schalldruckpegel und Schallintensittspegel . . . . . . . 15 a Lautstrkepegel . . . . . . . . . . . . . . . . . . . . . . 16 a Lautheit . . . . . . . . . . . . . . . . . . . . . . . . . . 16 Verhltnistonhhe . . . . . . . . . . . . . . . . . . . . . 18 a o Tonheit . . . . . . . . . . . . . . . . . . . . . . . . . . 19
1.3 Tonhhe . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17 o
1.4 Verdeckung . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21 1.5 Funktionsschemata . . . . . . . . . . . . . . . . . . . . . . . . 22 1.5.1 1.5.2 1.5.3 Anregung und Erregung . . . . . . . . . . . . . . . . . 22 Schwellenfunktionsschema fr langsame Schallnderunu a gen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23 Funktionsschema der Lautheit . . . . . . . . . . . . . . 25 26
2 Auditorisches System 2.1.1 2.1.2 2.1.3 2.1.4 2.2.1 2.2.2 2.2.3 2.2.4 2.2.5 2.2.6
2.1 Peripheres auditorisches System . . . . . . . . . . . . . . . . . 26 Auenohr . . . . . . . . . . . . . . . . . . . . . . . . . 26 Mittelohr . . . . . . . . . . . . . . . . . . . . . . . . . 27 Innenohr . . . . . . . . . . . . . . . . . . . . . . . . . . 27 Hrnerv . . . . . . . . . . . . . . . . . . . . . . . . . . 29 o Nucleus cochlearis . . . . . . . . . . . . . . . . . . . . 32
2.2 Zentrales auditorisches System . . . . . . . . . . . . . . . . . . 31 Olivenkomplex . . . . . . . . . . . . . . . . . . . . . . 33 Nuclei lemnisci laterales . . . . . . . . . . . . . . . . . 33 Colliculus inferior . . . . . . . . . . . . . . . . . . . . . 34 Corpus geniculatum mediale . . . . . . . . . . . . . . . 34 Auditorischer Cortex . . . . . . . . . . . . . . . . . . . 35 6
INHALTSVERZEICHNIS 3 Modelle fur das auditorische System 3.1 3.1.1 3.1.2 3.1.3 3.2
7 38
Modelle fr das periphere auditorische System . . . . . . . . . 38 u Cochlea . . . . . . . . . . . . . . . . . . . . . . . . . . 38 Innere Haarzellen . . . . . . . . . . . . . . . . . . . . . 47 Hrnerv . . . . . . . . . . . . . . . . . . . . . . . . . . 51 o
Tinnitusmodell . . . . . . . . . . . . . . . . . . . . . . . . . . 55 56
4 Rolle der lateralen Inhibition 4.1 4.2
Physiologie der lateralen Inhibition . . . . . . . . . . . . . . . 56 Laterale Inhibition in einem linearen Modell . . . . . . . . . . 57 4.2.1 4.2.2 4.2.3 Konstantes Eingabesignal an der Neuronenschicht . . . 58 Stufenfunktion als Eingabesignal der Neuronenschicht . 59 Konstantes Eingabesignal mit Lcke u an der Neuronenschicht . . . . . . . . . . . . . . . . . . 60 Stochastische Datenanalyse . . . . . . . . . . . . . . . 64 Das verwendete Neuronenmodell und die Verschaltung der Neurone . . . . . . . . . . . . . . . . . . . . . . . . 66 Die in der Simulation verwendeten Stimuli . . . . . . . 67 Simulationsergebnisse . . . . . . . . . . . . . . . . . . . 68 Zusammenfassung . . . . . . . . . . . . . . . . . . . . . 70 75
4.3
Laterale Inhibition mit spikenden Neuronen . . . . . . . . . . 64 4.3.1 4.3.2 4.3.3 4.3.4 4.3.5
5 Zwicker-Ton 5.1 5.1.1 5.1.2 5.2 5.2.1 5.2.2 5.2.3 5.2.4 5.2.5 5.2.6 5.2.7 5.3 5.4
Zwicker-Ton Erzeugerschalle . . . . . . . . . . . . . . . . . . . 75 Rauschen . . . . . . . . . . . . . . . . . . . . . . . . . 75 Andere Erzeugerschalle . . . . . . . . . . . . . . . . . . 76 Verbreitung . . . . . . . . . . . . . . . . . . . . . . . . 77 Otoakustische Emissionen . . . . . . . . . . . . . . . . 77 Bandbreite des Erzeugerschalls . . . . . . . . . . . . . 79 Bandbreite der spektralen Lcke . . . . . . . . . . . . . 80 u Lautstrke des Erzeugerschalls . . . . . . . . . . . . . . 81 a Tiefe der spektralen Lcke . . . . . . . . . . . . . . . . 81 u Andere Einsse . . . . . . . . . . . . . . . . . . . . . 81 u
Psychoakustische Messungen . . . . . . . . . . . . . . . . . . . 76
Berechnung der Tonhhe . . . . . . . . . . . . . . . . . . . . . 81 o Oene Fragen . . . . . . . . . . . . . . . . . . . . . . . . . . . 82 83
6 Modelle fur den Zwicker-Ton
INHALTSVERZEICHNIS 6.1 Habituationsmodell . . . . . . . . . . . . . . . . . . . . . . . . 84 6.1.1 6.1.2 6.1.3 6.1.4 6.1.5 6.2.1 6.2.2 6.2.3 6.2.4 Beschreibung des Habituationsmodells . . . . . . . . . 84 Beschreibung der Simulationen des Habituationsmodells 86 Simulationsergebnisse im Habituationsmodell . . . . . 92 Diskussion der Simulationsergebnisse im Habituationsmodell . . . . . . . . . . . . . . . . . . . . . . . . . . . 96 Erweiterungen des Habituationsmodells . . . . . . . . . 97 Beschreibung des Adaptionsmodells . . . . . . . . . . . 99 Beschreibung der Simulationen des Adaptionsmodells . 100 Simulationsergebnisse im Adaptionsmodell . . . . . . . 105 Diskussion der Simulationsergebnisse im Adaptionsmodell . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 108 110
6.2 Adaptionsmodell . . . . . . . . . . . . . . . . . . . . . . . . . 99
7 Diskussion und Ausblick
7.1 Rckblick . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 110 u 7.2 Weitere psychoakustische Experimente . . . . . . . . . . . . . 111 7.3 Weitere neurophysiologische Experimente . . . . . . . . . . . . 112 A Farbtafeln 115
A.1 Habituationsmodell . . . . . . . . . . . . . . . . . . . . . . . . 115 A.2 Adaptionsmodell . . . . . . . . . . . . . . . . . . . . . . . . . 117 Literaturverzeichnis Dank 119 123
Abbildungsverzeichnis
1.1 1.2 1.3 1.4 2.1 3.1 3.2 3.3 3.4 3.5 3.6 3.7 3.8 3.9 Breite von 1 mel in Hz . . . . . . . . . . . . . . . . . . . . . . 18 Frequenz als Funktion der Verhltnistonhhe . . . . . . . . . . 19 a o Bestimmung der Frequenzgruppenbreite . . . . . . . . . . . . 21 Erregung durch einen reinen Ton . . . . . . . . . . . . . . . . 24 Zentrales auditorisches System . . . . . . . . . . . . . . . . . . 32 Impulsantwort der linearen cochleren Filter vierter Ordnung . 41 a Vergleich cochlerer Filter . . . . . . . . . . . . . . . . . . . . 42 a Vergleich cochlerer Filter als Pegel . . . . . . . . . . . . . . . 42 a Vergleich der chochleren Erregung . . . . . . . . . . . . . . . 43 a Vergleich der cochleren Erregung auf einer Barkskala . . . . . 43 a Cochleogramm von Tiefpassrauschen . . . . . . . . . . . . . . 45 Cochleogramm von einem Sinuston . . . . . . . . . . . . . . . 46 State-Partition-Modell . . . . . . . . . . . . . . . . . . . . . 47 Meddis-Modell . . . . . . . . . . . . . . . . . . . . . . . . . . 49 . . . . . . . . . . . . . . . . . 51
3.10 Neurotransmitterkonzentration
3.11 Basilarmembranauslenkung, Neurotransmitterkonzentration und postsynaptisches Potential . . . . . . . . . . . . . . . . . 52 3.12 Aktionspotentiale im Hrnerv bei Tiefpassrauschen . . . . . . 53 o 3.13 Aktionspotentiale im Hrnerv bei einem Sinuston . . . . . . . 54 o 4.1 4.2 4.3 4.4 4.5 4.6 4.7 Membranpotential bei Stufenfunktion . . . . . . . . . . . . . . 59 Membranpotential bei Stufenfunktion mit Verschiebung . . . . 60 Verbiegung des Membranpotentials in Abhngigkeit a der Verschiebung . . . . . . . . . . . . . . . . . . . . . . . . . 61 Eingabesignal mit Lcke . . . . . . . . . . . . . . . . . . . . . 62 u Membranpotential bei Eingabesignal mit Lcke . . . . . . . . 62 u Verbiegung in Abhngigkeit der Breite der Lcke . . . . . . . 63 a u Netz mit lateraler Inhibition . . . . . . . . . . . . . . . . . . . 66
10
ABBILDUNGSVERZEICHNIS 4.8 Fehlerrate in Abhngigkeit der feed-forward-Kopplung . . . . . 69 a 4.9 Wahrscheinlichkeitsverteilungen mit variierender feed-forward-Kopplung . . . . . . . . . . . . . . . . . . . . . . 70 4.10 Fehlerrate in Abhngigkeit der Strke der lateralen Inhibition a a 71 4.11 Wahrscheinlichkeitsverteilungen mit variierender lateraler Inhibition . . . . . . . . . . . . . . . . . . . . . . . . 71 4.12 Fehlerrate in Abhngigkeit der lateralen Inhibition . . . . . . . 72 a 4.13 Fehlerrate in Abhngigkeit der feed-forward-Kopplung . . . . . 72 a 4.14 Feuerraten der Neuronen bei unterschiedlicher lateraler Inhibition . . . . . . . . . . . . . . . . . . . . . . . . 73 4.15 Aktionspotentiale der Neuronen bei unterschiedlicher lateraler Inhibition . . . . . . . . . . . . . . . . . . . . . . . . 74 5.1 Bandpassbegrenztes Rauschen als Zwicker-Ton Erzeugerschall 79
5.2 Bandpassbegrenztes Rauschen mit Hochpassanteil als Zwicker-Ton Erzeugerschall . . . . . . . . . . . . . . . . . . 79 5.3 Tiefpassrauschen mit bandpassbegrenztem Rauschen als Zwicker-Ton Erzeugerschall . . . . . . . . . . . . . . . . . . 80 5.4 Rauschen mit spektraler Lcke als Zwicker-Ton Erzeugerschall u 5.5 Modell zur Berechnung der Tonhhe des Zwicker-Tons o 80 . . . . 81
6.1 Entstehung des Zwicker-Tons im Habituationsmodell . . . . . 85 6.2 Bestandteile des Gehrmodells . . . . . . . . . . . . . . . . . . 86 o 6.3 Simulation der Basilarmembran . . . . . . . . . . . . . . . . . 87 6.4 Simulation einer inneren Haarzelle . . . . . . . . . . . . . . . . 88 6.5 Simulation einer Hrnervenfaser . . . . . . . . . . . . . . . . . 89 o 6.6 Simulation des Nucleus cochlearis im Habituationsmodell . . . 89 6.7 Spike-Response-Neuronenmodell . . . . . . . . . . . . . . . . . 90 6.8 Modell fr ermdende Neurone . . . . . . . . . . . . . . . . . 91 u u 6.9 Tiefpassrauschen im Habituationsmodell . . . . . . . . . . . . 92 6.10 Reiner Ton mit Rauschen im Habituationsmodell . . . . . . . 94 6.11 Hochpassrauschen im Habituationsmodell . . . . . . . . . . . . 95 6.12 Simulation des Nucleus cochlearis im Adaptionsmodell . . . . 104 6.13 Tiefpassrauschen im Adaptionsmodell . . . . . . . . . . . . . . 105 6.14 Reiner Ton mit Rauschen im Adaptionsmodell . . . . . . . . . 107 7.1 Tiefpassrauschen mit reinem Ton als Zwicker-Ton Erzeugerschall im Adaptionsmodell . . . . . . . . 111 7.2 steil ansteigendes und abfallendes Schmalbandrauschen als Zwicker-Ton Erzeugerschall im Adaptionsmodell . . . . . . . . 112
ABBILDUNGSVERZEICHNIS
11
A.1 Farbcodierung . . . . . . . . . . . . . . . . . . . . . . . . . . . 115 A.2 Zeitlicher Verlauf der Feuerraten bei Tiefpassrauschen im Habituationsmodell . . . . . . . . . . . . . . . . . . . . . . 115 A.3 Zeitlicher Verlauf der Feuerraten bei einem reinen Ton mit Rauschen im Habituationsmodell . . . . . . . . . . . . . . 116 A.4 Zeitlicher Verlauf der Feuerraten bei Hochpassrauschen im Habituationsmodell . . . . . . . . . . . . . . . . . . . . . . 116 A.5 Zeitlicher Verlauf der Feuerraten bei Tiefpassrauschen im Adaptionsmodell . . . . . . . . . . . . . . . . . . . . . . . 117 A.6 Zeitlicher Verlauf der Feuerraten der Rauschunterdrckerschicht u bei Tiefpassrauschen im Adaptionsmodell . . . . . . . . . . . . 117 A.7 Zeitlicher Verlauf der Feuerraten bei einem reinen Ton mit Rauschen im Adaptionsmodell . . . . . . . . . . . . . . . 118 A.8 Zeitlicher Verlauf der Feuerraten der Rauschunterdrckerschicht u bei einem reinen Ton mit Rauschen im Adaptionsmodell . . . 118
Tabellenverzeichnis
1.1 Umrechnung zwischen Tonheit, Tonunterschiedsschritten, Tonhhe und Zahl der Haarzellen . . . . . . . . . . . . . . . . 20 o 3.1 Parameter einer Nervenfaser nach dem Meddis-Modell . . . . . 50 4.1 Konstanten der Neuronenschicht mit lateraler Inhibition . . . 67 5.1 Qualitt des Zwicker-Tons und symbolische Bezeichnungen . . 77 a 6.1 Qualitativer Vergleich des Habituationsmodells mit der Realitt 97 a 6.2 Zeitkonstanten und Schwellen der Neuronen des Adaptionsmodells . . . . . . . . . . . . . . . . . . . . . . . 102 u 6.3 Konstanten fr die Verschaltung der Featuredetektoren des Adaptionsmodells . . . . . . . . . . . . . . . . . . . . . . . 104
12
Kapitel 1 Psychoakustik
Im Folgenden sollen einige psychoakustische Grundlagen vorgestellt werden. Sie stammen grtenteils aus [Zwicker 1982] und [Zwicker 1990]. o
1.1
Psychophysik
Die Psychophysik1 interessiert sich fr die Zusammenhnge zwischen der u a physikalischen Beschaenheit des Reizes (stimulus) und den entsprechenden Wahrnehmungen (sensations). Dabei sollen die Wahrnehmungen auch mglichst quantitativ beschrieben werden. o Die Psychoakustik als Teilgebiet der Psychophysik beschftigt sich also mit a dem Zusammenhang zwischen den physikalischen Eigenschaften des Schalls (z.B. Frequenz und Schalldruck) und den Wahrnehmungen2 des Gehrs (z.B. o Tonhhe und Lautstrke). o a Um Beziehungen zwischen den physikalischen Eigenschaften des Reizes und den entsprechenden Wahrnehmungen nden zu knnen, mssen die Wahro u nehmungen gemessen werden. Dazu teilt man die Wahrnehmungen zunchst in Modalitten ein. Alle a a Wahrnehmungen, die ihre Ursache in der Reizung eines bestimmten Sinnesorgans haben, gehren zu einer Modalitt3 . Sehen und Hren sind also o a o
Der Begri stammt von Gustav Theodor Fechner 1860. Er unterschied zwischen a a a uerer und innerer Psychophysik. Die uere Psychophysik beschftigt sich mit den Zusammenhngen zwischen den physikalischen Eigenschaften des Reizes und der Wahrneha mung. Mit einer Wahrnehmung sind jedoch auch physiologische Vorgnge in den Sinnesa organen und im Nervensystem verbunden. Die innere Psychophysik beschftigt sich mit a den Beziehungen zwischen diesen und der Wahrnehmung. [Campenhausen 1981] 2 Man muss hier begriich streng unterscheiden. Einige Begrie der Akustik werden jedoch oft doppeldeutig verwendet, z.B. Lautstrkepegel und Schalldruckpegel. a [Campenhausen 1981] 3 Diese Unterteilung ist problematisch, denn welche Sinneszellen gehren zu einem Sino nesorgan? Gehrt etwa Klte und Wrme zur selben Modalitt oder nicht? Wir sind o a a a geneigt, diese beiden Empndungen zur selben Modalitt zu zhlen, obwohl sie von vera a schiedenen Sinneszellen registriert werden. Blinde orientieren sich nachweislich (Dallenbach 1942, I. Kohler 1966, C. E. Rice) auch anhand des Echos selbsterzeugter Schalle, das von Gegenstnden zurckgeworfen wird. Die Versuchspersonen behaupten allerdings a u meist, sie nhmen die Gegenstnde nicht mit dem Gehr, sondern mit dem Gesicht a a o
1
13
14
KAPITEL 1. PSYCHOAKUSTIK
verschiedene Modalitten. Modalitten unterteilt man wiederum in Quaa a litten. So sind Helligkeit, Tonhhe und Lautstrke Qualitten. a o a a Quantitativ messen kann man nur die Intensitt einer Qualitt. Hierzu gibt a a es mehrere Methoden: Methode der Vergleichswerte: Die Versuchsperson stellt einen Vergleichsreiz so ein, dass eine bestimmte Qualitt des Reizes und des a Vergleichsreizes als gleich empfunden wird. Die Versuchsperson stellt beispielsweise den Schalldruckpegel eines Sinustons so ein, dass sie den Sinuston als gleich laut im Vergleich zu einem vorgegebenen weien Rauschen empndet. Der Schalldruckpegel eines Sinustons ist dann ein Ma fr die Intensitt der Lautstrkeempndung4 . u a a Methode der Verhltniswerte: Die Versuchsperson stellt einen Vergleichsa reiz so ein, dass eine bestimmte Qualitt des Vergleichsreizes als doppelt a oder halb so intensiv wie beim Reiz selbst empfunden wird5 . Die Methode der Vergleichswerte ergibt eine Messgre, die genau dann o wchst, wenn auch die entsprechende Empndungsstrke zunimmt. Die Mea a thode der Verhltniswerte ergibt ein Ma fr die subjektive Strke der Empa u a ndung.
1.2
Lautstrke a
Die subjektive Lautstrkenempndung wird hier einfach als Lautstrke a a bezeichnet. Gesucht ist nun eine physikalische Messgre, die diese subjektive o Lautstrkenempndung mglichst gut beschreibt. Von einer mglichst guten a o o Beschreibung ist mindestens zu fordern, dass die Messgre genau dann o
wahr. Hier steht also oenbar noch eine zustzliche Qualitt oder Modalitt der Empna a a dung zur Verfgung, die sich von der Empndung des Hrens wesentlich unterscheidet. u o [Campenhausen 1981, Moore 1982] 4 Hierbei wird vorausgesetzt, dass die (subjektive) Relation lauter transitiv ist, d.h. falls Schall A lauter als Schall B und Schall B wiederum lauter als Schall C ist, muss Schall A auch lauter als Schall C sein. Dies ist keineswegs sichergestellt, zumal die Schalle qualitativ ja ganz unterschiedlich sein knnen. o 5 Dieser Ansatz erscheint ungleich problematischer. So muss auch in der Regel uber viele Versuchspersonen und uber viele Versuche gemittelt werden, um vernnftige Daten u zu erhalten. Mitteln kann man auf verschiedene Weisen, es gibt das arithmetische und das geometrische Mittel sowie den Zentralwert. Der Zentralwert ist bei einer ungeraden Anzahl von Messungen der Wert oberhalb und unterhalb dessen gleich viele Messwerte liegen, bei einer geraden Anzahl von Messungen das arithmetische Mittel der mittleren beiden Messwerte. Der Zentralwert ist eine Abschtzung fr den Median, dem Wert, der a u bei einer Messung mit Wahrscheinlichkeit 1/2 uber- bzw. unterschritten wird. Nur der Median ist invariant gegenber einer nichtlinearen Transformation der Messskala, d.h. bei u einer nichtlinearen Transformation der Messskala wird der Median auf den Median abgebildet. Da in der Psychophysik physikalische Messgren i.d.R. nichtlinear transformiert o werden mssen, um empndungsrichtige Messgren zu erhalten, gibt man hier gerne u o den Zentralwert an. Der Modalwert, d.i. das Maximum der Wahrscheinlichkeitsverteilung, ist ebenfalls gegenber nichtlinearen Transformationen invariant, er ist aber bei multimou dalen Verteilungen nicht eindeutig und wesentlich schwieriger zu schtzen als der Median. a
1.2. LAUTSTARKE
15
ansteigt, wenn die wahrgenommene Lautstrke ansteigt. Diese Forderung a wird durch das psychoakustische Ma des Lautstrkepegels erfllt. a u Auerdem kann man noch fordern, dass, falls die Messgre doppelt so gro o ist, auch ein doppelt so lauter Schall wahrgenommen wird. Diese Forderung erfllt die Lautheit. u Bevor die Gren Lautstrkepegel und Lautheit besprochen werden, wird o a zunchst auf die physikalischen Gren Schalldruckpegel und Schallintena o sittspegel eingegangen, von denen die empfundene Lautstrke in erster Lia a nie abhngt. Daneben ist die Lautstrke eines Sinustons auch stark von der a a Frequenz des Tons abhngig. a
1.2.1
Schalldruckpegel und Schallintensittspegel a
Der Schalldruck (sound pressure) p(t) an einer bestimmten Stelle ist der Luftdruck zur Zeit t, den ein Schall an dieser Stelle hervorruft. Die Schalldruckamplitude (sound pressure amplitude) p eines Sinustons ist die Amplitude des Schalldrucks dieses Sinustons. Der Schalldruckpegel (sound pressure level ) L eines Sinustons ist deniert als (1.1) L := 20 log(/p0 ) dB, p
wobei p0 = 2105 Pa ein willkrlich in etwa auf die Hrschwelle6 festgelegter u o Bezugsdruck ist. Als Einheit fr den Schalldruckpegel wird auch dB SPL (von u sound pressure level) verwendet7 . Die Schallintensitt (sound intensity) ist die akustische Energie, die eine a Flche pro Zeiteinheit durchdringt. Schalldruckpegel L und Schallintensitt I a a eines Sinustons hngen nach a (1.2) L = 10 log(I/I0 ) dB
zusammen, wobei I0 = 1012 W/m2 ist. Der so berechnete Schalldruckpegel wird auch als Schallintensittspegel (sound intensity level ) bezeichnet8 . a Die Schallintensitt pro Frequenzbereich heit Schallintensittsdichte (sound a a intensity density), das entsprechende logarithmische Ma ist der Schallintensittsdichtepegel (sound intensity density level ). a
Die Hrschwelle ist der Schalldruck, ab dem man einen Sinuston gerade hrt. Sie hngt o o a natrlich von der Frequenz des Tons ab. u 7 Die Einheit Bel, Kurzzeichen B, ist nach Alexander Bell (18471922) benannt [dtv-Atlas 1987]. 8 Der Schallintensittspegel wird oft mit dem Weber-Fechnerschen Gesetz, benannt a nach Ernst Weber (17951878) und Gustav Fechner (18011887), in Zusammenhang gebracht [Campenhausen 1981, dtv-Atlas 1987, Grimsehl 1987]. Es lautet: Die Empn dungsstrke wchst proportional zum Logarithmus der (physikalischen) Intensitt der Reia a a zgre. Bei der Lautstrkeempndung trit dies jedoch nicht zu (siehe Kap. 1.2.3 und o a Kap. 1.5.3), der Schallintensittspegel ist also nicht proportional zur Empndungsstrke. a a Schlsse uber die Lautheit wie folgender (aus [Grimsehl 1987]) treen daher nicht zu: 10 u Hupen von je 90 Phon ergeben eine Lautstrke von 100 Phon; die Ausschaltung von 9 Hua pen vermindert den Lrm also nur um 10 %. (Zur Denition des Phons siehe Kap. 1.2.2.) a
6
16
Eine Zunahme des Schalldruckpegels um 3 dB bedeutet eine Zunahme der Schallintensitt um etwa den Faktor 2. a
1.2.2
Lautstrkepegel a
Der Lautstrkepegel (loudness level ) eines beliebigen Schalls wird in Phon9 a gemessen. Dazu wird der Schall mit einem Sinuston der Frequenz 1000 Hz verglichen. Der Schalldruckpegel des Sinustons wird angeglichen, bis beide Schalle gleich laut erscheinen. Der Zahlenwert des Lautstrkepegels in Phon a wird dann gleich dem Zahlenwert des Schalldruckpegels des Sinustons in dB gesetzt10 . Lautstrkepegel und Schalldruckpegel von Sinustnen der Frequenz 1000 Hz a o stimmen also uberein. Auerdem werden Schalle mit dem gleichen Lautstra kepegel als gleich laut empfunden. Der Lautstrkepegel eines gerade noch wahrnehmbaren Sinustons wird als a Ruhehrschwelle (threshold in quiet) bezeichnet. Er liegt bei etwa 3 phon. o Zwischen 2 und 3 kHz liegt der empndlichste Bereich des menschlichen Gehrs, hier knnen noch Schalldruckpegel bis zu etwa 5 dB detektiert wero o 11 den .
1.2.3
Lautheit
Die Lautheit (loudness) eines Sinustons der Frequenz 1000 Hz mit einem Lautstrkepegel von 40 phon ist deniert als 1 sone. Die Lautheit eines als a doppelt bzw. halb so laut empfundenen Sinustons ist 2 bzw. 1/2 sone etc. Schalle mit dem selben Lautstrkepegel, d.i. Schalle die gleich laut erscheinen, a haben denitionsgem die selbe Lautheit. a Damit ist die Lautheit von beliebigen Schallen festgelegt. Ein Schall mit Lautheit N wird doppelt so laut empfunden wie ein Schall mit Lautheit 1/2 N . Ein Sinuston der Lautheit 0 sone liegt an der Wahrnehmungsgrenze, hat also einen Lautstrkepegel von etwa 3 phon. a Fr die Lautheit N eines Sinustons der Frequenz 1 kHz mit der Schallintenu sitt I gilt ab Pegeln von etwa 30 dB die Nherungsformel12 a a
von gr. phon = Stimme e Die Kurven gleicher Lautstrke (Isophonen) hat man auch durch sog. Bewertungsa kurven angenhert. Die A-Kurve gilt fr Lautstrkepegel bis 55 phon, die B-Kurve a u a fr Lautstrkepegel von 55 phon bis 85 phon und die C-Kurve fr Lautstrkepegel uber u a u a 85 phon, denn der Verlauf der Isophonen ist fr verschiedene Lautstrkepegel unterschiedu a lich. Man gibt jedoch oft einfach die nach der A-Kurve uber das Spektrum gewichtete Schallintensitt in dB(A) an [Profos 1994]. Eine bessere Messvorschrift fr die (subjektia u ve) Lautheit beliebiger Schalle ist in Kap. 1.2.3 bzw. in Kap. 1.5.3 beschrieben. 11 D.h. bei einem wirksamen Querschnitt des Ohres von 0,5 cm2 wird nach (1.2) eine Schallleistung von 1,6 1017 W eben noch wahrgenommen. Dies entspricht mit etwa 40 Photonen der Wellenlnge 510 nm pro Sekunde ungefhr der Lichtleistung, die vom Auge a a eben noch wahrgenommen wird. [Grimsehl 1987] 12 Dies ist ein Spezialfall der Stevensschen Potenzfunktion, benannt nach Stanley S. Stevens (19061973): E = kI , wobei E die Empndungsstrke und I die (phya sikalische) Reizintensitt bedeutet. Der Exponent hngt von der Art des Reizes ab. a a
10 9
1.3. TONHOHE 1 N 16 I I0
0,3
17
(1.3)
sone.
1.3
Tonhhe o
Die subjektive Tonhhenempndung wird hier einfach als Tonhhe beo o zeichnet. Gesucht ist nun eine physikalische Messgre, die diese subjektive o Tonhhenempndung mglichst gut beschreibt. Von einer mglichst guten o o o Beschreibung ist mindestens zu fordern, dass die Messgre genau dann o ansteigt, wenn die wahrgenommene Tonhhe ansteigt. Auerdem kann man o noch fordern, dass, falls die Messgre doppelt so gro ist, auch ein dopo pelt so hoher Ton wahrgenommen wird. Dasselbe gilt auch fr die oben als u Ma fr die Lautstrke eingefhrte Lautheit. Es sollte sich dann herausstelu a u len, dass die gefundene Messgre auch gut zur Beschreibung psychoakuo stischer Phnomene geeignet ist, die mit der Wahrnehmung der Tonhhe a o zusammenhngen. a Einen Sinuston bezeichnet man auch als reinen Ton oder einfach als Ton (tone). Einen Schall, der aus einer Uberlagerung von reinen Tnen besteht, o bezeichnet man als Klang (complex tone). Wenn die Frequenzen alle ganzzahlige Vielfache einer Grundfrequenz (basic or fundamental frequency) sind, bezeichnet man diesen Klang als harmonisch (harmonic complex tone). Nicht nur reine Tne rufen eine Tonhhenempndung hervor, sondern auch o o etwa Klnge, Glockentne13 und sogar bandpassbegrenztes Rauschen. Aua o erdem ist die Tonhhe eines reinen Tons nicht nur von dessen Frequenz, o sondern auch in geringem Mae von der Lautstrke abhngig. Gesucht ist a a also weiter die Abhngigkeit der Tonhhe von der physikalischen Beschaena o heit des Schalls. Es gibt zwei psychoakustische Messgren fr die Tonhhe (pitch): Die Vero u o hltnistonhhe (ratio pitch) misst man in mel14 , wobei die Skala der hrbaren a o o Tonhhen von 0 bis 2400 mel reicht. Die Tonheit (critical-band rate) misst o man in Bark15 , wobei deren Skala von 0 bis 24 Bark reicht. Zunchst interessiert man sich nur fr die Tonhhe von reinen Tnen. Sie a u o o hngt in erster Linie von der Frequenz des reinen Tons ab. Andere Abhngiga a 16 keiten werden hier vernachlssigt . a
[Campenhausen 1981] 13 Ein Glockenton wird mit einer Tonhhe gehrt, der keine Frequenz im Spektrum ento o spricht. Eine Obertonreihe ohne Grundton wird mit der Tonhhe gehrt, die der Frequenz o o des fehlenden Grundtons entspricht. Dieses Phnomen entdeckte A. Seebeck 1841. Die a Grundfrequenz ensteht nicht im Ohr, denn mit ihr lsst sich keine Schwebung erzeugen. a Die gehrte Tonhhe heit Residuum. Die Tonhhe eines beliebigen Schalls heit auch o o o virtuelle Tonhhe (virtual pitch). [Campenhausen 1981] o 14 von Melodie 15 Benannt nach Heinrich Barkhausen (18811956), der auch das Phon einfhrte. u 16 Die Tonhhe eines reinen Tons hngt auch in geringem Mae von dessen Schalldrucko a pegel ab [Zwicker 1982].
18
1.3.1
Verhltnistonhhe a o
Der Tonhhe, die ein reiner Ton der Frequenz 125 Hz bei 40 dB hervorruft, o ordnet man eine Verhltnistonhhe von 125 mel zu. Ausgehend von diesem a o Referenzpunkt bestimmt man die Frequenz, die als die doppelte, vierfache etc. Tonhhe empfunden wird. Auerdem wird diejenige Frequenz bestimmt, o die die halbe Tonhhenempndung hervorruft etc.17 o Man gelangt so zu einer Skala, die jeder Frequenz f eine bestimmte Verhlta 18 nistonhhe Hv zuordnet . o (1.4) df (Hv ) dHv f (Hv ) 1 Hz/mel fr 0 < f 500 Hz u 0,002f /mel fr f > 500 Hz u Hv Hz/mel fr 0 < f 500 Hz u 500 e0,002(Hv /mel500) Hz fr f > 500 Hz u
(1.5)
df (Hv ) Hz / mel dHv
25 20 15 10 5
. . . . . . . . .
. .. ..... ..... ... .... .... .... .. .... ..... ..... . ..... ..... .. . .. ...... . ..... . ... ... ... ........ . ... ......... . . . .... . ... . ........... . .... . ........... .. . . ........ . .. . ......... . ..... ....... . .. . ... ...... ..... . ..... ....... .. . .. ....... ....... ...... . ..... . . ..... ... ..... ... ..... . .. ..... .... ..... ... ..... .... .. .. ..... .. ..... ... ..... . . ..... .. . ..... ... . ..... .... .. ..... ..... ..... .. ... ..... .. .... .. .... . . ..... ..... ... . ..... .. ... ..... ... . ..... ..... ... .. ..... .... . ... ...... ... ....... .... . ... . . ..... . . ........ ..... .. . ................ . ............
... ....
.. ....
.. ....
5000
10000 f /Hz
Abb. 1.1: Breite von 1 mel in Hz bei verschiedenen Frequenzen nach (1.4). Gestrichelt: Nherung nach Zwicker, gepunktet: Nherung nach a a Traunmller (siehe Funote 21 auf Seite 20). u Es stellt sich heraus, dass der Ort der maximalen Auslenkung der Basilarmembran in der Cochlea, vom Helicotrema aus gemessen (siehe Kap. 2.1.3), proportional zur Verhltnistonhhe ist, d.h. 0,7 mel entsprechen 9 m oder a o einer inneren Haarzelle auf der Basilarmembran. [Zwicker 1982]
Nach [Zwicker 1982] neigen die Versuchspersonen nach ausgiebigem Genuss abendlndischer Musik dazu, einfach eine Oktave einzustellen, wenn sie nach der dopa pelten Tonhhenempndung gefragt werden. Man nimmt deshalb zur Erzeugung der Auso gangstonhhe keinen reinen Ton, sondern Schmalbandrauschen. Auerdem benutzt man o die Abfragemethode, d.h. man lt die Versuchsperson die Tonhhe nicht selbst einstellen, a o sondern fragt nur, ob die Tonhhenempndung bei einer vorgegebenen Vergleichstonhhe o o mehr oder weniger als doppelt so hoch ist. 18 Durch ihre Nichtlinearitt weicht diese Skala von der ublichen Vorstellung ab, dass a ein doppelt so hoher Ton auch eine doppelt so hohe Frequenz habe. Nach [Zwicker 1982] ist die abendlndische Musik, jedenfalls die ltere, allerdings hauptschlich auf einen Frea a a quenzbereich unterhalb von 1 kHz beschrnkt, in dem sich die Nichtlinearitten noch nicht a a allzu stark bemerkbar machen.
17
1.3. TONHOHE
19
f /kHz
10
.. . .. . . . .. . .. . .. . . .. . .. . . .. .. . . . . . ... . ... . .. . . . . . . .. . .. .. ... .. .. .. .. . .. ... . .. .. .. . .. . .. .. . ... . ... . . ... .. . .. ... . . ... .. ... .. . ... ... . ... .. ... .. . ... ... . . .. ... ... . . .. ... ... ... .. . ... ... . . . ... ... . . .... . .... .... .. ... .... ... ... . . . ... . . .... .... ... . . .... ... . .... . ... .. . ...... ... ..... ... .. ...... ... . ...... .. . . ... . . ...... .. ......... . .......... ........ ........... ............ . ............ ........... ............... .. ............... .. .................. ................... .................... ................. .......... ...........
500
1000
1500
2000 Hv /mel
Abb. 1.2: Frequenz f als Funktion der Verhltnistonhhe Hv nach (1.5). a o Gestrichelte und gepunktete Linien wie Abb. 1.1. Die gerade noch wahrnehmbare Tonhhendierenz oder Tonunterschiedso schwelle19 (just-noticeable pitch dierence) betrgt etwa 1 mel, was nur 1,5 a Haarzellen entspricht. Man misst die gerade noch wahrnehmbare Tonhheno dierenz, indem man zwei reine Tne mit Pause kurz nacheinander vorspielt. o Die Versuchsperson soll entscheiden, ob die Tonhhen der beiden Tne gleich o o oder verschieden waren. Je lnger die Tne dauern, desto kleiner ist die geraa o de noch wahrnehmbare Tonhhendierenz. Sie erreicht bei einer Dauer von o 200 ms allerdings fast schon ihren geringsten Wert. Die gerade noch wahrnehmbare Tonhhenmodulation (just-noticeable pitch o modulation) betrgt etwa 3 mel. Man misst sie, indem man einen reinen Ton a in der Tonhhe moduliert. Die Versuchsperson soll entscheiden, ab welcher o Amplitude sie einen Unterschied zum unmodulierten reinen Ton wahrnehmen kann. Die optimale Modulationsfrequenz ist hierbei 4 Hz.20 Zum Vergleich: Das Frequenzverhltnis zweier aufeinanderfolgender Halbtne a o 12 betrgt 2 1,059. Bei Frequenzen kleiner als 500 Hz entspricht dies einer a Tonhhendierenz von etwa 30 mel. o
1.3.2
Tonheit
Die Tonheit (critical-band rate) eines reinen Tons ist (1.6) z 100 Hv Bark/mel,
wobei Hv die Verhltnistonhhe bedeutet. a o

Im Unterschied zur Tonunterschiedsschwelle ist die Tonunterscheidungsschwelle diejenige Tonhhendierenz, ab der die Versuchsperson auch angeben kann, welcher der beiden o Tne hher ist. Die Tonunterscheidungsschwelle ist grer als die Tonunterschiedsschwelle. o o o 20 Dass die gerade noch wahrnehmbare Tonhhenmodulation bei schnelleren Modulao tionsfrequenzen ansteigt, liegt wahrscheinlich an den Integrationszeiten des Gehrs. Der o Anstieg bei kleinen Modulationsfrequenzen ist nach [Zwicker 1982] auf unser begrenztes Erinnerungsvermgen zurckzufhren, d.h. wenn sich die Tonhhe nur langsam ndert, o u u o a erinnern wir uns nicht mehr daran, wie hoch der Ton vorher war.
19
20
z/Bark Schritte Hv /mel Haarzellen l/mm 24 640 2400 3600 32 1 27 100 150 1,3 1 3,8 5,6 0,05 1 1,5 0,013 1 0,009 Tab. 1.1: Umrechnung zwischen verschiedenen zur Tonhhe proportionalen o Gren: Tonheit in Bark, die Zahl der unterscheidbaren Tonhhen (Schritte) o o im Sinne der gerade noch wahrnehmbaren Tonhhenmodulation, Tonhhe in o o mel, die Zahl der Haarzellen und die Lnge entlang der Basilarmembran. a Der Frequenzabstand, der 1 Bark entspricht, ist nach (1.5) und (1.6) fr Freu quenzen kleiner 500 Hz ungefhr 100 Hz und fr hhere Frequenzen ungefhr a u o a 21 0,2f . Er heit auch Frequenzgruppenbreite (critical-bandwidth). Alle Frequenzen, die innerhalb von einem Bark liegen, heien auch Frequenzgruppe (critical-band ). Die Tonheit bzw. die Frequenzgruppe haben ihre eigene psychoakustische Berechtigung neben der Verhltnistonhhe, da sie das geeignete Ma fr a o u einige psychoakustische Phnomene darstellen. Im Folgenden sollen einige a Methoden zur Bestimmung der Frequenzgruppenbreite diskutiert werden. Die erste Methode arbeitet mit der Lautstrkeschwelle, ab der man eine Reia he von reinen Tnen in isofrequentem Abstand, z.B. 20 Hz, gerade noch o hrt. Lautstrke meint dabei die Schallintensitt aller Tne zusammen. o a a o Liegen alle Tne innerhalb von einem Bark, so ist unabhngig von der Ano a zahl der Tne immer eine konstante Schallintensitt notwendig, um die Tne o a o zu hren. Liegen einige Tne auerhalb der Frequenzgruppe, so muss die o o Schallintensitt entsprechend hher eingestellt werden. Verallgemeinert bea o deutet das, ein Schall wird genau dann gehrt, wenn innerhalb einer Freo quenzgruppe eine ausreichende Schallintensitt auf das Gehr wirkt. a o
In [Zwicker 1982] und [Zwicker 1990] werden genauere Nherungsformeln als (1.4) und a (1.5) angegeben: z/Bark = 13 arctan(0,76f /kHz) + 3,5 arctan(f /7,5 kHz) 2 fG /Hz = 25 + 75 1 + 1,4(f /kHz)2
0,69 21
Hierbei bedeuten z die Tonheit, f die Frequenz eines reinen Tons und fG die Frequenzgruppenbreite. Traunmller (1990) gibt einfachere, umkehrbare Nherungsformeln fr die Tonheit u a u an [Sottek 1993]: 26,81f /kHz 0,53 1,96 + f /kHz z/Bark + 0,53 f /kHz = 1,96 26,28 z/Bark (1,96 + f /kHz)2 fG /kHz = 52,5476 z/Bark =
1.4. VERDECKUNG
21
Eine zweite Methode zur Bestimmung der Frequenzgruppenbreite arbeitet analog zur ersten (siehe Abb. 1.3). Jedoch wird nun neben den reinen Tnen o weies Rauschen eingespielt. Das weie Rauschen maskiert die reinen Tne o genau dann, wenn die Schallintensitt der reinen Tne innerhalb von einem a o Bark nicht ausreicht. D.h. erst wenn die Schallintensitt der reinen Tne, die a o in ein Bark fallen, 1/4 bis 1/2 der Schallintensitt des weien Rauschens ina nerhalb eines Barks erreicht hat, sind die reinen Tne hrbar. Dies entspricht o o einem Schallpegelunterschied von 3 dB (bei niedrigen Frequenzen) bis 6 dB (bei hohen Frequenzen). Schallintensitt a
. .. ... ..
. . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . .... ... .. ... .
... .... .... ..
1 Bark
. ... .. . .. ....
Frequenz
Abb. 1.3: Bestimmung der Frequenzgruppenbreite. Die Schallintensitt des a lautesten reinen Tons gengt gerade, um ihn trotz des Rauschens hrbar zu u o machen. Die beiden mittellauten Tne addieren sich zur selben Schallinteno sitt. Bei drei oder mehr Tnen nimmt die Laustrke eines Tons nicht mehr a o a ab, da bereits die Grenze von 1 Bark uberschritten wird: Nur die Tne, die o in ein Bark fallen, tragen dazu bei, das Rauschen zu ubertnen. o Eine dritte Methode arbeitet mit Hilfe von Verdeckung, die im nchsten a Abschnitt besprochen wird.
1.4
Verdeckung
Ein (leiser) Testschall kann durch einen anderen (lauten) Schall, den Stro schall, verdeckt werden. D.h. es wird nur der Strschall gehrt und nicht der o o Testschall. Man bezeichnet dieses Phnomen als Verdeckung (masking)22 . a Die Mithrschwelle (masked threshold ) ist der Schalldruckpegel eines reinen o Tons (masked tone), den dieser haben muss, damit er trotz des Strschalls o (masker ) gerade noch wahrgenommen wird. Als Strschall kann z.B. Schmalbandrauschen (narrow band noise) verweno det werden. Wichtig sind die Mithrschwellen fr frequenzgruppenbreites o u Schmalbandrauschen (threshold masked by critical-band wide noise). Je nher a sich die Frequenz des Testtons an der Mittenfrequenz des SchmalbandrauDieses Phnomen ist monaural, d.h. werden Test- und Strschall verschiedenen Ohren a o dargeboten, so ist keine Verdeckung mehr nachweisbar [Campenhausen 1981].
22
22
schens bendet, desto grer wird die Mithrschwelle. Der Anstieg bei niedo o rigen Frequenzen ist dabei steiler als der Abfall bei hheren Frequenzen. Der o Abfall nach hheren Frequenzen wird umso acher, je lauter das Schmalbando rauschen ist. Man bezeichnet dies als nichtlineare Aucherung der oberen a Flanke der Mithrschwelle. o Es gibt auch das Phnomen teilweiser Verdeckung (partial masking). Hier a wird die Lautstrkeempndung eines Testtons in Anwesenheit eines Stra o schalls reduziert. Die typische Skala, auf der Verdeckung stattndet, ist die Barkskala: Man misst die Mithrschwelle eines reinen Tons, der von je einem Schmalbando rauschen oberhalb und unterhalb der Frequenz des reinen Tons ankiert wird. Die Mithrschwelle ist abhngig von den beiden Frequenzabstnden o a a des Schmalbandrauschens vom reinen Ton. Bei Abstnden kleiner als etwa a ein Bark bleibt die Mithrschwelle konstant, bei greren Abstnden nimmt o o a sie um etwa 10 dB/Bark ab. Interessant sind auch Vorverdeckung (pre- or backward masking) und Nachverdeckung (post- or forward masking): Nach dem Abschalten von weiem Rauschen wird ein kurzer Tonimpuls gegeben. Der Schalldruckpegel, bei dem man den Tonimpuls gerade noch hrt, wird in Abhngigkeit von der Zeitdifo a ferenz zwischen Rauschen und Tonimpuls aufgetragen. Man sieht, dass der Tonimpuls umso lauter sein muss, je geringer der Zeitabstand ist. Dieser Effekt heit Nachverdeckung, da ein (lauter) Schall auch nach dem Abschalten einen leisen (Test-) Schall verdecken kann. Die Nachverdeckung dauert bis etwa 200 ms. Der Eekt, bei dem der Testton vor dem maskierenden Rauschen eingespielt wird, heit Vorverdeckung. Diese dauert allerdings nur etwa 20 ms.
1.5
Funktionsschemata
Psychoakustische Funktionsschemata oder Funktionsmodelle (models) beschreiben den Zusammenhang zwischen den physikalischen Eigenschaften der Reizgre (z.B. Frequenz, Schalldruck) und den Empndungsgren (z.B. o o Tonheit, Lautheit) in Form einer Vorschrift, die es gestattet, die Empndungsgren aus den Reizgren zu berechnen. o o Funktionsschemata knnen zur Konstruktion von Messgerten fr Empno a u dungsgren verwendet werden und um das Zustandekommen einer bestimmo ten gemessenen Empndung besser zu verstehen.
1.5.1
Anregung und Erregung
Anregung und Erregung sind Zwischengren, die in Funktionsschemata des o Gehrs eine Rolle spielen. o Die in eine Frequenzgruppe fallende Schallintensitt heit Anregung oder Frea quenzgruppenintensitt (incitation or critical-band intensity). Fr die Anrea u gung IG einer Frequenz f gilt
1.5. FUNKTIONSSCHEMATA
1 f + 2 fG (f )
23
(1.7)
IG (f ) :=
1 f 2 fG (f )
dI(f ) df, df
dI(f ) df
wobei fG (f ) die Frequenzgruppenbreite an der Frequenz f und Schallintensittsdichte ist. a
die
Das entsprechende logarithmische Ma LG heit Anregungs- oder Frequenzgruppenpegel (critical-band level ). (1.8) LG := 10 log(IG /I0 ) dB
Ein frequenzgruppenbreites Schmalbandrauschen hat auf der Tonheitsskala eine dreieckfrmige Anregung, ein reiner Ton hat eine rechteckige Anregung. o Zur Berechnung der Anregung kann man die Schallintensittsdichte mit eia nem rechteckigen Filter falten. Dies entspricht jedoch nur ganz grob den Eigenschaften des Gehrs mit seiner beschrnkten aber sehr guten Frequenzo a selektivitt und den Mithrschwellen mit ihren Flanken. Deshalb wird das a o Ma der Erregung (excitation) eingefhrt. Um die Erregung E(z) zu erhalu ten, wird die Schallintensittsdichte I(z) mit einer Funktion M (z) gefaltet, a die in erster Nherung der Mithrschwelle eines reinen Tons23 nach Kap. 1.4 a o entspricht, d.h.
24 Bark
(1.9) wobei
E(z) =
0
dI(z ) M (z z) dz , dz
M (z)
10(27 dB/Bark z)/(10 dB) 10(10 dB/Bark z)/(10 dB)
fr z 0 u fr z > 0 u
Dies ist eine Vereinfachung der ausfhrlichen Darstellung in [Sottek 1993]. u Darberhinaus wird die nichtlineare Aucherung der Mithrschwellen veru a o nachlssigt. a Das entsprechende logarithmische Ma heit Erregungspegel (excitation level ). Man beachte, dass die in Abb. 1.4 gezeigte Erregung in Ubereinstimmung mit Kap. 1.4 zu tiefen Frequenzen hin schneller (etwa 27 dB/Bark) als zu hohen abfllt (etwa 10 dB/Bark). a
1.5.2
Schwellenfunktionsschema fur langsame Schallnderungen a
Die Annahme dieses Modells ist, dass zwei Schalle als verschieden empfunden werden, wenn sich deren Erregungen an irgendeiner Stelle der Tonheitskala um den Faktor 0,25 unterscheiden. Dies entspricht einer Dierenz in den Erregungspegeln um 1 dB.
Die Mithrschwelle eines reinen Tons ist schwer zu messen, da die Versuchspersonen o Schwebungen und den durch nichtlineare Verzerrungen verursachten Dierenzton als Hinweis auf die Existenz des Testtons verwenden [Zwicker 1982, Zwicker 1990].
23
24
E 1.0 0.8 0.6 0.4 0.2
. . . . . . . . . . . . . . . . . . . .. . .. . .. .. .. .. .. . .. .. .. .. .. . .. .. .. .. .. .. .. .. .. .. .. . .. .. .. .. . .. .. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. . .. . . .. . .. . ... .... .. .................................................................................................................................. .. ................................................................................................................................. .......................... ....... .......................... .......
10
15
20 z/Bark
Abb. 1.4: Erregung E(z) = M (z 5 Bark) des Gehrs durch einen reinen o Ton mit der Tonheit 5 Bark. Gerade wahrnehmbare Amplitudenmodulation Gbe es keine nichtlineare Aucherung, so wre die gerade wahrnehmbare a a a Amplitudenmodulation eines reinen Tons unabhngig vom Schallpegel genau a 1 dB. Wegen der nichtlinearen Aucherung ndert sich jedoch die Erregung a a an der oberen Flanke strker als die Gesamterregung. Deshalb knnen bei a o groen Pegeln mit starker nichtlinearer Aucherung auch Schallpegelndea a rungen registriert werden, die wesentlich kleiner als 1 dB sind. Gerade wahrnehmbare Frequenzmodulation Eine Frequenznderung eines reinen Tons ist genau dann gerade noch wahra nehmbar, wenn sie an irgendeiner Stelle der Tonheitskala eine Erregunspe gelnderung von 1 dB hervorruft. Die grte Anderung des Erregungspea o gels ndet an der unteren Flanke statt. Die Steigung der unteren Flanke ist 27 dB/Bark. Somit gilt fr die gerade noch wahrnehmbare Tonhhenmou o dB dulationsamplitude z 27 Bark = 1 dB und somit (1.10) z = 1 Bark = 3,7 mel 27
Dies stimmt gut mit der gemessenen gerade noch wahrnehmbaren Tonhheno modulation von etwa 3 mel uberein. Ruhehrschwelle und Mithrschwelle o o Ein reiner Ton wird neben einem Strschall genau dann gehrt, wenn er an o o irgendeiner Stelle der Tonheitskala eine Erregungspegelnderung von 1 dB a hervorruft. Die Ruhehrschwelle ist durch ein internes Rauschen erklrbar, etwa in der o a neuronalen Verarbeitung oder bei tiefen Frequenzen durch Muskelbewegung und Puls hervorgerufen.
1.5. FUNKTIONSSCHEMATA
25
1.5.3
Funktionsschema der Lautheit
Zwei Tne mit groem Frequenzabstand addieren sich in der Lautheit. Zwei o Tne der gleichen Frequenz addieren sich natrlich in der Schallintensitt und o u a fhren zu einer Anderung der Lautheit entsprechend (1.3). Dazwischen gibt u es einen ieenden Ubergang, der durch das Konzept der Erregung erklrt a werden kann. Man nimmt an, dass die Lautheit N eines Schalls das Integral uber die spezische Lautheit N (specic loudness)
24 Bark
(1.11)
N=
0
N dz,
ist, wobei die spezische Lautheit aus der Erregung des Schalls berechnet werden kann nach (1.12) ERHS N = 0,08 E0
0,23
1 + E/ERHS 2
0,23
sone , Bark
wobei ERHS die Erregung an der Ruhehrschwelle und E0 die Erregung durch o einen Ton der Schallintensitt I0 bedeuten24 . [Sottek 1993, Zwicker 1982] a Man beachte, dass sich fr eine gerade noch unhrbare Erregung E = ERHS u o N = 0 ergibt. Der Vorfaktor 0,08 ist so gewhlt, dass die Lautheit eines a Sinustons mit dem Lautstrkepegel 40 phon gerade N = 1 sone ist, wie in a Kap. 1.2.3 deniert. Das hier kurz vorgestellte Funktionsschema der Lautheit gilt nur fr stau tionre, d.h. nicht stark zeitabhngige Schalle. Dierenzierte Darstellungen a a nden sich in [Sottek 1993].
24
Irrige Vorstellungen uber die Lautheit werden in [dtv-Atlas 1987] verbreitet.
Kapitel 2 Auditorisches System

Der das Ohr erreichende Schall wird in einen neuronalen Code umgewandelt. Dieser Code wird weiterverarbeitet, mit Eingaben von anderen Sinnen und der Erfahrung kombiniert und fhrt letztlich zu einer Reaktion des Individuu ums. Diesen gesamten Vorgang bezeichnet man als hren. o Die fr das Hren notwendigen Strukturen bezeichnet man als auditorisches u o System (auditory system). Die unten angegebenen Informationen stammen grtenteils aus [Popper 1992, Zenner 1994, Zwicker 1990]. o
2.1
Peripheres auditorisches System
Das periphere auditorische System (peripheral auditory system) wandelt den Schall in einen neuronalen Code um. Es besteht aus Auenohr, Mittelohr und Innenohr. Es wird auch einfach als Ohr bezeichnet.
2.1.1
Auenohr
Das Auenohr (outer ear ) sammelt den Schall und leitet ihn zum Mittelohr weiter. Es besteht aus der Ohrmuschel (pinna) und dem Gehrgang (external o auditory canal ), der am Trommelfell endet. Die zahlreichen Einbuchtungen und Erhebungen in der Ohrmuschel haben auf die Umwandlung bzw. Weiterleitung des Schalls keinen Einuss, da sie kleiner sind als die typischen Wellenlngen hrbaren Schalls. (Ein Sinuston der Frequenz 16 kHz hat eia o ne Wellenlnge von etwa 2 cm.)1 Einen greren Einuss haben der Kopf a o und die Ohrmuschel selbst: Sie wirken als linearer Filter, der das Spektrum des freien Schallfeldes richtungsabhngig verndert, denn tiefere Frequenzen a a werden strker um den Kopf herum gebeugt als hohe2 . Die Ubertragungsa funktion zwischen dem Schalldruck im freien Schallfeld und dem Schalldruck
Dies ist jedenfalls die gngige Lehrmeinung. Nach [Spektrum 4/1997] spielen allerdings a die Reexionen an den Erhebungen evtl. beim Richtungshren eine Rolle. o 2 Dies kann zur Bestimmung der Richtung einer Schallquelle ausgenutzt werden, ohne den Kopf zu drehen. Nur Sugetiere, die auch relativ hohe Frequenzen noch hren knnen, a o o haben bewegliche Ohrmuscheln
1
26
2.1. PERIPHERES AUDITORISCHES SYSTEM
27
unmittelbar am Trommelfell heit auch Ubertragungsfunktion des Kopfes3 (head-related transfer function, HRTF ).
2.1.2
Mittelohr
Das Mittelohr (middle ear ) beginnt am Trommelfell (ear drum or tympanic membrane) und endet an der Cochlea. Es dient zur Umwandlung der Schalldrucknderungen am Trommelfell in Schwingungen der Flssigkeit in a u der Cochlea. Dabei sollte mglichst die gesamte Schallenergie absorbiert o werden4 . Dazu werden die Schwingungen des Trommelfells zunchst auf die a Gehrknchelchen (middle ear bones) Hammer (malleus), Amboss (incus) o o und Steigbgel (stapes) ubertragen, wobei letzterer die Schwingungen auf u das ovale Fenster der Cochlea ubertrgt. Der Druck auf das ovale Fenster a wird dabei etwa um den Faktor 44 verstrkt, wobei 17-fache Verstrkung a a auf das Flchenverhltnis zwischen Trommelfell und ovalem Fenster, 1,3a a fache Verstrkung auf die Hebelwirkung der Gehrknchelchen und 2-fache a o o Verstrkung auf die Tendenz des Trommelfells sich zu wlben zurckzufhren a o u u ist. Dies gilt bei etwa 2500 Hz, die Ubertragungsfunktion ist wieder frequenzabhngig5 . a
2.1.3
Innenohr
Das Innenohr besteht aus den Bogengngen (semicircular canal ), dem Vestia bularapparat (vestibule) und der Cochlea (cochlea). Bogengnge und Vestia bularapparat dienen dem Gleichgewichtssinn. Die Cochlea fhrt, grob gesagt, u eine Spektralanalyse des auf das ovale Fenster (oval window ) ubertragenen Schalls durch6 .
Diese muss bei psychoakustischen Messungen mit Kopfhrer bercksichtigt werden, o u indem ein sog. Freifeldentzerrer vorgeschaltet wird, der den Einuss des Kopfes simuliert, so dass die Versuchsperson den Schall so hrt, als hrte sie ihn im freien Schallfeld. o o 4 Die Impedanz von Wasser ist wesentlich grer als die Impedanz von Luft (1,5106 bzw. o 2 420 kg/m s). Dementsprechend hat die ssigkeitsgefllte Cochlea eine hohe Eingangsimu u pedanz (frequenzabhngig 6 104 1,5 105 kg/m2 s bei der Katze). Trfe der Schall somit a a direkt auf die Flssigkeit in der Cochlea, wrde ein Groteil der Schallenergie reektiert u u werden. Das Mittelohr sorgt nun dafr, dass das System aus Trommelfell, Gehrknchelu o o chen und Flssigkeit eine der Luft vergleichbare Impedanz hat. Man spricht von Impedanzu anpassung durch das Mittelohr. Patienten ohne Gehrknchelchen haben aufgrund der o o fehlenden Impedanzanpassung einen Gehrverlust von 60 dB [Zenner 1994]. Die genaue o Abhngigkeit der Impedanz des Trommelfells von der Frequenz, auch ihres imaginren a a Anteils, ndet man in [Keidel 1995]. 5 Die Gehrknchelchen sind bei hheren Frequenzen ohne Bedeutung, da diese durch o o o Knochenleitung auf das Innenohr ubertragen werden [Campenhausen 1981]. 6 Diese Tatsache bezeichnet man auch als Ohmsches Gesetz der Akustik, benannt nach Georg Simon Ohm (17891845). Insbesondere spielen nach diesem Gesetz die Phasenlagen der Teilschwingungen keine Rolle. Auerdem sollten sich reine Tne gegenseitig nicht o beeinussen. Die Phnomene Schwebung und Rauhigkeit sowie das von Georg Andreas a Sorge 1745 und Guiseppe Tartini 1754 beschriebene Hren von Kombinationstnen o o widersprechen jedoch dem Ohmschen Gesetz. Uberlagert man etwa zwei Tne mit den o Frequenzen f1 und f2 , wobei f2 = 2f1 + f und f f1 , so ndert sich deren Phasenlaa ge periodisch. Diesen periodischen Wechsel kann man hren. Periodische Anderungen der o Phasenlage knnen auch zur Wahrnehmung zustzlicher Tne fhren: Uberlagert man die o a o u
3
28 Cochlea
KAPITEL 2. AUDITORISCHES SYSTEM
Die Cochlea ist ein eingerollter, etwa 35 mm langer, ssigkeitsgefllter Kau u nal. Er ist an seinem Ende, dem Apex, verschlossen. Der Kanal ist durch Membranen in mehrere Unterkanle eingeteilt: Die Scala tympani wird durch a die Basilarmembran (basilar membrane) von der Scala media getrennt, die Scala media von der Scala vestibuli durch die Reinersche Membran. Scala vestibuli und Scala tympani sind am Apex verbunden. Diese Verbindung heit Helicotrema. Das Ende des Kanals am Apex heit auch apikal, das andere Ende basal. Das ovale Fenster stellt die Verbindung zwischen Steigbgel und Scala tympau ni her, das runde Fenster (round window ) trennt die Scala tympani vom Mittelohr. Bringt der Steigbgel das ovale Fenster zum Schwingen, so ubertrgt u a sich diese Schwingung auf die Flssigkeit in der Scala vestibuli und somit u auf die Basilarmembran. Die Basilarmembran ist am apikalen Ende breiter (0,52 mm), elastischer und nicht unter Spannung, whrend sie am Ena de mit dem ovalen Fenster steifer, schmler (0,16 mm) und unter leichter a Spannung ist. Sie wird auerdem von vielen Querfasern durchzogen. Betrachtet man jede dieser Fasern als unabhngigen Schwinger, so sieht man aufa grund der oben beschriebenen Eigenschaften der Basilarmembran, dass diese Schwinger vom basalen zum apikalen Ende hin abnehmende Eigen- bzw. Resonanzfrequenzen7 haben. Es ist daher zu erwarten, dass tiefe Frequenzen zu starken Auslenkungen der Basilarmembran am apikalen Ende und hohe Frequenzen zu starken Auslenkungen am basalen Ende fhren. Beobachtunu gen, mechanische Modelle und Simulationen besttigen dies. Tatschlich zeigt a a sich, dass bei Stimulation des ovalen Fensters mit einem Sinuston eine Wanderwelle vom basalen Ende zum apikalen Ende der Basilarmembran luft8 . a Die Einhllende dieser Wanderwelle hat ein Maximum, wobei die Stelle dieu ses Maximums in der beschriebenen Weise von der Frequenz des Sinustons abhngt. Die Basilarmembran wirkt somit als Frequenzanalysator. a
beiden Frequenzen f1 und f2 mit f2 = 2/3f1 , so ist die Uberlagerung mit der Frequenz fW = 1/2f1 periodisch. Diese Frequenz hrt man als zustzlichen Ton. Diese Art von Komo a binationstnen kommt erst durch neuronale Verarbeitung im Gehirn zustande, denn das o Phnomen tritt auch dann auf, wenn jedes Ohr mit nur einer Frequenz gereizt wird. Auera dem lsst sich der zustzliche Ton durch Rauschen nicht verdecken. [Campenhausen 1981] a a 7 Die Resonanztheorie des Hrens stammt von Hermann Ludwig Ferdinand von o Helmholtz 1863. Durch reine Resonanz lsst sich die Ubertragungsfunktion der Basia larmembran allerdings nicht erklren, denn Resonanz wre zu trge und Resonanzkurven a a a wren zu breit. Das Gehr kann bereits die Tonhhe eines Tonreizes mit nur zwei bis drei a o o Perioden bestimmen, whrend ein Resonator viel mehr Zeit fr den Einschwingvorgang a u bruchte. Auch die Phasenverzgerungen auf der Basilarmembran verhalten sich anders a o als bei einem Resonator zu erwarten wre [Campenhausen 1981]. Siehe auch Kap. 3.1.1. a 8 Die Bewegung der Basilarmembran wurde von Georg von Bksy (18991972) mit e e dem Mikroskop unter stroboskopischer Beleuchtung beobachtet. Er baute auch mechanische Cochlea-Modelle. [Campenhausen 1981]
2.1. PERIPHERES AUDITORISCHES SYSTEM Cortisches Organ
29
Auf der Basilarmembran, auf der Seite der Scala media, sitzt das Cortische Organ9 (organ of corti ). Es besteht im Wesentlichen aus einer Reihe innerer Haarzellen vom basalen zum apikalen Ende, die von einer Membran, der Tektorial- oder Deckmembran (tectorial membrane), abgedeckt werden. Die Stereocilien der inneren Haarzellen berhren die Tektorialmembran nicht. u Jedoch gibt es drei Reihen uerer Haarzellen, deren Stereocilien mit der a Tektorialmembran verwachsen sind. Die Bewegung der Flssigkeit zwischen u Tektorial- und Basilarmembran verbiegt die Stereocilien der inneren Haarzellen. Innere Haarzellen Die etwa 3600 inneren Haarzellen (inner hair cells) reagieren auf eine Bewegung ihrer Stereocilien mit einem elektrochemischen Potential. Es heit Rezeptorpotential (receptor potential ). Das Rezeptorpotential erregt die afferenten auditorischen Nervenfasern. Jede innere Haarzelle wird von etwa 8 Hrnervenfasern kontaktiert. o Auere Haarzellen Das Cortische Organ enthlt etwa 20000 uere Haarzellen, die in drei Reihen a a angeordnet sind. Die Stereocilien der ueren Haarzellen sind im Ggs. zu a denen der inneren Haarzellen fest mit der Tektorialmembran verwachsen. Sie reagieren auf eine Bewegung ihrer Stereocilien mit einer Kontraktion10 , verstrken dadurch die Schwingung der Basilarmembran und somit indirekt a die Erregung der inneren Haarzellen11 . Eerente Nervenfasern, die an den ueren Haarzellen enden12 , reduzieren a deren motorische Aktivitt [Shepherd 1993]. Man vermutet deshalb, dass die a a ueren Haarzellen dazu dienen, so etwas wie den optimalen Arbeitspunkt des Gehrs einzustellen. o
2.1.4
Hrnerv o
Hier soll beschrieben werden, wie das periphere auditorische System Schall letztlich in Nervenimpulse im auditorischen Nerv umwandelt. Insbesondere mssen Schallintensitt und Frequenz eines Sinustons codiert werden. u a
Von Alfonso Corti 1851 beschrieben. Die Zeitkonstante hierfr betrgt etwa 240 s, d.h. die ueren Haarzellen knnen u a a o einer Bewegung der Basilarmembran sehr gut folgen. 11 Die ueren Haarzellen fhren auch zu einer schrferen Frequenzabstimmung in der a u a Antwort der inneren Haarzellen. Die Frequenzselektivitt der Cochlea und damit des a Gehrs hngt also entscheidend von aktiven Prozessen in den ueren Haarzellen ab. o a a [Shepherd 1993] 12 20 uere Haarzellen innervieren zusammen auch eine aerente Nervenfaser. Diese a Aerenzen dienen jedoch wahrscheinlich nur zur Kontrolle der ueren Haarzellen und a nicht der Reprsentation von Schall. a
10 9
30 Codierung der Intensitt a
Die spontane Aktivitt von auditorischen Nervenfasern reicht von wenigen a Aktionspotentialen pro Sekunde bis zu etwa 100 pro Sekunde. Die Maximale Feuerrate sind etwa 500 Aktionspotentiale pro Sekunde. Die Schwellintensitt eines Neurons kann deniert werden als der Stimulus, a der die Feuerrate uber die spontane Feuerrate hinaus erhht. Auditorische o Nervenfasern haben eine umso niedrigere Schwellintensitt, je grer ihre a o spontane Aktivitt ist. a Der Zusammenhang zwischen der Intensitt des Stimulus und der Feuerraa te heit Raten-Pegel-Funktion (input-output-function, intensity function or rate-level function). Je intensiver der Stimulus, desto grer wird i.d.R. die o Feuerrate, bis sie auf einem maximalen Wert sttigt oder sogar wieder ein wea nig abnimmt. Je grer die spontane Feuerrate der Nervenfaser, desto grer o o ist die Feuerrate bei Stimulation und desto niedriger ist die Schallintensitt, a bei der die Feuerrate dieser Nervenfaser sttigt. Das Verhltnis zwischen der a a grten Schallintensitt, die noch ein Anwachsen der Feuerrate bewirkt, und o a der Schwellintensitt heit Dynamikbereich (dynamic range) der Nervenfaa ser. Der Dynamikbereich auditorischer Nervenfasern liegt zwischen 20 und 50 dB. Das Gehr hat einen Dynamikbereich von bis zu 130 dB. Eine einzelne Nero venfaser kann diesen groen Dynamikbereich nicht codieren. Jedoch knnen o mehrere Nervenfasern mit unterschiedlichen Schwellintensitten diesen Dya namikbereich abdecken. Tatschlich werden bei zunehmender Erregung einer a Nervenfaser auch benachbarte Nervenfasern erregt. Codierung der Frequenz Ein Neuron im auditorischen System reagiert normalerweise auf einen Sinuston mit einer bestimmten Frequenz am intensivsten. Diese Frequenz heit charakteristische Frequenz (characteristic frequency) des Neurons. Das Neuron reagiert i.d.R. aber auch auf andere Frequenzen, nur weniger stark. Man kann nun die Feuerrate als Funktion der Frequenz auftragen. Ein solches Diagramm heit Isointensittskurve (isolevel or isointensity curve), a denn die Intensitt des Stimulus bleibt konstant. a Man kann jedoch auch auftragen, welche Intensitt des Stimulus bei welcher a Frequenz notwendig ist, um das Neuron gerade soundso oft feuern zu lassen. Ein solches Diagramm heit Tuningkurve (tuning curve or isorate curve). Oft trgt man einfach die Schwellintensitt uber der Frequenz auf. a a Tunigkurven im auditorischen Nerv zeigen folgende Charakteristik: Auf einen relativ langsamen Abfall der Stimulusintensitt bis zur charakteristischen a Frequenz folgt zu hheren Frequenzen hin ein sehr schneller Anstieg der noto wendigen Stimulusintensitt. a
2.2. ZENTRALES AUDITORISCHES SYSTEM Zweitonsuppression
31
Bisher war nur von Codierung der Lautstrke und Frequenz eines Sinustons a die Rede. Interessante nichtlineare Phnomene knnen auftreten, wenn zwei a o Sinustne gleichzeitig als Stimulus angeboten werden: Wird das Gehr nur o o mit einem reinen Ton gereizt, so wird die Nervenfaser mit der entsprechenden charakteristischen Frequenz gut auf diesen Reiz reagieren. Wird nun gleichzeitig ein anderer reiner Ton in einem bestimmten Frequenzabstand mit bestimmter Lautstrke angeboten, so kann die Feuerrate der Nervenfaser auch a wieder abnehmen. Diesen Vorgang nennt man Zweitonsuppression (two-tone suppression). Zweitonsuppression tritt schon auf der Ebene der Basilarmembran auf. Verantwortlich sind nichlineare Eekte, bei denen wohl auch die ueren Haara zellen eine Rolle spielen. [Zenner 1994]
2.2
Zentrales auditorisches System
Das zentrale auditorische System (central auditory system) sind die Strukturen im Gehirn, die zur Weiterverarbeitung des vom Hrnerven zur Verfgung o u gestellten neuronalen Codes dienen. Sie reichen vom Hrnerven uber meho rere Kerne bis zum auditorischen Cortex. Welche Strukturen sind aber an der Verarbeitung des Schalls beteiligt? Stimulation des Ohrs mag ja zur Erregung fast smtlicher neuronaler Systeme beitragen und letztlich zu einer a Muskelaktivitt etc. fhren. Als zum zentralen auditorischen System gehrig a u o werden deshalb nur solche Strukturen angesehen, die besonders stark oder in erster Linie durch akustische Reize stimuliert werden. Als Kern (nucleus) bezeichnet man eine Ansammlung von Neuronen, die sich anatomisch oder physiologisch von den Neuronen in ihrer Umgebung abheben. Die Kerne des auditorischen Systems sind durch Nervenfasern verbunden. Man nummeriert diese Nervenfasern nach der Zahl der synaptischen Verbindungen, die zwischen der Faser und der Cochlea liegen. Die Nervenfasern des Hrnervs werden somit als Fasern erster Ordnung bezeichnet, die den o ersten Kern verlassenden Fasern als Fasern zweiter Ordnung u.s.w. Die den auditorischen Cortex erreichenden Fasern sind Fasern etwa vierter bis fnfter u Ordnung. Innerhalb der Kerne liegen Interneuronen, die Verbindungen zwischen den Neuronen innerhalb der Kerne herstellen. Manche Nervenfasern passieren auch nur auditorische Kerne ohne synaptische Verbindungen zu ihren Neuronen herzustellen. Die Nervenfasern des Hrnervs kontakten nach Verlassen der Cochlea o zunchst den Nucleus cochlearis. Vom Nucleus cochlearis fhren Nervenfaa u sern sowohl zum ipsilateralen als auch zum kontralateralen Olivenkomplex. Von hier fhren Nervenfasern durch den Lemniscus lateralis zum Collicuu lus inferior, von hier wiederum zum Corpus geniculatum mediale und letzt lich zum auditorischen Cortex. Dieser Uberblick ist jedoch stark vereinfacht,
32
. . . . .. .. . .. .
. . .. .. .. .. .
auditorischer Cortex
. . .. .. .. . .. .
. . .. .. .. . ..
. . .. .. .. . .. .
. . .. .. .. . .. .
. . .. .. .. . .. .
. . .. .. .. .. . ..
..... ..... .... ... ...... ... .... . ... ...... ....... . ... .... .... .... .... .... .... .... .... .... .... .... .... .... .... .. . ..... ..... . ..... .... . ... . ... ... ... ... ... ... .. ... ... .... ... . ..... ... .... .. ... . .... .... ... ... ... .. ... .. .. ... ... .. .. .. .. ... ... .. .. .. ... ... .. ... .. ... .. .. .. ... ... .. .. .. .. ... ... .. .. .. ... ... .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. ... ...... .. ... .... ..... . .... ....... ... .. ..... . .. .. .. .... . ... . . ... . . .. .. .... .. .. ... .. .... .. .. .... . . .. .. ..... .. .. . .. .... .. ..... .. . .. .. .... ... .. ..... ... .. .. .. .... .. .... .. .. .. .. .. .... .. .... . .. .. .. ..... .... .. .. .. . .. .. .. .. .. ..... .... .. ..... .. .... ... .. .. .. .. ..... .. ..... .. . .. .. .. .... .. .. ..... .. .. .. .. ... ... .. .. . ... ... .. ... .. ... ... .. ... ... .. ... .. ... .. ... ... .. .. ... . . ... ... ... .. ... ... .. ... .. . ... .. . ... .. ... .. ... .. ... .. ... . ... . ... ... .. .
. . .. .. .. . ..
Corpus geniculatum mediale
. . .. .. .. . ..
. . .. .. .. . .. .
Colliculus inferior
. . .. .. .. . ..
Nuclei lemnisci laterales
. . .. .. .. . ..
Olivenkomplex
. . .. .. ... .. ..
Cochleariskern
Cochlea Abb. 2.1: Das zentrale auditorische System im Uberblick (vereinfacht). Rechtecke bedeuten Kerne, Pfeile Nervenfaserbndel. Jedes Faserbndel, das u u von einem Kern der rechten Hlfte in einen Kern der linken Hlfte luft, a a a ist auch symmetrisch von links nach rechts vorhanden (nicht eingezeichnet). Es sind nicht alle Verbindungen eingetragen, insbesondere Verbindungen zu nicht-auditorischen Teilen des Gehirns sind weggelassen. Auch eerente Fasern sind nicht aufgefhrt. u tatschlich sind die auditorischen Kerne viel strker untereinander verwoben a a (Abb. 2.1), was in den folgenden Kapiteln deutlicher werden sollte.
2.2.1
Nucleus cochlearis
Der Nucleus cochlearis (cochlear nucleus) bezieht seine neuronale Eingabe vom auditorischen Nerv. Er ist etwa 3 5 mm gro und lt sich in drei Abschnitte unterteilen, den a Nucleus cochlearis anteroventralis, den Nucleus cochlearis posteroventralis und den Nucleus cochlearis dorsalis. Jeder dieser Abschnitte ist in Streifen oder Linien von Neuronen organisiert. Neuronen jedes dieser Streifen haben die selbe charakteristische Frequenz. Man spricht auch von tonotoper Organisation. Im Nucleus cochlearis gibt es verschiedene Typen von Zellen mit jeweils anderen charakteristischen Antworten auf akustische Stimuli: Primary-like Neuronen reagieren auf einen kurzen Sinuston hnlich wie die Nervenfasern a des Hrnervs mit einer zunchst krftigen, dann schwcher werdenden Anto a a a wort. On-Neuronen reagieren nur auf das Anschalten des Stimulus, Pau ser-Neuronen haben eine gewisse Latenzzeit, Chopper-Neuronen zeigen
2.2. ZENTRALES AUDITORISCHES SYSTEM
33
eine oszillatorische Antwort. Diese Neuronentypen unterscheiden sich jeweils auch anatomisch. [Shepherd 1993] Die Neuronen im Nucleus cochlearis dorsalis sind lateral inhibitorisch miteinander verknpft [Zenner 1994, Mller 1983, Pickles 1982]. D.h. die Neuronen u eines Frequenzbandes werden von Neuronen benachbarter Frequenzbnder a gehemmt. Ein solches laterales inhibitorisches Netzwerk knnte helfen, das o Spektrum eines Schalls zu verschrfen und Anderungen im Spektrum vor Hina tergrundgeruschen hervorzuheben. Die Inhibition wird vermutlich uber Ina terneuronen im Nucleus cochlearis dorsalis selbst vermittelt [Pickles 1982].13 Inhibition ist von der Zweitonsuppression (siehe Kap. 2.1.4) sowohl von der Ursache als auch von der Wirkung klar zu unterscheiden: Zweitonsuppression tritt schon auf Basilarmembranebene auf, Inhibition dagegen ist ein neuronaler Eekt. Zweitonsuppression setzt das Zusammenwirken zweier Tne o voraus und kann niemals die spontane Feuerrate eines Neurons herabsetzen, whrend dies bei lateraler Inhibition durchaus mglich ist [Pickles 1982]. a o Die Nervenfasern aus dem Nucleus cochlearis enden sowohl im ipsilateralen als auch im kontralateralen Olivenkomplex, auerdem im kontralateralen Colliculus inferior. Wozu der Nucleus cochlearis genau dient, ist wohl noch nicht endgltig geu klrt, es ndet jedoch sicherlich eine Vorverarbeitung der Daten aus dem a Hrnerv statt [Zenner 1994]. o
2.2.2
Olivenkomplex
Der Olivenkomplex (olivary complex ) wird von Nervenfasern aus beiden Cochleariskernen erregt. Hier wird also bereits Information aus beiden Ohren zusammen verarbeitet. Manche Zellen sprechen auf charakteristische Verzgerungen von Schall aus beiden Ohren an und dienen somit wohl der o Richtungslokalisation. Der ipsilaterale Olivenkomplex projiziert sowohl in den ipsilateralen als auch in den kontralateralen Colliculus inferior.
2.2.3
Nuclei lemnisci laterales
Die Nuclei lemnisci laterales beziehen Nervenfasern aus den ipsiund kontralateralen Cochleariskernen sowie aus beiden Olivenkomplexen [Mller 1983, Zenner 1994]. Sie werden als verstreute Zellgruppen im Ver laufe des Lemniscus beschrieben [Kahle 1979]. Der Lemniscus lateralis (laterale Schleifenbahn) selbst ist ein Nervenfaserbndel, das die Fasern von den kontralateralen Cochleariskernen und dem u ipsiund kontralateralen Olivenkomplex vereint und in den Colliculus inferior mndet. u
Gerade die Inhibition wird durch eine Ansthesie leider stark unterdrckt. Deshalb ist a u sie u.U. in stark ansthesierten Tieren nur schwer nachzuweisen [Pickles 1982, Mller 1983] a
13
34
Die Nuclei lemnisci laterales projizieren in den ipsiund kontralateralen Colliculus inferior.
2.2.4
Colliculus inferior
Der Colliculus inferior (inferior colliculus) enthlt Nervenendigungen sowohl a von Nervenfasern aus dem ipsilateralen Olivenkomplex als auch aus dem kontralateralen Olivenkomplex sowie aus dem kontralateralen Cochleariskern. Er ist tonotop organisiert. Auerdem sind einige Zellen nur monaural, werden also nur durch Stimulation eines Ohres erregt, whrend andere binaural a sind, d.h. auf Stimulation beider Ohren reagieren. Dies ist plausibel, da im Colliculus inferior ja sowohl Nervenfasern aus dem binauralen Olivenkomplex als auch aus dem monauralen cochleren Kern ankommen. a Der Colliculus inferior projiziert in das Corpus geniculatum mediale.
2.2.5
Corpus geniculatum mediale
Der mittlere Kniehcker oder Corpus geniculatum mediale (medial geniculao te body) erhlt Nervenfasern aus dem ipsilateralen Colliculus inferior und a projiziert in den auditorischen Cortex. Das Corpus geniculatum mediale ist auch mit dem kontralateralen Corpus geniculatum mediale verbunden [Kahle 1979]. Die Antworten der Neuronen im Corpus geniculatum mediale werden als sehr komplex bezeichnet, d.h. sie reagieren in komplizierter, noch nicht genau bekannter Weise auf akustische Stimuli. Codierung der Frequenz In den tonotop organisierten Teilen des Corpus geniculatum mediale reagieren viele Zellen sehr scharf auf eine bestimmte Frequenz. Manche zeigen jedoch auch breitere Tuningkurven oder Tuningkurven mit mehreren Maxima. Viele Neuronen reagieren auch inhibitorisch auf Frequenzbereiche nahe ihrer charakteristischen Frequenz. Nur wenige Zellen zeigen phasenkorrelierte Antworten bei niedrigen Frequenzen. Codierung der Schallintensitt a Die Feuerrate eines Neurons in Abhngigkeit des Schalldruckpegels heit, a wie oben schon erwhnt, Raten-Pegel-Funktion. Die Raten-Pegel-Funktion a nimmt zunchst mit steigendem Pegel zu und sttigt dann bei einer maxia a malen Rate, oder sie nimmt nach Erreichen eines Maximums wieder ab. In letzterem Fall heit der Schalldruckpegel mit maximaler Rate der fr das u Neuron charakteristische Schalldruckpegel. Manche Neuronen zeigen jedoch auch mehrere Maxima in ihrer Raten-Pegel-Funktion. Typische Feuerraten
35
sind 10100 Hz. Neuronen mit nicht monotoner Raten-Pegel-Funktion sind sehr hug, etwa 3070 %. a Vernderungen der Schallintensitt knnen das zeitliche Antwortverhalten a a o der Neuronen auf komplizierte Weise beeinussen. Neuronen mit monotoner Raten-Pegel-Funktion reagieren eher auf Breitbandrauschen. Ihre Latenzzeit verndert sich monoton mit der Schallintena sitt. a Neuronen mit nicht monotoner Raten-Pegel-Funktion dagegen reagieren weniger stark auf Breitbandrauschen. Ihre Latenzzeit ist lnger und verndert a a sich nicht monoton mit der Schallintensitt. a Nicht monotone Raten-Pegel-Funktionen mssen ihre Ursache in inhibitoriu schen Mechanismen haben, da alle auditorischen Nervenstrnge monotone a Raten-Pegel-Funktionen haben.
2.2.6
Auditorischer Cortex
Die meisten Studien wurden an Hauskatzen durchgefhrt. Man kann den u auditorischen Cortex in mehrere Felder unterteilen. Einige sind tonotop organisiert. Vermutlich sind die verschiedenen Felder auf verschiedene Wahrnehmungsbereiche spezialisiert. Wie die Spezialisierung genau aussieht, ist jedoch weitgehend unbekannt. Ein noch nicht ausreichend untersuchtes Problem ist der Einuss der Narkose auf das Antwortverhalten auditorischer Neuronen. Zusammenfassend kann man jedoch sagen, dass mit zunehmender Narkosetiefe die Antwortintensitt abnimmt, die Latenzzeit zunimmt, die Schrfe der Tuningkura a ven abnimmt und die tonotope Organisation ausgeprgter wird [Yost 1994, a Shepherd 1993]. Letzteres hat vermutlich seine Ursache darin, dass der Cortex unter Narkose uberhaupt relativ wenig in die auditorische Schallverar beitung eingreift. Codierung der Frequenz Der auditorische Cortex (auditory cortex ) ist im Wesentlichen tonotop organisiert, wobei mehrere tonotope Felder existieren. Die Tuningkurven von Neuronen gleicher charakteristischer Frequenz unterscheiden sich allerdings in ihrer Breite, wobei manche so scharf wie diejenigen im Hrnerv sind. o Die tonotopen Felder sind bei den meisten Tieren von einem peripheren auditorischen Band umgeben, das nicht oder fast nicht tonotop organisiert ist. Das Antworverhalten der Zellen hier wird auch als schwach und unsicher beschrieben. Auerdem haben die Zellen i.d.R. lngere Latenzzeiten (50 ms a im Ggs. zu weniger als 20 ms im primren auditorischen Cortex). a Die Neuronen des primren auditorischen Cortex reagieren exzitatorisch auf a einen relativ engen Frequenzbereich. Einige Zellen reagieren darberhinaus u inhibitorisch auf angrenzende Frequenzbereiche. In tonotop organisierten Feldern des primren auditorischen Cortex wird a
36
eine Frequenz auf ein ganzes Isofrequenzband abgebildet. Es liegt daher nahe, dass irgendein anderer Parameter entlang des Isofrequenzbandes codiert wird. Im primren auditorischen Cortex nimmt die Schrfe der Tunigkura a ven entlang des Isofrequenzbandes ab. Gleichzeitig nimmt die Antwort auf Breitbandrauschen zu. Dies wird dadurch erklrt, dass der charakteristischen a Frequenz benachbarte Frequenzen inhibitorisch auf das Neuron wirken. Diese Inhibition ist umso strker, je schrfer die Tuningkurve des Neurons ist. a a Codierung der Schallintensitt a Auch im auditorischen Cortex gibt es Neuronen mit monotoner und nicht monotoner Raten-Pegel-Funktion. Zellen mit nicht monotoner Raten-Pegel-Funktion reagieren oft weniger stark auf Breitbandrauschen als auf reine Tne. Dies wird durch inhibitorische o Bereiche fr Frequenzen nahe der charakteristischen Frequenz sowie durch u Inhibition oberhalb einer bestimmten Schallintensitt erklrt. a a Theorien uber die Codierung der Schallintensitt a Das Gehr hat einen Dynamikbereich von ca. 100 dB.14 Es gibt zwei Hypoo thesen, wie dieser groe Dynamikbereich im Gehr codiert wird: o Zellen mit monotoner Raten-Pegel-Funktion haben einen Dynamikbereich von etwa 40 dB, in Einzelfllen allerdings auch grer. Solche Zellen haben a o jedoch verschiedene Schwellwerte, d.h. verschiedene Schallintensitten, ab dea nen die Zelle merklich zu feuern beginnt. Eine niedrige Schallintensitt wrde a u also nur Zellen mit kleinem Schwellwert anregen, whrend hhere Schallintena o sitten Zellen mit immer greren Schwellwerten erregen wrden. Zellen mit a o u kleinem Schwellwert wren dann zwar schon in Sttigung, Zellen mit grea a o rem Schwellwert wrden jedoch innerhalb ihres Dynamikbereichs arbeiten. u Auf diese Weise knnte ein viel grerer Dynamikbereich codiert werden als o o von einer Zelle allein. Zellen mit nicht monotoner Raten-Pegel-Funktion reagieren auf eine bestimmte Schallintensitt optimal. Diese optimalen Schallintensitten sind a a uber den gesamten Dynamikbereich des Gehrs von 0 bis 100 dB verteilt. o Somit ist eine Ortscodierung der Schallintensitt denkbar. Eine solche ama pliotope Organisation wurde allerdings auer in der Schnurrbartedermaus in keinem anderen Suger beobachtet15 . a Temporale Codierung und komplexe Reize Viele Neuronen im auditorischen Cortex sind besonders sensitiv fr Verndeu a rungen entweder der Frequenz oder der Lautstrke eines Sinustons. Manche a reagieren etwa nur auf eine Erhhung der Frequenz, andere nur auf eine o
Bercksichtigt man die unterschiedliche Empndlichkeit des Gehrs bei verschiedenen u o Frequenzen, so kommt man auf einen Dynamikbereich von etwa 130 dB, uns interessiert hier jedoch nur die Codierung der Schallintensitt einer Frequenz. a 15 Man ndet jedoch beispielsweise in der Schleiereule eine ampliotope Organisation.
14
37
Erniedrigung, manche werden nur beim Einschalten eines Sinustons aktiv, andere nur beim Ausschalten etc. Ein Drittel der Neuronen kann nur durch solche Vernderungen im Stimulus erregt werden. [Popper 1992, Yost 1994] a Eine bloe Unterscheidung verschiedener Frequenzen ist Versuchspersonen bzw. -tieren auch ohne auditorischen Cortex mglich. Dies gilt jedoch nicht o fr Aufgaben, die ein vorheriges Lernen erfordern. Viele Neuronen reagieren u auf charakteristische Merkmale komplexer Schalle wie etwa bestimmte Tierlaute. Verarbeitung von Sprache erfordert deshalb den auditorischen Cortex. Der auditorische Cortex enthlt vermutlich auch ein auditorisches Kurzzeita gedchtnis, d.h. akustische Stimuli werden gespeichert und mit nachfolgenden a zusammen ausgewertet. Somit dient der auditorische Cortex auch der Verarbeitung komplexer Zeitmuster in Schallen. Weiter untersttzt er vermutlich u die Schallortung und steuert die selektive Aufmerksamkeit zu bestimmten Schallquellen. [Zenner 1994]
Kapitel 3 Modelle fur das auditorische System

Hier sollen einige Modelle fr Komponenten des auditorischen Systems voru gestellt werden.
3.1
Modelle fur das periphere auditorische System

Cochlea
3.1.1
Die Cochlea korrekt zu modellieren ist sehr aufwndig. Vermutlich gelingt a dies letztlich nur mit dreidimensionalen Modellen der beteiligten Membranen, evtl. ist sogar eine Modellierung der Flssigkeit notwendig [Keidel 1995, u Holmes, Lester 1981]. Auch sind die aktiven Prozesse, verursacht durch die a u u ueren Haarzellen, zu bercksichtigen. Stellt man geringere Ansprche an die Exaktheit der Modellierung, so gengt es, die Cochlea als linearen Filter u aufzufassen. Im Folgenden werden einige lineare Cochleamodelle vorgestellt. Erregung Es scheint zunchst naheliegend, die Cochlea einfach anhand der in Kap. 1.5.1 a denierten Erregung zu modellieren. Das Amplitudenquadrat der Auslenkung der Basilarmembran an der Stelle x wre dann die entsprechende Era regung E(z(x)), wobei z(x) die der Stelle x entsprechende Tonheit ist. Dies ist jedoch aus folgenden Grnden problematisch: u Um die Erregung zu bestimmen, bruchte man die Schallintensittsa a dichte I(z). Hierzu msste man in regelmigen Zeitabschnitten eine u a Fouriertransformation des Eingangssignals berechnen. Dies wre sehr a aufwndig. Wie gro sollten auerdem die Zeitabschnitte sein? a Nach obigem System htte man nur in relativ groen Zeitabschnitten a eine Erregung zur Verfgung. Ein abruptes Ein- und Ausschalten der u 38
3.1. MODELLE FUR DAS PERIPHERE AUDITORISCHE SYSTEM 39 Erregung an den verschiedenen Orten der Cochlea wre die Folge. Um a dies zu vermeiden, msste man in jedem Zeitschritt (etwa 1 ms) eine u Fouriertransformation uber den letzten Zeitabschnitt durchfhren. Das u wre ein noch grerer Aufwand. a o Die exakte zeitliche Struktur der Auslenkung der Basilarmembran, wie man sie z. B. als Eingangssignal fr die daran anschlieenden Haarzelu lenmodelle bentigt, wre noch in keiner Weise modelliert. o a Falls das cochlere Eingabesignal jedoch einfach ist, z. B. nur Tiefpassraua schen o. ., so ist der oben beschriebene Weg durchaus gangbar. In diesem a Fall kann man allerdings auch auf eine Modellierung der inneren Haarzellen weitgehend verzichten, denn deren Feuerwahrscheinlichkeit lsst sich dann a 1 ebenfalls im Vorhinein leicht berechnen . Lineare Schwinger Die einzelnen Orte der Basilarmembran werden als unabhngige gedmpfte a a lineare Schwinger modelliert. Die Gleichung fr die Auslenkung y(x, t) an u einer Stelle x der Basilarmembran ist dann y (x, t) + 2(x) y(x, t) + 0 (x)2 y(x, t) = 1 F (t), m(x)
wobei der Abklingkoezient, 0 die Eigenfrequenz des ungedmpften a Schwingers, m die Masse des Schwingers und F die den Schwinger anregende Kraft (proportional zum Schalldruck des ueren Schalls), bedeuten a [Kuchling 1988]. Die Impulsantwort, d.h. die auf F (t)/m = (t), ist y(t) = 1
2 0
et sin
2 0 2 t
H(t).
Hierbei bedeutet H(t) die Heavisidesche Sprungfunktion. Die Antwort auf einen Cosinus, d.h. die Antwort auf F (t)/m = cos(t), ist im stationren Fall a y(t) = A0 () cos(t ), wobei die Amplitude A0 () = 1 4 2 2
2 + ( 2 0 )2
und die Phasenverschiebung 2 arctan 2 2 0 /2 () = arctan 2 2 + 2

0
falls < 0 falls = 0 falls > 0
Man knnte etwa die Feuerrate der inneren Haarzellen gleich dem Erregungspegel o setzen.
40 betragen.
KAPITEL 3. MODELLE FUR DAS AUDITORISCHE SYSTEM
Die Amplitude A() ist bei der Resonanzfrequenz R =
1 Whlt man = 2 ms = 500 Hz, 2 so ergibt sich als Halbwertsbreite3 des Filters a fr u 0 ungefhr /2 80 Hz. Die Halbwertsbreite der cochleren Filter a a 4 betrgt jedoch nur etwa 1030 Hz, d.h. die Frequenzausung der so wie a o oben beschrieben modellierten Cochlea wre viel zu schlecht. a
2 0 2 2 maximal.
Lineare Filter vierter Ordnung Die Cochlea wird nach [Sottek 1993] durch lineare Filter vierter Ordnung5 mit der Impulsantwort (3.1) y(t) = t3 t/ e cos(0 t) H(t) 3 4
beschrieben (siehe Abb. 3.1). Die Antwort auf einen Cosinus ist im stationren Fall a y(t) = A0 () cos(t ), wobei die Amplitude A0 () betrgt6 . a Die Halbwertsbreite dieses Filters ist ungefhr 0,07/ . Mit = 2 ms ergibt a sich eine Halbwertsbreite von 35 Hz. Das Gehr hat zwar eine noch bessere o Leistung, dieser Wert ist jedoch akzeptabel.
Man knnte eine beliebig gute Frequenzausung erreichen, indem man die Dmpo o a fung beliebig klein macht. Man muss jedoch auch die schnelle Reaktionszeit und damit die gute Zeitausung des Gehrs bercksichtigen. Deshalb sollten die Anstiegszeiten der o o u verwendeten Filter relativ klein sein. Funote 7 auf Seite 28 spricht ebenfalls fr sehr kurze u Einschwingzeiten. 3 Der Abstand zur Resonanzfrequenz fR = 2R , bei dem das Amplitudenquadrat A()2 auf die Hlfte des Wertes bei der Resonanzfrequenz abgefallen ist. a 4 Nach Kap. 1.5.1 ist die Steigung der unteren Flanke des Erregungspegels etwa 27 dB/Bark, d.h. 3 dB pro 0,1 Bark. Die untere Halbwertsbreite der Erregung betrgt ala so etwa 0,1 Bark oder 10 Hz bei Frequenzen bis 500 Hz. Die Steigung der oberen Flanke betrgt etwa 10 dB/Bark, was zu einer oberen Halbwertsbreite von etwa 30 Hz fhrt. a u 5 Vierter Ordnung deshalb, da die Impulsantwort durch eine Dierenzialgleichung vierter Ordnung beschrieben werden kann. Es handelt sich um einen sogenannten minimal phasigen Bandpasslter vierter Ordnung [Unbehauen 1997]. Der Betrag der Ubertragungsfunktion dieser Filter stimmt im Durchlassbereich gut mit den von R. D. Patterson 1982 angegebenen ROEX-Filtern (rounded exponential lter ) zur Beschreibung der Erregung im Spektralbereich uberein [Sottek 1993]. Das Betragsquadrat der Ubertragungsfunktion 4|f f0 |/f der ROEX-Filter lautet y (f ) = (1 + 4|f f0 |/f ) e , wobei f = f (f0 ) die a frequenzabhngige quivalente Rechteckbandbreite y (f0 )1 y (f ) df der Filter ist. a Patterson gab allerdings keine Phase fr die ROEX-Filter an, so dass eine Modellierung u im Zeitbereich mit Hilfe von ROEX-Filtern nicht ohne weiteres mglich ist. o 1 1 6 Die Fouriertransformierte von (3.1) ist y () = [1+i (0 )]4 + [1+i (+0 )]4 , wobei der zweite Summand gegenber dem ersten im Durchlassbereich ( 0 ) vernachlssigt u a werden kann, da 0 1.
2
1 [1 + 2 ( 0 )2 ]2
3.1. MODELLE FUR DAS PERIPHERE AUDITORISCHE SYSTEM 41
y(t) 300 200 100

.. .. .. .. . . .. . . .. .. . . . .. . . . ... . . . . .. . . . . . . . . . . . . . . . . . . . . . . . . . . ... . . . . . ... . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . ... . . . . . . . . ... . . . . . . . . . . . . . . . . . . . . .. . . . . . . . .. . . . . . . . . . . . . . . . . ... . . .. . . . ... . . . . . .. .. . . . . . . . . . . . . .. . . . .. . . . . . . . . . . . .. . . . . . . . . . . . . . .. ... ... . . . . . . . . . . . . . . . . . . . . . . .. ... . . . .... . . . .... .. . . .. ... . . . . . . . . . . . . . . . . . . . ... ...... ........ .. .... ........ . . . . ......... .. ......... .. . . . . . . . . . . .. .... .. . . . . . . . . . . . .. . . ... .. .. .. . .... . . . . . . .... . ..... .. . . . . ..... . . . . . . . . . . . . . . . .. . . .. . . . . . . . . .... . . . . . . . . . . . .. . . . ... . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. . . . . . . .... . . . . . . . . . . . . . . . . . .. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . ... . . . . . . . . . .. . . . .. . . . . . . ... . . . . . . .. . . . . . . . . . . . . . . . . . . . . . . . . . . .. . . . . . . . . . .. .. . . . . . . . . . . . . . . . . . . .. .. .. .. .. .. . ..
100 200 300
10
15
20 t/ms
Abb. 3.1: Impulsantwort der Stelle der Cochlea mit f0 = 0 /2 = 500 Hz, wobei = 2 ms. Je hher die Bestfrequenz 0 der cochleren Filter, desto breiter wird deren o a Durchlassbereich auf der Frequenzskala, wenn sie auch auf der Barkskala gleich breit bleiben (vgl. Kap. 1.5.1). Dies wird durch die Beziehung (3.2) (0 ) = 2 ms 2 ms 500 Hz/f0 falls f0 500 Hz falls f0 > 500 Hz
modelliert, wobei f0 = 0 /2. Abb. 3.23.5 vergleichen die drei oben beschriebenen Cochleamodelle im Frequenzbereich. Man beachte, dass die cochleren Filter in der Realitt asyma a metrisch sind, whrend sie im Modell des linearen Filters vierter Ordnung a symmetrisch sind7 .
Die cochlere Erregung ist allerdings auch im Modell der linearen Filter vierter Orda nung etwas asymmetrisch. Dies kommt daher, dass die Bandbreite der Filter wegen (3.2) mit steigender Bestfrequenz 0 zunimmt [Sottek 1993]. Die Asymmetrie ist allerdings nicht so stark wie in der Realitt, wie Abb. 3.4 zeigt. Hier irrt [Sottek 1993]. a
7
42
A()2 A(0 )2
1.0
0.5
... . . ... . ... .. . .. . . .... ... ... . . . .. . . . . . .. . . .. .. . . .. . . .. . . .. . . . . . . . . . . . . . . . . .. .. . . . .. . .. . .. . . . . . . . . .. . . . . . . . .. .. .. . .. . . . . . . . . .. . . . . . .. . . .. .. .. . .. . . . . .. .. . . . . . . . . . .. .. .. . . . .. . . .. . .. . . . . . .. . . . . .. ... . . . .. . .. . . .. . . . . . . . . .. . . ... . . . . . . .. . . .. ... .. . . . . . . . . . . . . ... . . . . ... . .. .. .. . .. . . . . . . . . .. . . . . . . .... . . .... .. . .. . . .. . . ... . . . .. . .. . . .. .. . .. .. .. .. .. .... ... . . . . . .. . .. ... ... . .. .. .. ... . ... . .. . ... ... . .. .. ... . .. ... .. .. .. .... . . .. . .... . . .. .. .. .. .... .. .. .... ... . .. .. . .. .... . .... . .. ... ... ... ... ... ... ..... ..... ... .. .. . ... ... ...... ... ... .... ...... ... . . ... . .... .... ...... ....... .. .. . .... .. ... .... .... .. ... . .... . ...... ... . ...... ... .... .. . .. ......... ......... ..................... . .... . ....................... ... ... ... .... .... ........... ......... .
450
500
550
600 f /Hz
Abb. 3.2: Verlauf des cochleren Filters mit der Bestfrequenz f0 = 500 Hz in a verschiedenen Cochleamodellen. Aufgetragen ist das auf die Bestfrequenz bezogene Amplitudenquadrat A()2 /A(0 )2 in Abhngigkeit von der Frequenz a f = /2. Durchgezogen: Erregungsmodell nach Kap. 1.5.1. Gestrichelt: Lineare Filter vierter Ordnung. Punktiert: Lineare Schwinger nach Kap. 3.1.1.
500 dB 10 20 30 40 50 60
1000 f /Hz
. . ..... . . .... .. . . . ..... .. ... . . . .... .. .. .. .. ... . . . . . . .... .. . ... .. . . . .... . . .... .. . . . . .. . .. . . . . ... .. .. ... . . .. . . . . . ... . ... .. .. . . . . . .. . . ... . . . . ... . .. . . . . . . . . . . . .. ... .. .. . ... .. . . . . ... .. ... . .. . .. . . . ... .. ... .. .. . . .. . ... . . ... .. .. . .. ... . . . .. .. ... .. ... .. .. . . ... ... .. . .. . . ... ... . .. .. .. .. .. .. ... ... . . .. ... .. .. . . ... . .. . . .. . .. . ... .. ... . . .. . .. ... . .. .. ... . ... . .. . .. ... . .. . .. ... .. . ... . .. . .. . . .. ... ... .. . . .. .. ... ... . .. .. . .. . . . .. ... ... . .. .. . .. ... . .. ... . . . .. . . .. .. . ... ... . .. .. .. .. ... . ... .. . . . . . .. .. ... ... . ... ... .. .. ... ... ... ... . . .. .. ... ... . ... ... .. .. .. ... . ... .. ... .. ... .. .. ... . . . .. .. ... . ... .. ... . ... .. ... ... .. .. .. ... . . . ... . ... . .. . ...
Abb. 3.3: Wie Abb. 3.2, nur als Pegel.
3.1. MODELLE FUR DAS PERIPHERE AUDITORISCHE SYSTEM 43 1000 dB 5 10 15 20 25 30 2000 3000 4000 5000 6000 7000
.. . . .... . .... . .. . . . .. . . .... . . .. ... . . . . .. . ... .. . . .. . ..... . . . . . .. . . .... .. .. . . . . .. .. . . . .. .. . ..... . .. . .. .. .. . .. . .. . . . 0 . . .. . . . . . . . . .. . ... .. .. . . . . . . ... . . . . . . . . .. . .. .. .. . . .. . . . . ... . . . . . . .. . . .. .. . . . . .. . . . .. . ... . . .. . . . . . ... .. . .. . . .. . . .. . .. . . . . . . .. .. . .. . . .. . .. . .. . .. . . .. .. . . . . . . .... . . . .. .. . . ... . . . . .. . . .. . . . . . . . .. .. . . . . . . .. . . . . . .. .. . . .. .. . .. .. . . .... . . . ... . . . . . . . . . .. . . . ... . . . . . . .. .. . .. . . . . . . . . .. .. . . . . . .. . . . . .. . . . . . . .. . . . . .. . . .. .. .. .. . .. . . .. . .. . . . . .. .. . .. .. . . ... .. . . .. . . .. .. .. . . . . . . .. . . . . . . .. . . . .. .. . . . . .. .. .. . . . . . .. .. . . . . . .. .. . . . . .. .. . . .. . . . .. .. .. . . . . . . . .. . . . .. . . .. . . . . . .. .. .. . . . . . .. .. . . .. .. . . . . . .. . .. . . . . . .. .. . . . . . .. . .. .. . . .. . . . .. . . . . . .. . .. .. . . . . .. . .. .. . .. .. . . . . . . . . . . .. .. . . . . .. . . . . .. .. ... . . . .. . . .. .. . ... . . . .. . . . .. .. . . . . . . .. . . .. . . . . . . . .. .. . . .. . . . . .. .. . . .. .. . . . . . . .. . . . . . . .. . .. . . .... . . .. . . .. . .. . .. . . .. ... . . .. . . .. . . . .. . . . .. . . . . . . . . . . . . .. .. . . . . . .. . . . ... . .. . . . . . .. .. . . . .. . .. . . .. .. . .. . . . . . .. . . .. . . . . .. . .. . . . . . . .. . .. . . . . .. . . . . . . . . .. . . . . . .... . . .. . . . . . .. .. ... .. . . . . . . . .. .. . . .. . . ... . . . .. .. . .. . . . . . . ... . . . . . . .. . . . . ... . . . . . . . . .. . . .. . . . ... . . .. . . . . . .. .. .. . . . .. . . . . .. . . . .. .. . . . . .. . . . .. . . . .. . . . . . . . .. . . . . . .. .. . . . . .. . . . .. .. .. . . .. . . . . . ... . . .. . . .. .. . .. . . ... .. . . . . . . . .. . ... . . . . . . . . . . . . ... . . . . . . . . . . .. ... . . . . . . ... . . . . .. . . . . . . . . .. . . .. . . . .. ... .. . . . . . .. ... . . . . . . . . . ... . . .. . . . . . . . .. . . . .. . . . . .. . . . . . . . . . . .. . . . .. . . . .. . . . .
f /Hz
Abb. 3.4: Verlauf der cochleren Erregung in verschiedenen Cochleamodela len. Aufgetragen ist der Erregungspegel 10 log A0 ()2 /A0 (0 )2 der cochleren Filter bei Stimulation mit einem reinen Ton der Tonheit 5, 10 bzw. a 15 Bark in Abhngigkeit der Bestfrequenz f0 = 0 /2 der Filter. a
5 dB 5 10 15 20 25 30
10
15
20 z /Bark
. . .. . .. . . ... .... .. . ... . .... ..... . ..... . . ...... . .... . .. . . . .. . .. . .. .. . .. .. . . . .. . . . .. . .. . . .. . . .. . . . .. . . . .. .. . .. . . . . .. . . . .. . . .. . . . .. . 0 . . . . . . . . . . . .. . . . . . . . . . . . . . .. . .. . . . . . . . .. . . . .. .. . . .. . . . .. . . .. . .. . .. . .. . . . . . .. . . . .. . . . . . . . . .. .. . . . . . . . . . . . .. . . . . .. . .. . . . .. . . . . . . . . .. .. . . . .. . .. .. . .. .. . . . .. .. .. .. . .. .. .. .. . . ... . .. .. .. ... . . ... . .. ... . . ... . . . . . . . . .. . . .. . . . . . . . . . . . . . .. .. . ... ... . . . .. .. . . .. .. . . .. .. .. . .. .. . .. . . . . .. .. .. .. . .. . . . . .. .. .. . . . . . . . .. . . . . . . . . . . . . . . . . . . . .. .. . . . . .. .. .. .. . . . . .. .. . . . . . .. .. . . . .. . . . .. .. .. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. . . . . .. . . .. . . . . . .. . . .. . . . . . . .. . . . . . . . ... . . . . . . . . . . . .. . . .. . . .. . . . .. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. . . . . . . . . . . . . .. . . . . . . . . .. .. . . . . . . . . . . . . . . . . . . . . . .. . . . . . .. .. . . .. . . . . . . . . . . . . . . . . . . . . .. . .. . . . . .. . . . . . . . . .. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. . .. .. . . . . . . . . . . . . . . . . . . .. . . . . . . . . . .. . . .. . . . . . . . . . . . . . . . . . . . . . . . . .. . . . . . . . . . . .. . . . . . . . . . . . . . . . . ... .. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. . .. . . . . . . . . . . . . . . . . . . . . .. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. .. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Abb. 3.5: Wie Abb. 3.4, nur ist die Bestfrequenz z0 in der Tonheit-Skala aufgetragen. Die cochleren Erregungsmuster erscheinen somit gleich breit. a Um die Auslenkung der Basilarmembran zu berechnen, msste man nun das u Eingangssignal der Cochlea, d.h. den Schall, mit der Impulsantwort falten. Dies wre fr jede Stelle x der Cochlea durchzufhren. Alternativ knnte a u u o man das zur Impulsantwort fhrende Dierenzialgleichungssystem integrieu ren. Gnstiger ist jedoch folgender Weg: Berechne aus der Antwort y(t) zur u Zeit t und einigen Hilfsvariablen zur Zeit t die Antwort zur Zeit t + t. Dieses Konzept fhrt zu folgendem ezienten Algorithmus8 : u
8 1 3 ct 3 4 t e ,
Mit y (t) :=
wobei c := 1/ + i0 , ist y(t) = (). Weiter ist y 1 3 (t + 3t2 t + 3tt2 + t3 ) ec(t+t) 3 4 1 y(t) + h1 (t)t + h2 (t)t2 + h3 (t)t3 3
1 4
y (t + t) = = wobei h1 (t) := 14 t2 ect , h2 (t) := Man sieht dann, dass
ect ,
tect und h3 (t) :=
1 4
ect .
44
h3 := h3 + y h1 h2 h3 := := := :=
1 p(t) t 4
y := h1 := h2 := y :=
y e(1/ +i0 )t h1 e(1/ +i0 )t h2 e(1/ +i0 )t h3 e(1/ +i0 )t 1 y+ h3 t + h2 t + h1 t 3 h1 + (h3 t + 2h2 )t h2 + h3 t () y
Hierbei ist p(t) der Schalldruck des Schalls am Trommelfell. bezeichnet den Realteil. Die Hilfsvariablen h1 bis h3 und y werden zur Zeit t = 0 auf 4 Null gesetzt. Wird h3 zur Zeit t = 0 auf 1/ gesetzt, so erhlt man in y die a Impulsantwort. Aktualisiert man daher in jedem Zeitschritt t die Hilfsvariable h3 wie angegeben, so integriert der Algorithmus die Impulsantworten automatisch auf. Beispiele fr die Reaktion einer cochleren Filterbank im Modell der linearen u a Filter vierter Ordnung zeigen Abb. 3.6 fr einen Tiefpass und 3.7 fr einen u u Sinuston als Stimulus. Bei 100 ms sieht man einen Abschalteekt, bei dem alle Filter kurz erregt werden. Dieser ist als Klicken wahrnehmbar. Man sieht auch, dass die Reaktionszeit der cochleren Filter mit zunehmender Bestfrea quenz schneller wird (vgl. (3.1) und 3.2), d.h. Filter mit hoher Bestfrequenz relaxieren nach Erregung schneller als solche mit niedrigerer Bestfrequenz.
h1 (t + t) = (h1 (t) + 2h2 (t)t + h3 (t)t2 ) ect h2 (t + t) = (h2 (t) + h3 (t)t) ect h3 (t + t) = h3 (t) ect . Es ist y(0) = h1 (0) = h2 (0) = 0 und h3 (0) = 1/ 4 . Initialisiert man also h3 (t) mit 1/ 4 , so erhlt man durch Auswertung der angegebenen Gleichungen in ((t)) die Impulsantwort a y y(t) in Zeitschritten t. Da y(t) linear vom Startwert in h3 (t) abhngt, addiert das Vera fahren Impulsantworten automatisch auf. Einige numerische Vereinfachungen (HornerSchema zur Berechnung der Polynome, geschickte Reihenfolge der Berechnungen) ergeben den angegebenen Algorithmus. Dass sich der Algorithmus in der oben beschriebenen Weise erstellen lsst, liegt daran, dass es sich bei der Impulsantwort um ein Polynom in t mal a ei0 t handelt, also um die Lsung einer linearen Dierenzialgleichung mit konstanten Koo ezienten. Eine direkte Lsung dieser Dierenzialgleichung hat sich als numerisch instabil o erwiesen.
150 Filter Nr.
100
50
0.05
0.10
0.15 t/s
Auslenkung
... .... . .. . .. . .. . .. . .. . . . . . . . . . . . . . . . . . . . . . . . .. . .. . . .. . .. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . ... . . .... . . . .. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .... . . . . .. .. . . . . . . . . . . . . . . . . . . . . . . . . . . .. . . . . . ... . . . . . . . . .. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . ... .. . . . . . . . . .. ... . . .. . .. ... . . . . .. . . ......... .. .. . . .. ...... .. . . . . ... . ... .. .. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. . .. .. .. . ... .. ...... ..... .... ............. ....................................................... .............................................
50
100
150 Filter Nr.
Abb. 3.6: Die obere Grak zeigt den Logarithmus der jeweils uber 20 ms gemittelten quadratischen Auslenkung der Cochlea im Modell linearer Filter vierter Ordnung. Nach rechts ist die Zeit in s aufgetragen, nach oben die Nummer der cochleren Filter. Simuliert wurden 150 cochlere Filter mit a a Bestfrequenzen von 0 bis 15 Bark in Abstnden von 0,1 Bark. a Die untere Grak zeigt die uber die gesamte Zeit von 150 ms gemittelte qua dratische Auslenkung der cochleren Filter. a Stimulus war Tiefpassrauschen von 100 bis 1000 Hz.
46
150 Filter Nr.
100
50
0.05
0.10
0.15 t/s
Auslenkung
. .. ... .. .. . .. .. .. .. .. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. . .. . .. .. .. .. .... . ...... ................................................... ................................................ ...... ...... ...................................................................... .............................................................. .......
50
100
150 Filter Nr.
Abb. 3.7: Wie Abb. 3.6, nur war der Stimulus diesmal ein Sinuston mit Frequenz 1000 Hz.
3.1.2
Innere Haarzellen
State-Partition-Modell Die folgende Beschreibung dieses Modells lehnt sich an [Cooke 1993] an. Das State-Partition-Modell geht davon aus, dass es in den Haarzellen viele Vor ratsbehlter (release sites) gibt, die Neurotransmitter ausschtten knnen a u o (siehe Abb. 3.8). nicht aktive Behlter Cna a
cna aktive Behlter a x Gesamtuss kxca an Neurotransmitter Ca ca kca
Abb. 3.8: Das State-Partition-Modell fr innere Haarzellen. Ksten beu a deuten Behlter mit Neurotransmitter. Die nach rechts oenen Behlter sind a a aktiv und schtten Neurotransmitter aus. Die von den Behltern ausgehenu a den Pfeile bedeuten Neurotransmitterstrme. Im eigentlichen Modell sind alle o Behlter voneinander getrennt, d.h. die gepunkteten Sperren sind geschlosa sen. In der im Text beschriebenen Nherung denkt man sich die gepunkteten a Sperren jedoch als oen. ca sind die Fllmengen an Neurotransmitter in den u aktiven Behltern, cna die Fllmengen in den nicht aktiven Behltern. Die a u a Fllmengen sind bei geschlossenen gepunkteten Sperren in jedem Behlter u a verschieden, andernfalls gleichen sich die Fllmengen aus. Der Ausstrom aus u jedem aktiven Behlter ist proportional zur Fllmenge des Behlters. Die Gea u a samtmenge an Neurotransmitter in den aktiven bzw. nicht aktiven Behltern a ist Ca bzw. Cna . Jeder dieser Vorratsbehlter hat eine Reizschwelle, ab der er Neurotransa mitter ausschttet. Da die Vorratsbehlter alle verschiedene Schwellen hau a ben, hngt der Anteil x der Vorratsbehlter, die gerade Neurotransmitter a a ausschtten, von der Reizintensitt ab. Beispielsweise kann x(t) proportional u a
48
zur Einhllenden der Auslenkung der Basilarmembran sein. Diejenigen Voru ratsbehlter, die Neurotransmitter ausschtten, heien aktiv. Die Rate des a u ausgeschtteten Transmitters ist auerdem proportional zum Fllzustand ca u u der aktiven Behlter. Die Rate des ausgeschtteten Neurotransmitters ist a u also proportional zu xca (t). Sowohl die aktiven als auch die nicht aktiven Behlter werden mit einer a Rate proportional 1 c aufgefllt, wobei 1 der willkrlich festgelegte Sollu u Fllzustand ist. u Falls die Reizintensitt x konstant ist, lauten die Gleichungen fr die Vera u a nderung der Mengen an Neurotransmitter Ca (t) bzw. Cna (t) in den aktiven bzw. nicht aktiven Behltern a Ca (t) = kxca (t) + lx(1 ca (t)) Cna (t) = l(1 x)(1 cna (t)). Hierbei ist x der Anteil der aktiven Behlter, ca (t) die Fllmenge in den a u aktiven Behltern und cna (t) die Fllmenge in den nicht aktiven Behltern. a u a Die Gren k und l sind Proportionalittskonstanten. o a Die Menge an Neurotransmitter Ca (t) bzw. Cna (t) in den aktiven bzw. nicht aktiven Behltern ist a (3.3) (3.4) Ca = xca Cna = (1 x)cna .
Dies gilt alles fr den Fall, dass der Reiz und damit x konstant ist. Was u passiert nun, wenn x steigt, d.h. wenn der Reiz zunimmt und damit mehr Behlter in den aktiven Zustand ubergehen? Die frisch in den aktiven Zua stand gekommenen Behlter haben den Fllzustand cna , da sie ja gerade a u vorher noch inaktiv waren. D.h. man msste nun jeden dieser Behlter einu a zeln modellieren, da jeder Behlter seinen individuellen Fllzustand hat. Um a u die Modellierung nun zu vereinfachen wird angenommen, dass im Wesentlichen nur der durchschnittliche Fllzustand in den aktiven und nicht aktiven u Behltern ausschlaggebend ist (Fall oener gepunkteter Sperren in Abb. 3.8). a Erhht sich also der Anteil x der aktiven Behlter, so kommt der Neurotranso a mitter in den Behltern, die aktiv geworden sind, einfach zum Pool aktiver a Behlter hinzu. Mit Bercksichtigung einer Anderung von x gilt daher fr a u u die Anderungen der Mengen an Neurotransmitter in den Behltern: a Ca (t) = kxca (t) + lx(1 ca (t)) + Cna (t) = l(1 x)(1 cna (t)) + Wegen (3.3) und deshalb x(t)ca x(t)cna fr x(t) < 0 u fr x(t) 0 u
x(t)ca x(t)cna
fr x(t) < 0 u fr x(t) 0 u
Ca = xca + xca Cna = xcna + (1 x)cna lauten die Gleichungen fr die Fllzustnde ca und cna letztlich u u a ca = kca + l(1 ca ) + H(x) cna x (cna ca ) x x = l(1 cna ) + (1 H(x)) (cna ca ). 1x
Hierbei bedeutet H die Heaviside-Funktion. Das State-Partition-Modell wurde entwickelt, um die Antwort der Haarzellen richtig wiederzugeben, falls x(t) die Einhllende des Stimulus, d.h. die u Einhllende der Auslenkung der Basilarmembran, ist. Man kann sich beiu spielsweise leicht uberlegen, dass bei einem schlagartig eingeschalteten rei nen Ton (d.h. x(t) macht einen Sprung) die Antwort kxca (t) der Haarzelle ebenfalls einen Sprung macht und dann auf einen konstanten Wert relaxiert. Die genaue Zeitstruktur der Antwort wird nicht modelliert. Insbesondere kann nicht modelliert werden, dass die Antwort der Haarzellen bei niedrigen Frequenzen noch phasenrichtig ist, whrend sie bei hheren Frequenzen a o zunehmend verschmiert. Meddis-Modell In [Sottek 1993] wird ein Modell fr innere Haarzellen vorgestellt. Es beruht u auf [Meddis 1986]. y (m q(t)) Vorrat q(t) Reservoir w(t)
xw(t)
k(t)q(t) c(t)
rc(t)
synaptischer Spalt lc(t) Abb. 3.9: Das Meddis-Modell fr innere Haarzellen. Ksten bedeuten u a Behlter mit Neurotransmitter, Pfeile Neurotransmitterstrme. a o
50
Siehe Abb. 3.9. Die innere Haarzelle besitzt einen Vorrat an Neurotransmittersubstanz q(t). Neurotransmitter aus diesem Vorrat kann infolge der Permeabilitt k(t) der Zellmembran in den synaptischen Spalt zwischen Zela le und Nervenfaser diundieren. Die Konzentration c(t) des Transmitters im synaptischen Spalt bestimmt die Wahrscheinlichkeit fr das Auftreten eines u Aktionspotentials im postsynaptischen Nerv. Die Permeabilitt k(t) hngt a a vom Stimulus s(t), d.h. von der Auslenkung der Basilarmembran, ab. Ein Teil des Neurotransmitters im synaptischen Spalt wird zersetzt bzw. verbraucht, ein anderer Teil dringt wieder in die Zelle ein und fllt ein Reservoir w(t). u Der Vorrat q(t) wird auch aus diesem Reservoir ergnzt. a Im einzelnen lauten die Gleichungen fr die Vernderung der Transmitteru a konzentrationen: q(t) = y (m q(t)) + xw(t) k(t)q(t) c(t) = k(t)q(t) lc(t) rc(t) w(t) = rc(t) xw(t) k(t) =
s(t)+A g s(t)+A+B 0
fr s(t) + A > 0 u fr s(t) + A 0 u
Hierbei sind q(t) der Vorrat an Neurotransmitter, c(t) die Neurotransmitterkonzentration im synaptischen Spalt, w(t) der Neurotransmitter im Reservoir, y (m q(t)) die Aullrate des Vorrats aus der Erzeugung von Neuu rotransmitter, xw(t) die Aullrate des Vorrats aus dem Reservoir, k(t)q(t) u die Diusionsrate durch die Zellmembran aus dem Vorrat in den synaptischen Spalt, k(t) die Permeabilitt der Zellmembran, lc(t) der Verbrauch an a Transmitter und rc(t) die Diusionsrate durch die Zellmembran aus dem synaptischen Spalt in das Reservoir. Die Konstanten haben etwa die Werte in Tab. 3.1. A B g y l x r h m 5 300 2000 5,05 2500 66,3 6580 2,5 1,0
Tab. 3.1: Parameter einer Nervenfaser mit hoher Spontanaktivitt nach a [Sottek 1993]. Zeiten werden in Sekunden gemessen, Neurotransmitterkonzentrationen in willkrlichen Einheiten. u Bekannt sind der Stimulus s(t) sowie die Anfangsbedingungen q(0), c(0), w(0). Hieraus lsst sich dann die Konzentration c(t) des Neurotransmitters a
3.1. MODELLE FUR DAS PERIPHERE AUDITORISCHE SYSTEM 51 im synaptischen Spalt berechnen. Die Wahrscheinlichkeit fr das Auftreten u 9 eines Aktionspotentials ist dann nach [Sottek 1993] P = hc(t). Man kann sich auch vorstellen, dass das postsynaptische Potential hHN F (t) in der entsprechenden Hrnervenfaser proportional zur Konzentration des o Neurotransmitters im synaptischen Spalt ansteigt, etwa (3.5) hHN F (t) = hc(t) 1 HN F hHN F (t),
wobei HN F die Abklingzeit des postsynaptischen Potentials ist.
1.5 1.0 0.5
. . . .. .. .. .. .. .. . .. .. .. .. . .. . .. . . . . .. . . .. . . .. . . .. . . . .. .. . . .. . . . .. . . . . . . .. .. . . . . . .. . . . . .. . . . . .. . . . . .. . . . . . . . .. . . . . . . . . .. . . . . . . .. . . . .. . . . . . . . . . .. . .. .. . . . . . . . . .. . . . . . .. .. . . . . . . . . . . .. . . . . . . . . . . .. .. . . .. .. .. . . . . . .. . . . . . . . . . . . . . . . . . . . .. .. . . . . . .. . . . .. .. .. . . . . . . . . . . . . . . .. .. .. .. .. . . . . .. . . .. . . . . . . . . . . . . . . . . . .. .. .. .. .. .. .. .. .. . .. . .. .. .. .. . .. .. . . . . . . . . . . . . . . . . . . . . . . .. .. .. .. . . . . . . . . . . . . . . . . . . . . . . . . . .. .. .. .. .. . . . . . .. .. . . . . . . . .. . . .. .. . . . . . . . . . . . . . . . . . . . . . . . . . . .. .. .. .. . . . . . . . . . . . . . . . . . . . . . . . . . . . .. .. .. .. .. .. .. .. . . . . . . . .. .. .. .. .. .. .. .. .. . . . . . . . . . . . . . . . . . . . . . . . . .. .. .. .. .. .. .. . . . . . . . . . . . . . . . . . . . . . . .. . . .. .. .. .. . . . . . .. . . . . .. . . .. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . ................................................ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . ............................................... . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . ............................ . . . . . . . . . . . . . . . . . . . .. . .. . .. . .. . .. . .. . .. . .. . .. . .. . .. . .. . .. . .. .................................................. .... .... .... .... .... .... .... ..... .... .... ..... .... .... ..... .......................... . . . . . . . . . ... . .. .... . ... . .. . ... .... .... .... . ... .... . ... .... .... . ... . .
10
20
30
40
50 t/ms
Abb. 3.10: Neurotransmitterkonzentration c(t) nach dem Meddis-Modell bei einem von 1040 ms dauernden reinen Ton der Frequenz f = 500 Hz mit Amplitude 50 als Stimulus s(t).
3.1.3
Hrnerv o
In der die Haarzelle kontaktierenden Hrnervenfaser bildet sich genau dann o ein Aktionspotential, wenn das postsynaptische Potential hHN F im Hrnerv o nach (3.5) grer wird als eine Schwelle HN F , d.h. o hHN F (t) > HN F . Jedes Aktionspotential zieht ein entsprechendes Refraktrpotential nach sich, a so dass die Hrnervenfaser nicht gleich wieder feuern kann (siehe Kap. 4.3.2). o Abb. 3.11 fasst die bisher besprochenen Modelle zusammen. Abb. 3.12 und 3.13 zeigen die Aktionspotentiale im simulierten Hrnerv bei o einem Tiefpassrauschen bzw. einem reinen Ton als Stimulus wie in Abb. 3.6 und 3.7. Die Cochlea wurde als Filterbank mit linearen Filtern vierter Ordnung (Kap. 3.1.1) , die Haarzellen mit dem Meddis-Modell (Kap. 3.1.2) simuliert.
P kann als Wahrscheinlichkeit, dass der Hrnerv im Zeitabschnitt [t, t + dt] feuert ino terpretiert werden, wobei dt sehr klein ist. D.h. die Feuerrate des Hrnervs ist proportional o zur Neurotransmitterkonzentration und die Aktionspotentiale sind poissonverteilt.
9
52
6 4 2
.. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . ... . . .... . . . . . ... . .... ..... . . ............ ... . . .......... .. . ................ . ... . ... . . . .. . .. .... . ...... ... . . ....... ........... ... ... . . ..... . ... . . .. . . .... .... .... .... .... .... ................... .... .... .......................... .. . ... ... ... ... ... ... .... .... .... ... ... . . ................... .. ... ... ... .... .... ....... .. ... ... .... ..... ..... .. .... ........ .......................... . . ... . ..... . ... ........ ............................................................................................... .............................................. . . ... . .... ...... .. ... ... .... ... .. . .............. .... ............. ... .. ..... ...... ... .. ............. ............. ..... ............
10 t/ms
Abb. 3.11: Durchgezogen: Auslenkung y(t) der Basilarmembran an der Stelle mit Bestfrequenz 500 Hz. Das Cochleamodell sind lineare Filter vierter Ordnung wie in Kap. 3.1.1 beschrieben. Gestrichelt: Neurotransmitterkonzentration c(t) nach dem Meddis-Modell (Kap. 3.1.2). Der die Haarzelle reizende Stimulus ist s(t) = 50 y(t). Gepunktet: Postsynaptisches Potential hHN F (t) in der angeschlossenen Hrnervenfaser nach (3.5) (h = 250, HN F = 0,1 ms). o Stimulus ist ein reiner Ton der Frequenz 500 Hz, der bei t = 0 einsetzt.
150 Faser Nr. 100
50
0.1 0.2 0.3 0.4 0.5 t/s 60
Feuerrate/Hz
40
20
. . . . . . . . . . . . . . . . . . . . .. .. .. . .. .. .. .. .. .. .. .. .. .. .. . .. .. . .. . .. . .. .. .. .... .. .. .. . . .. .. . .. . . . .. .... . . . .. . .. . .. . . . .. . . . .. . . . . . ... . . .. . . . . ..... . . .. . . . . ... .. . . .. . . . . . .. . . . .. . . . . .. . .. . . .. . . . . . . . . . . . .. . . . . .. .. . . .. . . . .. . .. .. . . ... . .. .. . . .... . . . .. . . .. .. . . . . . . . . ... . . . .. . . . .. . . . . . . . . . . .. . .. . . .. . . . . . . . . . . .. . . . . . .. . . . . . .. . . . .. . . . . . . .. . . . . . . . . . . . . . . .. . . . .. .. . . . . .. . . .. . . . . . . .. . . . . . . . . . . . .. . . ... . . . . . . .. . . . . . . .. . . . . . . . . .. .. . . ... .. . .. . . .. .. . . . . .. . . . . . .. . .. . . .. . . . . . . . . . .. . .. . . . . .. . . .. . ... . . . . . . . ... . . ... ... ... . . . . . . . . .. .. . .. . . . .. . . . .. . . . . ... . . ... ... ... .. . . . . . . .. ... . .. . . . .. ... . . . . . .. . . . . . .. .. . . . ... . . . . . . . . .. . . . .. . . . . . . .. . .. . . . .. . . ... . . . . . . . . . . .. . . .. . ... . . . . ... . . . . . . . . .. .. .. . . . .. . .. . ... .. . . . .. .. . . . . . . .. ... . . . . . . . . .. . .. .. .. . . . ... .. . . . . . . . . . . . . ... . .. .. .. .. . . . . . . .. . ... . ... .. .. .. .. . . .. ... . . . .. .. .. . . . . . .. . . .. ... . . .. . .. . . . .. . . . . . . . .. . . . .. . . . .. .. . . . . . . .. ... . . .. .. . . . . . .. ... . . .. . . . . . .. ... . . .. . . .. . . .. ... . . .. .. . . . . .... .. . . ... . .. .. . . . . . .. . . . .... . .. . . . .. .. . . .. . . . .. .. . .. . .. .. . . . .. . .. .. . . .. . .. . . . .. . .. . . . . .. . . . . . . . . .. .. .. .. . . .. .. . . .. . ... . . . .. . . . ... . . .. . . .. . . .. . .. . . .. . .. . . .. .. .. . . . .. ... . . . . . .. . .. .. . . . . .. . . . . .. . .. . . . . . .. . . .. . . . .. . . .. . .. . . ... . . . . ... . . ... . ... . . .. . . .... ... .. . .. .. . .. . .. .... ..... .. ... . . . . .. .. . . . .. .. .. .. .. . .. . .. . .. .. . .. .. . . .. . ... . . .. .. . . . .. . . . . . ... . . ... . . . ..... . . ... . . . . .... . ... . . . ... .. . . . .. . . . ... . . . . ... ........ . . . .. ........ . . .. . ....... ....... . .. . .. . . .. . . ... . . . ... . . . .. .. ... .. .
50
100
150 Faser Nr.
Abb. 3.12: Die obere Grak zeigt die Aktionspotentiale in 150 Hrnervenfao sern mit Bestfrequenzen von 0 bis 15 Bark in Abstnden von 0,1 Bark. Nach a rechts ist die Zeit in s aufgetragen, nach oben die Nummer der Hrnervenfao ser. Jeder Punkt bedeutet ein Aktionspotential zum jeweiligen Zeitpunkt in der jeweiligen Hrnervenfaser. o Die untere Grak zeigt die mittlere Feuerrate jeder Hrnervenfaser in Hz. o Simuliert wurde nach dem Meddis-Modell (Kap. 3.1.2) und nach (3.5) (h = 250, HN F = 0,1 ms). Stimulus war Tiefpassrauschen von 100 bis 1000 Hz.
54
Faser Nr. 100 50 0.1 0.2 0.3 0.4 0.5 t/s 150 80 Feuerrate/Hz 60
. . . . . . . . . . . . . . . . . . .. . .. . .. . .. . .. . . .. . . .. . . .. . . .. . . .. . . .. . . . .. . . . .. . . .. . . . .. . .. .. . . .. . .. .. . .. .. . .. .. . .. .. . .. .. . .. . . . . .. . . . . . .. . . . .. . .. . . .. . .. . . .. . .. . . . .. . .. . . . . .. .. .. . . .. .. .. . .. .. .. . . .. .. .. .. . . .. .. .. . .. .. .. . ... .. .. . ... .. .. . . ... .. .. . ... .. .. . ... .. . . .. ... .. . . . . . .. . . ... ... .. . . ... ... . . . . ... .. . . . .. . .. . . . .. . .. . . . .. . .. .. . .. . . . .. . . . . .. .. .. . . . .. .. .. . . . .. .. . . . .. . .. . . . .. . .. . . .. . . .. . .. . . . . ... . . ... . . ... . . ... . . .. . . . .. . . . . . .. . .. . . . .. . . . . . . .. .. . . . . .. . . . .. . . . . . .. . . . . . .. . . . . .. . . . . .. . . . . . .. . .. ... . . .. . .. . .. . . .. . . .. . . . . . .. . .. .. . .. ... .. .. ... .. . .. .. . . .. . . ... . .. ... .. . ... .. . .. .. . ... .. . . . ... . .. . . . . .. . ... .. . .. . . .. .. . . .. .. .. . .. . .. .. .. . . . . . . .. .. .. . . . . .. . ... . . .. . . . . ... . . . . .. . .. . ... . . . .. . . .. .. . .. . . . . . . ..... . .. .. .. . . .. . . .. ... .. .. . . .. .. . .. . .. . . . ... .. .. .. . . .. . .. . . . ... .. .. . .. . . . .. . ... . . ... . .. . .. . . .. . . .. . . . ... . .... .. . . .. . .. . ... .. . . . . . . . . . . .. . . . . . ... .. .. . . . . . . . .. .. . . . . . . . . ............... . . . .. . . ... . . . . . . . . .. . . . . . . . . . . . .. . . .. . . ................ .. . . .. . . ... . .. ... . .. . . . . .. . .. . . ... ... .... .. .. ... .... .. . . .. . . . .. . .. .. . . ... . . . .. . . ... . .. . . . . . .. .. . . . . . . . . .. .. . ....... .. .. . .. ..... .. . .. .. . ... . .. ..... ................... ....... .. ... .. .. .. .. .. . ... . .. .. ......... . . .. .. . .. ... ................... ....... .. ..... .. .. .. . . ... . . . .. .. .. . . . . .. .. . . . . . .. .. .. . . . .. . . .. . . . . .. . . ... ... .. . . . .. .. .. .. . . .. . . . . .. . . . . . .. . .. . . . . . .. .. . . . . .. . . . . . . . .. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
40
20
50
100
150 Faser Nr.
Abb. 3.13: Wie Abb. 3.12, nur war der Stimulus diesmal ein Sinuston mit Frequenz 1000 Hz.
3.2. TINNITUSMODELL
55
3.2
Ein Tinnitusmodell fur das zentrale au ditorische System
Das hier vorgestellte Tinnitus-Modell stammt aus [Gerken 1996]. Unter Tinnitus versteht man einen Hreindruck, der ohne einen auf das Ohr o einwirkenden Schall auftritt. Tinnitus wird meist nicht durch otoakustische Emissionen (siehe Kap. 5.2.2) verursacht, denn bei nur 5 % aller Personen, die unter einem Tinnitus leiden, knnen entsprechende otoakustische Emissionen festgestellt werden o [Yost 1994]. Der Tinnitus entsteht deshalb vorwiegend erst im zentralen auditorischen System, obwohl seine Ursachen schon im peripheren auditorischen System liegen knnen. Tinnitus kann z. B. bei einem Gehrschaden auftreten, o o der seine Ursache in geschdigten Haarzellen in der Cochlea hat. a Ein Gehrschaden geht mit reduzierter spontaner Aktivitt der Gehrnero a o ven aus der Cochlea einher. Ist also das Gehr etwa ab einer Frequenz von o 4 kHz durch Einwirkung von Schall mit Frequenzen hauptschlich uber 4 kHz a geschdigt, so weisen die Hrnervenfasern mit einer charakteristischen Frea o quenz ab 4 kHz eine reduzierte spontane Aktivitt auf. Nach Kap. 2.1.4 sind a diese Nervenfasern dann auch gegenber akustischer Stimulation weniger u empndlich, wie es bei einem Gehrschaden der Fall sein sollte. o In [Gerken 1996] wird nun davon ausgegangen, dass in einem der Kerne des auditorischen Systems laterale Inhibition auftritt. Diese wrde jede Unebenu heit in der spontanen Aktivitt des Hrnervs noch verstrken. In obigem a o a Beispiel eines Gehrschadens tritt bei 4 kHz eine Kante in der spontanen o Aktivitt der Hrnervenfasern auf. Diese wrde durch laterale Inhibition zu a o u einer Spitze verstrkt werden. Diese Spitze in der Erregung des Kerns bei a einer charakteristischen Frequenz von 4 kHz knnte eine Erklrung fr das o a u Auftreten eines Tinnitus bei eben dieser Frequenz sein. Darber hinaus haben Messungen in [Gerken 1996] ergeben, dass die Empu ndlichkeit der Kerne im zentralen auditorischen System gegenber eleku trischen Reizen nach einem Gehrverlust zunimmt. Dies betrit zumindest o den Nucleus cochlearis, den Olivenkomplex, den Colliculus inferior und das Corpus geniculatum medialis. Man kann annehmen, dass diese Zunahme der Empndlichkeit in hheren Regionen die Entstehung eines Tinnitus durch o den oben beschriebenen Mechanismus noch frdert. o
Kapitel 4 Rolle der lateralen Inhibition im auditorischen System

Schon in Kap. 2.2.1 haben wir die laterale Inhibition im Nucleus cochlearis erwhnt sowie einige Funktionen, die diese laterale Inhibition erfllen knna u o te. Nach einer etwas genaueren Beschreibung der Physiologie der lateralen Inhibition in Kap. 4.1 sollen in Kap. 4.2 die Auswirkungen der Inhibition auf das Antwortverhalten der Neuronen an einem einfachen Modell quantitativ untersucht werden. Danach wird in Kap. 4.3 die Auswirkung lateraler Inhibition auf die Zuverlssigkeit der Detektion eines Signals in verrauschter a Umgebung untersucht.
4.1
Physiologie der lateralen Inhibition
In diesem Abschnitt soll die Physiologie der lateralen Inhibition im Nucleus cochlearis, soweit bekannt, kurz vorgestellt werden (vgl. auch Kap. 2.2.1). [Young, Brownell 1976] unterteilen die Neuronen des Nucleus cochlearis in verschiedene Typen, abhngig von der Struktur ihres rezeptiven Feldes. Typ Ia Neuronen haben hrnervhnliches Antwortverhalten und werden nicht inhio a biert. Typ II und Typ III-Neuronen haben V-frmige zentrale exzitatorische o Bereiche und inhibitorische Seitenbnder. Typ II-Neuronen reagieren nicht a oder wenig auf weies Rauschen und haben geringe spontane Aktivitt (bis a ca. 2,5/s). Typ III-Neuronen reagieren auf weies Rauschen und haben eine hhere spontane Aktivitt (bis ca. 95/s). Typen I, II und III haben monoo a tone Raten-Pegel-Funktionen (zum Begri der Raten-Pegel-Funktion siehe Kap. 2.1.4 und 2.2.5). Typ IV-Neuronen haben eine exzitatorische Region bei geringen Schallintensitten und weit (ber mehrere Bark) ausgedehnte inhia u bitorische Bereiche bei etwas hheren Intensitten. Sie haben dementspreo a chend nicht-monotone Raten-Pegel-Funktionen, da bei geringen Intensitten a der zentrale exzitatorische Bereich, bei hheren Intensitten allerdings dann o a der darberliegende inhibitorische Bereich des rezeptiven Feldes angesprou chen wird. Die Untersuchungen in [Voigt, Young 1980, Voigt, Young 1982, Voigt, Young 1990] sttzen die darin ausgesprochene Hypothese, dass Typ u IV-Neuronen von Typ II- und Typ III-Neuronen inhibiert werden. Hierdurch kann man die Struktur der rezeptiven Felder von Typ IV-Neuronen verstehen. 56
4.2. LATERALE INHIBITION IN EINEM LINEAREN MODELL
57
4.2
Laterale Inhibition in einem linearen Modell
Wir stellen uns eine Reihe von Neuronen vor, die tonotop entlang der x-Achse angeordnet sind. Das Membranpotential des Neurons an der Stelle x sei h(x). Die Anderung h(x,t) des Membranpotentials des Neurons an der Stelle x sei t eine lineare Funktion der Membranpotentiale der anderen Neuronen, linear im Eingabesignal E(x) und auerdem linear im Membranpotential h(x, t) des Neurons selbst, d.h. (4.1) h(x, t) 1 = t C I(x x ) h(x , t) dx + E(x) h(x, t).
Dabei ist C eine reelle Konstante und I(x x ) eine nur vom Abstand x x der Neuronen abhngige Wechselwirkung zwischen den Neuronen x und x . a Eventuelle andere Konstanten seien bereits in der Wechselwirkung I(x x ) bzw. im Eingabesignal E(x) enthalten. Ziel ist es nun, das Membranpotential h(x) im stationren Zustand zu bea h(x,t) rechnen. Der stationre Zustand ist erreicht, wenn t = 0, d.h. a h(x) = I(x x )h(x ) dx + E(x).
Fouriertransformation ergibt h(k) = I(k)h(k) + E(k). Nach h(k) aufgelst: o h(k) = E(k) 1 I(k)
Die rechte Seite lsst sich i.d.R. nicht analytisch Fourier-rcktransformieren, a u wohl aber die Reihenentwicklung
h(k) = E(k)
n=0
I(k)n .
Im Folgenden gehen wir von einer gaufrmigen Inhibition o I(x x ) = Ie 2

2 1 (xx x) d2
Die Reihe konvergiert fr alle k, falls |I(k)| < 1 fr alle k. u u
von Neuron x auf Neuron x aus. Hierbei bezeichnet I die Strke und d a die Reichweite der lateralen Inhibition. Neuron x inhibiert das Neuron x = x + x maximal, d.h. wir betrachten auch den Fall einer asymmetrischen Inhibition. Der Parameter x gibt dabei den Grad der Asymmetrie an. Die Fouriertransformierte I(k) von I(x) ist
58
KAPITEL 4. ROLLE DER LATERALEN INHIBITION

2 2 1 dk+i x ) + x d d2 I(k) = 2 Id e 2 ( .
Somit lsst sich auch die Fourier-Rcktransformierte von I n bzw. h berecha u nen:
h(x) = E(x) +
n=1
F 1 (E I n )(x)
Dabei bedeutet F die Fouriertransformierte und F 1 die Fourier-Rcktransu formierte. Wegen In = F n (xnx)2 1 e 2nd2 2 (Id)n 2n d
lassen sich die Summanden als Faltung schreiben: (4.2) h(x) = E(x)+ n1 1 (Id)n 2 n n=1
Die oben angegebene Konvergenzbedingung wird zu 2 Id < 1, d.h. das Produkt aus Strke und Reichweite der Inhibition darf nicht zu gro a werden. Im Folgenden betrachten wir das stationre Membranpotential bei verschiea denen an den Neuronen anliegenden Eingabesignalen E(x).
4.2.1
Konstantes Eingabesignal an der Neuronenschicht
Es sei nun E(x) = E. Somit nach Gleichung (4.2)
h(x) = E + E
n=1
n 2 (Id)n .
E 1 + 2 Id
Je grer also das Produkt Id aus Strke und Reichweite der lateralen Inhibio a tion, desto geringer wird das Membranpotential h(x). Dies war zu erwarten. Falls lim E(x) = E ergibt sich fr lim h(x) ebenfalls der oben angegebene u x x Wert.
E(xx )e
(x nx)2 2nd2
dx
59
4.2.2
Stufenfunktion als Eingabesignal der Neuronenschicht
Bei einer stufenfrmigen Eingabe ( Tiefpass bzw. Hochpass) ist zu erwaro ten, dass die Kanten durch die laterale Inhibition aufgebogen werden. Stufenfrmige Eingabe bedeutet o E(x) = E H(x), wobei H die Heaviside-Funktion ist. (4.3) 1 2 Id h(x) = E(x) + E 2 n=1
n
1 erf
nx x 2n d
Abb. 4.1 zeigt h(x) fr verschiedene Produkte Id aus Strke I und Reichweite u a d der lateralen Inhibition. Es ist o.B.d.A. d = 1, denn andere Werte fr d u fhren nach (4.3) nur zu einer anderen Skalierung der x-Achse. u
........ . . . .............. ........ . .......... . .......... . .............. .............. ..... . . ................................................ ............................................... . ... ..... .... ........ . . .. . ...... ....... ... .... ......... . . .. .. . .... ...... .......... . . .... .... .............. ........ . ...... ....... .............. . .............. .... ...... . .... ...... . ........................................ ....................................... .... . .... ........ . . .... ........... ........ .... . ........... ..... . ................ ..... . .......................................... . ..... .................................. ...... . . ....... ....... . . ........... . ............... . ......................................... .................................. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . ........................................................... . ................................................... ..... ........ ... ...... ........ . . . . ...... ... . ................. . .. ................. ........ . .......... ..... . ....... ....... . .......... ........ . .......... ........ . ..... ..... .... ...... ........ .. ..... ............ ..... . .. .. .. . .. .. . . .. ... ... .... ... .... . ..... . .... ... .. . ........ .. ........ .. ......... .... ... ... . .... . .. .
h(x)
0.5
3 x
Abb. 4.1: Gezeigt ist das Membranpotential h(x) fr die Produkte Id = u 0,1; 0,2; 0,3; 0,37. Je grer Id, desto kleiner ist lim h(x). Eingabesignal ist o
x
E(x) = H(x). Es ist d = 1 und x=0.
Verbiegung fur x = 0 Fr x = 0 ist die Verbiegung u lim h(x)

x0 x
lim h(x)
1=
/2 Id.
D.h. je grer die Strke I und die Reichweite d der lateralen Inhibition, desto o a grer wird die Verbiegung, was auch in Abb. 4.1 zu sehen ist. Diese Verbieo gung bewirkt die in Kap. 2.2.1 erwhnte Hervorhebung von Vernderungen a a im Spektrum entlang der Frequenzachse.
60
Verbiegung fur x = 0 Fr x > 0 ist die Verbiegung davon abhngig, ob E(x) = EH(x) (Hochpass) u a oder E(x) = EH(x) (Tiefpass), denn die Inhibition wirkt dann ja strker a von links nach rechts als umgekehrt. Dies zeigt Abb. 4.2. h(x) 1.0
.......... . . .............. ........ . ........ . ........ . ....... . ....... . ........ . ........ . ......... . ......... . ........... .. ............ .. ............................. .......................... ... .... .... . ... ... ... . .... .... .... .... .... .... .... .... .... .... .... ... ... ... ... ... ... ... ... ... ... ... . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . ............................................................................... ......................................... .................................... ... ... ... ... .... .... .... . ......... ......... . ... ... .... . .... .... ... ... .... ... . . ... .. .... . . ... .. ... .. . . .. ... .. .... .. ... .... ... ...
0.5
3 x
Abb. 4.2: Gezeigt ist das Membranpotential h(x) fr die Strke I = 0,1 der u a Inhibition, Reichweite d = 1 und Verschiebung x = 1. Eingabesignal ist E(x) = H(x) (durchgezogen) bzw. E(x) = H(x) (gestrichelt). Fr Id u 1 und x lim h(x)
x0 x
1 gilt fr die Verbiegung1 . u 1 I ( /2 d + x).
lim h(x)
Abb. 4.3 zeigt die Verbiegung bei verschiedenen Reichweiten d der lateralen Inhibition in Abhngigkeit der Verschiebung x. a Ist also die Verschiebung x d, d.h. ungefhr gleich der Reichweite der a lateralen Inhibition, so tritt bei einem Tiefpass als Eingabesignal nurmehr eine geringe Verbiegung auf, bei einem Hochpass eine strkere Verbiegung a als mit x = 0. Beachte, dass ein Hochpass mit x > 0 einem Tiefpass mit x < 0 entspricht.
4.2.3
Konstantes Eingabesignal mit Lucke an der Neuronenschicht
Als Eingabesignal verwenden wir nun (siehe Abb. 4.4) E(x) = E fr |x| > B/2 u (1 T ) E sonst T 1 heit Tiefe der Lcke. u
B heit hierbei Breite der Lcke, 0 u

1
Nach Gleichung (4.2) ergibt sich fr das Membranpotential h(x) u

Alle weiter unten angegebenen Nherungsformeln fr die Verbiegung erhlt man, ina u a dem man die unendliche Summe in der jeweiligen Gleichung fr h(x) durch endlich viele u Terme, meist nur den ersten, ersetzt und die Fehlerfunktion nach den kleinen Gren o entwickelt.
61
.. .. ...... ...... ..... ..... ..... ..... ..... ..... ... .... ..... ..... ..... ..... lim h(x) ... . ..... ..... ..... x ..... ..... . ... ..... ..... . .. ..... ..... ....... ........ ... . ..... ....... ....... . ... ..... ...... ...... ..... ..... ...... .. ...... .. .... ...... .... ...... ... ... .... .... .... ..... ..... .... ..... ..... ..... ..... ... . ..... ..... ..... . ... .... ..... .... ..... .... ..... ..... . .. ... ... .... ..... . ... ..... ..... ..... .... ..... .... ..... ..... .... .... . ... .... ..... .... .... ..... ..... .... ... ... ... .... ................... .................... .... .... ..... .... ................... .................. .... ..... .... ..... ......... ......... ..... ... . ..... ..... ...... ....... . .. ..... ..... .. ... ..... ...... .... ..... ..... ..... ..... ..... . .. ... ... .... .... ..... ..... .... .... ..... ..... .... . ...... ..... .... ..... .... .. ... ...... .... ..... .... .... .... .... ..... .... .... ..... .... ..... .. .... ..... .... .... .. ... .... ...... .... ..... .... ..... .... ...... .... ...... ..... .. ... .... ...... ..... ....... ..... ....... ..... ..... ........ ........ ...... ...... ....... ........ ........... .......... ................................... ........................... .......
lim h(x)
x0
0.6
0.4
0.2
1
lim h(x)
x0
3 x
Abb. 4.3: Gezeigt ist die Verbiegung
Verschiebung x bei verschiedenen Reichweiten d = 1; 2; 3 der lateralen Inhibition. Die Strke der lateralen Inhibition ist I = 0,1. Je grer die a o Reichweite d, desto strker ist die Verbiegung und desto langsamer sttigt a a die Verbiegung mit zunehmendem |x|. 1 ( 2 Id)n h(x) = E(x) + E 2 n=1 2+T erf 2x 2nx B 2 2nd 2x 2nx + B 2 2nd erf
lim h(x)
1 in Abhngigkeit von der a
Abb. 4.5 zeigt hierfr ein Beispiel. u Fr x = 0, Id u

xB/2 x
1 und B/d
1 gilt fr die Verbiegung u B2 6d2 .
lim h(x) 1 T IB 1
lim h(x)
Je grer also die Breite B und die Tiefe T der Lcke, desto strker ist die o u a Verbiegung, und zwar bei kleinen Breiten B unabhngig von der Reichweite a d der lateralen Inhibition (siehe Abb. 4.6). Bei greren Breiten B gilt allero dings: Je grer die Reichweite d der lateralen Inhibition, desto grer die o o Verbiegung.
62
.............................. ............................. ............................. . . . ............................ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . ... ................................................................................................................ . . .................................................................................................................... .
E(x) 1.0
0.5
3 x
Abb. 4.4: Eingabesignal E(x) mit Lcke. Breite der Lcke ist B = 4, Tiefe u u ist T = 1/4.
........................ . ... ... . . ............................ ..... .......................... . .......................... . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . ............................................................. ............................................................ . .................... ... ......................................... . . . ........... ....... .. ......................... .
h(x)
0.8 0.6 0.4 0.2
3 x
Abb. 4.5: Membranpotential h(x) bei einem Eingabesignal E(x) mit Lcke u wie in Abb. 4.4. Strke der lateralen Inhibition ist I = 0,1, die Reichweite a d = 1 und die Verschiebung x = 0.
63
xB/2 x
lim h(x)
0.4 1 0.3 0.2 0.1

......... .......... ........... ........... ......... ......... ........ ........ ....... ....... ...... ...... .... ..... ...... ...... ..... ..... ..... ..... ..... ..... ..... .... ... .... ............................... ......................................... .... ...................... .... ................. .... ............ .... ........... .... ......... .... ........ . .. ........ .... ....... .... ........... .... ........... . .. .... . ... .... ..... . .... ..... .... ...... .... .... .... ..... ... .... .... .. ......... ......... .. ... . ...... ....... ...... ...... ... .. .. ...... .. . ..... ... ..... ................................................................................................ ................................................................................................ ..... ..... .................... ................... .... ......... .... ............... ... ... ...... ... ..... ... ..... ........... ........... . .. ... ... .... .... ....... ....... ... .. ...... . . ..... ..... ... . ... . ..... ..... . ... ... ... .. ... ... ... ... ... ... ...
lim h(x)
1 Abb. 4.6: Gezeigt ist die Verbiegung
2
xB/2 x
5 B
lim h(x) lim h(x)
Breite B der Lcke bei verschiedenen Reichweiten d = 1; 2; 3 der lateralen u Inhibition. Tiefe der Lcke ist T = 1, Strke der Inhibition ist I = 0,1. u a
1 in Abhngigkeit von der a
64
4.3
Laterale Inhibition in einem Modell mit spikenden Neuronen
Wir haben im vorhergehenden Kapitel gesehen, dass laterale Inhibition Kanten verstrkt und somit Strukturen hervorhebt. Man vermutet daher, dass a laterale Inhibition dazu dient, als Vorverarbeitungsstufe Signale besser detektierbar zu machen [Zenner 1994]. Beispielsweise sollte nach einer Schicht von Neuronen mit lateraler Inhibition ein reiner Ton von Rauschen besser getrennt werden knnen als dies vorher mglich war. D.h. es sollte mit geo o ringerer Fehlerrate festgestellt werden knnen, ob ein reiner Ton vorhano den war oder nicht. Um abzuschtzen, mit welcher Fehlerrate das Gehr a o eine solche Erkennungsleistung vollbringen kann, bentigt man stochastische o Datenanalyse2 . Deshalb soll im nchsten Abschnitt kurz hierauf eingegangen a werden, bevor das Neuronenmodell zur Simulation spikender Neurone3 und Simulationsergebnisse vorgestellt werden.
4.3.1
Stochastische Datenanalyse
Die stochastische Datenanalyse befasst sich mit Datenvektoren x, die aus stochastischen Quellen (Klassen) k gezogen werden. Die Wahrscheinlichkeit, dass aus Quelle k gezogen wird, sei p(k). Die Wahrscheinlichkeit, dass Quelle k den Datenvektor x liefert, sei p(x|k). Gesucht sind nun Methoden, die es erlauben, vom Datenvektor x auf die Quelle k zurckzuschlieen. Auerdem ist die Fehlerrate gesucht, mit der u dies mglich ist. o Beispielsweise wird bis zu einer gewissen Vorverarbeitungsstufe im Gehr o ein Schall in Feuerzeiten x von Neuronen umgewandelt. Als Schall kommen zwei Wrter k 1, 2 in Frage, die allerdings immer etwas verschieden auso gesprochen werden. Gesucht ist der Fehler, mit dem es mglich ist, anhand o der Feuerzeiten der Neuronen in der Vorverarbeitungsstufe zu entscheiden, welches Wort k gesprochen wurde. Bayes-Klassikator Die Wahrscheinlichkeit, dass der Datenvektor x aus der Quelle k gezogen wurde, ist
Eine Alternative wre ein informationstheoretischer Ansatz wie in [Haft 1998]. Hier a wird die Transinformation zwischen externem Stimulus und interner Reprsentation des a Stimulus unter Anwesenheit von Rauschen maximiert. 3 Man knnte auch daran denken, diese Untersuchungen mit linearen Neuronen wie in o Kap. 4.2 durchzufhren. Das Eingabesignal E(x) wre dann etwa ein Kurzzeitspektrum des u a angelegten Stimulus. Das Signal h(x, t) der Outputschicht berechnet man nach (4.1). Das Signal h(x, t) she dann in jedem Zeitabschnitt von 100 ms wegen der Zufallskomponente a im Rauschen verschieden aus. Das Entscheidungskriterium, ob ein zustzlicher reiner Ton a vorlag, basiert darauf, wie gro h(x0 , t) im Zeitraum von 100 ms durchschnittlich war, wobei x0 die Stelle ist, an der das Eingabesignal E(x) eines reinen Tons maximal ist.
2
4.3. LATERALE INHIBITION MIT SPIKENDEN NEURONEN p(k)p(x|k) = p(x) p(k)p(x|k) . k p(k)p(x|k)
65
p(k|x) =
Whlt man aufgrund der Messung x die Klasse kx , so ist die mittlere Wahra scheinlichkeit, dass richtig zugeordnet wird p(x)p(kx |x)dx. Diese ist genau dann maximal, wenn (4.4) p(kx |x) = max p(k|x).
k
Die entsprechende Zuordnung x kx heit dann auch Bayes-Klassikator.
Die mittlere Fehlerwahrscheinlichkeit (Fehlerrate) E ist dann nach obigen Gleichungen (4.5) E =1 p(x)p(kx |x)dx = 1 max(p(k)p(x|k))dx.
k
Abstandsmae Ein Abstandsma ist ein Ma fr die Trennbarkeit mehrerer Wahrscheinlichu keitsverteilungen. D.h. je grer der Abstand, desto sicherer kann von einer o Messung x gesagt werden, aus welcher stochastischen Quelle k sie stammt. Abstandsmae sind also Abschtzungen fr die mittlere Fehlerwahrscheina u lichkeit bei Verwendung des Bayes-Klassikators. Im Folgenden betrachten wir Abstnde zwischen zwei Wahrscheinlichkeitsa verteilungen p(x|1) und p(x|2). Kolmogorov-Abstand Der Kolmogorov-Abstand JK ist deniert als JK := |p(1)p(x|1) p(2)p(x|2)| dx.
Fr die Fehlerrate E gilt u 1 E = (1 JK ). 2 Bhattacharyya-Abstand Der Bhattacharyya-Abstand JB ist deniert als JB := ln Fr die Fehlerrate E gilt u E p(1)p(2) eJB . p(x|1)p(x|2) dx.
66
4.3.2
Das verwendete Neuronenmodell und die Verschaltung der Neurone
Wir nehmen an, dass der Hrnerv die Reihe der inneren Haarzellen ( Inputo schicht) tonotop in den Nucleus cochlearis ( Outputschicht) abbildet. Dies zeigt Abb. 4.7. Die Verbindungen zwischen der Input- und der Outputschicht stellen also den Hrnerv dar. Weiter wird angenommen, dass sich die Neuo ronen in der Outputschicht gegenseitig (lateral) inhibieren, wie in Abb. 4.7 angedeutet.
I J Outputschicht
Inputschicht
Abb. 4.7: Modell der Verschaltung der Neurone. Graue Kreise bezeichnen Neurone, Linien Axone, ausgefllte Punkte exzitatorische und oene Punkte u inhibitorische Synapsen. Die Neuronen wurden als Spike-Response-Neurone nach [Gerstner 1993] modelliert4 . Das synaptische Potential hsyn des Neurons Nr. i in der Outputschicht ist hsyn (i, t) = J
tin (i) f
(t tin (i)) + f
I(i, j)
j=i tf (j)
(t tf (j)).
Hierbei sind tin (i) die Feuerzeiten des Neurons Nr. i in der Inputschicht, tf (i) f die Feuerzeiten des Neurons Nr. i in der Outputschicht und J die Strke der a feed-forward-Kopplung. Die Strke I(i, j) der lateralen Inhibition zwischen den Neuronen i und j in a der Outputschicht wurde als I(i, j) = Ie(ij) angenommen. Das Refraktrpotential href des Neurons i ist a href (i, t) =
tf (i)
4
2 /d2
(t tf (i)).
In [Gerstner 1993] werden die Eigenschaften des Spike-Response-Modells mit dem Neuronenmodell von Hodgkin und Huxley 1952 verglichen. Das Spike-Response-Modell stellt eine gute Nherung dieses aus vier gekoppelten nicht linearen Dierenzialgleia chungen bestehenden Modells dar (siehe [Domany 1994, Gerstner 1993, Kistler 1996, Kistler 1997]). Es eignet sich jedoch wegen seiner leichten Berechenbarkeit auch zur Simulation grerer Netze. o
4.3. LATERALE INHIBITION MIT SPIKENDEN NEURONEN Das Membranpotential ist h(i, t) = hsyn (i, t) + href (i, t). Das Neuron feuert, wenn5 h(i, t) > . Fr (t) und (t) wurde u (t) = bzw. (t) = angesetzt. d s 3 1 10 ms ref 5 ms ref 2 ms ref tref fr 0 < t ref u fr t > ref u t (1t/s ) e s f ur t 0
67
Tab. 4.1: Die Tabelle zeigt die in der Simulation in Kap. 4.3.4 verwendeten Konstanten. Die Gren I und J wurden variiert. o
4.3.3
Die in der Simulation verwendeten Stimuli
Das Gehr soll nun einen reinen Ton aus weiem Rauschen heraushren, o o d.h. es soll entscheiden, ob ein reiner Ton vorliegt oder nicht. Aus Kap. 2 wissen wir, dass der Hrnerv ein in Feuerraten codiertes Kurzzeitspektrum o liefert. Angenommen, das an den Hrnerv anschlieende Gehr wre ein o o a idealer Klassikator. Dann knnte es schon anhand des Eingangssignals ento scheiden, ob ein reiner Ton vorliegt oder nicht. Da es sich bereits um einen idealen Klassikator handelt, kann die Fehlerrate durch irgendeine Art der Vorverarbeitung nur verschlechtert werden, jedoch niemals verbessert. D.h. es wre am besten, wenn der Nucleus cochlearis das Signal des Hrnervs a o mglichst unverflscht an das Gehr weitergeben wrde. Da das Gehr o a o u o jedoch kein idealer Klassikator ist, ist eine Vorverarbeitung sinnvoll. Um zu entscheiden, ob z. B. laterale Inhibition als Vorverarbeitung sinnvoll ist, mssen wir also Hypothesen darber machen, welche Art von Klassikau u tor das Gehr einsetzt, um etwa zwischen einem reinen Ton mit Rauschen o und nur Rauschen zu unterscheiden. Die einfachste Annahme ist die folgende: Das Gehr stellt das Neuron fest, das am hugsten gefeuert hat. Falls o a die Feuerrate einen gewissen Schwellenwert ubersteigt, vermutet das Gehr o
Es handelt sich also um ein deterministisch feuerndes Neuron. Nach [Gerstner 1993] knnen auch stochastisch feuernde Neuronen modelliert werden, indem man annimmt, o dass fr die Wahrscheinlichkeit P (h(t)), dass das Neuron innerhalb des Zeitabschnitts u [t, t + dt] feuert, P (h(t)) = e(h(t)) dt gilt. Die Gre 1 bestimmt dabei die Strke des o a Rauschens und heit formale Temperatur des Systems.
5
68
einen reinen Ton an dieser Stelle, andernfalls nimmt es an, dass die Feuerrate allein durch das Hintergrundrauschen erzeugt wurde. Dies muss etwa innerhalb eines Zeitraums von 100 ms geschehen6 . Noch nicht festgelegt ist die Schwelle, ab der das Gehr sich fr die eine oder die andere Mglichkeit o u o entscheidet. Sie wird hier nach Gleichung (4.4) immer so gewhlt, dass die a Irrtumswahrscheinlichkeit minimal ist7 . Die Irrtumswahrscheinlichkeit wurde bei verschieden starker Inhibition und Exzitation nach Gleichung (4.5) berechnet. Hierzu bentigt man folgende o Wahrscheinlichkeitsverteilungen: Falls der Stimulus mit Rauschen und dem reinen Ton vorliegt die Wahrscheinlichkeit, dass das Neuron, das auf den reinen Ton optimal anspricht8 , genau n mal feuert. Falls der Stimulus mit nur Rauschen vorliegt die Wahrscheinlichkeit, dass das Neuron, das gerade am hugsten gefeuert hat, genau n mal a gefeuert hat. Um die erste Wahrscheinlichkeitsverteilung zu messen, wurde das simulierte Gehr eine zeitlang mit reinen Tnen und Rauschen stimuliert. Die Frequenz o o der reinen Tne wechselte alle 100 ms zufllig. Um die zweite Wahrscheino a lichkeitsverteilung zu messen, wurde das simulierte Gehr eine zeitlang nur o mit Rauschen stimuliert. Der Stimulus Rauschen wurde dabei erzeugt, indem alle Neuronen der In putschicht poissonverteilt durchschnittlich mit einer Rate von 50 Hz feuerten. Der Stimulus Rauschen mit reinem Ton wurde erzeugt, indem das Neuron der Inputschicht, das am besten auf diesen Ton anspricht, poissonverteilt mit einer durchschnittlichen Rate von 150 Hz zum Feuern gebracht wurde9 . Alle anderen Neuronen der Inputschicht feuerten wie beim Stimulus Rauschen.
4.3.4
Simulationsergebnisse
Zunchst wird die Strke I der lateralen Inhibition auf Null gesetzt und wir a a variieren nur die Strke J der feed-forward-Kopplung. Abb. 4.8 zeigt die a Fehlerrate E nach (4.5) in Abhngigkeit von der feed-forward-Kopplung J. a Man erkennt ein relativ breites Minimum der Fehlerrate. Die Ursache ist, dass bei geringer feed-forward-Kopplung J die Feuerraten einfach zu gering sind, um zwischen den beiden Stimuli zuverlssig zu unterscheiden. Bei zu a
Ein Schall muss mindestens 100200 ms dauern, damit seine Lautheit gleich der Lautheit des Dauerschalls gleicher Schallintensitt ist [Sottek 1993]. Dies ist ein Hinweis darauf, a dass die Integrationszeiten des Gehrs etwa 100200 ms betragen. o 7 Man kann sich etwa vorstellen, dass das Gehr diese Aufgabe lernen kann und die o Schwelle in Vorversuchen bereits auf ihren optimalen Wert eingestellt hat. 8 Das Erkennen eines reinen Tons, das nur darauf beruht, dass irgendein Neuron zufllig sehr hug gefeuert hat, soll als Fehler gewertet werden. a a 9 Die Raten unterscheiden sich stark. Dies wird allerdings dadurch relativiert, dass die Neuronen der Inputschicht ja innerhalb des Auswertungszeitraums von 100 ms nur etwa 515-mal feuern.
6
4.3. LATERALE INHIBITION MIT SPIKENDEN NEURONEN E 0.8 0.7 0.6 0.5 0.4 0.3 0.2 0.1
69
0.5 1.0 1.5 2.0
0.0
2.5
3.0 J
Abb. 4.8: Aufgetragen ist die Fehlerrate E in Abhngigkeit der Strke J a a der feed-forward-Kopplung. Die Strke der lateralen Inhibition ist I = 0, die a Dauer der Simulation betrug 100 s. groer feed-forward-Kopplung dagegen werden die Feuerraten so gro, dass sich die Neuronen in der Sttigung benden, unabhngig davon, ob Rauschen a a mit zustzlichem reinen Ton oder nur Rauschen allein vorliegt. a Die entsprechenden Wahrscheinlichkeitsverteilungen der Anzahl der Aktionspotentiale zeigt Abb. 4.9. In Abb. 4.8 haben wir ein breites Minimum in der Irrtumswahrscheinlichkeit von etwa J = 0, 5 1,5 beobachtet. Es erscheint sinnvoll, nun die Strke der a feed-forward-Kopplung auf dem Wert J = 1,5 konstant zu lassen, und die Strke der lateralen Inhibition zu variieren. Die daraus resultierenden Irra tumswahrscheinlichkeiten zeigt Abb. 4.10, die entsprechenden Wahrscheinlichkeitsverteilungen Abb. 4.11. Die Abb. 4.12 und 4.13 zeigen noch einmal eine genauere Analyse der Abhngigkeit der Irrtumswahrscheinlichkeit E von der Strke der feed-forwarda a Kopplung J und der Strke der lateralen Inhibition I. a Was ist der Grund dafr, dass die Irrtumswahrscheinlichkeit bei zu starker lau teraler Inhibition wieder wchst? Man knnte zunchst vermuten, dass dann a o a die Feuerrate einfach wieder zu gering wird, um zwischen den beiden Stimuli zu unterscheiden. Das Hauptproblem bei zu groer lateraler Inhibition ist allerdings ein anderes. Wir haben in Kap. 4.2.2 schon die Uberschwinger gesehen, die zu starke laterale Inhibition verursachen kann. Dasselbe Phnoa men tritt auch im Modell mit spikenden Neuronen wieder auf, was Abb. 4.14 zeigt10 . Noch deutlicher wird dies allerdings, indem man die Feuerzeitpunkte im Einzelnen auftrgt, siehe Abb. 4.15. Im Falle geringer lateraler Inhibition a feuern die Neuronen schon nicht sehr gleichmig. Sie zeigen eher ein bura stendes Verhalten, wobei die Bursts allerdings noch relativ kurz sind. Bei sehr starker lateraler Inhibition hingegen werden die Bursts sehr lang (lnger a als 100 ms). Auch zeigt sich eine deutliche Streifenstruktur im Feuermuster.
Man beachte, dass die Neuronen am Rand mit hherer Rate feuern, da sie von einer o Seite nicht inhibiert werden. Dies wird bei der Behandlung des Zwicker-Tons in Kap. 6 noch eine bedeutende Rolle spielen.
10
70
KAPITEL 4. ROLLE DER LATERALEN INHIBITION J = 0,5 J = 1,0
p 0.30
p 0.30 0.20 0.20 0.10 0.10 10 20 30 40 10 20 30 40 n n J = 2,0 J = 1,5 p 0.4 0.3 0.2
p 0.40 0.30 0.20 0.10 10 20 30 40 n
0.1 10 20 30 40 n
Abb. 4.9: Aufgetragen ist die Wahrscheinlichkeit, dass das Neuron, das am hugsten gefeuert hat, innerhalb von 100 ms genau n-mal gefeuert hat (nur a Rauschen als Stimulus) als bzw. die Wahrscheinlichkeit, dass das Neuron, das auf den reinen Ton optimal anspricht, genau n-mal gefeuert hat (Rauschen und reiner Ton als Stimulus) als . Die Strke J der feed-forward-Kopplung variiert von Bild zu Bild. Die Strke a a der lateralen Inhibition ist I = 0, die Dauer der Simulation betrug 100 s. Die Streifen sind relativ stabil, denn die verstrkt feuernden Neuronen wera den ja von den Neuronen in ihrer Nachbarschaft nicht inhibiert, da diese nicht feuern. Die verstrkt feuernden Neuronen selbst inhibieren allerdings a die Neuronen in ihrer Nachbarschaft.
4.3.5
Zusammenfassung
In den letzten Abschnitten haben wir gesehen, dass laterale Inhibition die Irrtumswahrscheinlichkeit des Gehrs bei der Detektion von Merkmalen in o den angebotenen auditorischen Stimuli herabsetzen kann. Hierzu haben wir ein System spikender Modellneuronen mit lateraler Inhibition studiert, die zwischen zwei Stimuli unterscheiden sollten, nmlich Rauschen mit bzw. ohne a zustzlichen reinen Ton. Dies gelang mit lateraler Inhibition deutlich besser a als ohne. Weiter dient laterale Inhibition im auditorischen System vermutlich zur Datenreduktion unter weitgehender Informationserhaltung, was auch fr u das visuelle System angenommen wird [Hauske 1994]. Beiden Zwecken der lateralen Inhibition ist jedoch gemeinsam, dass eine zu starke laterale Inhibition den Stimulus durch zustzlich vorgetuschte Kanten so verflscht, dass a a a eine Diskrimination bzw. Rekonstruktion nicht mehr mglich ist. Bei unserer o Diskriminationsaufgabe erwies sich die genaue Strke der lateralen Inhibition a jedoch als relativ unkritisch.
4.3. LATERALE INHIBITION MIT SPIKENDEN NEURONEN
71
E 0.2 0.1 1.0
0.5
1.5
2.0 I
Abb. 4.10: Aufgetragen ist die Fehlerrate E in Abhngigkeit der Strke I a a der lateralen Inhibition. Die Strke der feed-forward-Kopplung ist J = 1,5, a die Dauer der Simulation betrug 100 s.
I =0 p 0.20
I = 0, 5
p 0.20 0.10 0.10 10 20 30 40 10 20 30 40 n n I = 1,0 I = 2,0 p 0.10 10 20 30 40 10 20 30 40 n n
p 0.10
Abb. 4.11: Siehe Abb. 4.9. Die Strke I der lateralen Inhibition variiert von Bild zu Bild. Die Strke der a a feed-forward-Kopplung J = 1,5, die Dauer der Simulation betrug 100 s.
72
E 0.3 0.2
0.1
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . ....... . ....... . . .. . .. . . . . .. . . . . . .. . . . . .... .. . ....... .. . . ... . .. .. . .. . . . . . . . .. . .. . . . .. .. .. .. .. . . . ... . . ...... . . .. . .. ...... . .. .. .. .. . .. . .. . . .. . .. .... . .... .. .... . .. . .. .... .. . .. ... . . . . .. .. .... . ..... .... . ...... . ..... .. . . .. ........ ........ ..... . .. .... . ........ .. .. . . .. .... . . .. ... .. . . ....... . . .... ... .. ... ... .. .. . . . .. . . ... ........ .. . . . . ........... .. .. .. ......... . ............ . . . .. .............................. .......... ....... ... ........... .. . . . . . .. .... ... .. .... . ................ .... ....... .. ... . .. ... . .. ... ... ... ... .... .... .... .... .... .... .... ............. ... ... ... ... ... ... ... ... ............. ....... . ... .......... ....................................... ..................................
3,0
1,0
0,5
1,5 0.5
1.0
1.5
2.0 I
Abb. 4.12: Aufgetragen ist die Irrtumswahrscheinlichkeit E in Abhngigkeit a der Strke der lateralen Inhibition I. Die Kurven gelten fr verschiedene feeda u forward-Kopplungen J, die jeweils angegeben sind. Die Dauer der Simulation betrug 100 s.
E 0.8 0.7 0.6 0.5 0.4 0.3 0.2 0.1 0.0
. . . . . . . . . . . . . .. . . . . .. . .. .. . .. . . . .. .. .. .. . . .. .. . . .. .. .. . . . .. .. .. .. . . . . . . . . . . . . . . . . .. . .... . . ... . . . . .... .... . . . . ... ..... . . .... . . .... . . ... . .... . . .... .... . . .. . ..... ..... . .. .... .... .. . .... ... ... . ... ......... ......... . ... .... .... . .. ..... . .. ..... .. . ... .. . .... .... ... .... ... ....... ....... ......... .......... ........ ........ . ....................................... ............ ........................................................................................ ............ ... . ................... ... . ... .. . ... .. .... ... .... .... .... .... .... .... . ... ... ... ... ... ... . ... ... .. . .... .... .. .... .... .... .... .... .... .... .... .... .... .... .... ... ... ... ... ... ... ... ... ... ... ... ... ... ..
0,0
0,5
0.5
1.0
1.5
2.0
2.5
3.0 J
Abb. 4.13: Aufgetragen ist die Irrtumswahrscheinlichkeit E in Abhngigkeit a der Strke der feed-forward-Kopplung J. Die Kurven gelten fr verschiedene a u Strken I der lateralen Inhibition, die jeweils angegeben sind. Die Dauer der a Simulation betrug 100 s.
4.3. LATERALE INHIBITION MIT SPIKENDEN NEURONEN
73
I = 0,5 f / Hz 300 200 100 10 20 30 40 50 Neuron Nr. I = 1,0 10 20 30 40 50 Neuron Nr. I = 2,0 10 20 30 40 50 Neuron Nr. I = 5,0 10 20 30 40 50 Neuron Nr.
f / Hz 300 200 100
f / Hz 300 200 100
f / Hz 300 200 100
Abb. 4.14: Gezeigt sind die Feuerraten der einzelnen Neuronen der Outputschicht bei einem Stimulus aus Rauschen und einem reinen Ton. Die Strken I a der lateralen Inhibition sind jeweils angegeben. Die Strke der feed-forwarda Kopplung ist J = 1,5, die Dauer der Simulation betrug 100 s.
74
I = 0,5 Neuron 50 Nr. 40 30 20 10

0.5 I = 5,0 Neuron 50 Nr. 40 30 20 10
1.0 t/ s
0.5
1.0 t/ s
Abb. 4.15: Stimulus ist Rauschen und ein reiner Ton, der Neuron Nr. 26 erregt. Jeder Punkt bedeutet ein Aktionspotential des entsprechenden Neurons zur Zeit t. Die Strken I der lateralen Inhibition sind jeweils angegeben. a Die Strke der feed-forward-Kopplung ist J = 1,5, die Dauer der Simulation a betrug 1 s.
Kapitel 5 Zwicker-Ton
Der Zwicker-Ton (Zwicker-tone) ist ein akustischer Nacheekt (acoustic afterimage). Er entsteht unmittelbar nach dem Abschalten von Schallen verschiedener Beschaenheit. Es handelt sich um einen fast reinen Ton, der ublicherweise 12, aber auch bis zu 6 Sekunden nach dem Abschalten des erzeugenden Schalls noch zu hren ist. Der Ton ist sehr leise (1015 phon) o und klingt mit der Zeit ab. [Krump 1993, Zwicker 1990] Zunchst sollen die wesentlichen Eigenschaften einiger Zwicker-Ton Erzeua gerschalle vorgestellt werden, bevor im Abschnitt 5.2 darber berichtet wird, u welchen Einuss diese Eigenschaften auf Tonhhe und Qualitt des Zwickero a Tons haben. Die Abhngigkeit der Qualitt (siehe Kap. 5.2) und der Tonhhe a a o des Zwicker-Tons von vielen verschiedenen Parametern der Zwicker-Ton Erzeugerschalle ist in [Fastl 1986, Fastl 1989, Krump 1993] eingehend untersucht worden.
5.1
Zwicker-Ton Erzeugerschalle
Schalle, die nach dem Abschalten den Zwicker-Ton hervorrufen, heien Zwicker-Ton Erzeugerschalle. Klassischer Erzeugerschall ist bandsperrenbe grenztes Rauschen, jedoch auch ein frequenzmodulierter Ton und weies Rauschen mit einem uberlagerten Sinuston kann einen Zwicker-Ton hervorrufen.
5.1.1
Rauschen
Weies Rauschen (white noise) besteht aus einer Uberlagerung von Sinusto nen aller Frequenzen mit gleicher Amplitude und zuflliger Phase. Alle Phaa sen zwischen 0 und 2 treten dabei mit gleicher Wahrscheinlichkeit auf. Dies fhrt zu einer gaufrmigen Amplitudenverteilung, d.h. die Wahrscheinlichu o keitsverteilung der Amplitude von weiem Rauschen zu einem bestimmten Zeitpunkt ist eine Gauverteilung. Auerdem ist die Intensittsdichte uber a alle Frequenzen konstant. Tiefpassrauschen (low pass noise) ist weies Rauschen, das alle Frequenzen bis zu einer bestimmten Grenzfrequenz (cuto frequency) enthlt. a 75
76
KAPITEL 5. ZWICKER-TON
Hochpassrauschen (high pass noise) ist weies Rauschen, das alle Frequenzen ab einer bestimmten Grenzfrequenz enthlt. a Bandpassrauschen (bandpass noise) ist weies Rauschen, das alle Frequenzen zwischen zwei Grenzfrequenzen enthlt. a Bandsperrenbegrenztes Rauschen (band reject noise) ist weies Rauschen, das alle Frequenzen auer diejenigen zwischen zwei Grenzfrequenzen enthlt. a Weies Rauschen erzeugt keinen Zwicker-Ton. Zwicker-Ton Erzeugerschalle sind aber Tiefpassrauschen, bandsperrenbegrenztes Rauschen mit einer hinreichend breiten Frequenzlcke und, mit Einschrnkungen, auch Hochpassu a rauschen1 . Die Tonhhe des Zwicker-Tons liegt dann stets im Bereich der o Frequenzlcke. u Statt echtem weien Rauschen kann auch ein Linienspektrum mit Sinustnen o gleicher Amplitude und zuflliger Phase in konstantem Frequenzabstand vera wendet werden. Ist der Frequenzabstand z. B. 1 Hz, so entsteht ein weies Rauschen mit einer Periode von 1 s. Ein solches Rauschen kann sehr leicht mit einem Rechner erzeugt werden. Lt man Frequenzen in einem Bereich a weg, so kann man bandsperrenbegrenztes Rauschen mit sehr steilen Flanken erzeugen. Die Periodizitt kann deutlich gehrt werden, das Rauschen una o terscheidet sich aber ansonsten nicht von echtem weien Rauschen. Deshalb wird im Folgenden Rauschen aus einem dichten Linienspektrum und weies Rauschen nicht unterschieden, es sei denn, die Linienabstnde werden grer a o als 1 Hz.
5.1.2
Andere Erzeugerschalle
Oenbar muss der Zwicker-Ton Erzeugerschall breite Frequenzbereiche abdecken. Er muss aber auch abrupte Sprnge im Frequenzbereich enthalten. u Dies wird durch bandsperrenbegrenztes Rauschen erfllt. Jedoch auch ein u Gleitsinus (Frequenzsweep) von niedrigen zu hohen Frequenzen erfllt dieu se Bedingung. Folgen die Sweeps rasch genug aufeinander, so kann auch ein Gleitsinus einen Zwicker-Ton hervorrufen. Weies Rauschen allein erzeugt keinen Zwicker-Ton, auch kein einzelner rei ner Ton. Uberlagert man jedoch weies Rauschen mit einem reinen Ton, so kann ein Zwicker-Ton erzeugt werden. Dieser liegt in der Tonhhe stets uno terhalb des Sinustons. Auch weies Rauschen kombiniert mit einem Schmalbandrauschen erzeugt einen Zwicker-Ton, dessen Tonhhe unterhalb der uno teren Bandkante des Schmalbandrauschens liegt.
5.2
Psychoakustische Messungen
Der Zwicker-Ton wird als relativ reiner Ton empfunden. Man kann ihm deshalb recht genau eine bestimmte Tonhhe zuordnen. Weiter hat er eio ne bestimmte Dauer und eine bestimmte Lautstrke bzw. einen bestimmten a
Mit Hochpassrauschen werden allerdings nur otoakustische Emissionen hrbar geo macht, siehe Kap. 5.2.2.
1
5.2. PSYCHOAKUSTISCHE MESSUNGEN Lautstrkeverlauf. a
77
Lautstrke und Dauer werden am meisten dafr verantwortlich sein, wie a u gut oder wie deutlich eine Versuchsperson den Zwicker-Ton hrt. Dies o wird als Qualitt des Zwicker-Tons im engeren Sinn bezeichnet. Eine Eina teilung der Qualitt von nicht gehrt bis sehr gut wahrgenommen ist a o nach Tab. 5.1 mglich ([Krump 1993]). o Symbol ++ + Qualitt a sehr gut gut mittel schlecht sehr schlecht nicht gehrt o
Tab. 5.1: Qualitt des Zwicker-Tons und symbolische Bezeichnungen nach a [Krump 1993]. Die Zwicker-Ton Erzeugerschalle lassen sich durch verschiedene Parameter, wie beispielsweise Breite der Frequenzlcke und Lautstrke sowie Darbieu a tungslnge des Rauschens, beschreiben. Uber die Abhngigkeit der Tonhhe a a o und der Qualitt des Zwicker-Tons von diesen Parametern wird im Folgenden a berichtet.
5.2.1
Verbreitung
Pauschal kann man sagen, dass der Zwicker-Ton bei relativ optimalen Bedingungen von uber 90 % der Versuchspersonen gehrt wird [Krump 1993]. o Bei Zwicker hrten etwa 10 % der Versuchspersonen den Zwicker-Ton lnger o a als 6 s [Zwicker 1990].
5.2.2
Otoakustische Emissionen
Schalle, die vom Gehr selbst erzeugt werden, heien otoakustische Emiso sionen (otoacoustic emissions). Sie werden im verschlossenen Gehrgang mit o sehr empndlichen Mikrofonen gemessen. [Zwicker 1990, Krump 1993] Eigenschaften otoakustischer Emissionen Otoakustische Emissionen ohne Stimulation des Gehrs heien spontan (spono taneous otoacoustic emissions). Otoakustische Emissionen, die als Antwort auf eine vorherige Stimulation des Gehrs auftreten, heien stimuliert (evoo ked otoacoustic emissions). Um sie zu messen, muss sich natrlich auch ein u kleiner Lautsprecher im Gehrgang benden. Die stimulierten otoakustischen o Emissionen unterteilt man weiter in simultane und verzgerte otoakustische o Emissionen (spontaneous and delayed evoked otoacoustic emissions). Spontane otoakustische Emissionen treten whrend gleichzeitiger Stimulation des a
78
Gehrs auf. Verzgerte otoakustische Emissionen misst man nach dem Abo o schalten eines ueren Stimulus. Schlielich gibt es otoakustische Emissioa nen, die auf nichtlineare Verzerrungsprodukte des Gehrs zurckzufhren o u u sind (distortion product otoacoustic emissions). Spontane otoakustische Emissionen treten bei mehr als 50 % der Versuchspersonen auf. Die Intensitt der Emissionen ist nicht sehr stabil, sie schwankt von a Tag zu Tag so stark, dass einige Emissionen manchmal auftreten, manchmal nicht. Die Frequenz der spontanen otoakustischen Emissionen ist allerdings sehr stabil, d.h. sie treten immer wieder bei den selben Frequenzen auf. Der minimale Frequenzabstand zwischen benachbarten spontanen sowie verzgerten otoakustischen Emissionen betrgt ungefhr 0,4 Bark. Auerdem o a a knnen spontane otoakustische Emissionen auch als simultane stimulierte o Emissionen gemessen werden. Dies deutet darauf hin, dass diese drei Arten otoakustischer Emissionen die selbe Ursache haben. Die Feinstruktur der Ruhehrschwelle hat einen engen Zusammenhang mit o den otoakustischen Emissionen: An Stellen mit otoakustischen Emissionen treten Minima der Ruhehrschwelle auf, d.h. das Gehr ist fr Frequenzen, o o u an denen otoakustische Emissionen auftreten, sensibler. [Zwicker 1990] Wird ein sehr leiser Sinuston mit einem Schalldruckpegel von 3 bis 6 phon uber der Ruhehrschwelle in der Frequenz durchgestimmt, so treten bei den o meisten Versuchspersonen an einigen Stellen Schwebungen auf. Diese Schwebungsstellen korrespondieren mit den otoakustischen Emissionen der jeweiligen Person. Wechselwirkung otoakustischer Emissionen mit dem Zwicker-Ton Ein Schall, der normalerweise keinen oder nur einen sehr leisen Zwicker-Ton erzeugen wrde, kann einen gut hrbaren Nachton an einer otoakustischen u o Emissionsstelle erzeugen. Es handelt sich hierbei um ein vom Zwicker-Ton verschiedenes Phnomen. Beispielsweise kann ein Hochpassrauschen, das keia nen unbeeinussten Zwicker-Ton verursacht, einen solchen Ton verursachen. Der Zwicker-Ton selbst verndert die otoakustischen Emissionen nicht: Wird a der Versuchsperson ein geeignetes Rauschen mit spektraler Lcke vorgespielt, u so hrt sie nach dem Abschalten einen Zwicker-Ton in der Frequenzlcke. o u Dieser kann auch an der Stelle einer otoakustischen Emission auftreten. Die otoakustischen Emissionen bleiben jedoch vor, whrend (in der Lcke) und a u nach dem Rauschen gleich. Der Zwicker-Ton regt also weder eine otoakustische Emission an, die vorher nicht vorhanden war, noch verstrkt er die a Intensitt einer Emission. a Auch lt sich der Zwicker-Ton nicht durch Schwebungen nachweisen: Prsena a tiert man zustzlich zum Zwicker-Ton einen leisen Sinuston, der in der Frea quenz angeglichen werden kann, und lt die Versuchsperson auf Schwebuna gen achten, so sind keine Schwebungen feststellbar. Weiter kann zwar ein zustzlicher Sinuston den Zwicker-Ton maskieren, aber a nicht umgekehrt. Dies alles deutet darauf hin, dass der Zwicker-Ton nicht durch Schwingungen
5.2. PSYCHOAKUSTISCHE MESSUNGEN der Basilarmembran reprsentiert ist. a
79
5.2.3
Bandbreite des Erzeugerschalls
Bei den im Folgenden beschriebenen Experimenten wird bandpassbegrenztes Rauschen als Erzeugerschall verwendet. Die Tonhhe des Zwicker-Tons beno det sich stets auerhalb des Rauschens, bei Tiefpassrauschen stets oberhalb der oberen Bandgrenze. Die Tonhhe bleibt whrend der Messungen stets o a konstant, deshalb wird nur die Vernderung der Qualitt des Zwicker-Tons a a beschrieben. o
.. . .. ........ .. . .. ........ .. . .. ........ .. . .. ........ .. . .. ........ .. . .. ........ .. . .. ........ .. . .. ........ .. . .. ........ .. . .. ........ .. . .. ........ .. . .. ........ .. . .. ........ .. . .. ........ .. . .. ........ .. . .. ........ .. . .. ........ .. . .. ........ .. . .. ........ .. . .. ........ .. . .. ........ .. . .. ........ .. . .. ........ .. . .. ........ .. . .. ........ .. . .. ........ .. . .. ........ ...... ........ .. . ..
... .... ..... .....
qqq q
..... .... ... .... .
10
11
12
13
14
15
16
17
z/Bark
Abb. 5.1: Bandpassbegrenztes Rauschen als Zwicker-Ton Erzeugerschall. Die Hhe des schraerten Bereichs gibt die Intensittsdichte des Rauschens o a bei der jeweiligen Tonheit an. Der Pfeil deutet an, wie der Erzeugerschall bei diesem Experiment verndert wird. Hier wird also die untere Kante des a bandpassbegrenzten Rauschens verschoben. Die Symbole uber dem Pfeil be schreiben, wie gut der Zwicker-Ton beim jeweiligen Erzeugerschall wahrgeqqqq o nommen wird (siehe Tab. 5.1). Das Symbol bezeichnet die Tonhhe, bei der der Zwicker-Ton wahrgenommen wird. Als Erzeugerschall werde zunchst ein bandpassbegrenztes Rauschen verwena det (siehe Abb. 5.1). Die obere Bandgrenze sei konstant, die untere wird variiert. Ab etwa 1 Bark Bandbreite kann der Zwicker-Ton bereits sehr schlecht bis schlecht gehrt werden. Je grer die Bandbreite, desto besser kann der o o Zwicker-Ton gehrt werden, bis die Qualitt bei etwa 5 Bark sttigt, d.h. hier o a a entspricht sie der Qualitt bei Tiefpassrauschen. a +
. . ... .......... . . ... .......... . . ... .......... . . ... .......... . . ... .......... . . ... .......... . . ... .......... . . ... .......... . . ... .......... . . ... .......... . . ... .......... . . ... .......... . . ... .......... . . ... .......... . . ... .......... . . ... .......... . . ... .......... . . ... .......... . . ... .......... . . ... .......... . . ... .......... . . ... .......... . . ... .......... . . ... .......... . . ... .......... . . ... .......... .......... . . ... ........ . . ... .......... ......................................... ........................................ ......................................... ........................................ ......................................... ........................................ ......................................... ........................................ ......................................... ........................................ ......................................... ........................................ ......................................... ........................................ ......................................... ........................................ ......................................... ........................................ ......................................... ........................................ ......................................... ........................................ ......................................... ........................................ ......................................... ........................................ ......................................... ........................................ ......................................... ........................................ ......................................... ........................................ ......................................... ........................................ ......................................... ........................................ ......................................... ........................................ ......................................... ........................................ ......................................... ........................................ ......................................... ........................................ ......................................... ........................................ ......................................... ........................................ ......................................... ........................................ ......................................... ........................................ ......................................... ........................................ ......................................... ........................................ .........................................
.... ..... ..... ...
qqqq
..... .... ... .... .
11
12
13
14
15
16
17
18
19
20
z/Bark
Abb. 5.2: Bandpassbegrenztes Rauschen mit zustzlichem Hochpassanteil a als Zwicker-Ton Erzeugerschall. Die untere Kante des bandpassbegrenzten Rauschens wird verschoben. Bezeichnungen wie in Abb. 5.1. Nun wird dem bandpassbegrenzten Rauschen ein Hochpassanteil hinzugefgt u (siehe Abb. 5.2). Die untere Bandgrenze und damit die Breite des bandbegrenzten Rauschens wird wieder variiert. Mit steigender Breite des Tiefpassbereichs erhht sich auch hier die Qualitt, bis sie bei 5 Bark sttigt. Das o a a Hochpassrauschen erhht die Qualitt des Zwicker-Tons. o a
80
.................................. ................................... .................................. ................................... .................................. ................................... .................................. ................................... .................................. ................................... .................................. ................................... .................................. ................................... .................................. ................................... .................................. ................................... .................................. ................................... .................................. ................................... .................................. ................................... .................................. ................................... .................................. ................................... .................................. ................................... .................................. ................................... .................................. ................................... .................................. ................................... .................................. ................................... .................................. ................................... .................................. ................................... .................................. ................................... .................................. ................................... .................................. ................................... .................................. ................................... .................................. ................................... .................................. ................................... .................................. ................................... .................................. ...... ........ .. . . . ........ .. . . . ........ .. . . . ........ .. . . . ........ .. . . . ........ .. . . . ........ .. . . . ........ .. . . . ........ .. . . . ........ .. . . . ........ .. . . . ........ .. . . . ........ .. . . . ........ .. . . . ........ .. . . . ........ .. . . . ........ .. . . . ........ .. . . . ........ .. . . . ........ .. . . . ........ .. . . . ........ .. . . . ........ .. . . . ........ .. . . . ........ .. . . . ........ .. . . . ........ .. . . . ........ .. . . .
qqqq
+. ..... ....
..... .....
..... .... ... .... .
14
15
16
17
18
19
20
21
22
23
z/Bark
Abb. 5.3: Tiefpassrauschen mit zustzlichem bandpassbegrenzten Rauschen a als Zwicker-Ton Erzeugerschall. Die obere Kante des bandpassbegrenzten Rauschens wird verschoben. Bezeichnungen wie in Abb. 5.1. Erzeugerschall ist nun Tiefpassrauschen kombiniert mit bandpassbegrenztem Rauschen, dessen obere Grenzfrequenz variiert wird (siehe Abb. 5.3). Je breiter das bandpassbegrenzte Rauschen, desto besser wird der Zwicker-Ton gehrt. Ab einer Breite von 5 Bark sttigt die Qualitt wieder. o a a Zusammenfassend kann man sagen, dass der Zwicker-Ton bereits bei einem Schmalbandrauschen der Breite 1 Bark gehrt wird. Je breiter das bando passbegrenzte Rauschen, desto besser wird der Zwicker-Ton gehrt. Der Zwio cker-Ton verbessert sich zustzlich, wenn ein weiteres bandpassbegrenztes a Rauschen, eine Frequenzlcke lassend, hinzugefgt wird. Auch hier wird die u u Qualitt des Zwicker-Tons um so besser, je breiter das Rauschen wird. Die a Qualitt verbessert sich bei Breiten des oberen bzw. unteren Anteils von a 5 Bark nur mehr unwesentlich.
5.2.4
Bandbreite der spektralen Lucke

..... ..... .... ...
x..... ... ..
..... .....
............................................................... ............................................................... ............................................................... ............................................................... ............................................................... ............................................................... ............................................................... ............................................................... ............................................................... ............................................................... ............................................................... ............................................................... ............................................................... ............................................................... ............................................................... ............................................................... ............................................................... ............................................................... ............................................................... ............................................................... ............................................................... ............................................................... ............................................................... ............................................................... ............................................................... ............................................................... ............................................................... ............................................................... ............................................................... ............................................................... ............................................................... ............................................................... ............................................................... ............................................................... ............................................................... ............................................................... ............................................................... ............................................................... ............................................................... ............................................................... ............................................................... ............................................................... ............................................................... ............................................................... ............................................................... ............................................................... ............................................................... ............................................................... ............................................................... ............................................................... ............................................................... ............................................................... ............................................................... ............................................................... ............................................................... ............................................................... ...............................................................
qqq
............................................................... ................................................................ ............................................................... ................................................................ ............................................................... ................................................................ ............................................................... ................................................................ ............................................................... ................................................................ ............................................................... ................................................................ ............................................................... ................................................................ ............................................................... ................................................................ ............................................................... ................................................................ ............................................................... ................................................................ ............................................................... ................................................................ ............................................................... ................................................................ ............................................................... ................................................................ ............................................................... ................................................................ ............................................................... ................................................................ ............................................................... ................................................................ ............................................................... ................................................................ ............................................................... ................................................................ ............................................................... ................................................................ ............................................................... ................................................................ ............................................................... ................................................................ ............................................................... ................................................................ ............................................................... ................................................................ ............................................................... ................................................................ ............................................................... ................................................................ ............................................................... ................................................................ ............................................................... ................................................................ ............................................................... ................................................................ ...............................................................
.... . ... .... .....
11
12
13
14
15
16
17
18
z/Bark
Abb. 5.4: Rauschen mit spektraler Lcke als Zwicker-Ton Erzeugerschall. u Bezeichnungen wie in Abb. 5.1. Als Erzeugerschall wird ein bandsperrenbegrenztes Rauschen verwendet, d.h. ein Rauschen mit spektraler Lcke. Die Lckenbreite wird variiert. Optimale u u Lckenbreiten liegen zwischen 2 und 4,5 Bark. Ab einer Lckenbreite von u u etwa 5 Bark bewirkt das Hochpassrauschen keine wesentliche Verbesserung der Qualitt mehr. a Die Tonhhe des Zwicker-Tons bendet sich immer etwa 1 Bark oberhalb o der oberen Bandgrenze des Tiefpassrauschens. Nur bei Lcken kleiner 2 Bark u wird die Tonhhe mehr zur Mitte der Bandlcke hin verschoben. o u
5.3. BERECHNUNG DER TONHOHE
81
5.2.5
Lautstrke des Erzeugerschalls a
Als Erzeugerschall wird bandsperrenbegrenztes Rauschen mit einer Frequenzlcke von etwa 2,5 Bark verwendet. Je lauter das Rauschen, desto mehr veru schiebt sich die Tonhhe des Zwicker-Tons zu hheren Frequenzen. o o Die Qualitt des Zwicker-Tons nimmt mit steigender Lautstrke des Erzeua a gerschalls zunchst zu, bis sie ein Optimum erreicht, und dann wieder ab. a
5.2.6
Tiefe der spektralen Lucke
Als Erzeugerschall wird wieder bandsperrenbegrenztes Rauschen mit einer Frequenzlcke von etwa 2,5 Bark verwendet. Je tiefer die Lcke, desto besser u u ist der Zwicker-Ton zu hren. o
5.2.7
Andere Einusse
Viele Schalle, die weiem Rauschen mit spektraler Lcke hneln, knnen u a o einen Zwicker-Ton hervorrufen. Variiert man etwa die Steilheit der Flanke des Tiefpassrauschens, so wird der Zwicker-Ton zu hheren Tonhhen hin abgestoen. Verschiebt man o o das Hochpassrauschen zu niedrigeren Frequenzen oder stattet es ebenfalls mit einer Flanke aus, so wird der Zwicker-Ton zu niedrigeren Frequenzen verschoben.
5.3
Berechnung der Tonhohe
Nach [Krump 1993] berechnet man zunchst die Erregung des Zwicker-Ton a Erzeugerschalls nach Kap. 1.5.1. Die Tonhhe des Zwicker-Tons bendet sich dann bei der Frequenz, bei der o die Erregung die Ruhehrschwelle schneidet (siehe Abb. 5.5). Kommt ein o solcher Schnittpunkt aufgrund des Hochpassrauschens nicht zustande, so bendet sich der Zwicker-Ton am Minimum der Erregung. Der Zwicker-Ton ist bei einer Pegeldierenz zwischen maximaler und minimaler Erregung von 15 dB gerade noch wahrnehmbar.
................................................. . ................................................. ................................................. .. .................................................. . ................................................. ................................................. ................................................. .. . ................................................. ................................................. . ................................................. ................................................. .. . ................................................. ................................................. . ................................................. ................................................. ................................................. .. ................................................. . ................................................. ................................................. ................................................. .. ................................................. . ................................................. ................................................. ................................................. ... . ................................................. ................................................. . ................................................. .. ................................................. ................................................. . ................................................. ................................................. ................................................. . ................................................. .. ................................................. . ................................................. .. ................................................. ................................................. ................................................. . ................................................. ................................................. . ................................................. .. ................................................. .. . ................................................. ................................................. . ................................................. ................................................. ................................................. ................................................. . ................................................. .. ................................................. . .. ................................................. ................................................. ................................................. ................................................. . ................................................. ................................................. . .. ................................................. ................................................. . .. ................................................. ................................................. ................................................. ................................................. . ................................................. ................................................. .. . ................................................. ................................................. .. . ................................................. ................................................. ................................................. ................................................. . ................................................. ................................................. . .. ................................................. ................................................. .. . ................................................. ................................................. . ................................................. ................................................. ................................................. ................................................. . ................................................. ................................................. . ................................................. ................................................. .. .. .. .. .... .. .. .. .. .. ... .. ................................................. ................................................. . ................................................. ................................................. ... ... ... ... ... ... ... ... ... ... ... ... ................................................. ................................................. ................................................. ................................................. ................................................. ................................................. ................................................. ................................................. ................................................. ................................................. ................................................. ................................................. ................................................. ................................................. ................................................. ................................................. ................................................. ................................................. ................................................. ................................................. ................................................. ................................................. ................................................. ................................................. ................................................. .................................................
qqq
..... .... ... .... .
10
11
12
13
14
15
16
17
18
z/Bark
Abb. 5.5: Die wahrgenommene Tonhhe des Zwicker-Tons bendet sich am o Schnittpunkt zwischen der Erregung des Erzeugerschalls (durchgezogen eingezeichnet) und der Ruhehrschwelle (gestrichelt eingezeichnet). o
82
Bei einem Erzeugerschall, der aus weiem Rauschen und einem uberlagerten reinen Ton besteht, bendet sich der Zwicker-Ton an der Stelle, an der die Erregung des reinen Tons die Erregung des Rauschens schneidet. Man beachte, dass es sowohl bei der Frequenzlcke als auch bei dem reiu nen Ton mit uberlagertem Rauschen als Erzeugerschall zwei Schnittpunkte zwischen der durch den Erzeugerschall hervorgerufenen Erregung und der Ruhehrschwelle gibt. Das in [Krump 1993] vorgeschlagene Modell zur Beo rechnung der Tonhhe des Zwicker-Tons sagt leider nicht voraus, an welchem o der beiden Schnittpunkte Versuchspersonen den Zwicker-Ton wahrnehmen.
5.4
Oene Fragen
Oen bleibt, warum der Zwicker-Ton uberhaupt entsteht. Weiter ist nicht ge klrt, warum der Zwicker-Ton ein fast reiner Ton ist und nicht ein zum Schall a komplementres Erregungsmuster besitzt. Auerdem kann die Lautstrke a a und Dauer bzw. Qualitt des Zwicker-Tons nicht bestimmt werden. Die Quaa litt des Zwicker-Tons hngt von Anteilen des Erzeugerschalls ab, die um a a mehr als 5 Bark von der Tonheit des Zwicker-Tons entfernt sind. Erregungsmuster (Kap. 1.5.1) haben aber eine weit geringere Ausdehnung.
Kapitel 6 Modelle fur den Zwicker-Ton

Der Zwicker-Ton entsteht nicht in der Cochlea, ausgenommen im Fall otoakustischer Emissionen (siehe Kap. 5.2.2). Auch im Hrnerv wurde er bisher o nicht nachgewiesen [Hoke 1996]. Mit magnetoenzephalographischen Methoden wurde allerdings ein neurophysiologisches Korrelat des Zwicker-Tons im auditorischen Cortex des Menschen festgestellt [Hoke 1996]. Durch elektrophysiologische Ableitungen am auditorischen Cortex des Chinchilla konnten [Tomlinson, Biebel, Langner 1998] feststellen, dass Neurone nach dem Abschalten des Zwicker-Ton Erzeugerschalls eine erhhte Feuerrate zeigen. Dieo se liegen im Wesentlichen entlang eines tonotopen Steifens (zur Tonotopie siehe Kap. 2.2.1). Der erste Ort, an dem der Zwicker-Ton entstehen knnte, ist die erste Veraro beitungsstufe der Signale aus dem Hrnerv, der Nucleus cochlearis (Beschreio bung in Kap. 2.2.1). Fr eine Entstehung des Zwicker-Tons in einer Verarbeiu tungsstufe, die nur durch ein Ohr stimuliert wird, spricht nach [Krump 1993, Hoke 1996] auch, dass der Zwicker-Ton ein rein monaurales Phnomen ist. a Verarbeitungsstufen oberhalb des Nucleus cochlearis sind bereits binaural (siehe Abb. 2.1 in Kap. 2.2). Da dies die einfachste Hypothese ist, gehen die im Folgenden vorgestellten Modelle davon aus, dass der Zwicker-Ton bereits im Nucleus cochlearis entsteht. Dies ist, wie wir sehen werden, fr das Modell allerdings nicht wesentu lich. Wesentlich ist nur, dass in einer zentralen tonotopen Verarbeitungsstufe im Gehr ein Signal ankommt, das in seiner Zusammensetzung den Aktionso potentialen im Hrnerv hnelt. Der Verlauf der Feuerraten in den ankommeno a den Nervenfasern, etwa bei Stimulation durch Tiefpassrauschen oder einen reinen Ton, sollte also ungefhr den Feuerraten im Hrnerv entsprechen. a o In den folgenden beiden Kapiteln werden zwei Modelle zur Entstehung des Zwicker-Tons vorgestellt, das Habituationsmodell und das Adaptionsmodell. Das Habituationsmodell geht von einem weitgehend passiven Nucleus cochlearis aus, whrend das Adaptionsmodell kompliziertere Rckkopplungsmea u chanismen voraussetzt. Die wesentlichen Ideen beider Modelle werden kurz vorgestellt. Es folgen eine genaue Beschreibung der Simulationen, einige Simulationsergebnisse sowie eine Diskussion der Eigenschaften des jeweiligen Modells.
83
84
KAPITEL 6. MODELLE FUR DEN ZWICKER-TON
6.1
Habituationsmodell
In diesem Kapitel wird ein Modell zur Erklrung des Zwicker-Tons vorgea stellt, das auf einer Ermdung (Habituation) der Neuronen im Nucleus cochu learis beruht. Nach einer Beschreibung der grundlegenden Ideen zu diesem Modell werden die Simulationen und Simulationsergebnisse detailliert beschrieben. Abschlieend werden die Simulationen qualitativ mit der Realitt a verglichen.
6.1.1
Beschreibung des Habituationsmodells
In Kap. 4.3 haben wir gesehen, dass laterale Inhibition die Detektierbarkeit von Signalen verbessern kann. Laterale Inhibition ist im Nucleus cochlearis nachgewiesen (siehe Kap. 4.1). Wie wir in Kap. 2.2.1 gesehen haben, besteht der Nucleus cochlearis aus Streifen tonotop angeordneter Neurone. Das einfachste Modell fr den Nucleus cochlearis ist eine Reihe tonotop angeordu neter Neuronen mit lateraler Inhibition (vergleiche auch das Tinnitusmodell in Kap. 3.2). Anhand der Erfahrungen aus Kap. 4.3 wissen wir, wie stark die laterale Inhibition eingestellt werden muss bzw. hchstens eingestellt wero den darf, damit die Wahrnehmung von reinen Tnen verbessert wird. Je o strker die laterale Inhibition, umso deutlicher ist nmlich der Eekt der a a Uberhhung von Kanten (Kap. 4.2.2). Diese Kantenberhhung fhrt letzto u o u lich zum Zwicker-Ton, wie wir weiter unten sehen werden. Hypothese im Habituationsmodell fr den Zwicker-Ton ist eine zustzliche u a Habituation (Gewhnung oder Ermdung) der Neuronen, d.h. bei anhalteno u dem Reiz und somit anhaltendem Feuern ermden sie und die Feuerrate u sinkt. Bis sich die Neuronen wieder erholt haben, vergeht eine Zeitspanne, die etwa so lang ist wie die Wahrnehmung des Zwicker-Tons. Das Szenario zur Erklrung des Zwicker-Tons sieht dann etwa so aus (siehe a Abb. 6.1): Betrachten wir Tiefpassrauschen als Zwicker-Ton Erzeugerschall. Die Neurone, die auf das Rauschen ansprechen, ermden. D.h. die spontau ne Feuerrate dieser Neuronen nach Abschalten des Rauschens wird niedriger sein als die spontane Feuerrate der Neurone, die nicht dem Rauschen ausgesetzt waren. Dies bedeutet wiederum, dass die laterale Inhibition, die von den ermdeten Neuronen ausgeht, geringer ist als die Inhibition, die von eru holten Neuronen ausgeht. Hieraus folgt, dass die Feuerrate der Neurone, die gerade nicht mehr durch das Tiefpassrauschen angeregt wurden, nun hher o ist als die Feuerrate der Neuronen im ausgeruhten Gehr. Denn die Neuronen o an der Kante des Tiefpassrauschens werden ja von den ermdeten Neuronen u bei tieferen Frequenzen nicht mehr inhibiert. Die Neuronen an der Kante des Tiefpassrauschens haben also nach dem Abschalten des Rauschens eine hhere Feuerrate als ohne jegliche Stimulation durch Schall. Liegt diese eto was hhere Feuerrate nun deutlich oberhalb der Spontanaktivitt, so muss o a man annehmen, dass diese Feuerrate zu einer Wahrnehmung fhrt. Denn die u Hrschwelle sollte so empndlich wie mglich eingestellt sein, d.h. so empo o ndlich, dass es gerade nicht zu einer Schallwahrnehmung kommt, wenn kein a uerer Schall vorhanden ist.
6.1. HABITUATIONSMODELL
85
Ausgabe Eingabe Tiefpass als Zwicker-Ton Erzeugerschall
Zwicker-Ton
Ausgabe nach dem Abschalten des Erzeugerschalls Abb. 6.1: Illustration der Entstehung des Zwicker-Tons im Habituationsmodell. Im oberen Bildteil bedeuten groe schraerte Kreise Neurone, durchgezogene Linien Axone, ausgefllte kleine Kreise exzitatorische und oene kleiu ne Kreise inhibitorische Synapsen. Die Kurven unterhalb stellen die Eingabe (durchgezogene Linie) und Ausgabe (gestrichelte Linie) der Neuronenschicht vor (oben) und nach (unten) dem Abschalten des Tiefpassrauschens schematisch dar. Die gepunktete Linie bedeutet relativ zur Eingabe (durchgezogen) Stimulus Null und relativ zur Ausgabe (gestrichelt) die spontane Aktivitt. a
86
6.1.2
Beschreibung der Simulationen des Habituationsmodells

Schall
Abb. 6.2: Die Bestandteile des verwendeten Gehrmodells. Ksten bedeuten o a Verarbeitungseinheiten, Pfeile Datenstrme zwischen den Verarbeitungseino heiten. Die Simulation besteht aus den in Abb. 6.2 gezeigten Modulen. Diese sind die Simulation der Basilarmembran, der inneren Haarzellen, des Hrnervs und o des Nucleus cochlearis. Abbildung 6.3 zeigt die Simulation der Basilarmembran an der Stelle mit Bestfrequenz f0 wie in Kap. 3.1.1 beschrieben. Eingabe dieses Moduls ist der Schalldruck p(t), Ausgabe die Auslenkung y(t) der Basilarmembran an der Stelle mit Bestfrequenz f0 . Die wechselnde Auslenkung der Basilarmembran an einer Stelle erregt die jeweilige innere Haarzelle. Abbildung 6.4 zeigt die Simulation einer inneren Haarzelle nach dem MeddisModell (Kap. 3.1.2). Eingabe dieses Moduls ist die Auslenkung der Basilarmembran am Ort der inneren Haarzelle, Ausgabe ist die Neurotransmitterkonzentration c(t) im synaptischen Spalt, an den der Hrnerv anschliet. o Abbildung 6.5 beschreibt, wie nach Kap. 3.1.3 die Aktionspotentiale in den Hrnervenfasern berechnet werden. o Abbildung 6.6 verdeutlicht die angenommene Verschaltung der Neuronen im Nucleus cochlearis. Jedes Neuron inhibiert uber ein inhibitorisches Interneu ron seine Nachbarn. Dabei werden allerdings nicht nur die nchsten Nachbarn a inhibiert, sondern eine ganze Umgebung (hnlich wie in Kap. 4.3.2). a
BM(f0 )
Basilarmembran Auslenkung der Basilarmembran
IHZ HNF
innere Haarzellen Neurotransmitterkonzentration Hrnerv o Feuerzeitpunkte der Hrnervenfasern o
NC
Nucleus cochlearis Feuerzeitpunkte der Neurone des Nucleus cochlearis
BM(f0 )
Abb. 6.3: Simulation der Basilarmembran an der Stelle mit Bestfrequenz f0 = 0 /2. Signaturen wie in Abb. 6.2.
Abbildung 6.7 fasst nocheinmal das verwendete Spike-Response-Neuronenmodell zusammen (vgl. auch Kap. 4.3.2).
Die Neuronen der Outputschicht sollen jedoch nach den Erluterungen in a Kap. 6.1.1 ermden. Dies wird durch eine in Abb. 6.8 erluterte Modikau a tion des Neuronenmodells aus Abb. 6.7 erreicht: Ein zustzliches, langsam a abklingendes Refraktrpotential sorgt dafr, dass die Feuerrate des Neurons a u nach andauerndem Feuern sinkt. Das Neuron erholt sich nach Wegfall der starken Erregung nur langsam.
t T r r usIxp iR g t T r r p h usIeqiR g
Hfeca dd b Hdd b feca
H Y W r )( tusIx R g T r r p Y `W t T r r v R g uyxxp wH Y W P H `XV R 2 T R P H F D BA9 7 5 3 2 )U4)SQ IGEC@864!1 0 % #'&$#"! )(

BM(f0 )
Auslenkung y(t) Schalldruck p(t) 87 Basilarmembran an der Stelle mit Bestfrequenz f0
88
Auslenkung y(t) der Basilarmembran innere Haarzelle Neurotransmitterkonzentration c(t) im synaptischen Spalt IHZ s(t) = hy(t)
IHZ
y (m q(t)) Vorrat q(t) Reservoir w(t)
xw(t)
k(t)q(t) c(t)
synaptischer Spalt lc(t)
Abb. 6.4: Simulation einer inneren Haarzelle nach dem Meddis-Modell (Kap. 3.1.2). Signaturen wie in Abb. 6.2. In der Simulation ist y(t) [1, 1] und h = 50. Zu den Werten der ubrigen Konstanten siehe Tab. 3.1.
AD@86 4 C 7 5 A 9 7 5 B@86 4
rc(t)
0 1) 3#1) 02 3 #2
( ! " &'&A ! %$ " #!
89
Neurotransmitterkonzentration c(t) im synaptischen Spalt Hrnervenfaser o Aktionspotentiale in der Hrnervenfaser o HNF

HNF
Abb. 6.5: Simulation einer Hrnervenfaser. Signaturen wie in Abb. 6.2. In o den Simulationen ist stets h = 250, HN F = 0,1 ms und HN F = 1.
NC
Bestfrequenz
NC Schicht inhibitorischer Interneuronen
Abb. 6.6: Simulation des Nucleus cochlearis im Habituationsmodell. Groe schraerte Kreise bezeichnen Neurone, dicke Linien Axone, ausgefllte kleiu ne Kreise exzitatorische und oene kleine Kreise inhibitorische Synapsen. Sonstige Signaturen wie in Abb. 6.2. Es sind nur zwei Ausgnge der inhibia torischen Interneuronen eingezeichnet, tatschlich werden jedoch Neuronen a der Outputschicht in einem ganzen Bereich inhibiert.
!
Aktionspotentiale der Hrnervenfasern o Nucleus cochlearis Aktionspotentiale der Neurone des Nucleus cochlearis Outputschicht Aktionspotentiale der Hrnervenfasern o
HIFG )E1DCA1)&71541)&$" 299 8B @9 8' % 0 6 % ( 3 2 0 (' % #
90
Abb. 6.7: Das Neuronenmodell. Graue Punkte bezeichnen (exzitatorische oder inhibitorische) Synapsen. Sonstige Signaturen wie in Abb. 6.2 und 6.6.
~~ ~ }x w z | { z yx w u T h} f hA@1w y hAVvt ` s h s f s e d s iIVgh8s I d 9DB onw%E@ llll h 7m %EB W llllllll 9D ll l l lll l l ll l l lll l l l l ll l l l ll ll l ll ll l ll l l lllllllllllll l lllllllllll llllllllllllll f s6 llllllll l lll l ll lll l lll ll l l l ll lll l ll l l llllllllllll h j llllllllll l lllll ll ` llllllllllll ks lll llllllll llllll l ll ll l l l lllll lll ll ll ll ll l d w6 lllllllll lllllll s s s ihrVfqhe8s 8lllld l ll l ll l l ll l l lll l l ll l l ll l pllsl ll ll ll llllll llllllll lll s W lll l ll lll l ll l l ll l l lll l l lll l l l ll l ll ll ll l lll llllll 5 H l l l lll l l l ll l ll ll l ll ll l l l ll l l l ll ll l ll l l l ll l l l lll l l ll ll l ll l l lll l l l lll l l ll l ll ll l l lll l l l ll l l l l l l l l l l l l l l l l l l ll l l l sj Gh 5 3 Va ( 5 ' p 9DB %E@ gi f ( 5d 6 u H p 9%DEBtys g i f x v w6 aY X b`7 W p gi 3 s q tr hf E)' edc 9DB S V%ECUT RQ F0 ( G4)' 9 6 H P@PI75 12 @%EC 9DB 0( 1)' $ 9 6 3 2 $ ! A@875 4 &%#"
Neuron i Aktionspotentiale des Neurons i zu den Zeiten tf (i) Neuron i Aktionspotentiale des Neurons j zu den Zeiten tf (j) KAPITEL 6. MODELLE FUR DEN ZWICKER-TON
Abb. 6.8: Das Modell fr die ermdenden Neuronen der Outputschicht. Sie u u besitzen zustzlich zum kurzzeitigen Refraktrpotential aus Abb. 6.7 ein lang a a anhaltendes Refraktrpotential. Signaturen wie in Abb. 6.2 und 6.7. a
q p r4 y x v s c ab ghef d8` A97 4@8' 0 4E3DCB
A9 F7 A9 q1w 4F7 u v s t G
g s $0 A97 Pg0 Fi' ) A97 F8' )
QRIPA9F7 G H0 XYWVTUS ' %#! (&$"
5 0 64321)
ermdendes Neuron u 91
92
6.1.3
Simulationsergebnisse im Habituationsmodell
In diesem Abschnitt wird die Reaktion des Habituationsmodells auf verschiedene Stimuli beschrieben. Farbbilder mit zeitabhngigen mittleren Feuerraa ten sind in Anhang A zusammengefasst. Simuliert wurden bei jedem Stimulus 300 Hrnervenfasern, die mit 300 Neuo ronen der Outputschicht verbunden sind. Die Neuronen der Outputschicht sind wiederum mit jeweils einem inhibitorischen Interneuron verbunden, wie in Abb. 6.6 beschrieben. Die Neuronen am Rand des simulierten tonotopen Bereichs werden sehr stark dadurch beeinusst, dass die laterale Inhibition von jenseits des simulierten Bereichs fehlt. Um den Leser durch diese Randeekte nicht zu verwirren, werden in den Abbildungen nur die Neuronen 50250 gezeigt. Tiefpassrauschen Stimulus ist nun Tiefpassrauschen mit einer oberen Bandkante von 1300 Hz. Abbildung 6.9 (oben) zeigt die durchschnittliche Feuerrate der Hrnervenfao sern, die die Eingabe zu den Neuronen der Outputschicht bilden. 1000 1500 2000 2500
R/Hz 80 Frequenz/Hz . .. . . . .. . .. 60 .. . . .. .. . . .. . . .. .. 40 . .... ...... .... .... .... .... .... . ... ... . ... ... ... ... ... . . . .. .. . .. .. 20 . .
qqq
.. .. . .
R/Hz 150
100 50
100
150
200
250 Neuron Nr.
Abb. 6.9: Die Feuerraten R der Hrnervenfasern (oben) und der Neuroo nen der Outputschicht (unten) im Habituationsmodell, gemittelt uber die Dauer des Stimulus von 2 s. Stimulus ist Tiefpassrauschen mit einer oberen Bandkante von 1300 Hz. Die Frequenzskala bezeichnet die Bestfrequenzen der qqqq Neuronen. Der Zwicker-Ton tritt im Habituationsmodell an der mit bezeichneten Stelle auf. Die gestrichelten Linien deuten die Berechnung der Tonhhe o des Zwicker-Tons im Mithrschwellenmodell von [Krump 1993] (Kap. 5.3) an, o nheres siehe Kap. 6.1.4. a
93
Abbildung A.2 zeigt auerdem den zeitlichen Verlauf der Feuerraten der Neuronen der Outputschicht aus Abb. 6.6 whrend und nach dem Abschalten a des Stimulus. Man erkennt deutlich die erhhte Aktivitt im Bereich etwas o a oberhalb von 1300 Hz nach dem Abschalten des Stimulus nach 2 s. Grne u Bereiche bedeuten spontane Aktivitt der Neurone, orange bis rote Bereiche a Aktivitt oberhalb der Hrschwelle und blaue Bereiche geringere als spontane a o Aktivitt. a In Abb. 6.9 ist die Wirkung der lateralen Inhibition erkennbar. Die Kante des Tiefpass bei 1300 Hz wird deutlich hervorgehoben. Erklrung der Simulationsergebnisse: Eingabe ist ideales Tiefpassrauschen a mit einer oberen Bandkante von 1300 Hz. Der Tiefpass wird durch die (nicht idealen) cochleren Filter aus Kap. 3.1.1 so beeinusst, dass die Bandkana te acher wird. D.h. auch Stellen der Basilarmembran mit Bestfrequenzen grer als 1300 Hz werden noch angeregt. Dies fhrt natrlich nach Kap. 3.1.3 o u u dazu, dass auch Hrnervenfasern mit Bestfrequenzen oberhalb 1300 Hz noch o feuern. Dies zeigt der obere Teil von Abb. 6.9. Laterale Inhibition gem a Abb. 6.6 wirkt nun so wie in Kap. 4.2 nherungsweise berechnet wurde, d.h. a Bandkanten werden aufgebogen (vgl. Abb. 4.1). Die Wirkung der lateralen Inhibition sieht man im unteren Teil von Abb. 6.9. Feuerraten von Neuronen mit Bestfrequenzen unterhalb der Bandkante des Tiefpassrauschens werden erhht, Feuerraten von hherfrequenten Neuronen erniedrigt. Je hher o o o die Feuerrate der Neurone, desto strker auch die in Abb. 6.8 beschriebene a Ermdung. Diese fhrt nach dem Abschalten des Stimulus zur relativ gerinu u gen Feuerrate der Neuronen bis Nr. 140 in Abb. A.2. Aufgrund der geringen Feuerrate der Neuronen bei niedrigen Frequenzen geht von diesen keine starke laterale Inhibition mehr aus. D.h. die (frischen) Neuronen bei hheren Freo quenzen feuern strker als im unbeeinussten Gehr. Die Simulation zeigt, a o dass diese Feuerrate signikant ist. Dies bedeutet, die erhhten Feuerraten o sind so hoch, dass sie zweifellos (d.h. mit geringer Irrtumswahrscheinlichkeit, siehe Kap. 4.3.1) als solche erkannt werden knnen, denn solch hohe Feuo erraten treten im unbeeinussten Gehr praktisch nirgends auf. Signikant o erhhte Feuerraten bedeuten unter der Hypothese einer mglichst empndlio o chen Einstellung des Gehrs eine Schallwahrnehmung. Dabei handelt es sich o um einen relativ reinen Ton, da die Erhhung der Feuerrate auf einen sehr o engen Frequenzbereich beschrnkt ist1 . a Reiner Ton mit Rauschen Als Stimulus verwenden wir nun einen reinen Ton mit darunterliegendem weien Rauschen. Der Sinuston hat eine Amplitude von 0,7, das Rauschen besteht aus einzelnen Sinustnen zuflliger Phase im Abstand 1 Hz mit Amo a plitude 0,007. Die Simulationsergebnisse zeigen Abb. 6.10 und A.3. Erklrung: Der Zwicker-Ton tritt bei Tonhhen unterhalb des reinen Tons a o
Beachte, dass selbst ein reiner Ton die Cochlea und den Hrnerv nach Kap. 3.1.1 und o 3.1.3 in vielen Frequenzkanlen mehr oder weniger stark anregt. Eine Anregung in einem a relativ engen Frequenzbereich fhrt also zur Wahrnehmung eines reinen Tons und nicht u etwa zur Wahrnehmung von Schmalbandrauschen.
1
94
KAPITEL 6. MODELLE FUR DEN ZWICKER-TON 1000 1500 2000 2500
R/Hz 100
Frequenz/Hz .... . .. . . . .. . ..... . 60 .... ...... ........... .... .. .... .... .. . . . 40 .. .. . . 80

.. ..
20
. .. ..
q qqq
R/Hz
150 100 50
100
150
200
250 Neuron Nr.
Abb. 6.10: Die Feuerraten R der Hrnervenfasern (oben) und der Neuronen o der Outputschicht (unten) im Habituationsmodell, gemittelt uber die Dauer des Stimulus von 2 s. Stimulus war ein Sinuston der Frequenz 1500 Hz und darunterliegendem weiem Rauschen. auf. Dies stimmt mit den Beobachtungen in Kap. 5.1.2 und Kap. 5.3 uberein. Der Grund liegt in der in Kap. 3.1.1 beschriebenen Asymmetrie der cochleren Filter. Die Erregung fllt nach tieferen Tonhhen wesentlich schnela a o ler ab als nach hohen Tonhhen (siehe auch Kap. 1.5.1). Dies sieht man o in Abb. 6.10. Der schnellere Abfall der Erregung nach tieferen Tonhhen o bewirkt auch eine strkere Inhibition in Richtung tieferer Tonhhen (siehe a o Abb. 6.10). Die nach dem Abschalten des Stimulus entstehende Kante ist also bei tieferer Tonhhe wesentlich steiler als die Kante bei hherer Tonhhe als o o o der reine Ton. Die steilere Kante wird strker hervorgehoben als die achere. a Deshalb ist die Aktivitt der Neuronen an der tieferfrequenten Kante hher a o als an der hherfrequenten. Der Zwicker-Ton tritt also nur bei einer Tonhhe o o unterhalb der Tonhhe des Stimulus auf oder ist hier zumindest wesentlich o deutlicher. Reiner Ton Bei einem reinen Ton als Stimulus ist der Zwicker-Ton im Habituationsmodell in Abweichung zur Realitt noch deutlicher als bei einem reinen Ton mit a Rauschen. Das zustzliche Rauschen bewirkt nur Ermdung im Bereich der a u Tonhhe des Zwicker-Tons, schwcht also den Zwicker-Ton im Habituationso a modell eher ab.
6.1. HABITUATIONSMODELL Hochpassrauschen
95
Die Abb. 6.11 und A.4 sind analog zu den bisher erluterten Abbildungen in a diesem Abschnitt. Man beachte jedoch, dass die ansteigende Bandkante des Hochpassrauschens steiler als die abfallende Bandkante des Tiefpassrauschens ist. Da die Kante sehr steil ist, ist auch der Zwicker-Ton recht deutlich, deutlicher als im Fall des Tiefpassrauschens (vgl. Kap. 6.1.3). Dies widerspricht der Realitt. Tatschlich wird bei Hochpassrauschen als Stimulus kein Zwickera a Ton wahrgenommen. R/Hz 80 2000 2500 Frequenz/Hz 60 40 20
qqqq
1000
1500
R/Hz 150
100 50
100
150
200
250 Neuron Nr.
Abb. 6.11: Die Feuerraten R der Hrnervenfasern (oben) und der Neuronen o der Outputschicht (unten) im Habituationsmodell, gemittelt uber die Dau er des Stimulus von 2 s. Stimulus war Hochpassrauschen mit einer unteren Bandkante von 1500 Hz.
Tiefpass- und Hochpassrauschen mit Rauschen Tiefpass- und Hochpassrauschen mit zustzlichem weien Rauschen erzeugt a im Habituationsmodell keinen Zwicker-Ton, da alle Neuronen erregt werden und somit alle Neuronen ermden. Der Kanteneekt reicht bei hinreichend u intensivem weien Rauschen nicht mehr aus, um einen Zwicker-Ton oberhalb der Hrschwelle zu erzeugen. o
96
6.1.4
Diskussion der Simulationsergebnisse im Habituationsmodell
Tonhhe des Zwicker-Tons im Habituationsmodell o Die nach Kap. 5.3 berechnete Tonhhe des Zwicker-Tons stimmt mit der o Tonhhe des Zwicker-Tons im Habituationsmodell ziemlich genau uberein o (vgl. die Schnittpunkte der gestrichelten Linien in Abb. 6.9 und 6.10 mit der eingezeichneten Tonhhe des Zwicker-Tons im Habituationsmodell). o Im Fall des Tiefpassrauschens als Zwicker-Ton Erzeugerschall tritt der Zwicker-Ton nach Kap. 5.2.3 oberhalb der oberen Bandkante des Tiefpassrauschens auf. Dies ist auch im Habituationsmodell der Fall. Weiter tritt der Zwicker-Ton nach Kap. 5.3 am Schnittpunkt der Erregung des Tiefpassrauschens mit der Ruhehrschwelle auf. Dieser Schnittpunkt ist in den Abb. 6.9 o und 6.10 als Schnitt zweier gestrichelter Linien eingezeichnet, die die Erregung durch die jeweiligen Bestandteile des Erzeugerschalls beschreiben. Im Habituationsmodell entspricht der Schnittpunkt der Tonhhe, bei der die o Feuerrate der Neuronen etwa auf die spontane Aktivitt abgeklungen ist. a Dies ist der Ort, an dem nach dem Abschalten des Zwicker-Ton Erzeugerschalls die Kante in den Feuerraten auftritt, die dann durch laterale Inhibition verstrkt wird. D.h. die Tonhhe des Zwicker-Tons wird vom Modell korrekt a o wiedergegeben. Im Fall des einzelnen reinen Tons mit weiem Rauschen als Zwicker-Ton Erzeugerschall tritt der Zwicker-Ton nach Kap. 5.1.2 unterhalb der Tonhhe o des reinen Tons auf. Dies ist auch im Habituationsmodell der Fall. Auerdem gilt auch hier das in Kap. 5.3 beschriebene Modell zur Berechnung der Tonhhe des Zwicker-Tons. Die Tonhhe des Zwicker-Tons bendet sich am o o Schnittpunkt der Erregung des reinen Tons und der Erregung des darunterliegenden weien Rauschens. Im Modell entspricht dieser Schnittpunkt wieder der Tonhhe, bei der die Feuerrate der durch den reinen Ton angeregten Neuo ronen etwa auf die Feuerrate abgeklungen ist, die durch das weie Rauschen allein verursacht wird. Diese Tonhhe liegt im Modell etwa an der Stelle, an o der der Zwicker-Ton auftritt (vgl. Abb. A.3 und 6.10). Zwicker-Ton Erzeugerschalle im Habituationsmodell Tabelle 6.1 vergleicht die Wirkung der in Kap. 5.2 und [Krump 1993] aufgefhrten Schalle mit dem Habituationsmodell. u Die entscheidende Abweichung zwischen der Realitt und dem Habituationsa modell ist, dass im Habituationsmodell Hochpassrauschen Zwicker-Ton Erzeugerschall ist, in der Realitt dagegen nicht. Hochpassrauschen ist im Habia tuationsmodell sogar besserer Erzeugerschall als Tiefpassrauschen, denn die Bandkante der Erregung des Hochpassrauschens ist wegen der Asymmetrie der cochleren Filter (siehe Kap. 3.1.1) wesentlich steiler als die Bandkana te der Erregung des Tiefpassrauschens. Somit wird der Zwicker-Ton-Eekt deutlicher. Auch ein reiner Ton ohne darunterliegendem weien Rauschen erzeugt, wie ein Hochpass, einen deutlichen Zwicker-Ton in Abweichung zur
6.1. HABITUATIONSMODELL Schall Zwicker-Ton laut psychoakustischer Messung oberhalb der oberen Bandkante kein Zwicker-Ton oberhalb der oberen Bandkante Zwicker-Ton im Habituationsmodell oberhalb der oberen Bandkante unterhalb der unteren Bandkante oberhalb der oberen Bandkante und unterhalb der unteren Bandkante kein Zwicker-Ton kein Zwicker-Ton kein Zwicker-Ton unterhalb des reinen Tons unterhalb des reinen Tons
97
Tiefpassrauschen Hochpassrauschen Bandsperrerauschen
Hochpassrauschen mit weiem Rauschen Tiefpassrauschen mit weiem Rauschen weies Rauschen reiner Ton mit weiem Rauschen reiner Ton
kein Zwicker-Ton kein Zwicker-Ton kein Zwicker-Ton unterhalb des reinen Tons kein Zwicker-Ton
Tab. 6.1: Qualitativer Vergleich des Habituationsmodells mit der Realitt. a Realitt. a
6.1.5
Erweiterungen des Habituationsmodells
In Tab. 6.1 haben wir zwei wesentliche qualitative Unterschiede des Habituationsmodells zur Realitt gesehen: Hochpassrauschen sowie ein reiner Ton a erzeugen im Habituationsmodell einen Zwicker-Ton, in der Realitt dagegen a nicht. Das Habituationsmodell muss also durch zustzliche Annahmen oder a Mechanismen erweitert werden. Betrachten wir zunchst nur Hochpassrauschen und die sich daraus ergea benden Folgerungen. Wre das Gehr gegenber Spiegelung von niedrigen a o u nach hohen und hohen nach niedrigen Tonhhen vollkommen symmetrisch, o so msste natrlich auch Hochpassrauschen einen Zwicker-Ton hervorrufen, u u denn Hochpassrauschen ist nur das Spiegelbild von Tiefpassrauschen. Das bedeutet, wir mssen nach Asymmetrien im Gehr suchen, um diese Asymu o metrie in der Wahrnehmung erklren zu knnen. Eine deutliche Asymmetrie a o in der peripheren Verarbeitung haben wir in Kap. 1.5.1 und 3.1.1 erwhnt. a Die cochlere Erregung bei Stimulation durch einen reinen Ton nimmt auf a der niederfrequenten Seite schneller zu als auf der hherfrequenten ab. Wir o wissen jedoch bereits aus Kap. 6.1.4, dass der Zwicker-Ton durch diesen Effekt eher deutlicher wird. Da die erwhnte Asymmetrie und Folgen hiervon a die einzigen sind, denen der Autor beim Studium des Gehrs begegnet ist, o wird im Folgenden davon ausgegangen, dass die gesuchte Asymmetrie in der neuronalen Verschaltung zu suchen ist. Hier kommt im Habituationsmodell nur die laterale Inhibition in Frage. Nehmen wir also an, die laterale Inhibi-
98
tion wirke strker von tiefen zu hohen Tonhhen als umgekehrt. Dann wrde a o u Tiefpassrauschen nach wie vor einen Zwicker-Ton hervorrufen, nicht jedoch Hochpassrauschen. Denn Hochpassrauschen fhrt in diesem Fall dazu, dass u nach dem Abschalten des Stimulus an der Bandkante die Inhibition von hohen nach niedrigeren Tonhhen abgeschwcht wird. Diese ist aber bei der o a angenommenen Asymmetrie ohnehin nicht vorhanden. Die Kante in der Erregung wird also nicht verbogen, somit entsteht kein Zwicker-Ton (vergleiche auch Kap. 4.2.2 zu den Auswirkungen asymmetrischer lateraler Inhibition). Mit asymmetrischer lateraler Inhibition kann also die beobachtete Asymmetrie in den Zwicker-Ton Erzeugerschallen erklrt werden. a Wenden wir uns nun dem einzelnen reinen Ton zu, der keinen Zwicker-Ton erzeugt, und dem einzelnen reinen Ton mit Rauschen, der einen Zwicker-Ton erzeugt. Im Habituationsmodell trgt das zustzliche Rauschen uberhaupt a a nicht zur Entstehung des Zwicker-Tons bei, im Gegenteil (siehe Kap. 6.1.3). Dennoch ist an allen Zwicker-Ton Erzeugerschallen eine Form von Rauschen beteiligt2 . Rauschen scheint also eine zentralere Rolle bei der Erzeugung des Zwicker-Tons zu spielen als bisher angenommen. Im Habituationsmodell fhrte Rauschen nur zu einer Ermdung der Neuronen. Dies gilt allerdings u u fr einen reinen Ton ebenso, so dass dieser nach dem Habituationsmodell u ebenfalls einen Zwicker-Ton erzeugt. Auerdem befnde sich der Zwicker-Ton a beim einzelnen reinen Ton und der oben eingefhrten Asymmetrie rechts vom u reinen Ton, in der Realitt entsteht der Zwicker-Ton jedoch beim einzelnen a reinen Ton mit Rauschen links von diesem. Diesen Widerspruch wird erst das im nchsten Kapitel eingefhrte Adaptionsmodell lsen. a u o
Rauschen lsst sich auch durch schnelle Frequenzmodulation oder Klickfolgen ersetzen. a Dies wird in Kap. 7.2 diskutiert.
6.2. ADAPTIONSMODELL
99
6.2
Adaptionsmodell
Wir haben gesehen, dass das Habituationsmodell zwar zunchst einfach und a einleuchtend aussieht, dass es aber einer genaueren Uberprfung anhand der u vielfltigen untersuchten Schalle nicht standhlt. Es kann auch nicht auf eina a fache Weise so erweitert werden, dass mehr Zwicker-Ton-Phnomene erklrt a a werden knnen. Deshalb wird in diesem Kapitel ein Ansatz vorgestellt, der o nicht auf einer Ermdung der Neuronen basiert. Vielmehr spielen aktive, u rauschunterdrckende Mechanismen eine Rolle. Deshalb heit das in dieu sem Kapitel vorgestellte neue Modell Adaptionsmodell. Zunchst sollen a die wesentlichen Ideen das Adaptionsmodells vorgestellt werden. Es folgen eine genaue Beschreibung der Simulationen, Simulationsergebnisse mit verschiedenen Stimuli sowie eine Diskussion.
6.2.1
Beschreibung des Adaptionsmodells
In Kap. 6.1.5 haben wir gesehen, dass wir vier zentrale Phnomene bercka u sichtigen mssen: Tiefpassrauschen und reiner Ton mit Rauschen als Zwickeru Ton Erzeugerschalle, sowie Hochpassrauschen und reiner Ton als Schalle, die keinen Zwicker-Ton hervorrufen. Im Habituationsmodell fhrten natrlich u u sowohl Rauschen als auch ein reiner Ton zur Ermdung der Neurone. Hieru durch wurde jeweils ein Zwicker-Ton ausgelst. Da ein einzelner reiner Ton o keinen Zwicker-Ton erzeugt, sollte es hier keine Nacheekte geben. Ein reiner Ton mit Rauschen erzeugt allerdings einen Zwicker-Ton. Deshalb liegt die Vermutung nahe, dass Rauschen eine besondere Rolle spielt. Betrachten wir also folgendes Modell: Rauschen wird durch einen aktiven Mechanismus unterdrckt. Hierzu u werden Neuronen der Outputschicht, die Rauschen als Eingabe bekommen, inhibiert. Diese neue Inhibition ist dabei nicht die laterale Inhibition, sondern eine zustzliche, von Rauschen detektierenden Neuronen ausgehende Inhibition. a Ist der Stimulus in der Nachbarschaft der Bestfrequenz eines Neurons der Outputschicht also Rauschen, so wird dieses Neuron und seine nhere Uma gebung inhibiert. Die Reichweite dieser Inhibition wird in Krze noch geu nauer speziziert. Was sind nun die Konsequenzen dieser Annahme? Bei Tiefpassrauschen fhrt der postulierte rauschunterdrckende Mechanismus u u wie im Habituationsmodell zu einer geringeren Feuerrate der stimulierten Neuronen. Damit ein Zwicker-Ton erzeugt wurde, msste die Ermdung der u u Neuronen fr die Dauer des Zwicker-Tons anhalten. Daran halten wir fest: u Die Aktivitt der rauschunterdrckenden Neuronen hlt auch nach Aba u a schalten des Stimulus noch vorbergehend an. u Wir postulieren also eine gewisse Trgheit des rauschunterdrckenden Mea u chanismus. Diese fhrt dazu, dass die Neuronen im Bereich des Tiefpassrauu schens nach Abschalten des Stimulus mit geringerer als spontaner Feuerrate
100
feuern. Das erzeugt zusammen mit lateraler Inhibition einen Zwicker-Ton nach den selben Mechanismen wie im Habituationsmodell (Kap. 6.1.1). Betrachten wir nun den einzelnen reinen Ton mit darunterliegendem weien Rauschen. Im Bereich des reinen Tons bendet sich kein Rauschen, also ist der rauschunterdrckende Mechanismus nur oberhalb und unterhalb des u reinen Tons aktiv. D.h. ein reiner Ton mit Rauschen wirkt wie Rauschen mit einer Frequenzlcke (im Bereich des reinen Tons), die nach den selben u Mechanismen wie Tiefpassrauschen einen Zwicker-Ton erzeugt. Ein einzelner reiner Ton hingegen erzeugt in der Realitt keinen Zwickera Ton. Dies ist auch im bisher beschriebenen Adaptionsmodell der Fall, denn ein reiner Ton enthlt kein Rauschen, also wird der rauschunterdrckende a u Mechanismus nicht aktiv und somit gibt es auch keine lang anhaltenden Nacheekte. Damit der Zwicker-Ton beim Hochpassrauschen nicht und beim reinen Ton mit Rauschen nur unterhalb des reinen Tons auftritt, behalten wir auch die schon bei den Erweiterungen des Habituationsmodells diskutierte asymmetrische laterale Inhibition bei. Die laterale Inhibition wirkt strker von tiefen zu hohen Tonhhen als a o umgekehrt. Wie bereits erwhnt werden Neuronen in der Nachbarschaft eines Neua rons, das Rauschen als Eingabe erhlt, vom rauschunterdrckenden Mechaa u nismus inhibiert. Wie gro sollte diese Nachbarschaft sein? Nehmen wir an, diese Nachbarschaft sei sehr klein. Das wrde beim Tiefpassrauschen bedeuu ten, dass nur Neuronen mit Bestfrequenzen innerhalb des Tiefpassrauschens vom Rauschunterdrckungsmechanismus inhibiert werden. Der Zwicker-Ton u entsteht dann an der oberen Bandkante des Tiefpassrauschens. Tatschlich a bendet sich die Tonhhe jedoch etwa 1 Bark oberhalb der oberen Bandkano te des Tiefpassrauschens. Deshalb fhren wir noch folgende Modellannahme u ein: Die Reichweite der Inhibition, die von einem rauschunterdrckenden u Neuron ausgeht, ist etwa gleich der Reichweite der Erregung. Die letzte Annahme fhrt dazu, dass die Tonhhe des Zwicker-Tons vom u o Modell korrekt wiedergegeben wird.
6.2.2
Beschreibung der Simulationen des Adaptionsmodells
Im Adaptionsmodell bentigen wir einen Rauschunterdrckungsmechaniso u mus. Hierzu sind speziell verschaltete Neuronen notwendig, insbesondere solche, die Rauschen detektieren. Die hierzu notwendigen Neuronen sowie deren Verschaltung werden hier vorgestellt.
6.2. ADAPTIONSMODELL Die rauschunterdruckenden Neuronen des Adaptionsmodells
101
Wir haben im vorhergehenden Kapitel davon gesprochen, dass im Adaptionsmodell Rauschen unterdrckt werden soll. Hierzu muss zunchst geklrt u a a werden, nach welchen Kriterien zwischen Rauschen und nicht Rauschen unterschieden werden soll. Diese Kriterien sollten dann mglichst einfach o neuronal implementiert werden knnen. o Rauschen erzeugt im Hrnerv eine gleichmige, d.h. uber den Ort konstante, o a Erregung. D.h. Neuronen der Outputschicht, deren Umgebung im Hrnerv o gleichmig erregt ist, sollten vom Rauschunterdrckungsmechanismus ina u hibiert werden, denn in der Umgebung ihrer Bestfrequenz ist der Stimulus Schmalbandrauschen. Variiert dagegen die Erregung in der Umgebung eines Neurons stark, so erhlt dieses jedenfalls kein (weies) Rauschen als Eingaa be. Variation der Erregung bedeutet entweder eine im Ort ansteigende oder eine abfallende Erregung. Wir bentigen also Neurone, die auf ansteigende o bzw. absteigende Flanken in der Erregung reagieren, nicht jedoch auf eine konstante Erregung. Wir nennen sie Featuredetektoren, denn sie erkennen gewisse Eigenschaften des Stimulus. Wir stellen uns also eine tonotope Reihe von Featuredetektoren vor. Wird ein solcher Featuredetektor nun von Hrnerven hherer Bestfrequenz erregt o o und von Hrnerven niedrigerer Bestfrequenz gehemmt (wie das Neuron Mitte o rechts in Abb. 6.12), so reagiert es (bei geeigneter Wahl der synaptischen Gewichte und der Schwelle) nur auf ansteigende Flanken im Stimulus. Denn eine konstante Erregung wrde das Neuron gleich stark inhibieren wie erregen, sou mit wrde das Neuron in diesem Fall nicht feuern. Eine abfallende Erregung u wrde das Neuron gar strker inhibieren als erregen. Nur bei einer ansteigenu a den Flanke in der Erregung wird das Neuron strker (von oberhalb) erregt als a (von unterhalb) inhibiert und feuert. Ein Neuron, das nur auf eine abfallende Flanke in der Erregung des Hrnervs reagiert, ist spiegelsymmetrisch aufgeo baut (das Neuron Mitte links in Abb. 6.12). Ein reiner Ton ist sicherlich kein Rauschen. Er fhrt jedoch zu einem fast konstanten Bereich in der Erregung u des Hrnervs gerade in der Nachbarschaft des Neurons, dessen Bestfrequenz o die Frequenz des reinen Tons ist (vgl. Abb. 6.10 bei 1500 Hz). Deshalb erwies es sich als zweckmig, einen weiteren Featuredetektor einzufhren, der auf a u eine Rechtskrmmung in der Erregung des Hrnervs reagiert. Dieser wird u o durch ein Neuron verwirklicht, das durch Hrnervenfasern in seiner Nhe o a erregt und durch weiter entfernte Hrnervenfasern inhibiert wird (das Neuo ron in der Mitte von Abb. 6.12). Dieser Featuredetektor reagiert dann nur, falls der Hrnerv bei der Bestfrequenz des Featuredetektors strker feuert o a als oberhalb und unterhalb davon. Er reagiert also nur auf eine hinreichend starke Rechtskrmmung in der Erregung des Hrnervs, verursacht etwa durch u o einen reinen Ton. Wir besitzen nun eine Reihe von Featuredetektoren, die anzeigen, wann an einer Stelle der Outputschicht kein Rauschen vorliegt. Die entsprechenden Neuronen der Outputschicht sollen aber nur inhibiert werden, falls sie Rauschen als Eingabe erhalten. Dies wird gelst, indem das rauschunterdrckeno u de Neuron (oben in Abb. 6.12) von allen Featuredetektoren stark inhibiert wird, so dass es bei Detektion eines Features die Outputschicht nicht inhi-
102
biert. Das bedeutet, die rauschunterdrckenden Neurone feuern nur, wenn an u der entsprechenden Stelle in der Outputschicht kein Feature vorliegt und die entsprechende Stelle der Outputschicht erregt ist (exzitatorische Kopplung von der Outputschicht zum rauschunterdrckenden Neuron in Abb. 6.12). u Dies bedeutet wiederum, dass die rauschunterdrckenden Neuronen nur feuu ern, falls Rauschen in dem Bereich der Outputschicht vorliegt, fr den die u 3 rauschunterdrckenden Neuronen zustndig sind . u a Gibt es in der Neurophysiologie Hinweise auf solch einen Rauschunterdru ckungsmechanismus, wie er oben postuliert und beschrieben wurde? Jedenfalls gibt es im Nucleus cochlearis Neurone, die nicht auf Rauschen reagieren (Typ II-Neurone, Kap. 4.1), denn sie haben inhibitorische Seitenbnder wie a der Featuredetektor fr eine Rechtskrmmung. Darber hinaus gibt es im u u u Nucleus cochlearis Neuronen mit vielfltig angeordneten exzitatorischen und a inhibitorischen Bereichen [Popper 1992]. Diese knnten als weitere Featureo detektoren dienen. Eine Implementation der in Abb. 6.12 angegebenen Verschaltung im Nucleus cochlearis wre also denkbar, obwohl es nach Wissen a des Autors noch keine genauen Vorstellungen der neuronalen Verschaltung des Nucleus cochlearis gibt (vgl. [Voigt, Young 1990, Popper 1992]). Jedoch ist es auch durchaus mglich, und der Autor hlt dies fr wahrscheinlich, o a u dass sich der beschriebene Mechanismus zur Detektion der Features nicht im Nucleus cochlearis bendet, sondern in hheren Arealen, die auf den Nucleus o cochlearis uber die absteigende Hrbahn rckprojizieren. Relativ trge Rcko u a u projektionen wrden auch die langen Wahrnehmungszeiten des Zwicker-Tons u von bis zu 6 Sekunden erklren. a Alle im Adaptionsmodell simulierten Neuronen sind Spike-Response-Neuronen wie in Abb. 6.7 beschrieben. Die Neuronen der verschiedenen Schichten haben die Zeitkonstanten und die Schwellen aus Tab. 6.2. Neuron Outputschicht Featuredetektor steigend u. fallend Rechtskrmmung u Rauschunterdrcker u inhibitorisches Interneuron s /ms ref /ms ref /ms 10 5 2 1 50 200 500 10 5 5 5 5 2 2 2 2 1 1 2 1
Tab. 6.2: Zeitkonstanten und Schwellen der Neuronen des Adaptionsmodells. Die Neuronen der Outputschicht und die inhibitorischen Interneuronen haben die selben (schnellen) Zeitkonstanten wie im Habituationsmodell, denn sie mssen den Stimulus in mglichst guter Zeitausung ubertragen. Die u o o Featuredetektoren haben lngere Zeitkonstanten, da sie uber lngere Zeit a a mitteln mssen, um ein Feature zu entdecken, insbesondere fr die schwer u u
Man knnte noch an weitere Features denken, die bewirken, dass kein weies Rauo schen vorliegt, wie beispielsweise eine Linkskrmmung der Erregung im Ort oder eine u Variation der Erregung in der Zeit. Diese spielen allerdings bei den meisten Zwicker-Ton Erzeugerschallen keine Rolle, deshalb wird hier der Einfachheit halber davon abgesehen.
3
103
zu detektierende Rechtskrmmung. Die Rauschunterdrcker wurden als weu u sentlicher Teil des Modells als recht trge angenommen, so dass der Zwickera Ton entsprechend lange andauert. Die neuronale Verschaltung im Adaptionsmodell In Abb. 6.12 ist schematisch der Aufbau des Nucleus cochlearis im Adaptionsmodell abgebildet. Die laterale Inhibition wirkt strker von tiefen zu a hohen Frequenzen als umgekehrt. Die Neuronen oberhalb der Outputschicht dienen der Detektion von Rauschen. Ihre Verbindungen sind schematisch eingezeichnet. Meist steht jedoch eine eingezeichnete Synapse fr viele Veru bindungen der gleichen Art. Die genaue Struktur der Verbindungen soll in diesem Abschnitt beschrieben werden. Es werden 300 Hrnervenfasern, 300 Neuronen der Outputschicht, 300 inhio bitorische Interneurone, 300 rauschunterdrckende Neuronen und 300 Featuu redetektoren von jedem Typ simuliert. Jeder Hrnerv ist mit einem Neuron o der Outputschicht verbunden (Synapsenstrke 4), dieses wiederum mit einem a inhibitorischen Interneuron (Synapsenstrke 1) und mit einem rauschuntera drckenden Neuron (Synapsenstrke 0,00045). u a Die Synapsenstrke der lateralen Inhibition von inhibitorischem Interneua ron i (d.i. das inhibitorische Interneuron, das seine Eingabe von Neuron i der Outputschicht erhlt) zum Neuron j der Outputschicht folgt der Formel a 2 0,03 e[(ij+12)/40] , Reichweite ist also 40 Neuronen, Verschiebung 12 Neuronen. Es gibt keine Selbstinhibition, d.h. keine synaptische Kopplung vom inhibitorischen Interneuron i zum Outputneuron i. Jedes rauschunterdrckende Neuron i erhlt eine inhibitorische Eingabe von u a 2 Featuredetektor j jedes Typs nach der Formel 0,0001 e[(ij)/10] . Die rauschunterdrckenden Neuronen hren also auf Featuredetektoren in einer Nachu o barschaft von etwa 10 Neuronen. Das rauschunterdrckende Neuron i ist inhibitorisch mit dem Neuron j der u Outputschicht verknpft, falls |i j| 30 (Synapsenstrke 0,05). u a Der Featuredetektor i ist mit der Hrnervenfaser j mit einer Synapsenstrke o a nach der Formel I c1 e[(ji+d)/c] + c2 e[(jid)/c] + c3 e[(ji)/c] verknpft. Fr die Konstanten gilt Tab. 6.3.4 u u
2 2 2
Beachte, dass die Hrnervenfasern, die an den Featuredetektoren enden, sowohl exzio tatorische als auch inhibitorische Synapsen besitzen. Biologisch korrekter wren weitere a zwischengeschaltete Interneuronen, auf die jedoch der Einfachheit halber in der Simulation verzichtet wurde. Weitere Interneuronen wrden an der Funktion des neuronalen u Schaltkreises nichts ndern, bis auf eine geringe Verzgerung inhibitorischer Eingaben. a o Da der Rauschunterdrckungsmechanismus ohnehin trge ist, spielen diese zustzlichen u a a Verzgerungen keine Rolle. o
104
Featuredetektor steigend fallend Rechtskrmmung u
I c 0,02 10 0,02 10 0,02 10
d c 1 c2 c3 5 -1 1 0 5 1 -1 0 20 -1 -1 5,8
Tab. 6.3: Konstanten fr die Verschaltung der Featuredetektoren des Adu aptionsmodells.
Aktionspotentiale der Hrnervenfasern o NC Bestfrequenz Nucleus cochlearis Aktionspotentiale der Neurone des Nucleus cochlearis
NC Rauschunterdrckung u
Featuredetektoren
Outputschicht
inhibitorische Interneuronen
Aktionspotentiale der Hrnervenfasern o
Abb. 6.12: Simulation des Nucleus cochlearis im Adaptionsmodell. Signaturen wie in Abb. 6.2 und 6.6. Man beachte wiederum, dass oft nur jeweils eine von vielen Verbindungen dargestellt ist: Die inhibitorischen Interneuronen und die rauschunterdrckenden Neuronen inhibieren Neuronen der Outu putschicht aus einem ganzen Bereich und die Featuredetektoren bekommen Eingaben von vielen Hrnervenfasern (siehe Text). o
105
6.2.3
Simulationsergebnisse im Adaptionsmodell
In diesem Abschnitt wird die Reaktion des Adaptionsmodells auf verschiedene Stimuli beschrieben. Die Simulationen sollen zeigen, dass der in Abb. 6.12 beschriebene Nucleus cochlearis eine relativ einfache neuronale Implementation des in Kap. 6.2.1 beschriebenen Adaptionsmodells ist. Zeitabhngige a mittlere Feuerraten sind wieder in Anhang A farbcodiert abgebildet. Tiefpassrauschen Stimulus ist zunchst Tiefpassrauschen mit der Grenzfrequenz 1700 Hz. Die a Aktivitt des Hrnervs und der Outputschicht zeigt Abb. 6.13. a o 1000 R/Hz 1500 2000 2500
Frequenz/Hz 80 .. .. .. 60 . . . .. . . . .. .. ... .. .. . .... .... .... .......... ... ... .... .... . . ... . 40 .. .. .. ..
.. .
20
qqqq
R/Hz
100 50
100
150
200
250 Neuron Nr.
Abb. 6.13: Die Feuerraten R der Hrnervenfasern (oben) und der Neuronen o der Outputschicht (unten) im Adaptionsmodell, gemittelt uber die Dauer des Stimulus von 2 s. Stimulus war Tiefpassrauschen mit einer oberen Bandkante von 1700 Hz. Die Frequenzskala bezeichnet die Bestfrequenzen der Neuronen. qqqq Der Zwicker-Ton tritt im Adaptionsmodell an der mit bezeichneten Stelle auf. Die gestrichelten Linien deuten die Berechnung der Tonhhe des Zwickero Tons im Mithrschwellenmodell von [Krump 1993] (Kap. 5.3) an, nheres o a siehe Kap. 6.2.4. Abb. A.5 zeigt den zeitlichen Verlauf der Feuerraten der Neuronen der Outputschicht im Adaptionsmodell. Das Rauschen wird nach 2 s abgeschaltet. Man erkennt deutlich die gesteigerte Aktivitt der Neuronen nach dem Aba schalten des Stimulus bei Frequenzen von etwa 1800 Hz. Sie sind im Modell fr die Wahrnehmung des Zwicker-Tons verantwortlich. Grne Bereiche u u bedeuten wieder spontane Aktivitt der Neurone, orange bis rote Bereiche a Aktivitt oberhalb der Hrschwelle und blaue Bereiche geringere als spona o
106
tane Aktivitt. Blaue Bereiche kommen durch die anhaltende Inhibition der a Rauschunterdrcker aus Abb. 6.12 zustande. u Die Erklrung fr das Zustandekommen eines Zwicker-Tons ist folgende: Das a u Rauschen unterhalb 1700 Hz wird durch den Mechanismus in Abb. 6.12 unterdrckt. Dieser Mechanismus ist relativ langsam, er setzt erst nach etwa u 0,5 s ein (siehe Abb. A.5). Diese Verzgerung entspricht der Zeitkonstano te s = 0,5 s der Rauschunterdrcker aus Tab. 6.2. Die Rauschunterdrcker u u unterdrcken das Rauschen ziemlich stark, so dass die Kante bei 1700 Hz heru vorgehoben wird (vgl. auch Abb. 6.13). Nach dem Abschalten ist der Rauschunterdrckungsmechanismus noch immer aktiv (blaue Bereiche in Abb. A.5). u D.h. Neuronen unterhalb 1700 Hz feuern schwcher als im Zustand ohne a aktive Rauschunterdrcker. Dadurch knnen sie Neuronen bei Frequenzen u o oberhalb 1700 Hz nicht mehr so stark inhibieren (ber die inhibitorischen Inu terneuronen in Abb. 6.12). D.h. Neuronen bei Frequenzen oberhalb 1700 Hz feuern nun strker als im stationren Zustand ohne Stimulus. Diese erhhte a a o Feuerrate ist durch das Gehr wahrnehmbar, da sie deutlich oberhalb der o spontanen Feuerrate liegt5 . Im Modell dauert der Zwicker-Ton etwa 0,5 s. Die Aktivitt der Rauschunterdrcker aus Abb. 6.12 zeigt Abb. A.6. Man a u erkennt das versptete Einsetzen der Inhibition nach Beginn des Stimulus a sowie das Anhalten der Inhibition nach dem Abschalten. Inhibition tritt nur im Bereich des Rauschens auf. In Abb. A.5 und Abb. 6.13 kann man sehen, wie das Rauschen von den Rauschunterdrckern unterdrckt wird. Die obere Bandkante der Tiefpassu u gelterten Eingabe wird dadurch hervorgehoben. Reiner Ton mit Rauschen Stimulus ist nun ein reiner Ton mit darunterliegendem weien Rauschen. Abb. A.7 zeigt die zeitabhngige Feuerrate der Neuronen der Outputschicht. a Der obere Teil von Abb. 6.14 zeigt die mittlere Aktivitt des Hrnervs und a o der untere Teil die mittlere Aktivitt der Outputschicht whrend der Dauer a a des Stimulus von 2 s. In Abb. A.7 ist nach Abschalten des Stimulus ein deutlicher Zwicker-Ton zu sehen. Dieser kommt auf die selbe Weise wie beim Tiefpassrauschen zustande: Die Neuronen der Rauschunterdrckerschicht inhibieren alle Neuronen u der Outputschicht, die Rauschen als Stimulus erhalten. D.h. Inhibition tritt unterhalb und oberhalb des reinen Tons auf, nicht jedoch an der Stelle des reinen Tons (siehe Abb. A.8). Dies wirkt auf die selbe Weise wie ein vorhergegangenes Tiefpassrauschen (siehe Kap. 6.2.3).
Deutlich oberhalb heit, dass die Feuerrate nicht mit spontaner Feuerrate verwechselt werden kann im Sinne von Kap. 4.3.1. Dies sieht man daran, dass im Normalzustand (Bereiche hoher Frequenzen und nach 2,5 s in Abb. A.5) die uber 100 ms gemittelten Feu erraten niemals den grnen Bereich verlassen. u
5
6.2. ADAPTIONSMODELL 1000 R/Hz 80 1500 2000 2500
107
Frequenz/Hz . .. . . .... . 60 .. ...................... .... .. .... .... . .. .. . .. 40 .. . ..

. ..
20
q qqq
R/Hz 150
100 50 100 150 200 250 Neuron Nr.
Abb. 6.14: Die Feuerraten R der Hrnervenfasern (oben) und der Neuronen o der Outputschicht (unten) im Adaptionsmodell, gemittelt uber die Dauer des Stimulus von 2 s. Stimulus war ein Sinuston der Frequenz 1700 Hz mit darunterliegendem weien Rauschen. Reiner Ton Ein einzelner reiner Ton erzeugt im Adaptionsmodell keinen Zwicker-Ton, da kein Rauschen im Stimulus vorkommt, somit auch keine anhaltende Inhibition. Hochpassrauschen Hochpassrauschen erzeugt im Adaptionsmodell keinen Zwicker-Ton, da die laterale Inhibition hauptschlich von links nach rechts wirkt. Nach dem Aba schalten des Stimulus tritt also keine gengend starke Verbiegung der Kante u in der spontanen Aktivitt auf (vgl. auch die Diskussion in Kap. 6.1.5 sowie a Kap. 4.2.2). Tiefpass- und Hochpassrauschen mit Rauschen Tiefpass- und Hochpassrauschen mit zustzlichem weien Rauschen erzeugt a auch im Adaptionsmodell keinen Zwicker-Ton. Der Grund ist dem im Habituationsmodell hnlich: Das Tiefpassrauschen sowie das weie Rauschen a erzeugen Inhibition. Die Bereiche mit Inhibition sind also nur durch die schmale abfallende Bandkante getrennt, die ja Inhibition uber die entspre chenden Featuredetektoren verhindert. Die schmale Lcke in der Inhibition u reicht nicht aus, um einen Zwicker-Ton zu erzeugen. Beachte darber hinu
108
aus, dass die von den Neuronen der Rauschunterdrckerschicht ausgehende u Inhibition ausgedehnt ist (Modellparameter in Kap. 6.2.2).
6.2.4
Diskussion der Simulationsergebnisse im Adaptionsmodell
Tonhhe des Zwicker-Tons im Adaptionsmodell o Die Tonhhe des Zwicker-Tons im Adaptionsmodell ergibt sich folgendermao en: Rauschen erzeugt Inhibition, die auch nach dem Abschalten des Stimulus noch andauert. Diese erzeugt eine Kante in der Erregung, die nach den oben erluterten Mechanismen verstrkt wird. Diese Kante bendet sich an a a der Stelle, an der die Inhibition durch die rauschunterdrckenden Neuronen u endet. Damit der Zwicker-Ton nun oberhalb der oberen Bandkante auftritt, mussten wir annehmen, dass die durch ein Neuron der Rauschunterdrckeru schicht hervorgerufene Inhibition die gleiche Reichweite wie die Erregung hat. Dann nmlich berechnet sich die Tonhhe des Zwicker-Tons beim Tiefa o passrauschen wie fr das Habituationsmodell in Kap. 6.1.4 beschrieben. An u die Stelle von durch Erregung hervorgerufener Ermdung tritt nun durch die u Rauschunterdrckerschicht hervorgerufene Inhibition. u Die Tonhhen der im Adaptionsmodell simulierten Zwickertne und der nach o o Kap. 5.3 berechneten Tonhhe (Schnittpunkt der gestichelten Linien in den o Abb. 6.13 und 6.14) stimmen zwar nicht exakt uberein, zeigen aber die gleiche Tendenz. Beim einzelnen reinen Ton mit weiem Rauschen sind die Verhltnisse koma plizierter: Das Rauschen oberhalb und unterhalb des reinen Tons stimuliert die rauschunterdrckenden Neuronen. Im Bereich des reinen Tons selbst u werden die Rauschunterdrcker durch die Featuredetektoren inhibiert. Die u rauschunterdrckenden Neuronen sind also nur im Bereich des Rauschens u aktiv. Daher ergibt sich nach dem Abschalten dasselbe Bild wie nach einem Bandsperrerauschen: Die anhaltende Inhibition der Neuronen unterhalb des reinen Tons durch die Rauschunterdrckungsschicht fhrt zu einer Kante u u in der spontanen Aktivitt, die durch laterale Inhibition zum Zwicker-Ton a verstrkt wird. Dadurch tritt der Zwicker-Ton oberhalb vom Rauschen una terhalb des reinen Tons, jedoch noch unterhalb des reinen Tons auf. Zwicker-Ton Erzeugerschalle im Adaptionsmodell Bei allen in Tab. 6.1 aufgefhrten Schallen treten beim Adaptionsmodell u keine qualitativen Abweichungen zwischen Modell und Realitt mehr auf. a In den in Kap. 5.2 beschriebenen Experimenten wurde oft die Bandbreite des Rauschens im Zwicker-Ton Erzeugerschall systematisch variiert. Die Qualitt des Zwicker-Tons nahm dabei i.d.R. mit zunehmender Bandbreia te des Rauschens zu. Dies war bis Bandbreiten von etwa 5 Bark der Fall, darber blieb die Qualitt des Zwicker-Tons konstant. Sowohl das Habituau a tionsmodell als auch das Adaptionsmodell beruhen auf einer Verringerung der lateralen Inhibition nach dem Abschalten des Zwicker-Ton Erzeugerschalls.
109
Je strker diese Verringerung der lateralen Inhibition ist, desto intensiver ist a der Zwicker-Ton in diesen Modellen. Man muss also nach den Experimenten von einer sehr langreichweitigen (Reichweite etwa 5 Bark) lateralen Inhibition ausgehen. Der Bereich, in dem Kanten in der Erregung verbogen wer den, ist jedoch etwa so breit wie die Reichweite der lateralen Inhibition (vgl. Kap. 4.2.2). Deshalb wrden groe Reichweiten der lateralen Inhibition nicht u zu einem reinen Ton als Nacheekt fhren, sondern allenfalls zu Schmalbandu rauschen. Die Reichweite der lateralen Inhibition betrgt im Adaptionsmodell a etwa 1 Bark. Dies steht im Widerspruch zu oben beschriebenem Hinweis auf Reichweiten von etwa 5 Bark. Er liee sich folgendermaen lsen: Es besteht o eine starke laterale Inhibition geringer Reichweite (etwa 1 Bark) sowie eine schwache laterale Inhibition groer Reichweite (etwa 5 Bark). Wegfall oder Abschwchung der starken lateralen Inhibition wrde einen (in der Tonhhe a u o eng begrenzten) Zwicker-Ton entstehen lassen. Zunehmende Abschwchung a der schwachen aber langreichweitigen lateralen Inhibition liee den ZwickerTon intensiver werden. Diese Kombination von starker kurzreichweitiger und schwacher langreichweitiger lateraler Inhibition ist im oben beschriebenen Adaptionsmodell allerdings nicht implementiert, da der Erkenntnisgewinn gering und quantitative Aussagen ohnehin zweifelhaft wren. a In [Krump 1993, Zwicker 1990] wird auch die Lautheit der Zwicker-Ton Erzeugerschalle systematisch variiert, wobei sich herausstellt, dass es fr jeu den Zwicker-Ton Erzeugerschall eine optimale Lautstrke gibt, bei der der a Zwicker-Ton am deutlichsten zu hren ist. Optimale Lautstrkepegel lieo a gen bei etwa 60 phon, Zwicker-Ton Erzeugerschalle sind also relativ leise. Nach lauten Schallen entsteht kein Zwicker-Ton. Dies kann mehrere Ursachen haben. Zunchst gibt es den Eekt der nichtlinearen Aucherung (siehe a a Kap. 1.4), bei dem etwa bei einem Tiefpassrauschen die obere Flanke der Erregung mit zunehmender Lautstrke acher wird. Die nichtlineare Auchea a rung wrde den Zwicker-Ton im Habituationsmodell bei groen Lautstrken u a verhindern, da die Kante in der spontanen Aktivitt nach dem Abschalten zu a ach wre. Im Adaptionsmodell knnten die Featuredetektoren nicht mehr a o so gut zwischen Rauschen und abfallender Kante in der Erregung unterscheiden, so dass die von der Rauschunterdrckerschicht ausgehende Inhibition u eher kontinuierlich denn abrupt verliefe. Dies wrde ebenfalls zu einer weniu ger scharfen Kante in der spontanen Aktivitt nach dem Abschalten fhren. a u Bei der unteren Kante eines reinen Tons ist die nichtlineare Aucherung wea niger stark, so dass beim einzelnen reinen Ton mit Rauschen die Lautstrke a des reinen Tons die Wahrnehmbarkeit des Zwicker-Tons kaum beeinussen drfte. Ein weiterer stark nichtlinearer Eekt ist die Rekrutierung weiterer u Hrnervenfasern hherer Schwellintensitt bei zunehmender Lautstrke des o o a a Schalls (Kap. 2.1.4). Diese projizieren mglicherweise auf einen anderen too notopen Streifen des Nucleus cochlearis mit anderer innerer Verschaltung, bei der kein Zwicker-Ton erzeugt wird. Beide nichtlinearen Eekte werden hier nicht in die Simulationen miteinbezogen.
Kapitel 7 Diskussion und Ausblick

7.1 Ruckblick
In Kap. 1 hatten wir grundlegende psychoakustische Begrie behandelt, um das Phnomen des Zwicker-Tons hierin einordnen zu knnen. Der psychoakua o stische Begri der Erregung stellte sich in Kap. 5 als zentral zur Bestimmung der Tonhhe des Zwicker-Tons heraus. Um die physiologische Ursache der o mit der Erregung zusammenhngenden psychoakustischen Phnomene wea a nigstens annhernd modellieren zu knnen, war ein relativ genaues Modell a o der Cochlea und des Hrnervs notwendig, das in Kap. 3 entwickelt wurde. In o Kap. 6 wurden schlielich zwei Modelle vorgestellt, die beschreiben, wie der Zwicker-Ton mglicherweise entstehen knnte. o o Als eine zentrale Ursache fr die Entstehung des akustischen Nacheekts war u laterale Inhibition postuliert worden. Qualitative Auswirkungen der lateralen Inhibition auf den Erregungszustand der Neuronen in Abhngigkeit von der a neuronalen Eingabe wurden in einem einfachen linearen Modell einer Reihe tonotop angeordneter Neurone untersucht (Kap. 4). Wir behandelten auch mgliche Auswirkungen der lateralen Inhibition auf die Qualitt der Informao a tionsverarbeitung im Gehr in einem sehr einfachen Modell mit spikenden o Neuronen. Hierbei bekamen wir ein Gefhl fr eine vernnftige Strke fr u u u a u laterale Inhibition und feed-forward-Kopplungen. Anhand der qualitativen Auswirkungen lateraler Inhibition konnten zwei Modelle entwickelt werden, die Nacheekte zeigen. Das Habituationsmodell geht davon aus, dass feuernde Neuronen ermden, wobei der ermdete Zustand u u fr die Dauer des Zwicker-Tons anhlt. In einigen Fllen werden hierdurch u a a Zwicker-Tne mit richtiger Tonhhe produziert, in anderen widersprechen o o sich jedoch die experimentellen Beobachtungen und das Modell. Das Modell wurde daraufhin durch ein verfeinertes, jedoch auch komplizierteres, ersetzt. Das Adaptionsmodell geht davon aus, dass das auditorische System durch Rckkopplungen aktiv in die Informationsverarbeitung in tieferen Stuu fen eingreift. Genauer soll Rauschen unterdrckt werden, whrend andere u a Features ungehindert passieren. Es wurde angenommen, dass die durch Rckkopplung verursachte Inhibition etwa so lange anhlt wie der Zwickeru a Ton wahrnehmbar ist. Die notwendig gewordenen Featuredetektoren konnten durch eine relativ einfache neuronale Schaltung modelliert werden. Sie sind in 110
7.2. WEITERE PSYCHOAKUSTISCHE EXPERIMENTE
111
der Realitt, sollte das Adaptionsmodell zutreen, jedoch bestimmt weitaus a komplizierter aufgebaut. Das Adaptionsmodell stimmt zumindest qualitativ gut mit den Beobachtungen uberein. Hieraus quantitative Schlsse uber psychoakustische Gren u o ziehen zu wollen, erscheint etwas vermessen, da ja nur die erste Stufe der komplizierten auditorischen Informationsverarbeitung (vgl. Kap. 2) modelliert wurde, und diese auch nur in der einfachsten Weise als eine einzige Reihe von 300 tonotop angeordneten Neuronen. Die Dauer des Zwicker-Tons und seine Lautstrke hngen natrlich in beiden Modellen stark von den a a u gewhlten Modellparametern ab, beispielsweise von der Zeitkonstante des a Rauschunterdrckungsmechanismus (hier etwa 0,5 s). Wenn man allerdings u einen derartigen Rauschunterdrckungsmechanismus postuliert und laterau le Inhibition zur besseren Detektion von Variationen im Stimulus annimmt, dann ist der Zwicker-Ton als Nacheekt zwar nicht unvermeidlich, jedoch zumindest plausibel. Jedenfalls lohnt es sich fr das Gehr oenbar nicht, einen u o extra Mechanismus zur Unterdrckung dieser Nacheekte einzubauen, da sie u ohnehin schwach sind und bei natrlichen Stimuli praktisch nicht auftreten. u
7.2
Weitere psychoakustische Experimente
Das Adaptionsmodell kann als Grundlage fr weitere psychoakustische Mesu sungen dienen, insbesondere, um weitere Zwicker-Ton Erzeugerschalle zu nden. Beispielsweise erkennt man am Mechanismus der Entstehung des Zwicker-Tons beim einzelnen reinen Ton mit weiem Rauschen in Kap. 6.2.3, dass das Rauschen bei hheren Tonhhen als der des reinen Tons keine Rolle o o spielt. D.h. auch ein in Abb. 7.1 skizzierter Schall msste einen Zwicker-Ton u erzeugen.
11
12
13
14
15
16
17
18
19
20
z/Bark
Abb. 7.1: Tiefpassrauschen mit einzelnem reinen Ton als Zwicker-Ton Erzeugerschall im Adaptionsmodell. Die Hhe des schraerten Bereichs gibt dieq o qqq Intensittsdichte des Rauschens bei der jeweiligen Tonheit an. Das Symbol a bezeichnet einen einzelnen reinen Ton. Die Featuredetektoren reagieren nur auf die Steilheit einer ansteigenden oder abfallenden Flanke. Auf Rauschen mit steil ansteigenden oder abfallenden Flanken mssten sie auch reagieren. Deshalb sollte der einzelne reine Ton u auch durch geeignetes steil ansteigendes und abfallendes Schmalbandrauschen ersetzt werden knnen (Abb. 7.2). o Nach [Krump 1993] kann Rauschen auch durch geeignete Pulsfolgen oder frequenzmodulierte Sinustne ersetzt werden. Diese sind zwar kein Rauo
112
KAPITEL 7. DISKUSSION UND AUSBLICK
11
12
13
14
15
16
17
18
19
20
z/Bark
Abb. 7.2: Rauschen mit steil ansteigendem und abfallendem Schmalbandrauschen als Zwicker-Ton Erzeugerschall im Adaptionsmodell. Die Hhe des o schraerten Bereichs gibt die Intensittsdichte des Rauschens bei der jeweia ligen Tonheit an. schen, werden aber von den einfachen Featuredetektoren des Adaptionsmodells als solches registriert, da die Featuredetektoren relativ lange Zeitkonstanten (Tab. 6.2) besitzen. Aus der Frequenzmodulationsfrequenz bzw. der Frequenz der Klickfolgen, bei der gerade noch ein Zwicker-Ton entsteht, sollte man die Zeitkonstanten der Featuredetektoren abschtzen knnen. a o Wir haben gesehen, dass im auditorischen System vermutlich ein kompliziertes Wechselspiel von verschiedenen Detektions- und Adaptionsmechanismen stattndet. Dies wirkt sich nicht in oensichtlicher Weise auf die akustische Wahrnehmung aus, denn sonst wre unsere akustische Welt voll von a Tuschungen. Vielmehr mssen die Adaptionsprozesse mglichst dezent im a u o Hintergrund arbeiten, so dass die Wahrnehmung im Wesentlichen konstant bleibt, sich aber auf unaufdringliche Weise verbessert, wie dies im visuellen System, beispielsweise bei der Adaption der Helligkeit uber viele Grenordo nungen hinweg, auch geschieht. Trotz aller vermutlich eingebauten Manahmen zur Unterdrckung strender Eekte, die durch verschiedene Adaptiu o onsmechanismen hervorgerufen werden knnten, gibt es hierdurch hervorgeo rufene akustische Tuschungen wie den Zwicker-Ton. Daher lohnt sich wohl a die Suche nach weiteren, dem Zwicker-Ton verwandten psychoakustischen Phnomenen, d.h. solchen, bei denen charakteristische Zeiten grer als eia o ne Sekunde eine Rolle spielen. Der Zwicker-Ton Erzeugerschall muss etwa 5 Sekunden prsent sein, damit ein optimaler Zwicker-Ton hervorgerufen wird a und der Zwicker-Ton kann bis zu 6 Sekunden lang anhalten. Dies ist ein Hinweis auf lnger andauernde Adaptionsmechanismen im auditorischen Sya stem. Fnde man weitere Phnomene auf dieser Zeitskala, so knnte man die a a o zugrundeliegenden Adaptionsmechanismen noch besser charakterisieren. Die in dieser Arbeit vorgestellten Uberlegungen knnten hierfr hilfreich sein. o u
7.3
Weitere neurophysiologische Experimente
Zunchst wre neurophysiologisch festzustellen, auf welcher Verarbeitungsa a stufe in der Hrbahn der Zwicker-Ton entsteht. Der Nucleus cochlearis ist o hierfr sehr wahrscheinlich (Kap. 6). Dabei ist zu beachten, dass der Zwickeru
7.3. WEITERE NEUROPHYSIOLOGISCHE EXPERIMENTE
113
Ton vielleicht nicht in jeder Reihe tonotoper Neuronen entsteht, sondern nur in einer oder wenigen, eben denjenigen, die eine Verschaltung hnlich dem a Adaptionsmodell oder eine sonstige spezialisierte Verschaltung aufweisen, die einen Zwicker-Ton hervorruft. Ist diese Reihe tonotoper Neuronen gefunden, so wre es zur Diskriminaa tion verschiedener Modelle wichtig, die Antworteigenschaften der Neuronen in dieser Reihe zu untersuchen, insbesondere im Hinblick auf laterale Inhibition, Reaktion auf Rauschen (Adaptionsmodell) und Ermdungsverhalten u (Habituationsmodell). Eine ausgeprgte laterale Inhibition sollte festgestellt a werden. Falls ein Modell hnlich dem Habituationsmodell richtig ist, so solla te eine ausgeprgte Ermdung der Neuronen festgestellt werden. Falls ein a u Modell wie das Adaptionsmodell zutrit, sollten die Neuronen zunchst auf a Rauschen reagieren, nach Zeiten im Sekundenbereich jedoch sollte ihre Aktivitt abnehmen. Nach Abschalten des Rauschens sollten sie ihre unbeeinusa ste spontane Feuerrate ebenfalls erst nach Zeiten im Sekundenbereich (Dauer des Zwicker-Tons) wieder erreichen.
Anhang A Farbtafeln
100
200
300 Feuerrate/Hz
Abb. A.1: Farbcodierung der Feuerraten in den Abbildungen.
A.1
Habituationsmodell
250 2500 Frequenz/Hz 2000
qqqq
Neuron Nr. 200
150
1500
100
1000
50 0.5 1.0 1.5 2.0 2.5 3.0 t/s
Abb. A.2: Zeitlicher Verlauf der Feuerraten der Neuronen der Outputschicht aus Abb. 6.6 im Habituationsmodell. Nach rechts ist die Zeit, nach oben die Nummer der Neuronen angetragen. Die uber 100 ms gemittelte Feuerrate ist farbcodiert aufgetragen. Fr die Farbcodes siehe Abb. A.1. Stimulus ist u Tiefpassrauschen mit einer oberen Bandkante von 1300 Hz. Die Frequenzskala bezeichnet die Bestfrequenzen der Neuronen. Der Zwicker-Ton tritt im Habituationsmodell an der mit qqqq bezeichneten Stelle auf.
116
ANHANG A. FARBTAFELN
250 Neuron Nr. 200
2500 Frequenz/Hz 2000
150
1500
q qqq
100
1000
50 0.5 1.0 1.5 2.0 2.5 3.0 t/s
Abb. A.3: Siehe Abb. A.2, nur ist der Stimulus nun ein reiner Ton der Frequenz 1500 Hz mit darunterliegendem weien Rauschen.
250 Neuron Nr. 200
150
1500
qqqq
100
1000
50 0.5 1.0 1.5 2.0 2.5 3.0 t/s
Abb. A.4: Siehe Abb. A.2, nur ist der Stimulus nun ein Hochpass mit Grenzfrequenz 1500 Hz.
A.2. ADAPTIONSMODELL
117
A.2
Adaptionsmodell
250 2500 Frequenz/Hz 2000
qqqq
Neuron Nr. 200
150
1500
100
1000
50 0.5 1.0 1.5 2.0 2.5 3.0 t/s
Abb. A.5: Zeitlicher Verlauf der Feuerraten der Neuronen der Outputschicht aus Abb. 6.12 im Adaptionsmodell. Nach rechts ist die Zeit, nach oben die Nummer der Neuronen angetragen. Die uber 100 ms gemittelte Feuerrate ist farbcodiert aufgetragen. Zu den Farbcodes siehe Abb. A.1. Stimulus ist Tiefpassrauschen mit einer oberen Bandkante von 1700 Hz. Die Frequenzskala bezeichnet die Bestfrequenzen der Neuronen. Der Zwicker-Ton tritt im Adaptionsmodell an der mit qqqq bezeichneten Stelle auf.
250 Neuron Nr. 200
150
1500
100
1000
50 0.5 1.0 1.5 2.0 2.5 3.0 t/s
Abb. A.6: Zeitlicher Verlauf der Feuerraten der Neuronen der Rauschunterdrckerschicht im Adaptionsmodell. Stimulus und Signaturen wie in u Abb. A.5.
118
ANHANG A. FARBTAFELN
250 Neuron Nr. 200
150
qqq q
1500
100
1000
50 0.5 1.0 1.5 2.0 2.5 3.0 t/s
Abb. A.7: Zeitlicher Verlauf der Feuerraten der Neuronen der Outputschicht aus Abb. 6.12 im Adaptionsmodell. Signaturen wie in Abb. A.5. Stimulus ist ein reiner Ton der Frequenz 1700 Hz mit darunterliegendem weien Rauschen.
250 Neuron Nr. 200
150
1500
100
1000
50 0.5 1.0 1.5 2.0 2.5 3.0 t/s
Abb. A.8: Zeitlicher Verlauf der Feuerraten der Neuronen der Rauschunterdrckerschicht im Adaptionsmodell. Stimulus und Signaturen wie in u Abb. A.7.
Literaturverzeichnis
[Born I 1995] Gnter Born, Referenzhandbuch Dateiformate: Grak, Text, u Datenbanken, Tabellenkalkulation, Addison-Wesley 1995 [Born II 1995] Gnter Born, Noch mehr Dateiformate: neue Dateiformate fr u u Grak, Text, Tabellenkalkulation und Sound, Addison-Wesley 1995 [Buser 1992] Pierre Buser, Michel Imbert, Vision, MIT Press 1992 [C++ 1996] Accredited Standards Committee, Operating under the procedures of the American National Standards Institute (ANSI), Working Paper for Draft Proposed International Standard for Information Systems Programming Language C++, 1996 [Campenhausen 1981] Christoph von Campenhausen, Die Sinne des Menschen, Band I: Einfhrung in die Psychophysik der Wahrnehmung, u Thieme 1981 [Campenhausen II 1981] Christoph von Campenhausen, Die Sinne des Menschen, Band II: Anleitung zu Beobachtungen und Experimenten, Thieme 1981 [Chassell 1996] Robert J. Chassell, Richard M. Stallman, Texinfo, The GNU Documentation Format, Edition 2.23, for Texinfo Version 3, Free Software Foundation 1996 [Cooke 1993] Martin Cooke, Modelling Auditory Processing and Organisation, Cambridge University Press 1993 [dtv-Atlas 1987] dtv-Atlas zur Physik, Band 1, Mechanik, Akustik, Thermodynamik, Optik, Deutscher Taschenbuch Verlag 1987 [dtv Brockhaus 1986] dtv Brockhaus Lexikon, Deutscher Taschenbuch Verlag 1986 [Domany 1994] E. Domany, J. Leo van Hemmen, K. Schulten (Hrsg.), Models of Neural Networks II, Temporal Aspects of Coding and Information Processing in Biological Systems, Springer 1994 [Donnelly 1995] Charles Donnelly, Richard M. Stallman, Bison, The YACCcompatible Parser Generator, Bison Version 1.25, Free Software Foundation 1995
119
120
LITERATURVERZEICHNIS
[Duden 1996] Duden, Rechtschreibung der deutschen Sprache, Dudenverlag 1996 [Fastl 1986] Hugo Fastl, Auditory after-images produced by complex tones with a spectral gap. In: Proc. 12. ICA Toronto (1986), Vol. I, B 25 [Fastl 1989] Hugo Fastl, Zum Zwicker-Ton bei Linienspektren mit spektralen Lcken. Acustica 67, 177186 u [Frick 1987] Hans Frick, Helmut Leonhardt, Dietrich Starck, Spezielle Anatomie II, Eingeweide Nervensystem Systematik der Muskeln und Leitungsbahnen, Thieme 1987 [Gerken 1996] George M. Gerken, Central Tinnitus and lateral inhibition: an auditory brainstem model, Hearing Research 97 (1996) 7583 [Gerstner 1993] Wulfram Gerstner, Kodierung und Signalbertragung in u Neuronalen Systemen: Assoziative Netzwerke mit stochastisch feuernden Neuronen, Reihe Physik Bd. 15, Verlag Harri Deutsch 1993 [Glass 1996] Graham Glass, Brett L. Schuchert, The STL <Primer>, Prentice Hall 1996 [Grimsehl 1987] Ernst Grimsehl, Lehrbuch der Physik, Band 1: Mechanik, Teubner 1987 [Haft 1998] M. Haft, J. L. van Hemmen, Theory and implementation of infomax lters for the retina, Network: Comput. Neural Syst. 9 (1998) 3971 [Hauske 1994] Gert Hauske, Systemtheorie der visuellen Wahrnehmung, Teubner 1994 [Hawkins 1996] Harold L. Hawkins, Teresa A. McMullen, Arthur N. Popper, Richard R. Fay (Hrsg.), Auditory Computation, Springer 1996 [Hoke 1996] Ellen S. Hoke, Manfried Hoke, Bernhard Ross, Neurophysiological Correlate of the Auditory After-Image (Zwicker Tone), Audiol Neurootol 1996;1:161174 [Holmes, Lester 1981] Mark H. Holmes, Lester A. Rubenfeld (Editors), Mathematical Modeling of the Hearing Process: Proceedings of the NSFCBMS Regional Conference Held in Troy, NY, Springer-Verlag 1981 [Kahle 1979] Werner Kahle, Helmut Leonhardt, Werner Platzer, Taschenatlas der Anatomie fr Studium und Praxis, Thieme 1979 u [Kistler 1996] Werner Kistler, Zeitcodierung im Cerebellum, Technische Universitt Mnchen, Diplomarbeit 1996 a u [Kistler 1997] Werner M. Kistler, Wulfram Gerstner, J. Leo van Hemmen, Reduction of the Hodgkin-Huxley Equations to a Single-Variable Threshold Model, Neural Computation 9 (1997), 10151045
121
[Knuth 1993] Donald Ervin Knuth, The TeXbook, Addison-Wesley 1993 [Keidel 1995] Wolf D. Keidel, Physiologie des Gehrs: Akustische Informao tionsverarbeitung, Einfhrung fr Arzte, Biologen, Psychologen und u u Nachrichtentechniker, Thieme 1975 [Kopka I 1994] Helmut Kopka, LaTeX Band 1: Einfhrung, Addison-Wesley u 1994 [Kopka II 1995] Helmut Kopka, LaTeX Band 2: Ergnzungen mit einer a Einfhrung in METAFONT, Addison-Wesley 1995 u [Kopka III 1997] Helmut Kopka, LaTeX Band 3: Erweiterungen, AddisonWesley 1997 [Krump 1993] Gerhard Krump, Beschreibung des akustischen Nachtones mit Hilfe von Mithrschwellenmustern, Mnchen, Techn. Univ. Mnchen, o u u Diss., 1993 [Kuchling 1988] Horst Kuchling, Taschenbuch der Physik, Verlag Harri Deutsch 1988 [Loukides 1997] Mike Loukides, Andy Oram, Programming with GNU Software, OReilly 1997 [Mller 1983] Aage, R. Mller, Auditory Physiology, Academic Press 1983 [Maple 1] Bruce W. Char u. a., First Leaves, A Tutorial Introduction to Maple V, Springer 1992 [Maple 2] Bruce W. Char u. a., Maple V Language Reference Manual, Springer 1991 [Maple 3] Bruce W. Char u. a., Maple V Library Reference Manual, Springer 1991 [Meddis 1986] R. Meddis, Simulation of auditory-neural transduction: further studies, J. Acoust. Soc. Am. 83 10561063 [Moore 1982] Brian C. J. Moore, An Introduction to the Psychology of Hearing, Academic Press 1982 [Pickles 1982] James O. Pickles, An Introduction to the Physiology of Hearing, Academic Press 1982 [Popper 1992] Arthur N. Popper, Richard R. Fay, The Mammalian Auditory Pathway: Neurophysiology, Springer-Verlag 1992 [Profos 1994] Paul Profos, Tilo Pfeifer (Hrsg.), Handbuch der industriellen Messtechnik, Oldenbourg 1994 [Shepherd 1993] Gordon M. Shepherd, Neurobiologie, Springer-Verlag 1993 [Sottek 1993] Roland Sottek, Modelle zur Signalverarbeitung im menschlichen Gehr, Techn. Hochschule Aachen, Diss., 1993 o
122
[Spektrum 4/1997] Spektrum der Wissenschaft, April 1997, Neues zur akustischen Funktion der Ohrmuschel [Stallman GCC 1995] Richard M. Stallman, Using and Porting GNU CC, for version 2.7.2.1, Free Software Foundation 1995 [Stallman GDB 1995] Richard M. Stallman, Cygnus Support, Debugging with GDB, Edition 4.12, for GDB Version 4.16, Free Software Foundation 1995 [Stallman XEmacs 1994] Richard M. Stallman, Rashmi Goyal, Getting Started with XEmacs, 1994 [Stallman XEmacs 1995] Richard M. Stallman, Licid Inc., Ben Wing, XEmacs Users Manual, 1995 [Stroustrup 1991] Bjarne Stroustrup, The C++ Programming Language, Addison-Wesley 1991 [Tomlinson, Biebel, Langner 1998] R. W. Ward Tomlinson, Ulrich Biebel, G. Langner, The Hunt for the Phantoms Song: Representation of Zwicker Tones in Neurons of Alert Auditory Cortex, Poster 345 der Gttinger o Neurobiologentagung 1998 [Unbehauen 1997] Rolf Unbehauen, Systemtheorie 1, Oldenbourg 1997 [Voigt, Young 1980] Herbert F. Voigt, Eric D. Young, Evidence of inhibitory interactions between neurons in dorsal cochlear nucleus, J. Neurophysiol. 44 7696 [Voigt, Young 1982] Herbert F. Voigt, Eric D. Young, Response properties of type I and type III units in the dorsal cochlear nucleus, Hear. Res. 6 153169 [Voigt, Young 1990] Herbert F. Voigt, Eric D. Young, Cross-correlation analysis of inhibitory interactions in the dorsal cochlear nucleus, J. Neurophysiol. 164 15901610 [Yost 1994] William A. Yost, Fundamentals of Hearing, An Introduction, Third Edition, Academic Press Inc. 1994 [Young, Brownell 1976] Eric D. Young, W. Brownell, Response to tones and noise of single cells in dorsal cochlear nucleus of unanesthesized cats, J. Neurophysiol. 39 282300 [Zenner 1994] Hans-Peter Zenner, Hren: Physiologie, Biochemie, Zell- und o Neurobiologie, Thieme 1994 [Zwicker 1982] Eberhard Zwicker, Psychoakustik, Springer-Verlag 1982 [Zwicker 1990] Eberhard Zwicker, H. Fastl, Psychoacoustics: Facts and Models, Springer-Verlag 1990
Dank
Mein Dank an dieser Stelle gilt allen, die zum Gelingen dieser Arbeit beigetragen haben. Insbesondere Prof. J. Leo van Hemmen fr seine guten Vorlesungen, Geu sprche und Ideen, ohne die diese Arbeit nicht mglich gewesen wre. a o a Ganz herzlich bedanken mchte ich mich bei Richard Kempter und Oliver o Wenisch fr das Korrekturlesen, bei Richard auch besonders dafr, dass er u u mir bei einer ersten Orientierung im auditorischen System geholfen und auch sonst die gesamte Arbeit immer hilfreich begleitet hat. Danke an das gesamte Team Julian Eggert, Armin Bartsch, Richard Kemp ter, Werner Kistler, Ulrich Hillenbrand, Oliver Wenisch, Claudia Bergmann, Wolfgang Strzl, Berthold Buml und Christian Leibold fr viele nicht nur u a u wissenschaftliche Gesprche und die jederzeitige Hilfsbereitschaft. a Groe Hilfen waren Georg Klump, Institut fr Zoologie der TU Mnchen, u u der mich anfangs mit Bchern und Informationen untersttzte, und Manu u fred Kssl, Zoologisches Institut der LMU Mnchen, der versuchen wird, o u den Zwicker-Ton neurophysiologisch zu messen. An dieser Stelle auch vielen Dank an alle Teilnehmer und Vortragenden im Seminar der Forschergruppe Hrobjekte. o Whrend des Studiums untersttzten mich die Bayerische Begabtenfrdea u o rung und die Studienstiftung des Deutschen Volkes, erstere mehr nanziell, letztere mehr ideell, deshalb gilt mein Dank auch diesen beiden Institutionen. Letztlich noch ein herzliches Dankeschn an meine Eltern, die mir immer mit o Rat und Tat zur Seite standen.
123

Der Zwicker-Ton - Ein PH Anomen Der Auditorischen Informationsverarbeitung

Uploaded by

Document Information

Original Title

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

Der Zwicker-Ton - Ein PH Anomen Der Auditorischen Informationsverarbeitung

Uploaded by

Copyright:

Available Formats

Der Zwicker-Ton Ein Phanomen der auditorischen Informationsverarbeitung

Diplomarbeit von Jan-Moritz Peter Franosch

Der Zwicker-Ton Ein Phnomen der auditorischen a Informationsverarbeitung

Diplomarbeit von Jan-Moritz Peter Franosch

Modelle fr das periphere auditorische System . . . . . . . . . 38 u Cochlea . . . . . . . . . . . . . . . . . . . . . . . . . . 38 Innere Haarzellen . . . . . . . . . . . . . . . . . . . . . 47 Hrnerv . . . . . . . . . . . . . . . . . . . . . . . . . . 51 o

4 Rolle der lateralen Inhibition 4.1 4.2

Berechnung der Tonhhe . . . . . . . . . . . . . . . . . . . . . 81 o Oene Fragen . . . . . . . . . . . . . . . . . . . . . . . . . . . 82 83

6 Modelle fur den Zwicker-Ton

7 Diskussion und Ausblick

Schalldruckpegel und Schallintensittspegel a

df (Hv ) Hz / mel dHv

wobei Hv die Verhltnistonhhe bedeutet. a o

. . . . . . . . . . . . . . . . . .... ... .. ... .

... .... .... ..

Anregung und Erregung

wobei fG (f ) die Frequenzgruppenbreite an der Frequenz f und Schallintensittsdichte ist. a

10(27 dB/Bark z)/(10 dB) 10(10 dB/Bark z)/(10 dB)

Schwellenfunktionsschema fur langsame Schallnderungen a

E 1.0 0.8 0.6 0.4 0.2

Funktionsschema der Lautheit

Irrige Vorstellungen uber die Lautheit werden in [dtv-Atlas 1987] verbreitet.

Kapitel 2 Auditorisches System

Peripheres auditorisches System

2.1. PERIPHERES AUDITORISCHES SYSTEM

KAPITEL 2. AUDITORISCHES SYSTEM

2.1. PERIPHERES AUDITORISCHES SYSTEM Cortisches Organ

30 Codierung der Intensitt a

KAPITEL 2. AUDITORISCHES SYSTEM

2.2. ZENTRALES AUDITORISCHES SYSTEM Zweitonsuppression

Zentrales auditorisches System

KAPITEL 2. AUDITORISCHES SYSTEM

Corpus geniculatum mediale

Nuclei lemnisci laterales

2.2. ZENTRALES AUDITORISCHES SYSTEM

Nuclei lemnisci laterales

KAPITEL 2. AUDITORISCHES SYSTEM

Corpus geniculatum mediale

2.2. ZENTRALES AUDITORISCHES SYSTEM

KAPITEL 2. AUDITORISCHES SYSTEM

2.2. ZENTRALES AUDITORISCHES SYSTEM

Kapitel 3 Modelle fur das auditorische System

Modelle fur das periphere auditorische System

und die Phasenverschiebung 2 arctan 2 2 0 /2 () = arctan 2 2 + 2

falls < 0 falls = 0 falls > 0

KAPITEL 3. MODELLE FUR DAS AUDITORISCHE SYSTEM

Die Amplitude A() ist bei der Resonanzfrequenz R =

3.1. MODELLE FUR DAS PERIPHERE AUDITORISCHE SYSTEM 41

y(t) 300 200 100

100 200 300

KAPITEL 3. MODELLE FUR DAS AUDITORISCHE SYSTEM

Abb. 3.3: Wie Abb. 3.2, nur als Pegel.

y (t + t) = = wobei h1 (t) := 14 t2 ect , h2 (t) := Man sieht dann, dass

tect und h3 (t) :=

KAPITEL 3. MODELLE FUR DAS AUDITORISCHE SYSTEM

3.1. MODELLE FUR DAS PERIPHERE AUDITORISCHE SYSTEM 45

150 Filter Nr.

150 Filter Nr.

KAPITEL 3. MODELLE FUR DAS AUDITORISCHE SYSTEM

150 Filter Nr.

150 Filter Nr.

3.1. MODELLE FUR DAS PERIPHERE AUDITORISCHE SYSTEM 47

cna aktive Behlter a x Gesamtuss kxca an Neurotransmitter Ca ca kca

KAPITEL 3. MODELLE FUR DAS AUDITORISCHE SYSTEM